Handbuch der Künstlichen Intelligenz [6 ed.] 9783110659948, 9783110659849

This handbook provides a comprehensive overview of fundamental modern artificial intelligence methods and applications.

395 15 35MB

German Pages 976 Year 2020

Report DMCA / Copyright

DOWNLOAD PDF FILE

Table of contents :
Vorwort
Inhalt
1 Einleitung
2 Wissensrepräsentation und -verarbeitung
3 Suche
4 Wissen über Raum und Zeit
5 Automatische Inferenz
6 Nichtmonotones Schließen
7 Kognition
8 Unsicheres, impräzises und unscharfes Wissen
9 Fallbasiertes Schließen
10 Planen
11 Grundlagen des Maschinellen Lernens
12 Tiefe neuronale Netze
13 Vertrauenswürdiges, transparentes und robustesMaschinelles Lernen
14 Sprachverarbeitung
15 Bildanalyse
16 Constraints
17 Multiagentensysteme
18 Semantic Web
19 Universelle Spielprogramme
20 Assistenzsysteme
21 Ethische Fragen der Künstlichen Intelligenz
Beteiligte
Stichwortverzeichnis
Recommend Papers

Handbuch der Künstlichen Intelligenz [6 ed.]
 9783110659948, 9783110659849

  • 0 0 0
  • Like this paper and download? You can publish your own PDF file online for free in a few minutes! Sign Up
File loading please wait...
Citation preview

Günther Görz, Ute Schmid, Tanya Braun (Hrsg.) Handbuch der Künstlichen Intelligenz 6. Auflage

Weitere empfehlenswerte Titel Security Awareness. Grundlagen, Maßnahmen und Programme für die Informationssicherheit Stefan Beißel, 2019 ISBN 978-3-11-066825-4, e-ISBN 978-3-11-066826-1 IT-Sicherheit, 10. Auflage Konzepte – Verfahren – Protokolle Claudia Eckert, 2018 ISBN 978-3-11-055158-7, e-ISBN 978-3-11-056390-0

Quantum Machine Learning Siddhartha Bhattacharyya, Indrajit Pan, Ashish Mani, Sourav De, Elizabeth Behrman, Susanta Chakraborti (Hrsg.), 2020 ISBN 978-3-11-067064-6, e-ISBN 978-3-11-067070-7

Personalized Human-Computer Interaction Mirjam Augstein, Eelco Herder, Wolfgang Wörndl (Hrsg.), 2019 ISBN 978-3-11-055247-8, e-ISBN 978-3-11-055248-5

Fuzzy Machine Learning. Advanced Approaches to Solve Optimization Problems Arindam Chaudhuri, 2020 ISBN 978-3-11-060358-3, e-ISBN 978-3-11-060546-4

Handbuch der Künstlichen Intelligenz | Herausgegeben von Günther Görz, Ute Schmid, Tanya Braun 6. Auflage

Herausgeber Prof. Dr.-Ing. Günther Görz Friedrich-Alexander-Universität Erlangen-Nürnberg Department Informatik Arbeitsgruppe Digital Humanities Konrad-Zuse-Str. 3–5 91052 Erlangen [email protected] Prof. Dr. Ute Schmid Universität Bamberg Fakultät Wirtschaftsinformatik und Angewandte Informatik An der Weberei 5 96045 Bamberg [email protected] Dr. Tanya Braun Universität zu Lübeck Institut für Informationssysteme Ratzeburger Allee 160 23562 Lübeck braun@ifis.uni-luebeck.de

ISBN 978-3-11-065984-9 e-ISBN (PDF) 978-3-11-065994-8 e-ISBN (EPUB) 978-3-11-065995-5 Library of Congress Control Number: 2020950016 Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.dnb.de abrufbar. © 2021 Walter de Gruyter GmbH, Berlin/Boston Umschlaggestaltung: imaginima / iStock / Getty Images Plus Satz: le-tex publishing services GmbH, Leipzig Druck und Bindung: CPI books GmbH, Leck www.degruyter.com

Vorwort Die vorliegende Ausgabe des „Handbuchs der Künstlichen Intelligenz“ ist die sechs­ te, wesentlich überarbeitete und erweiterte Auflage eines Werks, das zuerst 1993 als „Einführung in die Künstliche Intelligenz“¹ erschienen war. Mit diesem Handbuch wird eine repräsentative Übersicht über die wissen­ schaftliche Disziplin der „Künstlichen Intelligenz“ (KI) vorgelegt, deren Autoren ausschließlich dem deutschsprachigen Raum entstammen. Dass der Diskurs über die KI inzwischen in der Mitte der Gesellschaft angekommen ist, nicht zuletzt auf­ grund enormer Fortschritte im Maschinellen Lernen – die dazu geführt haben, dass KI oft uninformierterweise mit Maschinellem Lernen gleichgesetzt wird –, ist anhand der vielen Medienbeiträge der letzten Jahre, insbesondere auch durch bemerkens­ werte Neuerscheinungen auf dem Buchmarkt, offensichtlich. So stellt sich nicht nur angesichts der vergangenen sechs Jahre seit dem Erscheinen der fünften Auflage die Frage, welche Anforderungen an eine Neuauflage angesichts der Fortschritte in der Wissenschaft und der Veränderungen im wissenschaftsorganisatorischen, techni­ schen und wirtschaftlichen Umfeld zu richten seien. So lag es nahe, dass es nicht nur um eine Aktualisierung der Beiträge aus der letzten Auflage gehen konnte, son­ dern vielmehr um eine in mehrfacher Hinsicht thematisch ergänzte und abgerundete Neufassung. Hierbei verdanken wir wichtige Impulse der neuen Mitherausgeberin Tanya Braun, die an die Stelle von Josef Schneeberger trat; er musste aufgrund vielfältiger Belastungen seine Mitarbeit bedauerlicherweise einstellen. Nach wie vor trägt die Fachgruppe 1 „Künstliche Intelligenz“ der Gesellschaft für Informatik (GI) e. V. die Herausgabe dieses Werks mit. Der Verlag de Gruyter, Berlin (früher Oldenbourg-Verlag, München), hat die gesamten Vorbereitungsarbeiten konstruktiv begleitet, wofür ihm ein herzlicher Dank gebührt. Das Vorwort zur ersten Auflage charakterisierte das Werk folgendermaßen: „Seine Herausgeber und Autoren haben sich das Ziel gesetzt, damit eine weithin als schmerzlich empfundene Lücke auf dem Lehrbuchsektor zu schließen. (. . . ) Dass ein solches Lehrbuch ein dringendes Desiderat ist, ist unbestritten, denn zum einen ist die KI inzwischen an vielen unserer Universitäten – zumeist als Teil­ gebiet der Informatik – vertreten, andererseits decken die zum Teil hervorragen­ den Lehrbücher aus dem angelsächsischen Sprachraum das Gebiet nicht in allen Aspekten umfassend ab. Angesichts des raschen Fortschritts der Forschung las­ sen manche dieser Werke in ihrer Aktualität Wünsche offen. Zudem hat die KI in Deutschland und Europa durchaus eigenständige Sichtweisen und Ansätze ent­ wickelt, die auch den vorliegenden Band geprägt haben.“

1 Ursprünglich im Addison-Wesley Verlag, Bonn. https://doi.org/10.1515/9783110659948-201

VI | Vorwort

Dieses Buch verdankt sein Entstehen einer Serie von Frühjahrsschulen zum Thema Künstliche Intelligenz (KIFS), die seit 1982 jährlich – von einer Ausnahme abgese­ hen – bis 1996 von der Fachgruppe „Künstliche Intelligenz“ der Gesellschaft für Infor­ matik (GI) e. V. durchgeführt wurden. Ziel der Frühjahrsschulen war es, in der Form von Kursen, die jeweils in etwa einer zweistündigen Vorlesung entsprachen, eine breit angelegte moderne Einführung in das Fach sowie einen Überblick über aktuelle For­ schungsgebiete zu bieten. Zu einigen der Frühjahrsschulen wurden Tagungsbände vorgelegt, die die dort gehaltenen Kurse dokumentieren.² Durch den Ausbau der KI an den deutschen Universitäten und Fachhochschulen hatte die Nachfrage nach der zen­ tralen Bildungsaufgabe, die die KIFS erfüllt hatte, spürbar nachgelassen. Ihre Nach­ folge hat seitdem ein von mehreren wissenschaftlichen Gesellschaften am selben Ort durchgeführtes „Interdisziplinäres Kolleg Kognitionswissenschaft“ angetreten. Die Erfahrung mit den ersten Auflagen zeigte, dass viele der Kapitel in der Lehre eingesetzt wurden, sei es als Hauptreferenz oder als ergänzende Lektüre, selten aber das Werk in seiner Gesamtheit als Lehrbuch. Dies lag zum einen an seinem Umfang, zum anderen aber auch an der Vielfalt der eher einführenden und vertiefenden Kapi­ tel, die es doch von der Geschlossenheit eines klassischen Lehrbuchs unterscheidet, das von einem einzigen Autor oder einem kleinen Autorenteam verfasst wurde. Zudem wurde vielfach angeregt, die thematische Breite des Werks zu vergrößern. Die Her­ ausgeber hoffen, mit der Überarbeitung und der Weiterentwicklung in Richtung eines „Handbuchs“ dem veränderten Anforderungsprofil weitestgehend gerecht zu werden. Für alle Beiträge dieses Werks war maßgeblich, dass sie eine straffe und quali­ tativ hochstehende Darstellung des jeweiligen Themengebiets geben und Hinweise auf notwendige und sinnvolle Vertiefungsmöglichkeiten, u. a. auch in der Form einer Auswahlbibliografie, bieten. Es ist offensichtlich, dass bei einem angestrebten Um­ fang von ca. 50 Seiten pro Beitrag nicht alles, was thematisch wichtig ist, behandelt werden kann. Gegenüber der letzten Auflage sind folgende Änderungen erwähnenswert: Das Handbuch ist in drei Teile gegliedert, Grundlagen, Methoden und Anwendun­ gen, in die die Kapitel neu eingeordnet wurden. Komplett neu sind die Kapitel „Assis­ tenzsysteme“ und „Ethische Fragen der Künstlichen Intelligenz“. Wieder aufgenom­ men sind die Kapitel „Bildverarbeitung“ (früher Bildverstehen – ein Überblick) sowie „Wissen über Raum und Zeit“, die neue Autorenteams komplett überarbeitet haben. Eine größere Veränderung hat sich im Themengebiet des Maschinellen Lernens erge­ ben. Aus den zwei Kapiteln „Neuronale Netze“ sowie „Maschinelles Lernen und Data Mining“ sind die drei Kapitel „Grundlagen des Maschinellen Lernens“, „Tiefe Neu­ ronale Netze“ sowie „Vertrauenswürdiges, transparentes und robustes Maschinelles

2 Dassel 1984: IFB Nr. 93, Dassel 1985: IFB Nr. 159, Günne 1987: IFB Nr. 202, Günne 1989: IFB Nr. 203. Erschienen in der Reihe Informatik-Fachberichte (IFB) im Springer-Verlag, Berlin: Teisendorf 1982: IFB Nr. 59.

Vorwort

|

VII

Lernen“ geworden, die von einem neuen Autorenteam neu aufbereitet wurden. Die restlichen Kapitel wurden überarbeitet. Darüber hinaus haben sich bei einigen Kapi­ teln Veränderungen in der Zusammensetzung der Autorengruppe ergeben. Die Kapitel „Fallbasiertes Schließen“ und „Planen“ sind von neuen Autorenteams übernommen worden. Leider hat sich bei einem so umfangreichen Projekt auch ergeben, dass zwei geplante Kapitel, „Kognitive Robotik“ sowie „Geschichte der KI in Deutschland“, nicht ihren Weg in das Handbuch gefunden haben. Wir danken ganz herzlich allen Autorinnen und Autoren, dass sie so engagiert an dieser nicht einfachen Aufgabe mitgewirkt haben. Neben den hohen qualitativen Anforderungen dieses ambitionierten Buchprojekts stellten die vielen notwendigen inhaltlichen Absprachen bis hin zu einer einheitlichen Layoutgestaltung und die – im großen und ganzen vorbildlich eingehaltene – terminliche Disziplin eine nicht all­ tägliche Herausforderung dar. Zur Qualitätssicherung wurde eine Referierungsprozedur durchgeführt: Jeder Bei­ trag wurde von externen Referenten und anderen Buchmitarbeitern gelesen und die kritischen Anmerkungen wurden den Autoren zur endgültigen Überarbeitung zuge­ sandt. Wir danken unseren Kolleginnen und Kollegen für die externe Begutachtung, die alle namentlich im Abschnitt 21.4 aufgeführt sind. Erlangen-Nürnberg, Lübeck und Bamberg, im Juli 2020

Günther Görz Tanya Braun Ute Schmid

Inhalt Vorwort | V 1 Einleitung | 1 Literaturverzeichnis | 23 2 Wissensrepräsentation und -verarbeitung | 27 2.1 Einleitung und Motivation | 27 2.1.1 Wissen – wozu? | 27 2.1.2 Wissensformen | 29 2.1.3 Repräsentation | 31 2.1.4 Wissensverarbeitung = Schlussfolgern | 33 2.2 Deklarative Wissensrepräsentation | 35 2.2.1 Wissensbasierte Systeme | 35 2.2.2 Die Rolle der Logik | 36 2.2.3 Schlussfolgerungstypen | 37 2.3 Ein Beispiel: Beschreibungslogiken | 38 2.3.1 Der Formalismus | 39 2.3.2 Semantik | 41 2.3.3 Inferenzdienste | 42 2.3.4 Inferenzalgorithmen | 43 2.3.5 Berechenbarkeitseigenschaften | 48 2.3.6 Jenseits von ALC | 51 2.4 Zusammenfassung und Ausblick | 52 Literaturverzeichnis | 53 3 3.1 3.1.1 3.1.2 3.2 3.2.1 3.2.2 3.2.3 3.2.4 3.3 3.3.1 3.3.2 3.4 3.4.1

Suche | 57 Problemlösen als Suche | 57 Zustandsräume | 57 Suchgraphen | 59 Pfadsuche | 63 Generisches Verfahren | 63 Uninformierte Suche | 69 Informierte Suche | 75 Zusammenfassung | 82 Optimierung | 83 Bergsteigerverfahren | 85 Evolutionäre Algorithmen | 87 Modellierung von Problemräumen | 90 Zustände und Operatoren | 91

X | Inhalt

3.4.2 Zielfunktionen | 93 3.4.3 Interaktion | 97 Literaturverzeichnis | 98 Wissen über Raum und Zeit | 101 Prinzipielle Ansätze der Repräsentation und des Schlussfolgerns | 106 4.1.1 Axiomatisierung in klassischer Logik | 108 4.1.2 Temporale Logiken | 109 4.1.3 Räumliche Logiken | 111 4.1.4 Qualitative Modellierung und constraint-basiertes Schließen | 111 4.2 Zeit und Situationen | 117 4.2.1 Zeit als lineare Abfolge | 118 4.2.2 Zeit als verzweigende Struktur | 120 4.3 Raum | 120 4.3.1 Integriert raumzeitliche Ansätze | 123 4.3.2 Anwendungsbereich: ontologiebasierter Datenzugriff auf räumliche und temporale Daten | 126 4.4 Zusammenfassung | 133 Literaturverzeichnis | 134 4 4.1

5 5.1 5.2 5.2.1 5.2.2 5.2.3 5.2.4 5.3 5.4 5.5 5.6 5.7 5.8 5.8.1 5.8.2 5.8.3 5.8.4 5.9 5.9.1 5.9.2 5.9.3

Automatische Inferenz | 143 Einführung | 143 Entwurf automatischer Inferenzsysteme | 146 Logik | 146 Kalküle | 147 Beweisprozeduren | 149 Implementierung | 150 Prädikatenlogik erster Stufe | 150 Analytische Sequenzenkalküle (Refinement Logik) | 154 Analytische Tableaus | 157 Matrixbeweise | 160 Konnektionskalkül | 165 Effiziente Beweissuche | 171 Unifikation | 172 Normalformtransformationen | 173 Reduktionen | 173 Implementierungsaspekte | 174 Erweiterungen | 175 Konstruktive Logik | 176 Modallogiken | 179 Lineare Logik | 181

Inhalt | XI

5.9.4 Logik höherer Stufe | 181 5.9.5 Einbindung von Theorien | 182 5.10 Schlussbetrachtungen | 184 Literaturverzeichnis | 184 6 Nichtmonotones Schließen | 189 6.1 Einführung | 189 6.2 Formalisierungen nichtmonotonen Schließens | 195 6.2.1 Default-Logik | 196 6.2.2 Autoepistemische Logik | 203 6.2.3 Zirkumskription | 205 6.3 Default-Schließen als Behandlung von Inkonsistenz | 207 6.3.1 Ein Rahmen für nichtmonotone Systeme | 207 6.3.2 Pooles System | 209 6.3.3 Zuverlässigkeitsstufen | 211 6.4 Nichtmonotonie und Logikprogrammierung | 214 6.4.1 Stabile Modelle | 214 6.4.2 Wohlfundierte Semantik | 216 6.4.3 Antwortmengenprogrammierung | 218 6.5 Argumentation | 220 6.6 Ausblick | 223 Literaturverzeichnis | 224 Kognition | 227 Einführung in die Kognitionsforschung | 227 Ziele und Highlights des interdisziplinären Feldes Kognitionswissenschaft | 229 7.2 Methodenkanon der Kognitionsforschung | 231 7.2.1 Beiträge formaler Wissenschaften zur Untersuchung menschlicher Kognition | 231 7.2.2 Experimentelle und neurowissenschaftliche Methoden | 232 7.2.3 Kognitive Modellierung | 236 7.3 Zentrale Elemente menschlicher Kognition | 242 7.3.1 Wahrnehmung und Aufmerksamkeit | 242 7.3.2 Mentale Repräsentation und Gedächtnis | 243 7.3.3 Lernen | 245 7.3.4 Denken und Problemlösen | 247 7.3.5 Urteilen, Entscheidung und Bewusstsein | 259 7.3.6 Kognition in der Interaktion | 262 7.4 Ausblick mit zentralen Challenges im Bereich Kognition | 266 Literaturverzeichnis | 267

7 7.1 7.1.1

XII | Inhalt

8 Unsicheres, impräzises und unscharfes Wissen | 279 8.1 Einleitung | 280 8.1.1 Wissen | 280 8.1.2 Impräzision, Unsicherheit und Unschärfe | 280 8.1.3 Schlussfolgern | 282 8.2 Unsicheres Wissen | 285 8.2.1 Wahrscheinlichkeit | 285 8.2.2 Probabilistische Schlussfolgerungsnetze | 291 8.2.3 Wissensrevision | 317 8.2.4 Erschließen kausaler Beziehungen | 320 8.3 Unscharfes Wissen | 327 8.3.1 Fuzzy-Mengen | 328 8.3.2 Fuzzy-Regelsysteme | 332 8.3.3 Unsicheres unscharfes Wissen | 337 Literaturverzeichnis | 339 9 9.1 9.1.1 9.1.2 9.2 9.2.1 9.2.2 9.2.3 9.2.4 9.2.5 9.2.6 9.2.7 9.3 9.3.1 9.3.2 9.3.3 9.3.4 9.3.5 9.3.6 9.3.7 9.3.8 9.4 9.4.1 9.4.2 9.4.3

Fallbasiertes Schließen | 343 Grundprinzip des fallbasierten Schließens | 344 CBR-Zyklus | 345 Wissenscontainer | 347 Fallrepräsentation | 348 Struktur von Fällen | 349 Grundlegende Ansätze zur Fallrepräsentation | 349 Attribut-Wert Repräsentation | 350 Objektorientierte Repräsentation | 351 Graphbasierte Repräsentation | 352 Fallrepräsentation für die Planung | 353 Weiterführende Aspekte | 353 Ähnlichkeit im fallbasierten Schließen | 354 Bedeutung der Ähnlichkeit | 354 Formalisierung und Modellierung von Ähnlichkeitsmaßen | 355 Traditionelle Ähnlichkeitsmaße | 356 Lokal-Global-Prinzip | 357 Ähnlichkeitsmaße für die objektorientierte Repräsentation | 359 Ähnlichkeitsmaße für graphbasierte Repräsentation | 359 Ähnlichkeitsmaße für die fallbasierte Planung | 360 Weiterführende Aspekte | 360 Retrieval | 361 Sequenzielles Retrieval | 361 Zweistufiges Retrieval | 362 Indexorientiertes Retrieval | 362

Inhalt |

9.5 Adaption | 366 9.5.1 Adaptionsansätze | 367 9.5.2 Repräsentationsformen für Adaptionswissen | 368 9.5.3 Adaptionsprozess | 370 9.6 Lernen und Wartung | 370 9.6.1 Lernen von Fällen | 371 9.6.2 Lernen von Ähnlichkeitswissen | 372 9.6.3 Lernen von Adaptionswissen | 373 9.6.4 Transferlernen | 374 9.6.5 Wartung von CBR-Systemen | 374 9.7 Anwendungsgebiete | 375 9.7.1 Diagnose technischer Systeme | 376 9.7.2 Planung | 377 9.7.3 Prozessorientierte Informationssysteme | 379 9.7.4 Computerspiele | 381 9.8 CBR-Tools und Frameworks | 382 9.8.1 myCBR – Rapid Prototyping von CBR-Anwendungen | 382 9.8.2 ProCAKE – Process-Oriented Case-Based Knowledge Engine | 383 9.8.3 COLIBRI | 383 9.8.4 IAS – Empolis Information Access System | 384 9.9 Aktuelle Aspekte | 385 9.9.1 Erklärfähigkeit von CBR-Systemen (XAI) | 385 9.9.2 CBR und Deep Learning | 385 9.9.3 CBR und Agenten | 386 9.10 Schlussbemerkung | 386 Literaturverzeichnis | 387 10 Planen | 395 10.1 Überblick | 395 10.1.1 Sprachmächtigkeit | 397 10.1.2 Unsicherheit | 399 10.1.3 Domänenspezifisches Wissen | 401 10.1.4 Andere Erweiterungen | 402 10.2 Klassisches Planen | 403 10.3 Zustandsraumsuche | 405 10.3.1 Heuristische Suche | 406 10.3.2 Heuristiken | 408 10.3.3 Pruning | 412 10.4 Symbolische Suche | 414 10.5 SAT-Planen | 417 Literaturverzeichnis | 420

XIII

XIV | Inhalt

11 Grundlagen des Maschinellen Lernens | 429 11.1 Wozu braucht man Maschinelles Lernen? | 429 11.1.1 Der Begriff des Maschinellen Lernens | 429 11.1.2 Unterschiedliche Lernaufgaben | 430 11.1.3 Die Prozesssicht des Maschinellen Lernens | 432 11.2 Ablauf des Maschinellen Lernens am Beispiel der logistischen Regression | 434 11.2.1 Trainings- und Testmenge | 435 11.2.2 Das Modell der logistischen Regression | 436 11.2.3 Die Verlustfunktion: Maximum Likelihood | 437 11.2.4 Einige Verlustfunktionen | 439 11.2.5 Optimierung durch Gradientenabstieg | 440 11.2.6 Stochastischer Gradientenabstieg | 441 11.2.7 Evaluation des Modells | 442 11.2.8 Bayessche Modelle | 444 11.3 Einführung in neuronale Netze | 445 11.3.1 Beispiel: Lineare Separierbarkeit | 448 11.3.2 Konnektionistischer Ansatz | 449 11.3.3 Backpropagation | 452 11.3.4 Numerische Stabilität und Konvergenz | 455 11.3.5 Regularisierung | 456 11.3.6 Netzwerktypen und Lernprobleme | 460 11.4 Lernen von Regeln und logischen Zusammenhängen | 461 11.4.1 Entscheidungsbäume | 462 11.4.2 Random Forest | 465 11.4.3 Gradient-Boosted Tree | 467 11.4.4 Markov-Logik-Netze | 469 11.5 Klassiker des Maschinellen Lernens | 475 11.5.1 Lineare Diskriminanzanalyse (LDA) | 476 11.5.2 Stützvektormaschinen (SVM) | 480 11.5.3 L2 Stützvektormaschinen und ein besonders einfacher Trainingsalgorithmus | 484 11.5.4 Der Kerntrick und nicht lineare Stützvektormaschinen | 486 11.5.5 Stützvektormaschinen sind flache neuronal Netze | 488 11.5.6 Weiterentwicklungen der Kernelmethoden | 489 11.6 Verbesserung der Modelle und des Trainingsprozesses | 489 11.6.1 Initialisierung der Parameter | 489 11.6.2 k-fach Kreuzvalidierung | 490 11.6.3 Optimierungsverfahren für maschinelle Lernverfahren | 490 11.6.4 Konvergenz des Gradientenabstiegs | 493 11.6.5 Optimierung und Parallelisierung | 493 11.6.6 Optimierung der Hyperparameter | 494

Inhalt | XV

11.6.7 Auswertung der Modellunsicherheit | 496 11.6.8 Lernstrategien | 499 11.7 Infrastruktur und Toolboxen | 499 11.7.1 Toolboxen für das Maschinelle Lernen | 499 11.7.2 Toolboxen für tiefe neuronale Netze | 501 Literaturverzeichnis | 503 12 Tiefe neuronale Netze | 509 12.1 Welche Vorteile haben tiefe neuronale Netze | 509 12.2 Historische Entwicklung tiefer neuronaler Netze | 511 12.3 Faltungsnetzwerke | 512 12.3.1 Faltungsschichten als dichte Merkmalsdetektoren | 514 12.3.2 Konstruktion von Faltungsnetzwerken | 516 12.3.3 Lernen in tiefen Faltungsnetzwerken | 519 12.4 Die Analyse von Sequenzen: rekurrente neuronale Netze | 521 12.4.1 Die Berechnung von Embeddings | 521 12.4.2 Rekurrente neuronale Netze (RNN) | 524 12.4.3 Training des RNN | 526 12.4.4 Explodierende und verschwindende Gradienten | 527 12.4.5 Long Short-Term Memory | 528 12.4.6 RNN mit mehreren Ebenen | 529 12.4.7 Erzeugung von Text mit einem RNN-Sprachmodell | 531 12.4.8 Übersetzung durch Sequenz-nach-Sequenz-Modelle | 532 12.4.9 Die Verbesserung von Übersetzungen durch Attention | 534 12.4.10 Attention-basierte Transformer übertreffen RNN | 536 12.4.11 Transferlernen mit BERT | 540 12.4.12 Generierung von Texten mit GPT2 | 541 12.5 Generative neuronale Modelle | 542 12.5.1 Tiefe Boltzmann-Maschine | 543 12.5.2 Variante Autoencoder | 546 12.5.3 Kontradiktorische Netzwerke | 548 12.6 Bestärkungslernen | 549 12.6.1 Markov-Entscheidungsprozesse | 550 12.6.2 Infinite-Horizon-Modell und Bellman-Gleichungen | 552 12.6.3 Value Iteration und Policy Iteration | 554 12.6.4 Von Monte-Carlo-Simulationen zu Temporal-Difference (TD) Learning | 555 12.6.5 Q-Learning | 559 12.6.6 Allgemeine Anmerkungen zum Bestärkungslernen | 562 12.6.7 Bestärkungslernen und neuronale Netze | 562 12.7 Anwendungsbereiche tiefer neuronaler Netze | 563 Literaturverzeichnis | 566

XVI | Inhalt

13

Vertrauenswürdiges, transparentes und robustes Maschinelles Lernen | 571 13.1 Erklärbarkeit und Interpretierbarkeit | 571 13.1.1 Der Begriff der Interpretierbarkeit | 573 13.1.2 Transparentes Maschinelles Lernen | 574 13.1.3 Beurteilung von Interpretierbarkeit | 580 13.2 Robustheit, Sicherheit und Verlässlichkeit | 582 13.2.1 Der Einfluss von Ausreißern und Messfehlern | 583 13.2.2 Gezielte Konstruktion von falsch klassifizierten Beispielen | 587 13.2.3 Zusammenfassung | 590 13.3 Diskussion und abschließende Bemerkungen | 590 13.3.1 Können tiefe neuronale Netze mit vielen Parametern zuverlässig trainiert werden? | 591 13.3.2 Welche Merkmale werden von tiefen neuronalen Netzen verwendet? | 592 13.3.3 Müssen tiefe neuronale Netze jedesmal alles neu lernen? | 593 13.3.4 Können künstliche neuronale Netze Weltwissen erwerben? | 594 13.3.5 Wie kann man vertrauenswürdige, transparente und robuste KNN sicherstellen? | 594 Literaturverzeichnis | 595 14 Sprachverarbeitung | 601 14.1 Sprache und sprachliche Beschreibungsebenen | 601 14.2 Sprache und Künstliche Intelligenz | 605 14.3 Anwendungen der Sprachtechnologie | 611 14.3.1 Werkzeuge für die zwischenmenschliche Kommunikation | 611 14.3.2 Werkzeuge für die Produktion von Texten und audiovisuellen Medien | 613 14.3.3 Werkzeuge für das Informationsmanagement | 613 14.3.4 Mensch-Maschine-Kommunikation | 615 14.4 Architekturen für die Sprachverarbeitung | 616 14.4.1 Modularisierung | 616 14.4.2 Trainierbare Architekturen | 620 14.4.3 Inkrementelle Verarbeitung | 621 14.4.4 Multimodale Kommunikation | 622 14.5 Sprachliche Strukturen und ihre Beschreibung | 623 14.6 Modelle und Verfahren der Sprachverarbeitung | 629 14.6.1 Sprachmodelle | 629 14.6.2 Transformation von Symbolsequenzen | 634 14.6.3 Repräsentationslernen | 643 14.6.4 Strukturanalyse | 647 14.7 Ausblick | 659 Literaturverzeichnis | 663

Inhalt | XVII

15 Bildanalyse | 673 15.1 Einführung | 673 15.2 Lokale Bildanalyse | 674 15.2.1 Entrauschung | 674 15.2.2 Algorithmische Steigerung der Bild- und Videoauflösung | 676 15.2.3 Style-Transfer | 677 15.2.4 Tiefenschätzung | 679 15.2.5 Bildsegmentierung und Objekterkennung | 682 15.3 Globale Bildanalyse | 690 15.3.1 Bildbasierte Suche | 690 15.3.2 Objektidentifikation | 697 15.3.3 Klassifikation | 697 15.3.4 Bildbeschriftung | 698 15.3.5 Beantwortung visueller Fragen (VQA) | 702 Literaturverzeichnis | 704 16 Constraints | 713 16.1 Einführung | 713 16.2 Finite-Domain-Constraints | 715 16.2.1 Constraint-Satisfaction-Probleme | 715 16.2.2 Lokale und globale Konsistenz | 718 16.2.3 Suchtechniken | 722 16.2.4 Globale Constraints | 725 16.3 Constraint-basierte Programmierung | 731 16.3.1 Constraint-basierte Sprachen | 732 16.3.2 Constraint-Bibliotheken | 735 16.3.3 Parallele Constraint-Programmierung | 736 16.4 Anwendungsbeispiele | 737 16.4.1 Auftragsoptimierung | 737 16.4.2 Der Icosoku | 738 16.4.3 Ein Schichtplanungsproblem | 741 16.4.4 Verbesserung der Modelle durch Reformulierung | 745 16.5 Soft-Constraints | 746 16.6 Temporale Constraints | 749 16.7 Zusammenfassung | 750 Literaturverzeichnis | 751 17 Multiagentensysteme | 755 17.1 Was ist ein Multiagentensystem? | 755 17.1.1 Was charakterisiert ein Multiagentensystem? | 756 17.1.2 Ein Beispiel | 759 17.1.3 Welche Fragen sind wichtig bei der Entwicklung? | 760 17.2 Einfache Agenten und Schwarmintelligenz | 762

XVIII | Inhalt

17.3 Deliberative Agenten, klassische verteilte KI | 764 17.3.1 Individuelle Ziele versus soziale Ziele? | 765 17.3.2 Planen und Koordinieren | 766 17.3.3 Anwendungsbeispiele | 767 17.4 Rationale Agenten und verteilte Entscheidungsfindung | 767 17.4.1 Idee des rationalen Agenten | 768 17.4.2 Computational Social Choice | 769 17.4.3 Auktionen | 770 17.4.4 Bildung von Koalitionen | 772 17.5 Verhandelnde Agenten | 773 17.6 Lernende Agenten und Multiagentenlernen | 774 17.7 Multiagentensimulation | 774 17.8 Bemerkungen und weiterführende Literatur | 776 Literaturverzeichnis | 777 18 Semantic Web | 783 18.1 Einleitung | 783 18.2 Architektur des Semantic Web | 785 18.3 Verteilte semantische Graphdaten im Web | 790 18.3.1 Verknüpfte Graphdaten auf dem Web | 790 18.3.2 Anfragen auf Graphdaten mit SPARQL | 791 18.3.3 Anfragen auf verknüpfte, verteilte Graphdaten | 794 18.4 Wissensrepräsentation und -integration | 795 18.4.1 Analyse des einführenden Beispiels | 796 18.4.2 Verschiedene Arten von Ontologien | 797 18.4.3 Verteiltes Netzwerk von Ontologien im Web | 799 18.5 Inferenz im Web | 801 18.5.1 Transformation von Daten | 801 18.5.2 Schlussfolgerungen über Daten | 802 18.6 Identität und Verknüpfung von Objekten und Begriffen | 803 18.7 Herkunft und Vertrauenswürdigkeit von Daten | 805 18.8 Anwendungen des Semantic Web | 806 18.8.1 Vokabulare und Schemas | 807 18.8.2 Semantische Suche | 808 18.8.3 Knowledge Graphs und Wikidata | 809 18.8.4 Zugriff auf soziale Netzwerke | 810 18.9 Bedeutung für die Praxis | 810 18.10 Zusammenfassung | 812 Literaturverzeichnis | 812 19 Universelle Spielprogramme | 817 19.1 Spielregeln beschreiben: Wissensrepräsentation | 818 19.1.1 Spielzustände und Züge | 818

Inhalt

| XIX

19.1.2 Spielregeln | 819 19.1.3 GDL: Zusammenfassung | 823 19.1.4 Kommunikationsprotokoll für GDL | 823 19.2 Spielregeln verstehen: Inferenz | 824 19.2.1 Unifikation/Grundinstanziierung | 826 19.2.2 Ableitungen | 827 19.2.3 Regeln mit Negation | 828 19.2.4 Regeln mit Disjunktion | 829 19.3 Spielbaumsuche | 829 19.3.1 Minimax-Verfahren | 829 19.3.2 Optimierungen | 832 19.3.3 Gegenspielermodelle | 833 19.4 Stochastische Baumsuche | 834 19.4.1 MCT-Suche | 834 19.4.2 UCT-Bonus | 836 19.4.3 Optimierungen | 836 19.4.4 Grenzen | 837 19.5 Heuristische Suche | 838 19.5.1 Mobilitätsheuristik | 839 19.5.2 Zielheuristiken | 840 19.5.3 Optimierungen | 843 19.6 Wissen | 844 19.6.1 Domänenanalyse | 844 19.6.2 Regelstrukturanalyse | 846 19.7 Lernen | 849 19.8 Erweiterung: Spiele mit unvollständiger Information | 851 19.8.1 GDL-II | 851 19.8.2 Hypothetische Spielstellungen | 854 19.9 Weiterführende Literatur | 856 Literaturverzeichnis | 857 20 Assistenzsysteme | 859 20.1 Einordnung des Gebiets in die Künstliche Intelligenz | 859 20.2 Assistenzbedarf in Beispielen | 862 20.2.1 Anwendungsbeispiel 1: Interaktion mit einem Küchenhelfer | 863 20.2.2 Warum viele Dialogmodelle für Assistenz zu einfach sind . . . | 868 20.2.3 Anwendungsbeispiel 2: Interaktive Bedienungsanleitung | 869 20.3 Eine Definition für Assistenzsysteme | 872 20.3.1 Der Bedarf als zentrales Konzept | 872 20.3.2 Companion-Technologie: Eine Realisierung der Definition von Assistenzsystemen | 873 20.3.3 Problemlöse- und State-Tracking-Kompetenzen von Assistenzsystemen | 875

XX | Inhalt

Wissensrepräsentation für Assistenzsysteme | 878 Linguistisches Wissen | 878 Wissen über Tasks | 879 Wissen über die Domäne | 880 Wissen über Nutzer, Interaktion und Kooperation | 883 Assistenz per Design | 884 Strukturierung von Software hinsichtlich ihrer Funktionalität – Ausführungsmodelle | 885 20.5.2 Interaktionsmodelle für Assistenzsysteme | 887 20.5.3 Proaktivität in Assistenzverläufen | 889 20.6 Kooperationsmodelle für Assistenzsysteme | 890 20.7 Assistenz durch KI-Algorithmen | 893 20.7.1 Planung | 894 20.7.2 Erstellen von Diagnosen | 895 20.7.3 Probabilistische Inferenz des Nutzerstatus | 895 20.7.4 Ermitteln optimaler Strategien | 897 20.7.5 Deep Learning mit explizitem Wissen als Lösung? | 897 20.8 Wahrnehmung der Umgebung durch Sensorik | 898 20.9 Herausforderungen | 899 20.9.1 Intentionserkennung | 899 20.9.2 Sprachverstehen in Assistenzkontexten | 900 20.9.3 Nicht modelliertes Handeln | 901 Literaturverzeichnis | 902

20.4 20.4.1 20.4.2 20.4.3 20.4.4 20.5 20.5.1

21 Ethische Fragen der Künstlichen Intelligenz | 907 21.1 Begriffliche Klärung | 907 21.2 Ethische Grundfragen | 910 21.2.1 Ethik als wissenschaftliche Disziplin und transakademisches Unternehmen | 910 21.2.2 Autonomie | 913 21.2.3 Verantwortungslücke und Intransparenz | 916 21.2.4 Werthaltigkeit verwendeter Daten, Diskriminierung und Bias | 918 21.2.5 Ethik der Interaktion | 919 21.3 Ansätze einer ethischen und rechtlichen Regulierung | 920 21.3.1 Maschinen- und Roboterethik: Die Realisierung moralischer Maschinen | 920 21.3.2 Roboterrechte/Personenstatus von KI | 922 21.3.3 Künstliche Intelligenz für militärische Anwendungen | 927 21.4 Ausblick | 929 Literaturverzeichnis | 931 Beteiligte | 935 Stichwortverzeichnis | 941

1 Einleitung Günther Görz, Tanya Braun und Ute Schmid Das Forschungsgebiet „Künstliche Intelligenz“ (KI) hat seit seiner Entstehung in der Mitte des letzten Jahrhunderts nichts von seiner Faszination verloren. Gerade in jüngs­ ter Zeit spielt es eine prominente Rolle im gesellschaftlichen Diskurs. Worum geht es dabei? Mit dem Begriff KI wird oft assoziiert, durch Computer, Netzwerke und Roboter mentale Prozesse sowie Verhaltensweisen zu simulieren, die denen von Menschen entsprechen. Unter den zahlreichen Charakterisierungen der Disziplin, die von ihren Fachvertretern angegeben wurden, sei beispielhaft die von Patrick Winston [78] formulierte genannt, die die Bestimmung des Gegenstands der KI in folgender Weise präzisiert: „Künstliche Intelligenz ist die Erforschung von Rechenverfahren, die es ermöglichen, wahrzu­ nehmen, zu schlussfolgern und zu handeln.“

Das heißt, „Künstliche Intelligenz“ ist eine wissenschaftliche Disziplin, die das Ziel verfolgt, menschliche Wahrnehmungs- und Verstandesleistungen¹ zu operationalisie­ ren und durch Artefakte, kunstvoll gestaltete technische – insbesondere informations­ verarbeitende – Systeme verfügbar zu machen. Beflügelt durch die jüngste Renaissance des Maschinellen Lernens, die durch immense gespeicherte Datenmengen unterschiedlichster Provenienz, immer größe­ re Arbeitsspeicher, Prozessorkapazitäten und schnelle Vernetzung möglich wurde, werden weltweit milliardenschwere Investitions- und Förderprogramme für KI auf den Weg gebracht. Mit kontinuierlich verbesserten Verfahren, deren Wurzeln einige Jahrzehnte zurückliegen, unterstützen selbstlernende Programme die medizinische Diagnostik. Sie helfen in der Automobil- und Luftfahrtindustrie beim Aufspüren von Materialproblemen und in der Finanzindustrie bei Investitionsentscheidungen und Kreditvergabe. Ohne sie sind Onlinemarketing, automatisch fahrende Autos und Op­ timierungen in der Logistik kaum vorstellbar, um nur einige Anwendungsfelder zu nennen. Offensichtlich können Verfahren aus allen Teilgebieten der KI zur Lösung gesellschaftlich relevanter komplexer Probleme beitragen, doch nimmt zugleich die Sensibilität für ihre gesellschaftliche Einbettung und damit verbunden für mögliche Gefahren in bestimmten Anwendungsbereichen zu. Dies betrifft auf der persönlichen Ebene Einschätzungen und Prognosen von gesundheitlichen und anderen Risiken, von Leistungsprofilen oder gar, wie in China, des sozialen Wohlverhaltens. Insbe­ sondere thematisiert werden Befürchtungen der gesellschaftlichen Kontrolle nicht nur durch staatliche Instanzen, sondern durch privatwirtschaftlich organisierte in­

1 Mit Kant wollen wir unter „Verstand“ das Vermögen der Regeln verstehen, im Unterschied zur Ver­ nunft als Vermögen der Prinzipien. https://doi.org/10.1515/9783110659948-001

2 | 1 Einleitung

ternationale Konzerne, die sich jeder Kontrolle entziehen. Zum ersten Mal in der Ge­ schichte steht KI auf der politischen Agenda: Ihre Erfolge wecken Erwartungen nicht nur gigantischer Rationalisierungsgewinne, sondern auch in Verschiebungen globa­ ler Herrschaftsverhältnisse. Die meisten Staaten haben schon KI-Strategien veröffent­ licht, wobei man sich mit Recht fragen mag, woher alle die einschlägig qualifizierten Fachkräfte kommen sollen, die zu deren Umsetzung erforderlich sind. Ingenieurwissenschaftliche Leistungen, wie der Bau von Flugzeugen, begeistern viele Menschen. Die Idee der Erschaffung einer „Künstlichen Intelligenz“ trifft dage­ gen auf gespaltene Gefühle. Dass Menschen versuchen, Menschenähnliches zu er­ schaffen, kann man vermessen finden – oder aber ein faszinierendes Unterfangen, das bereits früh in Geschichten wie denen von Golem oder Frankenstein beschrieben wurde. Daher werden in der Philosophie und auch von KI-Forschern selbst immer wie­ der ethische und erkenntnistheoretische Fragen aufgeworfen (Kapitel 21). Viele dieser Probleme haben ihre Wurzeln in – undiszipliniert gebrauchten – anthropomorphen Redeweisen². Dadurch liegen kategoriale Fehler und daraus folgende Fehleinschät­ zungen nahe, nämlich, dass es zwischen Computern und Menschen keine kategoriale Differenz gäbe, sodass „Softwaresysteme, die menschliches Verhalten, Urteilen und Entscheiden nachahmen, auch menschliche Eigenschaften aufweisen“ [54, S. 203]. In der Realität der KI-Forschung ist KI zunächst etwas viel Nüchterneres: Ihr Ziel ist es, Computerprogramme für Problembereiche zu entwickeln, die bislang nur von Menschen lösbar sind. Allerdings besteht gerade wegen der gesellschaftlichen Aus­ wirkungen der KI schon seit langem die Forderung nach einer Integration der Wir­ kungsforschung im Sinne einer „kritischen technischen Praxis“ [1], deren Umsetzung jedoch bis heute sehr zu wünschen übrig lässt. Künstliche Intelligenz ist als Teil der Informatik eine Ingenieurwissenschaft und als Teil der Kognitionswissenschaft auch eine Erkenntniswissenschaft. Entsprechend kommen zwei Zielsetzungen zum Tragen: – Konstruktion „intelligenter“ Systeme, die bestimmte menschliche Wahrnehmungsund Verstandesleistungen maschinell verfügbar und praktisch nutzbar machen und – kognitive Modellierung, d. h. Simulation kognitiver Prozesse durch Informations­ verarbeitungsmodelle (Kapitel 7). Eine weitere Orientierung der KI ist formalwissenschaftlich und überlappt stark mit der theoretischen Informatik. Hier werden allgemeine Beschränkungen für KI-Algo­ rithmen analysiert und insbesondere Fragen der Komplexität, Berechenbarkeit und Lernbarkeit von Problemen bearbeitet. Durch diese Aufgabenstellung hat KI-Forschung einen stark interdisziplinären Charakter: Bezüge zur Philosophie ergeben sich aus grundsätzlichen Fragen über die Natur menschlichen Fühlens, Denkens und Handelns; Bezüge zur Linguistik ergeben

2 Zum kritischen Gebrauch von kognitiven Metaphern, siehe insbesondere Gutmann et al. [28].

1 Einleitung

| 3

sich aus menschlichen Leistungen bei Sprachverstehen und Sprachproduktion. Psy­ chologie und Neurowissenschaften liefern wesentliche Grundlagen zur Umsetzung von Repräsentations- und Informationsverarbeitungsmechanismen, wie sie bei Men­ schen beobachtet werden [3; 22; 71]. In der ingenieurwissenschaftlich orientierten KI liefern Erkenntnisse aus empiri­ schen Disziplinen, die sich mit mentalen Leistungen des Menschen beschäftigen, häu­ fig Anregungen für die Entwicklung neuer Methoden und Algorithmen. Dabei wird ge­ nutzt, was erfolgreich scheint – es besteht kein Anspruch, dass die entwickelten intel­ ligenten Systeme nach ähnlichen Informationsverarbeitungsprinzipien funktionieren wie der Mensch. Künstliche Intelligenz ist hier Psychonik, analog zur Bionik – der auf biologischen Vorbildern basierenden Entwicklung von Maschinen und Materialien. Als Teil der Kognitionswissenschaft liefert die KI aber auch die Möglichkeit, mit den formalen und algorithmischen Methoden der Informatik kognitive Theorien in ablauffähige Modelle umzusetzen. Die kognitiv orientierte KI hat damit den Anspruch, ge­ nerative Theorien menschlicher Informationsverarbeitungsprozesse zu entwickeln – also Theorien, die aufgrund von Berechnungen Verhalten erzeugen [61; 72]. In beiden Zweigen der KI ist algorithmische Modellierung ein – wenn nicht das – zentrale Thema, wie auch in der Informatik generell.³ Zunächst betraf es in symboli­ schen, logikbasierten Ansätzen die theoretisch fundierte Konstruktion formaler On­ tologien und adäquater Verarbeitungsmodelle (Kapitel 2, 4 bis 6, 8, 9, 14, 16 und 18). Mit den im letzten Jahrzehnt erzielten Erfolgen subsymbolischer Ansätze im Maschi­ nellen Lernen (Kapitel 11 bis 15) stellt sich die Frage in erweiterter Form: Die zum Trai­ ning benutzten Datenkorpora sind in der Regel geprägt durch die gesellschaftlichen Verhältnisse, aus denen sie stammen, und vermitteln implizit bestimmte Werte bzw. Wertesysteme (Kapitel 21), die sich dann in den von ihnen erzeugten Klassifikationen und Entscheidungsvorschlägen widerspiegeln. Damit kommt die Frage nach normativ konstruierten und kontrollierten Trainingskorpora in den Blick; zahlreiche Beispiele unerwünschter Klassifikationen von der Bilderkennung bis zur Einschätzung der be­ ruflichen Eignung sind hinlänglich bekannt. Daher sind in den meisten Fällen nicht nur bloße Ergebnisse, sondern Erklärungen⁴ erwünscht – und sollten es sein. Plausi­ ble Begründungen sind – zumindest nach dem gegenwärtigen Verständnis von wis­ senschaftlicher Rationalität – nicht ohne Verwendung symbolischer Regeln oder Con­ straints (Kapitel 2, 5 und 16) möglich, sodass die von der kognitionswissenschaftlich orientierten Richtung der KI schon immer thematisierten hybriden Systemarchitektu­ ren [41] nach wie vor aktuell sind. Interessanterweise ist gerade das US-amerikanische Militär der größte Investor in „Explainable AI“.⁵

3 s. Wedekind et al. [77], Görz [25]. 4 siehe „Erklärung“ und weitere wissenschaftstheoretische Grundbegriffe in der Enzyklopädie Phi­ losophie und Wissenschaftstheorie (EPW) [45]. 5 https://www.darpa.mil/program/explainable-artificial-intelligence (30.03.2020).

4 | 1 Einleitung

Im Folgenden wird das Forschungsgebiet KI nach verschiedenen Aspekten cha­ rakterisiert: der Begriff „Künstliche Intelligenz“, die historische Entwicklung des For­ schungsgebiets, grundsätzliche Herangehensweisen, Teilbereiche und Anwendungs­ gebiete der KI.

Zum Begriff „Künstliche Intelligenz“ Die Bezeichnung „Künstliche Intelligenz“ ist historisch zu verstehen: Zunächst im Englischen als „Artificial Intelligence“ geprägt, ist sie als wörtliche Übersetzung nicht sinngemäß und gibt Anlass zu dem Missverständnis, sie würde eine Definition von „Intelligenz“ liefern. Da die KI eine relativ junge Disziplin ist, zeichnet sich ihre Grund­ lagendiskussion zudem durch eine metaphernreiche und aufgrund ihres Gegenstands auch stark anthropomorphe Sprache aus.⁶ „Künstliche Intelligenz“ ist ein synthetischer Begriff, der – aufgrund seines sug­ gestiven Potenzials – viele Missverständnisse und falsche Erwartungen verursacht hat. Sein Ursprung lässt sich auf das Jahr 1956 zurückverfolgen, ein Jahr, das in vieler­ lei Hinsicht bedeutsam war. Zum Beispiel erschien in diesem Jahr das Buch „Automata Studies“ mit einer Reihe heute berühmter Artikel im Gebiet der Kybernetik [65]. Eben­ falls in diesem Jahr erhielten Bardeen, Shockley und Brattain den Nobelpreis für die Erfindung des Transistors. Noam Chomsky war im Begriff, sein berühmtes Buch über syntaktische Strukturen zu veröffentlichen, das einen neuen Weg für eine theoreti­ sche Betrachtung der Sprache eröffnete [16]. Vielleicht wäre es besser gewesen, wenn sich die von Donald Michie – auch als Titel einer Buchreihe – geprägte und in unseren Augen auch klarere Bezeichnung „Machine Intelligence“ durchgesetzt hätte. Die Bezeichnung „Artificial Intelligence“ wurde von John McCarthy als Thema ei­ ner Konferenz geprägt, die im Sommer 1956 am Dartmouth College stattfand und an der eine Reihe renommierter Wissenschaftler teilnahmen (u. a. Marvin Minsky, Na­ thaniel Rochester, Claude Shannon, Allan Newell und Herbert Simon). Dieses Treffen wird allgemein als Gründungsereignis der KI gewertet. Im Förderungsantrag an die Rockefeller-Stiftung wurde ausgeführt [42, S. 93]: „Wir schlagen eine zweimonatige Untersuchung der Künstlichen Intelligenz durch zehn Personen vor, die während des Sommers 1956 am Dartmouth College in Hanover, New Hampshire, durch­ geführt werden soll. Die Untersuchung soll auf Grund der Annahme vorgehen, dass jeder Aspekt des Lernens oder jeder anderen Eigenschaft der Intelligenz im Prinzip so genau beschrieben wer­ den kann, dass er mit einer Maschine simuliert werden kann.“

6 Einen lesenswerten allgemeinen Überblick über die KI aus angelsächsischer Perspektive mit einem Schwerpunkt auf methodischen Fragen bietet der Artikel „Artificial Intelligence“ in der Stanford En­ cyclopedia of Philosophy [10].

1 Einleitung

|

5

Es geht, so McCarthy später, um die „Untersuchung der Struktur der Information und der Struktur von Problemlösungsprozessen, unabhängig von Anwendungen und un­ abhängig von ihrer Realisierung“. Newell sagte dazu: „Eine wesentliche Bedingung für intelligentes Handeln hinreichender Allgemeinheit ist die Fähigkeit zur Erzeugung und Manipulation von Symbolstrukturen. Zur Realisierung symbolischer Strukturen sind sowohl die Instanz eines diskreten kombinatorischen Systems (lexikalische und syntaktische Aspekte), als auch die Zugriffsmöglichkeiten zu beliebigen zugeordneten Daten und Prozessen (Aspekte der Bezeichnung, Referenz und Bedeutung) erforder­ lich.“ Als Instrument der Forschung sollte der Universalrechner dienen, wie Minsky be­ gründete: „. . . weil Theorien von mentalen Prozessen zu komplex geworden waren und sich zu schnell entwickelt hatten, als dass sie durch gewöhnliche Maschinerie realisiert werden konnten. Einige der Prozesse, die wir untersuchen wollen, nehmen substantielle Änderungen in ihrer eigenen Organisation vor. Die Flexibilität von Com­ puterprogrammen erlaubt Experimente, die nahezu unmöglich in ‚analogen mecha­ nischen Vorrichtungen‘ wären“. Im September 1956 fand am Massachusetts Institute of Technology eine zweite wichtige Konferenz statt, das „Symposium on Information Theory“. So, wie die KI ih­ ren Ursprung auf die Dartmouth Conference zurückführt, kann dieses Symposium als Grundsteinlegung der Kognitionswissenschaft gelten [23]. Unter den Teilnehmern bei­ der Konferenzen waren Allen Newell und Herbert Simon. Zusammen mit John Shaw hatten sie gerade die Arbeiten an ihrem „Logic Theorist“ abgeschlossen, einem Pro­ gramm, das mathematische Sätze aus Whiteheads und Russells „Principia Mathema­ tica“ beweisen konnte. Dieses Programm verkörperte schon, was später der Informa­ tionsverarbeitungsansatz des Modellierens genannt wurde. Der Grundgedanke dieses Ansatzes ist, dass Theorien des bewussten menschlichen Handelns auf der Basis von Informationsverarbeitungssystemen formuliert werden, also Systemen, die aus Spei­ chern, Prozessoren und Steuerstrukturen bestehen und auf Datenstrukturen arbeiten. Auch nichtsymbolverarbeitende Ansätze der KI haben eine vergleichbar lan­ ge Geschichte: Erste Arbeiten zu künstlichen neuronalen Netzen (KNN) entstanden in den 1940er-Jahren. An prominenter Stelle ist die einflussreiche Publikation von McCulloch und Pitts [43] zu nennen, die dann alsbald durch Hebb, Rosenblatt u. a. zu einer Grundlage für lernende Systeme ausgebaut wurde. Aus der Frühzeit der KI ist an dieser Stelle unbedingt auf Alan Turing hinzuweisen – einer der Pioniere, der üblicherweise eher der symbolverarbeitenden KI zugeordnet wird. Wie erst viele Jahre nach seinem Tod bekannt wurde, hatte er sich auch mit künstlichen neuronalen Net­ zen befasst.⁷ Somit kann man in Turing auch eine Integrationsfigur der beiden Haupt­ strömungen der KI, der symbolischen und der nichtsymbolischen, sehen. Aufgrund

7 [18], insbesondere auch zum Zusammenhang mit McCulloch-Pitts-Netzwerken; allgemein siehe auch [75].

6 | 1 Einleitung

gewaltiger technischer Fortschritte und enormer Ressourcen ist die nichtsymbolische KI im letzten Jahrzehnt zum dominanten Zweig der KI geworden und wird oft sogar – oberflächlicherweise – mit KI insgesamt identifiziert. An dieser Stelle müssen wir uns doch auch einer grundsätzlicheren Auseinan­ dersetzung mit dem Begriff der Intelligenz stellen. „Intelligenz ist die allgemeine Fä­ higkeit eines Individuums, sein Denken bewusst auf neue Forderungen einzustellen; sie ist allgemeine geistige Anpassungsfähigkeit an neue Aufgaben und Bedingungen des Lebens.“ Diese noch recht unpräzise Bestimmung durch den Psychologen Wil­ liam Stern aus dem Jahre 1912 hat eine Vielzahl von Versuchen nach sich gezogen, eine zusammenhängende Intelligenztheorie zu erstellen, deren keiner dem komple­ xen Sachverhalt auch nur annähernd gerecht werden konnte [33]. Heute besteht weit­ gehend Konsens darüber, dass Intelligenz zu verstehen ist als Erkenntnisvermögen, als Urteilsfähigkeit, als das Erfassen von Möglichkeiten, aber auch als das Vermögen, Zusammenhänge zu begreifen und Einsichten zu gewinnen [17]. Sicherlich wird Intelligenz in besonderer Weise deutlich bei der Fähigkeit, Proble­ me zu lösen. Die Art, die Effizienz und die Geschwindigkeit, mit der sich der Mensch bei der Problemlösung an die Umwelt anpasst (Adaptation) oder die Umwelt an sich angleicht (Assimilation), ist ein wichtiges Merkmal von Intelligenz. Dabei äußert sich Intelligenz durchaus nicht nur in abstrakten gedanklichen Leistungen wie logischem Denken, Rechnen oder Gedächtnis und insbesondere in der Fähigkeit zur Reflexion, sondern wird ebenso offenkundig beim Umgang mit Wörtern und Sprachregeln oder beim Erkennen von Gegenständen und Situationsverläufen. Neben der konvergenten Fähigkeit, eine Vielzahl von Informationen zu kombinieren, um dadurch Lösungen zu finden, spielt bei der Problemlösung aber auch die Kreativität eine wichtige Rolle, insbesondere auch das Vermögen, außerhalb der aktuellen Informationen liegende Lösungsmöglichkeiten einzubeziehen. Andererseits ist gerade die Fähigkeit zur Be­ grenzung der Suche nach Lösungen bei hartnäckigen Problemen eine typische Leis­ tung der Intelligenz [6; 34]. Und all dies, so müssen wir an dieser Stelle fragen, soll Gegenstand einer Künst­ lichen Intelligenz sein? Kurz gesagt: Nein, denn schon wenn wir Intelligenz beurtei­ len oder gar messen wollen, bedarf es einer Operationalisierung, wodurch wir einen Übergang vom personalen Handeln zum schematischen, nichtpersonalen Operieren vollziehen. Das, was operationalisierbar ist, lässt sich grundsätzlich auch mit forma­ len Systemen darstellen und auf einem Computer berechnen. Vieles aber, was das menschliche Denken kennzeichnet und was wir mit intentionalen Termini wie Krea­ tivität oder Bewusstsein benennen, entzieht sich weitgehend einer Operationalisie­ rung.⁸ Dies wird jedoch angezweifelt von Vertretern der sog. „starken KI-These“, die besagt, dass Bewusstseinsprozesse nichts anderes als Berechnungsprozesse sind, die

8 Sebastian Thrun, u. a. früherer Direktor des Stanford A. I. Lab, in einem Interview in der ZEIT No. 16, 08.04.2020: „Letztlich geht es um Mustererkennung, darum, dass Technik in der Lage ist, Regeln zu

1 Einleitung

|

7

also Intelligenz und Kognition auf bloße Informationsverarbeitung reduziert. Ein sol­ cher Nachweis konnte aber bisher nicht erbracht werden – die Behauptung, es sei im Prinzip der Fall, kann den Nachweis nicht ersetzen.⁹ Hingegen wird kaum bestritten, dass Intelligenz auch Informationsverarbeitung ist – dies entspricht der „schwachen KI-These“. So, wie wir Intelligenz erst im sozialen Handlungszusammenhang zuschreiben, ja sie sich eigentlich erst darin konstituiert, können wir dann allerdings auch da­ von sprechen, dass es – in einem eingeschränkten Sinn – Intelligenz in der MenschMaschine-Interaktion, in der Wechselwirkung, gibt, als „Intelligenz für uns“. Es be­ steht gar keine Notwendigkeit, einem technischen System, das uns als Medium bei Problemlösungen unterstützt, Intelligenz per se zuzuschreiben – die Intelligenz ma­ nifestiert sich in der Interaktion.

Die Entwicklung der KI In der Folge der o. g. Tagungen im Jahr 1956 wurden an verschiedenen universitären und außeruniversitären Einrichtungen einschlägige Forschungsprojekte ins Leben ge­ rufen. Die Prognosen waren zunächst optimistisch, ja geradezu enthusiastisch: Die KI sollte wesentliche Probleme der Psychologie, Linguistik, Mathematik, Ingenieurwis­ senschaften und des Managements lösen. Fehlschläge blieben nicht aus: So erwies sich das Projekt der automatischen Sprachübersetzung, dessen Lösung man in greif­ barer Nähe sah, als enorm unterschätzte Aufgabe. Erst in den 1990er-Jahren wurde es – allerdings mit größerer Bescheidenheit – wieder in Angriff genommen. In der Entwicklung der Künstlichen Intelligenz im letzten Jahrhundert kann man mehrere Phasen unterscheiden: Die Gründungsphase Ende der 1950er-Jahre, gekenn­ zeichnet durch erste Ansätze zur symbolischen, nichtnumerischen Informationsver­ arbeitung, beschäftigte sich mit der Lösung einfacher Puzzles, dem Beweisen von Sät­ zen der Logik und Geometrie, symbolischen mathematischen Operationen, wie unbe­ stimmter Integration, und Spielen wie Dame und Schach. Das Gewicht lag darauf, die grundsätzliche technische Machbarkeit zu zeigen. Wesentliches Forschungsziel war – im Sinne der kognitiven KI – grundsätzliche Prinzipien menschlichen intelligenten Verhaltens maschinell umzusetzen. In dieser ersten Phase – oft durch die Bezeich­ nung „Power-Based Approach“ charakterisiert, erwartete man sehr viel von allgemei­ nen Problemlösungsverfahren, deren begrenzte Tragweite allerdings bald erkennbar wurde.

erkennen und anzuwenden. Intelligenz dagegen umfasst viel mehr, auch Emotionen, Kreativität, Mei­ nungsfreiheit, Autonomie. Das alles kann ein Computer nicht.“ 9 Die Vertreter des Digitalen Humanismus weisen bei einer derartigen Identifikation u.E. zu Recht auf einen kategorialen Fehler hin [54].

8 | 1 Einleitung

Die zweite Entwicklungsphase der KI ist gekennzeichnet durch die Einrichtung von Forschungsgruppen an führenden amerikanischen Universitäten, die begannen, zentrale Fragestellungen der Künstlichen Intelligenz systematisch zu bearbeiten, z. B. Sprachverarbeitung, automatisches Problemlösen und visuelle Szenenanalyse. In dieser Phase begann die massive Förderung durch die „Advanced Research Projects Agency“ (ARPA) des US-amerikanischen Verteidigungsministeriums. In den 1970er-Jahren begann eine dritte Phase in der Entwicklung der KI, in der u. a. der Entwurf integrierter Robotersysteme und „expertenhaft problemlösen­ der Systeme“ im Mittelpunkt stand. Letztere machten Gebrauch von umfangreichen codierten Wissensbeständen über bestimmte Gebiete, zunächst in Anwendungen wie symbolische Integration oder Massenspektrometrie. Im Gegensatz zum „PowerBased Approach“ trat die Verwendung formalisierten Problemlösungswissens und spezieller Verarbeitungstechniken in den Vordergrund, was durch die Bezeichnung „Knowledge-Based Approach“ charakterisiert wird. Durch diese Schwerpunktsetzung wurden große Fortschritte bei Techniken der Wissensrepräsentation und in der Sys­ temarchitektur, besonders im Hinblick auf Kontrollmechanismen, erzielt. Im weiteren Verlauf wurde erhebliches Gewicht auf komplexe Anwendungen gelegt: Erkennung kontinuierlich gesprochener Sprache, Analyse und Synthese in der Chemie, medizi­ nische Diagnostik und Therapie, Prospektion in der Mineralogie, Konfiguration und Fehleranalyse technischer Systeme. Zu dieser Zeit waren auch in Europa, vor allem in Großbritannien und Deutschland, KI-Forschungsgruppen an verschiedenen Univer­ sitäten entstanden und Förderprogramme installiert. Das Gebiet wurde umfassend mathematisiert und das Konzept der Wissensverarbeitung präzisiert. Gegen Mitte der 1980er-Jahre folgte der AI Winter. Die stark auf wissensbasierte Systeme ausgerichteten Entwicklungen stießen an Grenzen, und in der Konsequenz wurden auf Symbolverarbeitung basierende Ansätze, die bis dahin die KI-Forschung dominierten, zunehmend kritisch gesehen. Es begann die vierte Phase der KI, in der subsymbolische Ansätze, insbesondere künstliche neuronale Netze, als Alternative zur symbolverarbeitenden KI ins Zentrum rückten. In den 1990er-Jahren wurden neue Themen wie Situiertheit, Verteiltheit und Mul­ tiagentensysteme sowie Maschinelles Lernen aufgegriffen. Es ist ein deutlicher Trend zu integrierten Ansätzen zu beobachten und eine entsprechende Erweiterung der Be­ griffe „Wissensverarbeitung“ und „intelligentes System“ auf die neuen Themen. An­ wendungen und Anwendungsperspektiven (in vielen Fällen mit dem Boom des Inter­ nets verbunden) beeinflussen die aktuellen Forschungsarbeiten in einem sehr hohen Maß. Zudem wurde der Bedarf deutlich, heterogene Wissensquellen in übergreifen­ den Anwendungen zusammenzuführen und vorhandene Wissensbestände kurzfristig auf konkrete Einsatzzwecke zuschneiden zu können. Bis etwa 2012 hat sich die KI-Forschung methodisch und technologisch deutlich weiterentwickelt – wie etwa durch den Erfolg von IBMs Frage-Antwort System Wat­ son belegt [21], das 2011 in der Quizshow Jeopardy gegen die bis dahin erfolgreichsten

1 Einleitung

| 9

Menschen gewann. Jedoch wurde in dieser Zeit KI unter anderem Namen betrieben.¹⁰ Der Begriff „Künstliche Intelligenz“ wurde als „verbrannt“ erachtet und stattdessen wurden Bezeichnungen wie intelligente Systeme, kognitive Systeme oder intelligente Agenten verwendet. Dies änderte sich schlagartig mit dem Big Bang of Deep Learning, der insbesonde­ re durch die Erfolge bei der Objekterkennung mit deep convolutional neural networks (CNNs) ausgelöst wurde [36]. Durch Fortschritte in der Hardware – vor allem durch Nutzung von GPUs – wurde es möglich, mit enorm großen Datenmengen deutlich komplexere neuronale Netze zu trainieren als zuvor. Gleichzeitig erlauben die neuen Netzarchitekturen, dass Maschinelles Lernen nun direkt auf Rohdaten angewendet werden kann und keine Vorverarbeitung zur Extrak­ tion vordefinierter Merkmale mehr notwendig ist. Bereits länger vorhandene Ansätze konnten nunmehr erfolgreich auf komplexe Probleme angewendet werden. So wur­ de die von Hochreiter und Schmidhuber bereits 1997 vorgeschlagene rekurrente Netz­ werkarchitektur Long Short-Term Memory (LSTM) [32] mit GoogleTranslate erfolgreich für die maschinelle Übersetzung eingesetzt. Das bereits seit den 1990ern für Planungs­ probleme und Spiele eingesetzte „Reinforcement Learning“ [73] ermöglichte es, dass mit AlphaGo erstmalig ein Computerprogramm gegen den menschlichen Großmeister in Go gewinnen konnte [66]. Im Jahr 2019 wurden Yoshua Bengio, Geoffrey Hinton und Yann LeCun mit dem Turing Award ausgezeichnet und damit für ihre konzeptionellen und technologischen Arbeiten geehrt [37], die tiefen neuronalen Netzen zu ihrem großen Erfolg verholfen und damit auch dem Forschungsgebiet KI neue Beachtung gebracht haben. In der Öffentlichkeit wurde KI zunächst fast ausschließlich als Synonym für tiefe neuronale Netze verstanden. Inzwischen wird jedoch zunehmend deutlich, dass KIForschung ein breites Spektrum an Themenfeldern und Methoden adressiert. Für viele Anwendungsbereiche wird deutlich, dass die Anforderungen von tiefen Netzen an die notwendige Menge und Qualität von Daten kaum erfüllbar sind [62].¹¹ Entsprechend steigt das Interesse an weniger datenintensiven Ansätzen [67] sowie an der Kombina­ tion von Maschinellem Lernen und wissensbasierten Inferenzmethoden [19; 27]. Aktuell ist die KI-Forschung geprägt durch ein neues Interesse an Kognitionsfor­ schung (Human-Level AI), durch einen starken Fokus auf probabilistischen Ansätzen und Maschinellem Lernen und durch zahlreiche technische Fortschritte im algorith­ mischen Bereich sowie die Erschließung neuer Anwendungsbereiche wie Digital (bzw. Computational) Humanities.

10 Markoff, John (14 October 2005): Behind Artificial Intelligence, a Squadron of Bright Real People. The New York Times. 11 So wird u. a. versucht, durch die Organisation eines massiven Einsatzes menschlicher Arbeitskraft geeignete Datenmengen aufzubereiten und annotieren zu lassen; siehe z. B. “Amazon Mechanical Turk“, https://www.mturk.com/ (30.03.2020).

10 | 1 Einleitung

Was die kurz- und mittelfristige Entwicklung der Forschung und Entwicklung in der KI bestimmen wird, ist schwer abzuschätzen. Die in jüngster Zeit genannten pri­ vaten und öffentlichen Investitionsvolumina lassen jedoch erwarten, dass vor allem verschiedene Formen des Maschinellen Lernens im Vordergrund stehen werden. Den­ noch gibt es einige Fragen, ohne deren Lösung keine entscheidenden Fortschritte er­ reicht werden können. Dies ist zum einen das Problem des Kontexts in offenen Wel­ ten. Alle Verfahren der KI, symbolische und nichtsymbolische, sind letztlich eng, d. h. auf begrenzte Anwendungsbereiche, fokussiert. Darin können sie, gerade auch ler­ nende Systeme, sehr erfolgreich sein (Kapitel 11 und 12). Allerdings haben solche Er­ folgsmeldungen zu Fehleinschätzungen ihrer Leistungsfähigkeit beigetragen. Gerade Spiele waren von Anfang an ein beliebtes Testfeld der KI wegen ihrer präzisen Regeln, einfachen Erfolgsbewertungen und Optimierungsmöglichkeiten. Wird jedoch der Be­ reich durch das Eintreten „unerwarteter“ Ereignisse überschritten, wird Robustheit zum entscheidenden Problem (Kapitel 13; eine Analyse und einige Lösungsansätze hierfür präsentiert u. a. auch Dietterich [20]). In Regelfällen mag man mit reinen Funk­ tionsmodellen zufrieden sein, doch spätestens beim ersten Ausnahmefall wird nach Erklärungsmodellen gefragt. Damit zusammenhängend ist ein weiterer Aspekt der of­ fenen Welten die Notwendigkeit, Alltagswissen (common sense) einzubeziehen. Da­ zu gehört nicht nur die Fähigkeit, zu einem gewissen Grad Abstraktionen zu leisten und Kausalitäten maschinell nachzuvollziehen, sondern auch das zu approximieren, was Menschen in besonderer Weise auszeichnet, nämlich Handlungen zu verstehen und zu erklären. Erklärung durch Angabe von Gründen, nachvollziehbare Argumen­ tationen und Schlüsse wurde bereits als aktuelles Forschungsthema erwähnt, und es erscheint plausibel, dass dies nur mithilfe kognitiver Modelle und damit, technisch gesprochen, hybrider Systemarchitekturen zu erreichen ist [44].¹² Ohne eine derarti­ ge Modellbildung ist schon die Unterscheidung zwischen schlichter Korrelation und Kausalität schlechterdings nicht möglich – was beim aktuellen Stand der Technik der Fall ist. Trivialerweise kann von Kausalität als theoretischem Begriff nur gesprochen werden, wenn man über eine geeignete Theorie verfügt: „. . . die Welt, erkenntnistheo­ retisch betrachtet, [ist uns] nicht unmittelbar gegeben. . . – wir sehen sie (wie schon bei Kant nachzulesen) durch unsere Unterscheidungen, durch unsere Erfahrungen, durch unsere Theorien. . . “¹³ Mit Entwicklungsperspektiven der KI und ihren gesellschaftlichen Wirkungen be­ fassen sich seit einigen Jahren etliche breit angelegte Initiativen und daraus hervor­ gegangene Studien. An prominenter Stelle auf nationaler Ebene sind hier zu nen­ nen die Studie „Unsere gemeinsame digitale Zukunft“ des Wissenschaftlichen Beirats der Bundesregierung Globale Umweltveränderungen¹⁴ und auf europäischer Seite die

12 An dieser Stelle sei explizit auf die detaillierte Diskussion bei Marcus und Davis [41] hingewiesen. 13 Mittelstraß [46, S. 290]. 14 https://www.wbgu.de/de/ und https://www.wbgu.de/de/publikationen/publikation/unseregemeinsame-digitale-zukunft (30.03.2020).

1 Einleitung

|

11

„Vision“ von CLAIRE, der Confederation of Laboratories for Artificial Intelligence Re­ search in Europe.¹⁵ Als besonders bemerkenswert dürfen in diesem Zusammenhang auch jüngste Entwicklungen in den USA gelten, vor allem das „AI Now Institute“ der New York University¹⁶ und AI100, die „One Hundred Year Study on Artificial Intelli­ gence“¹⁷ am „Stanford Institute for Human-Centered Artificial Intelligence“¹⁸. Eine kri­ tische Perspektive auf den sozialen, kulturellen und politischen Kontext der KI nimmt das AI Now Institute ein, das eine Reihe von Publikationen vorgelegt hat, die den Kern­ themen des Instituts – Freiheit und Rechte, Arbeitswelt, Inklusion, Sicherheit und Governance – gewidmet sind, zuletzt den AI Now Report 2019.¹⁹ Noch breiter angelegt ist die AI100-Initiative, die sich in mehreren Berichten mit dem Fortschritt der KI, ih­ rem Einsatz und Transformationspotenzial im Hinblick auf Forschung, Bildung und Politik in verschiedenen Bereichen der Wirtschaft und Gesellschaft befasst.²⁰ Diese ist mittlerweile angesiedelt am Stanford Institute for Human-Centered AI, das seine Zielsetzung auf der o. g. Website folgendermaßen beschreibt: „Artificial Intelligence has the potential to help us realize our shared dream of a better future for all of hu­ manity. At Stanford HAI, our vision is led by our commitment to studying, guiding and developing human-centered AI technologies and applications.“ Der ebenfalls dort be­ heimatete „2019 AI Index Report“²¹, für den weltweit einschlägige Daten erhoben und ausgewertet wurden, soll als Basis für fundierte und informierte Diskurse über den Stand der KI dienen.

Paradigmen der KI Symbolische Repräsentation – die Wissensebene In allen Entwicklungsphasen der KI wurde mit jeweils verschiedenen Ansätzen das Ziel verfolgt, Prinzipien der Informationsverarbeitung zu erforschen und zwar da­ durch, dass 1. strikte Formalisierungen versucht und 2. exemplarische Realisierungen durch Implementation vorgenommen werden. Dabei galt zentrale Aufmerksamkeit der Repräsentation und Verarbeitung von Sym­ bolen als wichtige Basis interner Prozesse, von denen man annimmt, dass sie rationa­ 15 https://claire-ai.org/ (30.03.2020). 16 https://ainowinstitute.org/ (30.03.2020). 17 https://ai100.stanford.edu/ (30.03.2020). 18 https://hai.stanford.edu/ (30.03.2020). 19 https://ainowinstitute.org/AI_Now_2019_Report.pdf (30.03.2020). 20 Zuletzt „Artificial Intelligence and Life in 2030“, 2016, https://ai100.stanford.edu/sites/g/files/ sbiybj9861/f/ai100report10032016fnl_singles.pdf (30.03.2020). 21 https://hai.stanford.edu/research/ai-index-2019 (30.03.2020).

12 | 1 Einleitung

les Denken konstituieren. In der Arbeit an ihrem „Logic Theorist“ hatten Simon und Newell erste Eindrücke von den Möglichkeiten des Computers zur Verarbeitung nicht­ numerischer Symbole erlangt. Symbole wurden dabei als bezeichnende Objekte ver­ standen, die den Zugriff auf Bedeutungen – Benennungen und Beschreibungen – er­ möglichen. Die symbolische Ebene, repräsentiert in den frühen Arbeiten von Newell, Shaw und Simon [52] wie auch 1956 von Bruner, Goodnow und Austin [13], ermöglicht die Betrachtung von Plänen, Prozeduren und Strategien; sie stützt sich ebenfalls auf Vorstellungen regelgeleiteter generativer Systeme [16]. Der wichtigste Aspekt ist hierbei, dass sich geistige Fähigkeiten des Menschen auf der symbolischen Ebene unabhängig von der Betrachtung neuronaler Architekturen und Prozesse untersuchen lassen.²² Gegenstand der „symbolischen KI“ sind folglich nicht das Gehirn und Prozesse des Abrufs von Gedächtnisinhalten, sondern vielmehr die Bedeutung, die sich einem Prozess aufgrund symbolischer Beschreibungen zuord­ nen lässt. Unbestreitbar hatten die Arbeiten von Newell und Simon in der Präzisie­ rung des Informationsverarbeitungsparadigmas einen entscheidenden forschungs­ orientierenden Einfluss, der zur Ausformung der symbolischen KI führte. Die The­ se, Intelligenzphänomene allein auf der Basis von Symbolverarbeitung untersuchen zu können, ist mittlerweile durch den Einfluss der Kognitions- und der Neurowissen­ schaften relativiert worden; es zeigte sich, dass zur Erklärung bestimmter Phänome­ ne – insbesondere der Wahrnehmung – der Einbezug der physikalischen Basis, auf der Intelligenz realisiert ist, zu weiteren Erkenntnissen führt. Allerdings ist damit der Ansatz der symbolischen KI nicht obsolet, sondern eher sinnvoll ergänzt und zum Teil integriert worden. Ein zentrales Paradigma der symbolischen KI wurde mit der Beschreibung des intelligenten Agenten (general intelligent agent) [53] formuliert. Auf einer abstrakten Ebene betrachten die Autoren den Gedächtnisbesitz des Individuums und seine Fä­ higkeit, beim Handeln in der Welt darauf aufzubauen, als funktionale Qualität, die sie mit Wissen bezeichnen. Der intelligente Agent verfügt über Sensoren, zur Wahr­ nehmung von Information aus seiner Umgebung, und über Aktuatoren, mit denen er die äußere Welt beeinflussen kann. Spezifisch für diese Auffassung ist, dass der Agent zu einem internen „Probehandeln“ fähig ist: Bevor er in der Welt handelt und sie da­ durch möglicherweise irreversibel verändert, manipuliert er eine interne Repräsenta­ tion der Außenwelt, um den Effekt alternativer, ihm zur Verfügung stehender Metho­ den abzuwägen. Diese sind ihm in einem internen Methodenspeicher verfügbar, und ihre Exploration wird durch ebenfalls intern verfügbares Weltwissen geleitet. Die Fragen, mit denen sich vor allem Newell in den frühen 1980er-Jahren befasste, waren die folgenden [51]: – Wie kann Wissen charakterisiert werden?

22 Diese These ist allerdings nicht unumstritten; vor allem von Forschern auf dem Gebiet der künst­ lichen neuronalen Netze wurde versucht, sie zu relativieren.

1 Einleitung

– –

| 13

Wie steht eine solche Charakterisierung in Beziehung zur Repräsentation? Was genau zeichnet ein System aus, wenn es über „Wissen“ verfügt?

Die Hypothese einer Wissensebene (Knowledge Level Hypothesis) wurde von Newell in seinem Hauptvortrag auf der ersten National Conference on Artificial Intelligence in Stanford 1980 [51] unterbreitet. In ihr wird eine besondere Systemebene postuliert, über die Ebene der Programmsymbole (und die Ebenen von Registertransfer, logi­ schem und elektronischem Schaltkreis und physikalischem Gerät) hinausgehend, die durch Wissen als das Medium charakterisiert ist. Repräsentationen existieren auf der Symbolebene als Datenstrukturen und Prozesse, die einen Wissensbestand auf der Wissensebene realisieren. Die Verbindung zwischen Wissen und intelligentem Verhal­ ten wird durch das Rationalitätsprinzip beschrieben, welches besagt: Wenn ein Agent Wissen darüber hat, dass eine seiner möglichen Aktionen zu einem seiner Ziele bei­ trägt, dann wird der Agent diese Aktion wählen. In dieser Perspektive spielt Wissen die Rolle der Spezifikation dessen, wozu eine Symbolstruktur in der Lage sein soll. Wichtiger noch wird mit dieser Konzeption Wissen als eine Kompetenz betrachtet – als ein Potenzial, Aktionen zu generieren (zu handeln) – und mithin als eine abstrakte Qualität, die an eine symbolische Repräsentation gebunden sein muss, um einsatzfä­ hig zu sein. Newell und Simon postulieren, dass ein dafür geeignetes physikalisches Symbolsystem zur Ausstattung eines jeden intelligenten Agenten gehört [50; 53]. Eine zentrale Feststellung in Newells o. g. Ansatz besagt, dass Logik ein funda­ mentales Werkzeug für Analysen auf der Wissensebene ist und dass Implementatio­ nen von Logikformalismen als Repräsentationsmittel für Wissen dienen können. Der Wissensebenenansatz in der KI ist damit ein Versuch der Mathematisierung bestimm­ ter Aspekte der Intelligenz – unabhängig von Betrachtungen ihrer Realisierung auf Symbolebene; dies betrifft vor allem die Aspekte des rationalen Handelns und des lo­ gischen Schlussfolgerns beim Problemlösen. Dementsprechend werden Logikforma­ lismen vielfach in der KI benutzt, um eine explizite Menge von Überzeugungen (für wahr gehaltene Aussagen, engl. beliefs) eines rationalen Agenten zu beschreiben. Ei­ ne solche Menge von Überzeugungen, ausgedrückt in einer Repräsentationssprache, wird typischerweise als Wissensbasis bezeichnet. Diese logikorientierte Auffassung der Wissensebene hat zur Klärung zahlreicher Debatten, die bis Ende der 1970er-Jahre um den Begriff der internen Repräsentation ge­ führt wurden, beigetragen [7]. Formalismen für die Wissensrepräsentation sind mitt­ lerweile sehr weitgehend und grundsätzlich untersucht worden. Zentrale Gesichts­ punkte sind hier u. a. die Ausdrucksfähigkeit und die Komplexität von Repräsentatio­ nen, aber auch ihre quantorenlogische Rekonstruktion bzw. Spezifikation (Kapitel 2). Ein standardisiertes Vorgehen bei der Wissens- und Domänenmodellierung hat sich als ausgesprochen schwierig erwiesen. Deshalb stellte sich immer stärker die Fra­ ge nach einer Wiederverwendbarkeit schon existierender Wissensbasen bzw. nach ei­ ner Aggregation großer Wissensbasen aus bibliotheksmäßig gesammelten oder inkre­ mentell entwickelten Teilen (Knowledge Sharing [49]). Typischerweise ist bei wissens­

14 | 1 Einleitung

basierten Systemen der Gegenstandsbereich ein eng umrissenes Spezialgebiet z. B. aus den Natur- oder Kulturwissenschaften, in dem ein hohes Potenzial an spezifischer Problemlösefähigkeit in einem weitgehend vorab festgelegten Verwendungsrahmen verlangt wird. Bei der Entwicklung von Systemen, die zur semantischen Verarbeitung von natürlicher Sprache fähig sind, geht es dagegen zentral um die Identifikation und Modellierung intersubjektivierbarer Bestände an Welt- oder Hintergrundwissen. Die Modellierung von Alltagswissen, d. h. von allgemeinen Kenntnissen und Fertigkeiten, erhält einen wesentlich höheren Stellenwert. Richten sich die systematischen Ansätze bei traditionellen wissensbasierten Sys­ temen vornehmlich auf Strukturen und Typentaxonomien von Problemlösungsauf­ gaben („Problemlöseontologien“), so stellt die systematische Untersuchung formal repräsentierbarer kognitiver Modelle menschlicher Weltwahrnehmung eher noch grö­ ßere Anforderungen²³. Schnell zeigen sich Grenzen, wo Alltagswissen und Alltagser­ fahrung in einer offenen Welt entscheidend zum Tragen kommen. Menschliches Pro­ blemlösen zeichnet sich dadurch aus, dass das dabei verwendete Wissen zumeist vage und unvollständig ist. Die Qualität menschlicher Problemlöser zeigt sich gerade dar­ in, dass und wie sie unerwartete Effekte und Ausnahmesituationen aufgrund ihrer Berufserfahrung bewältigen können, dass sie aus Erfahrung lernen, ihr Wissen al­ so ständig erweitern, und dass sie aus allgemeinem Wissen nicht nur nach festen Schlussregeln, sondern auch durch Analogie und mit Intuition Folgerungen gewin­ nen. Es geht nicht nur darum, generische Problemlöseaufgaben zu betrachten, son­ dern auch, das Fakten- und Relationengefüge diverser Domänen wie auch Strukturen von Wissensmodellen des Menschen zu erschließen – z. B. durch gestaffelte generi­ sche und bereichsbezogene formale „Ontologien“. Derartige Ansätze sind in jüngerer Zeit durch den Versuch, heterogene Informationsbestände im Internet semantisch zu erschließen, erheblich beflügelt worden. Dies führte zu signifikanten Fortschritten bei logikbasierten Repräsentationssprachen, insbesondere den sog. Beschreibungslogi­ ken, und effizienten Inferenzmaschinen hierfür.²⁴

Nicht symbolische Ansätze und Maschinelles Lernen Bereits 1949, als die ersten Digitalrechner ihren Siegeszug angetreten hatten, wurde von D. O. Hebb die Grundlage für ein Verarbeitungsmodell formuliert, das eher in der Tradition des Analogrechnens steht [30]. Er postulierte, dass eine Menge von (forma­ len) Neuronen dadurch lernen könnte, dass bei gleichzeitiger Aktivierung zweier Neu­ ronen die Stärke ihrer Verbindung vergrößert würde. F. Rosenblatt griff diese Idee auf und arbeitete sie zu einer Alternative zum Konzept der KI in symbolverarbeitenden Maschinen aus: 23 Frühe Beispiele in diesem Paradigma waren LILOG [35] und das nach wie vor aktive CYC [38]. 24 Web Ontology Language (OWL) für das Semantic Web (Kapitel 18) [31].

1 Einleitung

| 15

„Viele der Modelle, die diskutiert wurden, beschäftigen sich mit der Frage, welche logische Struk­ tur ein System besitzen muss, um eine Eigenschaft X darzustellen. . . Ein alternativer Weg, auf diese Frage zu schauen, ist folgender: Was für ein System kann die Eigenschaft X (im Sinne einer Evolution) hervorbringen? Ich glaube, wir können in einer Zahl von interessanten Fällen zeigen, dass die zweite Frage gelöst werden kann, ohne die Antwort zur ersten zu kennen.“ [58]

1956, im selben Jahr, als Newell und Simons Programm einfache Puzzles lösen und Sätze der Aussagenlogik beweisen konnte, war Rosenblatt bereits in der Lage, ein künstliches neuronales Netzwerk, das Perzeptron, lernen zu lassen, gewisse Arten ähnlicher Muster zu klassifizieren und unähnliche auszusondern. Er sah darin eine gewisse Überlegenheit seines subsymbolischen Ansatzes und stellte fest: „Als Konzept, so scheint es, hat das Perzeptron ohne Zweifel Durchführbarkeit und Prinzip nicht­ menschlicher Systeme begründet, die menschliche kognitive Funktionen darstellen können. . . Die Zukunft der Informationsverarbeitungssysteme, die mit statistischen eher als logischen Prin­ zipien arbeiten, scheint deutlich erkennbar.“ [58]

Zunächst jedoch gewann der symbolische Ansatz in der KI die Oberhand, was nicht zuletzt darin begründet war, dass Rosenblatts Perzeptron gewisse einfache logische Aufgaben nicht lösen konnte – eine Beschränkung, die aber ohne Weiteres überwun­ den werden kann. So erfuhr Rosenblatt seit dem Ende der 1980er-Jahre eine Rehabili­ tation, und das Arbeitsgebiet der neuronalen Netze bzw. des „Konnektionismus“ hat sich rapide zu einem umfangreichen Teilgebiet der KI entwickelt. Der Informatiker Bernd Mahr hat diese Konzeption treffend charakterisiert, sodass wir hier auf seine Darstellung zurückgreifen [40]: „Für die Erzeugung künstlicher Intelligenz wird ein Maschinenmodell zugrundegelegt, das Ar­ beitsweise und Struktur des Neuronengeflechts im Gehirn imitiert. Den Neuronenkernen mit ih­ ren Dendriten und deren Verknüpfung über Synapsen entsprechen ‚processor‘-Knoten, die über Verbindungen miteinander gekoppelt sind. . . . Die Idee des Lernens durch die Stärkung der Ver­ bindung, die auch schon Rosenblatts Perzeptron zugrundelag, findet sich hier in der Fähigkeit wieder, dass die Gewichte der Verbindungen sich ändern können und dass so nicht nur das Pat­ tern der Verbindungen wechselt, sondern auch das Verhalten des gesamten Systems. . . . Das ‚Wissen‘, das in einem System steckt, erscheint dann als Pattern der Verbindungsgewichte. . . . Künstliche neuronale Netze geben als Computerarchitektur die Manipulation bedeutungstragen­ der Symbole auf . . . Sie stellen ‚Wissen‘ . . . nicht als aus einzelnen Wissensbestandteilen zusam­ mengesetztes Ganzes dar.“

Als Vorteile künstlicher neuronaler Netze gelten ihre Eigenschaften der verteilten Re­ präsentation, der Darstellung und Verarbeitung von Unschärfe, der hochgradig paral­ lelen und verteilten Aktion und der daraus resultierenden Geschwindigkeit und hohen Fehlertoleranz. Überdies wird mit den Modellierungsansätzen der neuronalen Netze auch ein wichtiges Bindeglied zu den Neurowissenschaften und damit eine Erweite­ rung des Erkenntnisfortschritts verfügbar.

16 | 1 Einleitung

Im ersten Jahrzehnt des 21. Jahrhunderts wurden in der Forschung im Bereich des Maschinellen Lernens die neuronalen Netze weitgehend von statistischen Ansätzen verdrängt. Das Interesse an statistischen Methoden begann durch den großen Erfolg von Support Vector Machines im Bereich der automatischen Klassifikation [64]. Zudem wurden klassische probabilistische Ansätze wie bayessche Netzwerke – im Grunde genommen ein hybrider Ansatz – weiterentwickelt (z. B. durch Kombination mit Lo­ gikkonstrukten [8; 55; 57]) und erfolgreich sowohl in der kognitiven Modellierung [74] als auch im Maschinellen Lernen [5] eingesetzt. Mit den Erfolgen des Deep Learning (Kapitel 12) wendete sich das Blatt aber dann im zweiten Jahrzehnt [63]. Die neuen, tiefen Architekturen brachten große Erfolge in vielen Anwendungsbereichen von der Objekterkennung mit CNNs über die maschinelle Übersetzung mit rekurrenten Netzen wie LSTMs bis zu Reinforcement Learning [73] für komplexe Spiele wie Go [24; 66]. Zu­ nehmend wird jedoch erkannt, dass für viele praktische Anwendungsbereiche nicht genügend Daten in genügend hoher Qualität bereitgestellt werden können, damit sol­ che rein datengetriebenen Ansätze erfolgreich eingesetzt werden können [62]. Insbe­ sondere in sicherheitskritischen Bereichen wie automatischem Fahren oder medizi­ nischer Diagnose wird gefordert, dass Entscheidungen von Blackbox-Ansätzen – ins­ besondere mit tiefen Netzen gelernten Klassifikatoren – durch Erklärungskomponen­ ten transparent und nachvollziehbar gemacht werden müssen [41; 44; 48; 59]. Seit 2019 werden zunehmend Stimmen laut, dass erklärbare, adaptive Verfahren entwi­ ckelt werden müssen und dies die „Dritte Welle der KI“ sein wird.²⁵

Verteilung und Situiertheit Unter „Agenten“ werden heute vielfach hardware- oder auch softwarebasierte Syste­ me („Softwareagenten“) verstanden, die als mehr oder weniger unabhängige Einhei­ ten innerhalb größerer Systeme agieren. Solche Systeme werden bereits in vielen Dis­ ziplinen betrachtet, nicht nur in der KI, sondern als Modellierungsmittel z. B. auch in der Biologie, den Wirtschafts- und den Sozialwissenschaften. Der Einsatz von Agen­ tentechniken interessiert uns in der KI besonders im Hinblick auf Systeme, die in einer dynamischen, sich verändernden Umgebung eingesetzt werden und in größerem Um­ fang Anteile von Lösungen eigenständig erarbeiten können. Ähnlich wie der allgemei­ nere Begriff „Objekt“ befindet sich der Begriff des „Agenten“ stark in der Diskussion; in der Literatur lässt sich deswegen kaum eine allgemein akzeptierte Definition fin­ den. Nach Russell und Norvig kann alles als Agent angesehen werden, was seine Um­ gebung über Sensoren aufnimmt (Perzepte) und in der Umgebung Handlungen über

25 Die „drei Wellen der KI“ werden kurz als Describe, Learn und Explain bezeichnet. Zunächst wa­ ren wissensbasierte Ansätze im Fokus, danach statistisches Lernen, und nun soll die Entwicklung von adaptiven, interaktiven Ansätzen im Mittelpunkt stehen (https://artificialintelligence-news.com/ 2018/09/28/darpa-third-wave-artificial-intelligence/ (30.03.2020).

1 Einleitung

| 17

Aktuatoren ausführt (Aktionen) [60]. Dadurch können Agenten auf ihre Umgebung Einfluss nehmen und ihren Zustand sowie zukünftige Perzepte beeinflussen. Konkre­ ter ist damit ein Gesamtsystem bezeichnet, das Fähigkeiten der Wahrnehmung, Hand­ lung und Kommunikation miteinander verbindet und, bezogen auf eine zu erfüllende Aufgabe, situationsangemessen ein- und umsetzen kann. Dabei zeichnen sich unter­ schiedlich stark gefasste Agentenbegriffe ab [79; 80]. In einem schwachen Sinne ist ein Agent ein System mit Eigenschaften der Autonomie (selbst gesteuertes Handeln ohne direkte Außenkontrolle), sozialen Fähigkeiten (Kommunikation und Kooperation mit anderen Agenten), Reaktivität (Verhalten in Erwiderung äußerer Stimuli) und Proak­ tivität (zielorientiertes Verhalten und Übernahme der Initiative). In der KI werden zu­ meist stärkere Annahmen gemacht; hier kann ein Agent zusätzlich über „mentalisti­ sche“ Eigenschaften verfügen, die mit Begriffen wie Wissen, Überzeugung, Intention, Verpflichtung und zuweilen auch Emotion charakterisiert werden. Eines der grundsätzlichen Probleme in bisherigen Intelligenzmodellen der KI wie auch in vielen technischen Anwendungen liegt allerdings darin, dass das benötigte Weltwissen kaum jemals vollständig verfügbar bzw. modellierbar ist. Dies beruht auf der kontextuellen Variabilität und der Vielzahl von Situationen, mit denen ein intel­ ligenter Agent konfrontiert sein wird. Deshalb geht die Forschungsrichtung der „si­ tuierten KI“ von der Erkenntnis aus, dass die Handlungsfähigkeit eines intelligenten Agenten entscheidend von seiner Verankerung in der aktuellen Situation abhängt [12]. Situiertheit bezieht sich auf die Fähigkeit eines intelligenten Systems, die aktuelle Si­ tuation – durch Wahrnehmung seiner Umgebung oder durch Kommunikation mit ko­ operierenden Partnern – in weitestgehendem Maße als Informationsquelle auszunut­ zen, um auch Situationen bewältigen zu können, für die kein komplettes Weltmodell vorliegt [39]. Diese Ansätze haben entscheidenden Einfluss auf die Entwicklung ei­ ner kognitiven Robotik gehabt, aber auch auf Techniken für Softwareagenten, die zur Erfüllung ihrer Aufgaben durch Situierung in der digitalen Umwelt zusätzliche Infor­ mationen beschaffen können. Häufig wird einem Agenten einprogrammiert, rational vorzugehen, d. h., das Richtige zu tun – auf der Grundlage dessen, was man weiß, was eben nicht Perfekti­ on oder Allwissenheit bedeutet, sondern beinhaltet, die vermuteten Konsequenzen des Handelns zu berücksichtigen und Aktionen auszuführen, die einen Agenten dem gesetzten Ziel näherbringen. Während in der klassischen Sichtweise das Ziel häufig vom Designer vorgegeben ist, hat sich in den letzten Jahren vermehrt gezeigt, dass dieses Vorgehen zu kurz gedacht ist. Ein Ziel an sich zu formulieren ist schwierig genug, mögliche Konsequenzen sind allerdings noch schwieriger absehbar. Von da­ her ist immer häufiger der Mensch als expliziter Bestandteil der Umgebung in die Modellierung aufgenommen worden [15; 59], wobei die Zielsetzung des Menschen nicht näher bekannt ist. Das Ziel liegt dabei zwischen beweisbar nutzbringender KI (provably beneficial AI, [59]) oder interpretierbarem Verhalten und Erklärbarkeit [15], was langfristig erlauben sollte, das Verhalten von Agenten einer ethischen Grundlinie folgend und inhärent nachvollziehbar zu machen.

18 | 1 Einleitung

Verkörperung (Embodiment) Ein weiterer Paradigmenwechsel in der KI betrifft die wissenschaftliche Untersuchung verkörperter künstlicher Agenten in den Gebieten „künstliches Leben“ (Artificial Life), „humanoide Roboter“ und „virtuelle Menschen“. Hiermit verbindet sich eine Abkehr vom strengen Funktionalismus, in dem angenommen wird, dass kognitive Vorgänge prinzipiell unabhängig von ihrem Substrat untersucht werden können. Die Anwen­ dungsforschung hat diesen Wechsel mit Richtungen wie perzeptiven oder anthropo­ morphen Mensch-Maschine-Schnittstellen und Interface-Agenten aufgegriffen. Die­ se Vorhaben werden dadurch komplementiert, dass neuartige Interface-Technologien verfügbar werden, wie Kraft- und Positionssensoren, Miniaturkameras, berührungs­ empfindliche und immersive Displays der virtuellen Realität. Erste Hardwareplattfor­ men für humanoide Roboter sind kommerziell verfügbar und stellen eine Basis für physische Assistenzsysteme in der häuslichen oder öffentlichen Umgebung bereit. Mit synthetischen Agenten, die komplexe Kommunikationsfähigkeiten des Menschen ap­ proximieren, steht eine Revolution der heute bekannten Mensch-Technik-Schnittstel­ len bevor. Dies hat zu neuen Forschungsrichtungen geführt, die unter Metaphern wie „ver­ haltensbasierte KI“, „situierte KI“, „verkörperte KI“ etc. bekannt wurden. In diesen neuen Richtungen wird die Interaktion von Agent und Umgebung anstelle körperloser und rein mentaler Problemlösung als Kern von Kognition und intelligentem Verhalten gesehen (z. B. [2; 12; 56]). Ihr Ziel ist es, künstliche Agenten zu bauen, die mit ihren Um­ gebungen interagieren und sich daran adaptieren, auch solchen, die ihnen (und ihren menschlichen Entwerfern) vorher großenteils unbekannt sind. Durch ihre Verkörpe­ rung sind solche Agenten kontinuierlich an die aktuelle Umweltsituation gekoppelt (d. h. situiert). Forscher in der verkörperten KI und verhaltensbasierten Robotik sind der Überzeugung, dass Verkörperung und Situiertheit auch die Hauptmerkmale na­ türlicher intelligenter Agenten sind und dass beides eine Basis dafür bieten könnte, das Problem zu lösen, wie Symbole in sensorischen Repräsentationen gegründet sind (symbol grounding [29]). Eine weitere Folge war die Entwicklung neuer Typen von Modellen. In der Bioro­ botik verwendet man Roboter, um spezifische Verhaltensphänomene zu modellieren, die an Lebewesen beobachtet werden [76]. Die Modelle zielen hier im allgemeinen auf die neuroethologische (oder in einigen Fällen neurophysiologische) Erklärungs­ ebene. Vor allem aber sind sie empirisch insofern, als künstliche neuronale Netzwer­ ke in Robotermodellen implementiert werden, die unter analogen Bedingungen wie die Lebewesen getestet und den gleichen Evaluationsmethoden unterzogen werden können wie die Untersuchung von Lebewesen in der Realwelt, z. B. in der Navigati­ on (z. B. [47]). Des Weiteren verwendet man Roboter zur Modellierung, um zu illus­ trieren, wie Verhaltensmuster, die auf wichtige Fähigkeiten natürlicher intelligenter Agenten abheben (z. B. „Lernen“, „Imitieren“ oder „Kategorisieren“) implementiert werden können. In solchen Modellen ist es weniger das Ziel, Daten zu reproduzie­

1 Einleitung

| 19

ren, die in einer kontrollierten Umgebung erhoben wurden, sondern stattdessen ein detailliertes Verständnis von kognitiven Fähigkeiten in einem situierten und verkör­ perten Kontext zu erhalten (z. B. [11]). Mit ausdrucksfähigen Gesichtern, Gliedmaßen und Händen von Robotern richten sich die Vorhaben auf die Simulation menschen­ ähnlicher Fähigkeiten wie Aufmerksamkeit und emotionalem Ausdruck (z. B. [9]), Imi­ tationen des Greifens (z. B. [70]) und die Entwicklung von Vorformen sprachlichen Ausdrucks („Proto-Sprache“, [4]). Ein weiteres Thema in der verkörperten KI ist die empirische Untersuchung der Evolution sprachlicher Interaktion durch Modellierungsansätze, die sowohl simulier­ te wie robotische Agenten betreffen [68]. Hier wird argumentiert [69], dass Roboter zumindest mit basalen Kommunikationsfähigkeiten auszustatten sind, um von ein­ fachen Anforderungen wie Hindernisvermeidung und Navigation zu Agenten zu ge­ langen, von denen sich sagen ließe, sie simulierten „Kognition“. Diese Fähigkeiten müssen bottom-up von den Agenten selbst entwickelt werden, und die kommunizier­ baren Bezeichnungen wie auch die Kommunikationsmittel müssen in der sensomo­ torischen Erfahrung der Agenten ankern. In solcher Weise könnten sich Roboter zu experimentellen Untersuchungen der Entstehung von Sprache und Bedeutung her­ anziehen lassen. Untersuchungen der Kommunikation in vorstrukturierten simulierten Umgebun­ gen werden in der Forschung über sog. „virtuelle Menschen“ (virtual humans [26]) und „verkörperte konversationale Agenten“ (embodied conversational agents [14]) unter­ nommen. Hierbei geht es um künstliche Agenten, die menschenähnlich aussehen und agieren und in virtueller Realität mit Menschen Gespräche führen oder aufgabenbe­ zogen kooperieren. Ausgestattet mit einer synthetischen Stimme, verbalen Konversa­ tionsfähigkeiten, visuellen und mitunter auch taktilen Sensoren sollen sie ihren vir­ tuellen Körper einsetzen, um paralinguistische Qualitäten wie Gestik und emotionale Gesichtsausdrücke mit Sprachausgaben zu synchronisieren. Der Bau solcher Syste­ me ist ein multidisziplinäres Vorhaben, das traditionelle KI und das volle Spektrum der Forschung über natürliche Sprache mit einer Vielzahl von Anforderungen zusam­ menführt, die von der Computeranimation über Multimodalität bis hin zu sozialwis­ senschaftlichen Themen reichen. Der Anspruch dieser Forschung ist es, den Reichtum und die Dynamik menschlichen Kommunikationsverhaltens einzufangen, und poten­ zielle Anwendungen zu erproben.

Teilbereiche und Anwendungsgebiete der Künstlichen Intelligenz Mit den folgenden Kapiteln wird versucht, die etablierten Grundlagen- und Anwen­ dungsbereiche der KI so weit wie möglich abzudecken. Zur Frage einer systematischen Anordnung der verschiedenen Teildisziplinen der KI gibt es durchaus unterschiedli­ che Auffassungen. Daher wurde lediglich eine grobe Einteilung in drei große Gruppen vorgenommen, wobei der erste Teil die grundlegenden Theorien und Methoden, der

20 | 1 Einleitung

zweite Teil die darauf aufbauenden und weiterführenden Theorien und Methoden und der dritte Teil die Anwendungen umfasst. – Die Wissensrepräsentation befasst sich mit der Darstellung von Objekten, Ereig­ nissen und Verläufen und von Performanz- und Metawissen durch formale, im Allgemeinen logikbasierte Systeme. – Heuristische Suchverfahren und Problemlösemethoden, die dem Zweck dienen, in hochkomplexen Suchräumen mit möglichst geringem Aufwand kostengünstige Lösungswege zu finden, sind in fast allen Teilgebieten der KI von großer Bedeu­ tung. – Ein wichtiger Grund für eine eigene Darstellung des Wissens über Raum und Zeit liegt darin, dass es eine ausgezeichnete Rolle in sehr vielen Anwendungen der KI spielt. – Methoden der Inferenz sind grundlegend, um Folgerungen aus gegebenen Wis­ sensrepräsentationen automatisch zu extrahieren. Sie realisieren deduktives Schließen in der Maschine. Entsprechende Methoden werden u. a. zur Herstel­ lung und Überprüfung mathematischer Beweise sowie zur Analyse (Verifikation) und Synthese von Programmen angewandt. – Um aus normalerweise unvollständigem Wissen dennoch Fakten ableiten zu kön­ nen, die für Entscheidungen, Handlungen und Pläne erforderlich sind, werden z. B. Regeln mit Ausnahmen verwendet. Nichtmonotones Schließen behandelt all­ gemein den Umgang mit Verfahren, die fehlendes Wissen ergänzen. – Die Betrachtung der Kognition als Informationsverarbeitung liefert Grundlagen für eine Fülle von Methoden der KI, die sich schon immer dadurch auszeichnete, nicht nur technische Lösungen zu erarbeiten, sondern diese zur Informationsver­ arbeitung in Organismen und besonders beim Menschen in Bezug zu setzen. – Gerade in alltäglichen Situationen wie auch in der Praxis technischer Anwendun­ gen stoßen die Idealisierungen einer strikten logischen Formalisierung an Gren­ zen. Hier können neue Methoden zum Umgang mit unsicherem und vagem Wissen weiterhelfen. – Fallbasiertes Schließen, modellbasierte Systeme und qualitative Modellierung ge­ hören zum zentralen Methodeninventar wissensbasierter Systeme, deren haupt­ sächliche Einsatzgebiete in der Lösung komplexer Planungs-, Konfigurations- und Diagnoseprobleme liegen. – Gerade auf dem Gebiet der Planung wurden bahnbrechende Fortschritte erzielt, die zu effizienten Algorithmen für komplexe Planungsaufgaben und die dynami­ sche Planrevision führten. – Verfahren des Maschinellen Lernens sind die Grundlage von Programmsystemen, die aus „Erfahrung“ lernen, also neues Tatsachen- und Regelwissen gewinnen oder Priorisierungen adaptieren können. Sie sind u. a. auch für die Entdeckung zweckbestimmt relevanter Beziehungen in großen Datenmengen (Data Mining) von großer Bedeutung.

1 Einleitung

















| 21

Die in den letzten Jahren vielbeachteten Ansätze der tiefen neuronalen Netze zeichnen sich dadurch aus, dass sie über eine komplexe interne Struktur an Zwi­ schenschichten verfügen. So wird es möglich, sehr komplexe Abbildungen zu approximieren, bei denen direkt aus Rohdaten Entscheidungen getroffen werden können. Für verschiedene Anwendungsbereiche wie Objekterkennung, Sprach­ verarbeitung, Spiele oder Repräsentationslernen existieren verschiedene Archi­ tekturen. Aktuell werden Ansätze für vertrauenswürdiges, transparentes und robustes Ma­ schinelles Lernen entwickelt, um die häufig intransparenten Entscheidungen von neuronalen Netzen und anderen gelernten Modellen überprüfbar und nachvoll­ ziehbar zu machen. Hier werden zum einen regelbasierte Ansätze eingesetzt, um interpretierbare Surrogat-Modelle zu erzeugen, zum anderen werden Ex-postErklärungen generiert, um zu verdeutlichen, wie eine Entscheidung für eine spezifische Instanz zustande kommt. Verfahren zur Verarbeitung der natürlichen Sprache richten sich darauf, Einsicht in den „Mechanismus“ der Sprache – ihren Aufbau, ihre Verarbeitung und ihre Ver­ wendung – zu gewinnen und diese für die Mensch-Maschine-Interaktion nutzbar zu machen. Beim Bildverstehen geht es um Aufgaben der Wahrnehmung, um Merkmale aus optischen Daten zu gewinnen und daraus Interpretationen von stehenden und bewegten Bildern zu erzeugen. Zahlreiche Aufgaben der KI können durch Systeme von Constraints modelliert und gelöst werden, sodass man hier mit Recht von einer Querschnittsmethodik der KI sprechen kann. Softwareagenten sind softwarebasierte, autonome, intelligente Systeme, die ins­ besondere im Umfeld des Internets eine Vielzahl von Aufgaben lösen – als ein­ fachstes Beispiel sei hier nur das gezielte Sammeln und Filtern von Daten ge­ nannt. Komplexe Aufgaben werden typischerweise durch die Kooperation meh­ rerer Agenten bearbeitet. Im World Wide Web, das heute einen breiten Raum in unserem beruflichen und Alltagsleben eingenommen hat, werden unstrukturierte Informationen und in­ formelles Wissen in Form von Hypertext dargestellt. Ziel des Semantic Web ist es, mittels Verfahren der Wissensrepräsentation Informationen strukturiert und Wis­ sen formal im Web verteilt bereitzustellen, sodass daraus mithilfe automatisierter Schlussfolgerungen Antworten abgeleitet werden können. In der Anfangsphase der KI nahm die Beschäftigung mit Spielen breiten Raum ein, dienten sie doch als Vehikel zur Erforschung von Heuristiken und der Ent­ wicklung von Strategien. Mit dem neuen Forschungsgebiet der universellen Spiele wird eine Abstraktionsebene betreten mit dem Ziel, Computerprogramme zu ent­ werfen, die selbstständig lernen, Spiele zu spielen, und die damit eine weit höhere und allgemeinere Intelligenz als spezielle Spielprogramme zeigen.

22 | 1 Einleitung





Von intelligenten Maschinen wird erwartet, dass sie die Umgebung wahrnehmen, zielorientierte Handlungen planen und die dabei auftretenden Entscheidungen treffen können, wie dies Menschen auch tun würden. Assistenzsysteme sollen den Nutzer in seinem Handeln dadurch unterstützen, dass sie die Kontrolle und Steue­ rung der technischen Einrichtungen übernehmen, ohne dass der Nutzer explizit angeben muss, wie dies im Detail zu geschehen hat, um einen bestimmten Zweck zu erreichen. Mit der Entwicklung von Methoden der KI und ihres Einsatzes sind vielfältige ethische Fragen verbunden, die nicht nur für Forschung und Entwicklung der KI im engeren Sinne, sondern für die gesamte Gesellschaft relevant sind. Ihre sys­ tematische Darstellung und Diskussion ist eine wesentliche Voraussetzung für verantwortungsvolles Handeln in Forschung, Lehre und den praktischen Einsatz der KI.

Aus der Grundlagenforschung ging eine Reihe zunächst eher prototypischer Anwen­ dungssysteme hervor, viele ihrer Ergebnisse sind aber heute bereits Teil in der Praxis genutzter Anwendungen geworden. Die Vorteile der KI-Technologie sind im Wesentli­ chen von zweierlei Art: Zum einen hat sie neue Anwendungen eröffnet, wie z. B. im maschinellen Sprach- oder Bildverstehen, in der Robotik und mit Expertensystemen. Zum anderen aber ermöglicht sie auch bessere Lösungen für alte Anwendungen; hier­ zu gehören vor allem die maschinelle Unterstützung von Planen, Entscheiden und Klassifizieren sowie die Verwaltung, Erschließung und Auswertung großer Wissens­ bestände und schließlich die Simulation und die Steuerung technischer Anlagen. Ab etwa 1990 schien sich zunächst im Gebiet KI ein Paradigmenwechsel abzu­ zeichnen – von einer globalen Betrachtung intelligenten Verhaltens hin zu einer Sicht von einfacheren, interagierenden Systemen mit unterschiedlichen Repräsentationen oder auch gar keiner Repräsentation –, vertreten durch die Arbeiten zu Multiagen­ tensystemen, verteilter KI und neuronalen Netzwerken. Diese Ansätze bringen eine Erweiterung auf die Untersuchung „situierter“ Systeme ein, welche durch Senso­ ren und Aktuatoren in ständigem Austausch mit ihrer Umgebung stehen, um etwa auch während einer Problemlösung Situationsdaten aufzunehmen und auszuwerten. Doch wurden auch herkömmliche wissensbasierte Sichtweisen weiterentwickelt, so­ dass die heutige Situation eher durch das Eindringen wissensbasierter Methoden in vielfältige anspruchsvolle Anwendungssysteme gekennzeichnet ist. Manche Forde­ rungen nach einer feinkörnigen und umfassenden formalen Modellierung komple­ xer Anwendungsbereiche ließen sich nicht so einfach einlösen, wie man zunächst geglaubt hatte; vor allem aus Komplexitätsgründen müssen immer wieder Verein­ fachungen vorgenommen und Kompromisse zwischen formaler Ausdruckskraft und praktischer Beherrschbarkeit geschlossen werden. So bietet sich heute insgesamt ein Bild der KI, das durch eine Koexistenz unterschiedlicher Herangehensweisen, me­ thodischer Ansätze und Lösungswege gekennzeichnet ist und damit aber auch eine beachtenswerte Bereicherung erfahren hat.

Literaturverzeichnis

|

23

Bislang hat also kein einzelner Ansatz eine Perspektive geboten, mit der sich al­ le Aspekte intelligenten Verhaltens reproduzieren oder erklären ließen, wie es auf der Dartmouth-Konferenz als Programm formuliert wurde. Vor vielen Jahren hat der Scien­ tific American²⁶ Minsky mit dem treffenden Satz zitiert: „The mind is a tractor-trailor, rolling on many wheels, but AI workers keep designing unicycles.“ Erscheinen nach wie vor noch viele Fragen als grundsätzlich ungelöst, so gibt es doch Evidenz dafür, dass gerade die Integration verschiedener Ansätze weitergehende Perspektiven für die Grundlagenforschung und Anwendungsentwicklung eröffnet. Danksagung: Die Autoren danken Clemens Beckstein für eine Reihe hilfreicher Hin­ weise. An der Einleitung zu früheren Auflagen war Ipke Wachsmuth als Koautor be­ teiligt.

Literaturverzeichnis [1]

Agre, P. E. Computation and human experience. Cambridge University Press, Cambridge etc., 1997. [2] Arkin, R. C. Behavior-Based Robotics. MIT Press, Cambridge, MA, 1998. [3] Bermúdez, J. L. Cognitive science: An introduction to the science of the mind. Cambridge Uni­ versity Press, Cambridge, 2010. [4] Billard, A. Imitation: a means to enhance learning of a synthetic proto-language in an autono­ mous robot. In Dautenhahn, K. und Nehaniv, C. L. (Hrsg.), Imitation in Animals and Artifacts, S. 281–311. MIT Press, Cambridge, MA, 2002. [5] Bishop, C. M. Pattern recognition and machine learning. Springer, Berlin, 2006. [6] Boden, M. The creative mind: myths and mechanisms. Routledge, London, 2004. [7] Brachman, R. J. On the Epistemological Status of Semantic Networks. In Findler, N. V. (Hrsg.), Associative Networks: Representation and Use of Knowledge by Computers, S. 3–50. Academic Press, New York, 1979. [8] Braun, T. und Möller, R. Parameterised Queries and Lifted Query Answering. In IJCAI-18 Pro­ ceedings of the 27th International Joint Conference on Artificial Intelligence, S. 4980–4986. IJCAI Organization, 2018. [9] Breazeal, C. und Scassellati, B. A context-dependent attention system for a social robot. In Proc. Sixteenth International Joint Conference on Artificial Intelligence (IJCAI-99), S. 1146–1151, Stockholm, Sweden, 1999. [10] Bringsjord, S. und Govindarajulu, N. S. Artificial Intelligence. In Zalta, E. N. (Hrsg.), The Stan­ ford Encyclopedia of Philosophy. Metaphysics Research Lab, Stanford University, Winter 2019, 2019. [11] Brooks, R., Breazeal, C., Marjanovic, M., Scassellati, B. und Williamson, M. The Cog project: Building a humanoid robot. In Nehaniv, C. (Hrsg.), Computation for Metaphors, Analogy, and Agents, Nr. 1562 in LNAI, S. 52–87. Springer, New York, 1998. [12] Brooks, R. A. Intelligence without representation. Artificial Intelligence, 47:139–160, 1991.

26 Scientific American, Nov. 1993, Profiles: „Marvin L. Minsky – The Mastermind of Artificial Intelli­ gence“, S. 14–15.

24 | 1 Einleitung

[13] Bruner, J. S., Goodnow, J. J. und Austin, G. A. A Study of Thinking. Wiley, New York, 1956. [14] Cassell, J., Sullivan, J., Prevost, S. und Churchill, E. (Hrsg.). Embodied Conversational Agents. MIT Press, Cambridge, MA, 2000. [15] Chakraborti, T., Sreedharan, S. und Kambhampati, S. The Emerging Landscape of Explainable Automated Planning & Decision Making. In Proceedings of the 29th International Joint Confer­ ence on Artificial Intelligence, S. 1–8, 2020. [16] Chomsky, N. Syntactic Structures. Mouton, The Hague, 1957. [17] Cianciolo, A. T. und Sternberg, R. J. Intelligence: A brief history. Blackwell Publishing, Malden, MA, 2004. [18] Copeland, B. J. und Proudfoot, D. On Alan Turing’s Anticipation of Connectionism. Synthese, 108(3):361–377, 1996. [19] Cropper, A., Dumancic, S. und Muggleton, S. Turning 30: New Ideas in Inductive Logic Pro­ gramming. In International Joint Conferences on Artifical Intelligence (IJCAI), 2020. [20] Dietterich, T. G. Steps Toward Robust Artificial Intelligence. AI Magazine, 38(3):3–24, 2017. [21] Ferrucci, D., Brown, E., Chu-Carroll, J., Fan, J., Gondek, D., Kalyanpur, A. A., Lally, A., Mur­ dock, J. W., Nyberg, E., Prager, J. et al. Building Watson: An overview of the DeepQA project. AI magazine, 31(3):59–79, 2010. [22] Frankish, K. und Ramsey, W. (Hrsg.). The Cambridge Handbook of Cognitive Science. Cam­ bridge University Press, Cambridge, 2012. [23] Gardner, H. The Mind’s New Science — A History of the Cognitive Revolution. Basic Books, New York, 1985. [24] Goodfellow, I., Bengio, Y. und Courville, A. Deep learning. MIT press, 2016. [25] Görz, G. Some Remarks on Modelling from a Computer Science Perspective. HSR Historical So­ cial Research, Special Issue: Models and Modelling between Digital and Humanities – A Mul­ tidisciplinary Perspective. Ciula, Arianna and Eide, Oyvind and Marras, Cristina and Sahle, Patrick (Eds.), HSR Supplement(31):163–169, 2018. [26] Gratch, J., Rickel, J., André, E., Badler, N., Cassell, J. und Petajan, E. Creating Interactive Virtual Humans: Some Assembly Required. IEEE Intelligent Systems, 2:2–11, July/August 2002. [27] Gulwani, S., Hernández-Orallo, J., Kitzelmann, E., Muggleton, S. H., Schmid, U. und Zorn, B. Inductive programming meets the real world. Communications of the ACM, 58(11):90–99, 2015. [28] Gutmann, M. und Rathgeber, B. Kognitive Metaphern. In Bölker, M., Gutmann, M. und Hes­ se, W. (Hrsg.), Information und Menschenbild, S. 115–137. Springer, Heidelberg, 2010. [29] Harnad, S. The symbol grounding problem. Physica D, 42:335–346, 1990. [30] Hebb, D. O. The Organization of Behavior. Wiley, New York, 1949. [31] Hitzler, P., Krötzsch, M. und Rudolph, S. Foundations of Semantic Web Technologies. Chapman & Hall/CRC Press, Boca Raton, 2009. [32] Hochreiter, S. und Schmidhuber, J. Long short-term memory. Neural computation, 9(8):1735–1780, 1997. [33] Irrgang, B. und Klawitter, J. Künstliche Intelligenz – Technologischer Traum oder gesellschaft­ liches Trauma. In Irrgang, B. und Klawitter, J. (Hrsg.), Künstliche Intelligenz, S. 7–54. Hirzel, Edition Universitas, Stuttgart, 1990. [34] Kaplan, C. und Simon, H. In search of insight. Cognitive Psychology, 22:374–419, 1990. [35] Klose, G., Lange, E. und Pirlein, T. Ontologie und Axiomatik von LILOG. Springer (IFB 307), Ber­ lin, 1992. [36] Krizhevsky, A., Sutskever, I. und Hinton, G. E. Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems, S. 1097–1105, 2012. [37] LeCun, Y., Bengio, Y. und Hinton, G. Deep learning. nature, 521(7553):436–444, 2015. [38] Lenat, D. B. und Guha, R. V. Building Large Knowledge-Based Systems — Representation and Inference in the Cyc Project. Addison-Wesley, Reading, MA, 1990.

Literaturverzeichnis

|

25

[39] Lobin, H. Situiertheit. Künstliche Intelligenz (Rubrik KI-Lexikon), 1:63, 1993. [40] Mahr, B. Chaos-Connection. Einwände eines Informatikers. Kursbuch, 98:83–99, 1989. [41] Marcus, G. und Davis, E. Rebooting AI. Building Artificial Intelligence We Can Trust. Pantheon Books, New York, 2019. [42] McCorduck, P. Machines Who Think. Freeman, San Francisco, 1979. [43] McCulloch, W. S. und Pitts, W. A Logical Calculus of the Ideas Immanent in Nervous Activity. Bulletin of Mathematical Biophysics, 5:115–133, 1943. [44] Miller, T. Explanation in artificial intelligence: Insights from the social sciences. Artificial Intel­ ligence, 267:1–38, 2019. [45] Mittelstrass, J. (Hrsg.). Enzyklopädie Philosophie und Wissenschaftstheorie, 8 Bde. J. B. Metz­ ler, Stuttgart and Weimar, 2. Aufl., 2005–2018. [46] Mittelstrass, J. (Hrsg.). Leibniz und Kant. Erkenntnistheoretische Studien. de Gruyter, Berlin/ Boston, 2010. [47] Möller, R., Lambrinos, D., Roggendorf, T., Pfeifer, R. und Wehner, R. Insect Strategies of Visual Homing in Mobile Robots. In Consi, T. R. und Webb, B. (Hrsg.), Biorobotics — Methods and Applications, S. 37–66. AAAI Press, Menlo Park, 2001. [48] Muggleton, S. H., Schmid, U., Zeller, C., Tamaddoni-Nezhad, A. und Besold, T. Ultra-strong Machine Learning: Comprehensibility of programs learned with ILP. Machine Learning, 107(7):1119–1140, 2018. [49] Neches, R., Fikes, R., Finin, T., Gruber, T., Patil, R., Senator, T. und Swartout, W. Enabling Tech­ nology for Knowledge Sharing. AI Magazine, 12(3):37–56, 1991. [50] Newell, A. Physical Symbol Systems. Cognitive Science, 4:135–183, 1980. [51] Newell, A. The Knowledge Level. AI Magazine, 2(2):1–20, 1981. [52] Newell, A., Shaw, J. C. und Simon, H. A. Chess playing programs and the problem of complexity. IBM Journal of Research and Development, 2(4), 1958. [53] Newell, A. und Simon, H. A. Human Problem Solving. Prentice-Hall, Englewood Cliffs, N. J., 1972. [54] Nida-Rümelin, J. und Weidenfeld, N. Digitaler Humanismus. Eine Ethik für das Zeitalter der Künstlichen Intelligenz. Piper, München, 2018. [55] Niepert, M. und Van den Broeck, G. Tractability through Exchangeability: A New Perspective on Efficient Probabilistic Inference. In AAAI-14 Proceedings of the 28th AAAI Conference on Artificial Intelligence, S. 2467–2475. AAAI Press, 2014. [56] Pfeifer, R. und Scheier, C. Understanding Intelligence. MIT Press, Cambridge, MA, 1999. [57] Poole, D. First-order Probabilistic Inference. In IJCAI-03 Proceedings of the 18th International Joint Conference on Artificial Intelligence, S. 985–991. IJCAI Organization, 2003. [58] Rosenblatt, F. Strategic Approaches to the Study of Brain Models. In von Foerster, H. (Hrsg.), Principles of Self-Organization, S. 387. Pergamon Press, Elmsford, N. Y., 1962. [59] Russell, S. Human compatible: Artificial intelligence and the problem of control. Penguin, New York, 2019. [60] Russell, S. und Norvig, P. Artificial Intelligence – A Modern Approach. Prentice-Hall, Englewood Cliffs, N. J., 2010. [61] Schmid, U. Cognition and AI. KI – Zeitschrift für Künstliche Intelligenz, 22(1):5–7, 2008. [62] Schmid, U. und Finzel, B. Mutual Explanations for Cooperative Decision Making in Medicine. KI – Zeitschrift für Künstliche Intelligenz, 34(2):1–7, 2020. [63] Schmidhuber, J. Deep learning in neural networks: An overview. Neural Networks, 61:85–117, Jan 2015. [64] Schölkopf, B. und Smola, A. J. Learning with Kernels: Support Vector Machines, Regularization, Optimization and Beyond. MIT Press, Cambridge, MA, 2002.

26 | 1 Einleitung

[65] Shannon, C. E. und McCarthy, J. Automata Studies. Princeton University Press, Princeton, NJ, 1956. [66] Silver, D., Schrittwieser, J., Simonyan, K., Antonoglou, I., Huang, A., Guez, A., Hubert, T., Baker, L., Lai, M., Bolton, A. et al. Mastering the game of Go without human knowledge. Na­ ture, 550(7676):354–359, 2017. [67] Snell, J., Swersky, K. und Zemel, R. Prototypical networks for few-shot learning. In Advances in neural information processing systems, S. 4077–4087, 2017. [68] Steels, L. The Puzzle of Language Evolution. Kognitionswissenschaft, 8:143–150, 2000. [69] Steels, L. und Vogt, P. Grounding Adaptive Language Games in Robotic Agents. In Hus­ bands, C. und Harvey, I. (Hrsg.), Proceedings of the Fourth European Conference on Artificial Life (ECAL-97), S. 474–482, Cambridge, MA, 1997. MIT Press. [70] Steil, J., Röthling, F., Haschke, R. und Ritter, H. Situated Robot Learning for Multi-Modal In­ struction and Imitation of Grasping. Robotics and Autonomous Systems (Special Issue on Imi­ tation Learning), 47:129–141, 2004. [71] Strube, G. (Hrsg.). Wörterbuch der Kognitionswissenschaft. Klett-Cotta, Stuttgart, 1996. [72] Strube, G. Generative theories in cognitive psychology. Theory & Psychology, 10:117–125, 2000. [73] Sutton, R. S., Barto, A. G. et al. Introduction to reinforcement learning, Band 135. MIT press Cambridge, 1998. [74] Tenenbaum, J., Griffiths, T. und Kemp, C. Theory-based Bayesian models of inductive learning and reasoning. Trends in Cognitive Sciences, 10(7):309–318, 2006. [75] Teuscher, C. Alan Turing: Life and Legacy of a Great Thinker. Springer, Berlin and Heidelberg, 2004. [76] Webb, B. Can Robots Make Good Models of Biological Behaviour? The Behavioral and Brain Sciences, 24(6):1033–1050, 2001. [77] Wedekind, H., Görz, G., Inhetveen, R. und Kötter, R. Modellierung, Simulation, Visualisierung: Zu aktuellen Aufgaben der Informatik. Informatik-Spektrum, 21(5):265–272, 1998. [78] Winston, P. H. Artificial Intelligence. Addison-Wesley, Reading, MA, 3. Aufl., 1992. [79] Wooldridge, M. Introduction to Multiagent Systems. Wiley, New York, 2002. [80] Wooldridge, M. und Jennings, N. R. Agent Theories, Architectures, and Languages: A Survey. In Wooldridge, M. und Jennings, N. R. (Hrsg.), Intelligent Agents: Theories, Architectures, and Languages, Nr. 890 in LNAI, S. 1–21. Springer, Berlin, 1995.

2 Wissensrepräsentation und -verarbeitung Bernhard Nebel und Stefan Wölfl

2.1 Einleitung und Motivation Wissensrepräsentation und -verarbeitung (engl. knowledge representation and reason­ ing) ist eines der Kerngebiete der Künstlichen Intelligenz. In diesem Kapitel wollen wir einige der grundlegenden Annahmen dieses Gebiets präsentieren und Techniken so­ wie Methoden der Wissensrepräsentation skizzieren.

2.1.1 Wissen – wozu? Wir leben in einer Wissensgesellschaft. Diese Aussage wird häufig angeführt, um die Bedeutung von Wissen für die moderne Gesellschaft hervorzuheben. Etwas konkre­ ter besagt die Aussage, dass „Wissen“ eine essenzielle Ressource für die sozialen wie ökonomischen Prozesse in hoch entwickelten Gesellschaften darstellt. Wenn in die­ sem Zusammenhang von Wissen die Rede ist, so in einem weiten Sinne des Wortes: „Wissen“ meint hier nicht nur reines Faktenwissen, sondern subsumiert eine ganze Bandbreite von wissensbasierten Kontexten, etwa wissenschaftliche und industrielle Forschung, Technologien und Verfahrenstechniken, Bildung und Lernkompetenzen. Die Bedeutung von Wissen wird auch daran deutlich, dass Wissensinhalte heute in einem weltumspannenden Informationsnetzwerk, dem World Wide Web (WWW), je­ derzeit Millionen von Nutzern, Web-Diensten und künstlichen Agenten zur Verfügung stehen. Ein eindrucksvolles Beispiel stellt die Online-Enzyklopädie Wikipedia dar, die allein in ihrer deutschsprachigen Ausgabe mehr als fünf Millionen Einträge (Stand März 2020) umfasst und täglich um etwa 700 neue Artikel anwächst [45]. Aus Sicht der Informatik und speziell der Künstlichen Intelligenz stellt sich da­ her die Frage, wie diese Wissensinhalte so repräsentiert werden können, dass aus der großen Zahl an Informationsressourcen und -quellen neue Wissensinhalte extrahiert, aggregiert und schließlich wieder anderen Nutzern zur Verfügung gestellt werden kön­ nen. Kurz gesagt: Man benötigt Technologien zur Repräsentation und Verarbeitung von Wissen. Der technologische Aspekt ist hierbei wichtig: Wie wir in diesem Kapi­ tel sehen werden, beeinflusst die Wahl der Repräsentation (oder wie wir später sagen werden, der Repräsentationsformalismus) entscheidend, wie leicht oder wie schwierig sich bestimmte Problemstellungen bei der Wissensverarbeitung lösen lassen. Damit hängt die Güte eines Repräsentationsformalismus auch davon ab, welche Art von Pro­ blemen in einer gegebenen Anwendung gelöst werden soll. Im englischen Sprachge­ brauch hat sich daher auch der Term knowledge engineering eingebürgert, der diesen technologischen Aspekt des Forschungsgebiets Wissensrepräsentation und -verarbei­ tung unterstreicht. https://doi.org/10.1515/9783110659948-002

28 | 2 Wissensrepräsentation und -verarbeitung

Neben der Frage, wie wir Wissensinhalte repräsentieren können, sind in der prak­ tischen Anwendung natürlich auch Probleme der Verwaltung, der Vorhaltung und Si­ cherung von Wissensinhalten (engl. knowledge management) von Bedeutung, auch wenn wir dieses Thema im Rahmen dieses einführenden Kapitels nicht vertiefen kön­ nen. Eine typische Fragestellung des Wissensmanagements ergibt sich z. B. daraus, dass viele Wissensinhalte auch zukünftigen Generationen (von Menschen und Tech­ nologien) zur Verfügung stehen sollen. Dies stellt insofern ein Problem dar, als Wis­ sensinhalte, wie sie etwa im WWW zur Verfügung stehen, „kurzlebig“ sind, d. h., es ist absehbar, dass diese Inhalte aktualisiert werden (und damit die alten Inhalte nicht mehr zugänglich sind), dass Web-Ressourcen durch andere ersetzt werden, dass die Art der Wissensrepräsentation sich verändert etc. Wir haben diesen Abschnitt etwas provozierend mit der Frage „Wissen – wozu?“ überschrieben. Im Grunde versteht sich eine Antwort auf diese Frage von selbst. Wis­ sen benötigen wir nicht nur, um etwa neue Informationen oder Ereignisse zu ver­ stehen und zu bewerten, sondern auch, wenn wir uns in einer gegebenen Situati­ on entscheiden müssen, wie wir handeln sollen (und wollen). Je informierter unsere Entscheidungen sind, desto wahrscheinlicher werden wir in der Regel unsere Ziele verwirklichen können. Offensichtlich spielen hierbei ganz verschiedene Formen von Wissen eine Rolle, z. B. Wissen, das uns hilft, die gegebene Situation einzuschätzen, Wissen über die Alternativen, die man gerade hat, und Wissen darüber, mit welchen Handlungen gesteckte Ziele erreicht werden können. Damit dieses (Hintergrund-) Wis­ sen, also z. B. faktisches Wissen, kausales Wissen, Wissen über Normen und Gesetze, aber bei Entscheidungen einfließen kann, ist es notwendig, dieses Wissen zu verar­ beiten. Was folgt etwa aus unserem generellen Hintergrundwissen für die spezielle Situation, in der wir eine Entscheidung zu treffen haben? Wie können wir neue Erfah­ rungen auf der Basis unserer Wissensannahmen erklären? Wie integrieren wir neues Wissen in unsere bestehenden Annahmen? Und, ist all das, was wir zu wissen glau­ ben, denn überhaupt miteinander konsistent? Solche und ähnliche Fragen sind typische Problemstellungen, die auf dem Ge­ biet der Wissensrepräsentation und Wissensverarbeitung betrachtet werden. Wie wir im Weiteren ferner sehen werden, lassen sich viele dieser Probleme einer Lösung zu­ führen, indem man spezielle Inferenzmethoden entwickelt, mit denen sich neue Wis­ sensinhalte aus bestehenden Wissensannahmen generieren oder herleiten lassen. In diesem Sinne sind Themen der Wissensrepräsentation und Wissensverarbeitung ty­ pischerweise eng mit Theorien des Schlussfolgerns und somit mit formalen Logiksys­ temen verknüpft. Man mag sich in Zeiten, in denen die prominenteste KI-Methode Maschinelles Ler­ nen (Kapitel 11) ist, fragen, ob denn eine Beschäftigung mit dem Thema Wissensre­ präsentation überhaupt noch interessant ist. Speziell, da ja oft auch sog. End-to-End Learning [29] propagiert wird, bei dem ein System eine Fertigkeit erwirbt, ohne dass es an irgendeiner Stelle notwendig ist, explizit Wissen zu repräsentieren. Ohne jetzt schon auf eine Antwort einzugehen, wollen wir hier nur auf den eingeladenen Vortrag

2.1 Einleitung und Motivation

| 29

Learning World Models: the Next Step Towards AI von LeCun, auf der international KIKonferenz IJCAI-2018 verweisen, in dem LeCun, einer der Väter des Deep Learnings, durchaus die Wichtigkeit von explizitem Wissen hervorhebt. Wir werden am Ende des Kapitels diese Fragestellung noch einmal aufgreifen.

2.1.2 Wissensformen Wir haben bisher etwas vage von Wissen und Wissensinhalten gesprochen, ohne ei­ ne genaue Definition dieser Begriffe anzugeben. Was aber ist überhaupt Wissen? Um diese Frage zu beantworten, ist es sinnvoll, den Wissensbegriff zu klassifizieren, d. h. rein begrifflich, terminologisch, verschiedene Arten von Wissen zu unterscheiden. Ein erstes Unterscheidungsmerkmal betrifft den Gegenstand des Wissens, also die Art des Wissensinhalts (dessen, was gewusst wird). Von einem deskriptiven Wissen (oder auch propositionalem Wissen) spricht man, wenn der Gegenstand des Wissens eine Proposition oder ein Sachverhalt ist. Sprachlich drücken wir deskriptives Wissen in der Form „X weiß, dass P“ oder auch in der Form „X weiß, ob P“ aus, wo X der Wis­ sensträger und P eine Proposition ist.¹ Wenn man nun sagt, dass eine Person weiß, dass eine Proposition P wahr ist, so wird man dieser Person zunächst einmal zuspre­ chen, dass sie davon überzeugt ist, dass P der Fall ist. Im gewöhnlichen Sinne des Wortes wird man ferner davon ausgehen, dass die Person sich in dieser Überzeugung nicht irrt, d. h., dass P auch tatsächlich der Fall ist, die Proposition P also wahr ist.² Vom deskriptiven Wissen ist das prozedurale Wissen zu unterscheiden. Eine Per­ son kann z. B. wissen, dass sich eine Festplatte in Partitionen aufteilen lässt, ohne zu wissen, wie sich die Festplatte in Partitionen aufteilen lässt. Ein Informatikstudent im Grundstudium mag vielleicht das Pumping Lemma für reguläre Sprachen kennen, aber nicht imstande sein, dieses Lemma auch anzuwenden, um für eine gegebene for­ male Sprache zu zeigen, dass sie nicht regulär ist. Umgekehrt kann eine Person wis­ sen, wie man im Prinzip prüft, ob eine gegebene Zahl eine Primzahl ist, auch wenn sie

1 Tatsächlich lässt sich „wissen, ob“ auf „wissen, dass“ zurückführen. Dass ein Agent X weiß, ob P der Fall ist, heißt ja nicht anderes als, dass X weiß, dass P der Fall ist, oder weiß, dass P nicht der Fall ist. 2 Zur Frage, ob diese Gleichsetzung „Wissen = wahre Überzeugung“ eine sinnvolle Explikation des Wissensbegriffs ist, gibt es in der philosophischen Literatur eine ausführliche Diskussion. Manche Ar­ gumente lassen diese Gleichsetzung als zu eng erscheinen. So ist es durchaus sinnvoll zu sagen, dass ein Student weiß, dass die Lichtgeschwindigkeit 299.792.458 m/s beträgt, obgleich diese Aussage ei­ nen empirischen Sachverhalt darstellt und sich somit als falsch herausstellen kann (zumindest dann, wenn man die Aussage nicht als eine Folgerung aus einer Definition der Maßeinheit Meter mittels der Lichtgeschwindigkeit ansieht). Andere Argumente weisen dagegen die Definition von Wissen als wah­ re Überzeugung als zu weit aus. Hintergrund ist hier, dass man Überzeugungen, die eine Person nur zufälligerweise hat, für die die Person also z. B. keine Begründung hat, nicht als Wissen auszeichnen möchte [21; 28].

30 | 2 Wissensrepräsentation und -verarbeitung

nicht weiß, dass die Zahl 2311 eine Primzahl ist. Im Gegensatz zum propositionalen Wissen basiert prozedurales Wissen also auf Fertigkeiten und Kompetenzen, die man erlernt und eingeübt hat. Beide bisher besprochenen Wissensformen lassen sich nun jeweils weiter unter­ scheiden in einerseits explizites und andererseits implizites Wissen. Von einem expli­ ziten Wissen spricht man dann, wenn der Wissensinhalt in einer sprachlich fixierten Form vorliegt und damit insbesondere auch kommuniziert werden kann. Andernfalls spricht man von implizitem Wissen. Im Falle deskriptiven Wissens ist die Unterscheidung „explizit“ vs. „implizit“ ganz offensichtlich. Eine Person, die explizit weiß, dass die Summe der Innenwinkel in einem beliebigen Dreieck 180° beträgt, muss nicht auch explizit wissen, dass jeder Innenwinkel in einem gleichseitigen Dreieck gerade 60° beträgt. Sie weiß vielleicht nicht, dass die gleichseitigen Dreiecke gerade die gleichwinkligen Dreiecke sind und dass deshalb alle Winkel gleich sein müssen. Aber sie mag in der Lage sein, sich das herzuleiten. D. h. sie weiß diesen Sachverhalt, dass jeder Innenwinkel 60° beträgt, nicht explizit sondern nur implizit. Prozedurales Wissen ist häufig, aber nicht immer, implizit. Selbst langjährigen Autofahrern wird es z. B. schwer fallen, explizit zu erläutern, wie man ein Auto fährt; einer Fahrschullehrerin dagegen sollte dies möglich sein, d. h., sie sollte in der Lage sein, Subroutinen des Autofahrens zu erklären, also sprachlich zu vermitteln. Typi­ sche Beispiele für explizites, prozedurales Wissen begegnen uns in Gebrauchsanwei­ sungen oder in Kochrezepten. Wenn der Wissensträger nicht nur eine einzelne Person, sondern eine Gruppe von Personen (oder künstlichen Agenten) ist, so lassen sich ferner eine Reihe von beson­ deren Wissensbegriffen unterscheiden. Typische Beispiele sind die Begriffe verteiltes und gemeinsames Wissen. Verteiltes Wissen ist eine spezielle Form des impliziten Wis­ sens. Man kann z. B. sagen, dass eine Gruppe eine Proposition weiß, wenn diese Pro­ position aus der Gesamtheit dessen folgt, was die einzelnen Mitglieder der Gruppe wissen. Wenn also eine Person weiß, dass Erde, Merkur, Venus, Mars, Jupiter, Saturn, Uranus und Neptun Planeten in unserem Sonnensystem sind, aber unsicher ist, ob Pluto ein Planet ist, eine andere aber Person weiß, dass unser Sonnensystem acht Planten hat, diese aber nicht aufzählen kann, so weiß die Gruppe dieser beiden Per­ sonen (im Sinne der Begriffs verteilten Wissens), dass unser Sonnensystem genau aus den genannten Planten besteht, obwohl keine der beiden Personen dies (explizit oder implizit) weiß. Von einem gemeinsamen Wissen in einer Gruppe spricht man dagegen dann, wenn jeder in der Gruppe diesen Sachverhalt weiß und darüber hinaus auch weiß, dass alle anderen in der Gruppe den Sachverhalt wissen.³

3 Die logische Analyse des gewöhnlichen Wissensbegriffs wie auch der Begriffe verteiltes und gemein­ sames Wissen ist Gegenstand der epistemischen/doxastischen Logik [12].

2.1 Einleitung und Motivation

| 31

Der Bereich des deskriptiven Wissens lässt sich nun nochmals weiter unterglie­ dern, wenn man berücksichtigt, von welcher Art die gewussten Sachverhalte sind. Die einfachste Art von Propositionen sind solche, die einem Objekt eine bestimmte Eigen­ schaft zusprechen („Dieser Ball ist rot.“) oder aber ausdrücken, dass mehrere Objekte in einer bestimmten Relation zueinander stehen („Dieser Ball ist kleiner als jener.“). Bezieht sich Wissen auf solche Sachverhalte, so sprechen wir von faktischem Wissen (oder kurz: Faktenwissen). Neben Faktenwissen unterscheidet man häufig terminolo­ gisches und konditionales/kausales Wissen. Terminologisches Wissen (oder auch be­ griffliches Wissen) ist dadurch charakterisiert, dass die Wahrheit des gewussten Sach­ verhalts allein davon abhängt, wie bestimmte Begriffe in einer Sprache, besser in einer Sprachgemeinschaft (z. B. einer Expertengruppe), verwendet werden. Beispiele hier­ für sind etwa „Junggesellen sind unverheiratet“, „Pinguine sind Vögel“, „Pilze sind weder Pflanzen noch Tiere“. Von konditionalem Wissen [32] spricht man dann, wenn der Wissensinhalt eine Wenn-dann-Beziehung zum Gegenstand hat, also Sachverhalte, die sich ausdrücken lassen durch Aussagen wie z. B. „Wenn die Komponente X des Systems S ausfällt, so fällt das System S selbst ebenfalls aus.“, oder „Wäre die Komponente X des Systems S nicht ausgefallen, so wäre auch das System S nicht ausgefallen.“ Unter kausalem Wis­ sen versteht man Wissen, das sich auf kausale Zusammenhänge [39] bezieht, deren Bestehen also von der Gültigkeit kausaler Beziehungen abhängt und die sich daher durch Aussagen ausdrücken lassen, in denen von Ursachen, Wirkungen, kausalen Korrelationen oder Abhängigkeiten die Rede ist. Oftmals sind kausale Sachverhalte eine spezielle Form konditionaler Sachverhalte, etwa in „Übergewicht begünstigt Blut­ hochdruck“ oder „Der Ausfall der Komponente X könnte eine Ursache für den Ausfall des Systems S sein.“ Damit ist die Liste der verschiedenen Wissenstypen (aufgeschlüs­ selt nach der Art der gewussten Sachverhalte) aber bei Weitem nicht abgeschlossen: Es gibt temporales Wissen [13], räumliches Wissen [1], normatives Wissen [16], mora­ lisches Wissen, ästhetisches Wissen, Wissen über Präferenzen usw.

2.1.3 Repräsentation Damit ein künstlicher Agent oder ein wissensbasiertes System Wissen verarbeiten kann, muss dieses Wissen zunächst in irgendeiner Form repräsentiert sein. Ein künst­ licher Agent, der Skat spielt, muss die grundlegenden Spielregeln des Skats „beherr­ schen“ und auch über geeignete Funktionen verfügen, die die gegebene Spielsituation bewerten und es somit dem Spieler erlauben, vernünftige (erfolgswahrscheinliche) Aktionen auszuführen (etwa beim Reizen oder beim Ausspielen einer Karte). Tatsäch­ lich wird ein Skatspieler Wissen über das Skatspiel oftmals nur implizit repräsentieren (z. B. in der Implementierung der Spielregeln oder der Bewertungsfunktion). Während ein künstlicher Skatagent aber einfach nur gut Skat spielen soll, werden an Assistenz­ systeme, wie z. B. Apple’s Siri, ganz andere Anforderungen gestellt. Solche Systeme

32 | 2 Wissensrepräsentation und -verarbeitung

sollen u. a. Anfragen beantworten können, wobei aus den im System explizit oder implizit repräsentierten Informationen „neues“, explizites Wissen generiert wird. Die Idee wissensbasierter Systeme (wie etwa Assistenzsystemen) ist nun, solche An­ fragen unter Benutzung eines Korpus von explizit repräsentierten Wissensinhalten, einer sog. Wissensbasis, zu verarbeiten. Eine explizite Repräsentation, wie sie in einer Wissensbasis verwendet wird, kann man am Beispiel einer thematischen Karte verstehen, die einen bestimmten geogra­ fischen Aspekt, z. B. die durchschnittlichen Tagestemperaturen aufgeschlüsselt nach Regionen, abbildet. Eine solche thematische Karte stellt eine Repräsentation dar: Re­ gionen werden durch zweidimensionale Flächen repräsentiert, Einfärbungen dieser Regionen repräsentieren die durchschnittlichen Tagestemperaturen (entsprechend einer fest gewählten Klassifikation von Temperaturwerten). Wie dieses einfache Beispiel bereits zeigt, geht es bei einer Repräsentation um die Darstellung eines bestimmten Weltausschnittes, d. h., eine Repräsentation beruht auf einer Auswahl von Objekten und einer Auswahl von zu repräsentierenden Aspek­ ten. Wenn wir also eine bestimmte Domäne D von Entitäten repräsentieren wollen, so müssen wir zunächst auch angeben, welche der auf D gegebenen Eigenschaften, Rela­ tionen und Operationen von Interesse sind und daher repräsentiert werden sollen. Ist eine solche Menge F von zu repräsentierenden Relationen (aus Einfachheitserwägun­ gen beschränken wir uns hier auf Relationen) identifiziert, so benötigen wir für eine Repräsentation eine Menge von Repräsentanten und für jede Relation F aus F eine Re­ präsentation dieser Relation, die auf der Menge der Repräsentanten definiert ist. Will man z. B. die Elternbeziehungen („ist Mutter von“ und „ist Vater von“) in einer Mäuse­ population repräsentieren, so kann man analog zu einer Ahnentafel einen gerichteten Graphen angeben, der eine solche Repräsentation liefert: Die Knoten des Graphen re­ präsentierten die Mäuse; eine gerichtete Kante zwischen zwei Mäusen repräsentiert die Elternbeziehung und um „Mutter-“ und „Vater-“ Maus unterscheiden zu können, versehen wir die gerichteten Kanten noch mit jeweils unterschiedlichen Farben oder versehen sie mit einer Beschriftung „Mutter“ oder „Vater“ wie in Abbildung 2.1. Auch wenn wir bei dieser graphentheoretischen Repräsentation gerichtete (und gefärbte) Kanten verwendet haben, um eine bestimmte Relation zu repräsentieren, so ist doch klar, dass die Kanten wieder eine Relation definieren, nun nicht zwischen Mäusen, sondern zwischen den Knoten des Graphen, die die Mäuse aus unserer Po­ pulation repräsentieren. Wir können daher unter einer Repräsentation einer Domäne (D, {F i }i∈I ) eine Struktur (S, {F 󸀠i }i∈I , R) verstehen, wobei S eine Menge von Repräsen­ tanten, F 󸀠i eine zur Relation F i assoziierte Relation auf S und R ⊆ D × S eine Reprä­ sentationsrelation zwischen Domänenentitäten und Repräsentanten ist. An diese Re­ präsentationsstruktur wird man sinnvollerweise weitere Forderungen stellen: (a) Ein Element der Domäne wird durch höchstens einen Repräsentanten repräsentiert, ver­ schiedene Domänenentitäten haben verschiedene Repräsentanten und jeder Reprä­ sentant repräsentiert auch etwas; (b) wann immer Domänenentitäten x1 , . . . , x n ∈ D Repräsentanten besitzen und in einer der Eigenschaften aus F i ∈ F zueinander ste­

2.1 Einleitung und Motivation

m0

Vater Mutter

Vater

m3

m6 Mutter

Vater

m1

| 33

Vater Mutter

m4

Mutter

m7

Mutter Vater

m2

Vater

m5

Mutter

m8

m9

Abb. 2.1: Mäuseahnentafel

hen, so sollen die Repräsentanten in der dazu assoziierten Relation F 󸀠i zueinander stehen und umgekehrt (Entsprechendes gelte für Funktionen). In obigem Beispiel hatten wir eine graphentheoretische Repräsentation betrach­ tet. Eine solche Repräsentation hat Vorteile: Sie ist nicht nur einfach, sondern erlaubt es unmittelbar, graphentheoretische Algorithmen zu verwenden, um z. B. die Men­ ge aller Vorfahren einer Maus in der Population bestimmen zu können. Sie hat aber auch Nachteile. So verliert man die Einfachheit der Darstellung sofort, wenn z. B. nicht nur zweistellige Relationen, sondern höherstellige Relationen dargestellt werden sol­ len. Ferner ist man oftmals nicht nur an der Repräsentation einer spezifischen Si­ tuation, sondern allgemeiner an einem Repräsentationsschema interessiert, das sich einfach auf unterschiedliche Kontexte anwenden lässt. Daher liegt es nahe, anstel­ le graphentheoretischer Repräsentationen symbolische Repräsentationen zu betrach­ ten, bei denen Domänenentitäten und die Relationen zwischen ihnen durch Symbole repräsentiert werden. Eine besondere Form der symbolischen Repräsentation, näm­ lich die Repräsentation mittels logischer Formalismen, werden wir im Abschnitt 2.2 besprechen.

2.1.4 Wissensverarbeitung = Schlussfolgern Wenn wir von Wissensrepräsentation reden, dann geht es natürlich auch immer dar­ um, dieses Wissen zu nutzen, um bestimmte Aufgaben zu lösen. Das kann die Beant­ wortung einer Frage sein, wie z. B. welche Bücher Hector Levesque geschrieben hat, was ein Junggeselle ist oder welche Krankheit ich habe, wenn mir die Nase läuft und ich Gliederschmerzen habe. Die erste Frage betrifft faktisches Wissen und lässt sich leicht beantworten, wenn man eine Datenbank hat, die alle Bücher zusammen mit

34 | 2 Wissensrepräsentation und -verarbeitung

ihren Autoren enthält. Die zweite Frage betrifft offensichtlich terminologisches Wis­ sen und es geht hier darum, in einem geeigneten Lexikon die Definition des Begriffs nachzuschlagen. Die dritte Frage betrifft kausales Wissen über den Zusammenhang von Symptomen und Krankheiten. In all den genannten Fällen mag die Antwort der Frage direkt bereits in der Wis­ sensbasis repräsentiert sein und es geht nur darum, diese Antwort zu finden. Generell ist es aber nicht praktikabel, Antworten auf alle möglichen Fragen explizit zu reprä­ sentieren. Stattdessen setzt man Schlussfolgerungsprozeduren ein, um auch in Fällen, in denen die Wissensbasis keine explizite Antwort enthält, die Fragen beantworten zu können. Wollen wir beispielsweise wissen, ob Hans im Wissensrepräsentationskurs einen Freund trifft, so können wir aus der Tatsache, dass Peter ein Freund von Hans ist und Peter ebenfalls den Wissensrepräsentationskurs besucht, die Schlussfolgerung zie­ hen, dass man die Frage positiv beantworten kann. Um solche Schlussfolgerungen durchzuführen, ist es hilfreich, wenn das Wissen in einer Art und Weise repräsentiert ist, die es erlaubt, durch rein syntaktische Ma­ nipulationen der für die Repräsentation verwandten Symbole, solche Schlussfolge­ rungen zu erhalten. Ähnlich wie in der Arithmetik, wo wir die arithmetischen Ver­ knüpfungen auf mechanisch auszuführende Operationen reduzieren, die einfach auf dem Computer ausgeführt werden können, wollen wir Operationen auf repräsentier­ ten Wissensinhalten ausführen können. Wie wir sehen werden, ist die formale Logik ein mächtiges Hilfsmittel, um uns an dieser Stelle weiterzuhelfen. Die Beantwortung von Fragen ist natürlich nur eine mögliche Nutzung von reprä­ sentiertem Wissen. Jede andere Aufgabe, wie z. B. die Navigation eines Roboters durch einen Raum, die Planung einer Vorgehensweise zur Produktion eines Artefakts, das Verstehen gesprochener Sprache oder auch die Fehlerdiagnose von technischen Ge­ räten benutzt in irgendeiner Art repräsentiertes Wissen auf die eine oder andere Art. Oft wird dabei nur explizit repräsentiertes, faktisches Wissen genutzt. Zum Beispiel wird man bei der Roboternavigation Wissen über die gegebene Umgebung nutzen, für das keine weitere Verarbeitungsschritte erforderlich sind. Wird aber auch implizit repräsentiertes Wissen benötigt, das durch Schlussfol­ gerungsprozesse generiert werden soll, so müssen diese ggf. angestoßen werden. In diesem Kontext betrachtet man ein Wissensrepräsentationssystem oft als abstrakte Datenstruktur, mit der man nur mittels Operationen wie tell und ask kommuniziert. Man teilt dem System in einer geeigneten formalen Sprache per tell-Operationen neue Wissensinhalte mit und fragt per ask-Operation an, ob Wissensinhalte in der Wissens­ basis implizit oder explizit repräsentiert sind. Zusätzlich kann natürlich eine Operati­ on wie forget wünschenswert sein, um falsches oder nicht mehr gültiges Wissen aus einer Wissensbasis zu entfernen. Wir werden diese Operation, die in den Bereich der sog. Wissensrevision führt, allerdings im Weiteren nicht betrachten.

2.2 Deklarative Wissensrepräsentation

| 35

2.2 Deklarative Wissensrepräsentation Wie bereits bemerkt, kann Wissen implizit oder explizit sein. Innerhalb von KI-Syste­ men ist es ebenfalls so, dass Wissen entweder implizit beim Schreiben des Program­ mes mit eingeflossen ist oder dass es explizit unabhängig vom Programm repräsentiert wurde und auch unabhängig von dem speziellen Programm eine Bedeutung hat. In diesem Zusammenhang spricht man dann von deklarativer Wissensrepräsentation.

2.2.1 Wissensbasierte Systeme Von einem wissensbasierten System spricht man, wenn das für die Funktion des Sys­ tems notwendige Wissens explizit und unabhängig von dem System in einer sog. Wis­ sensbasis erfasst wurde. Damit erhält man zum einen die Möglichkeit, das Wissen auch unabhängig vom System zu inspizieren, zu verifizieren und zu modifizieren. Zum anderen wird es möglich, das repräsentierte Wissen auch in anderen Kontexten ein­ zusetzen. Um diese Ideen zu illustrieren, wollen wir ein kleines Beispiel betrachten. In Ab­ bildung 2.2 sehen wir ein kleines Prolog-Programm, das in der Lage ist, für einige der Mitglieder der Zähringer, eines im 11. und 12. Jahrhundert in Süddeutschland und in der Schweiz bedeutenden Fürstengeschlechts, die jeweiligen Eltern zu benennen. printE(ludwig_i) :- !, write("karl_friedrich und caroline_luise"). printE(karl_ludwig) :- !, write("karl_friedrich und caroline_luise"). printE(karl) :- !, write("karl_ludwig und amalie"). printE(alexander) :- !, write("karl und stephanie"). printE(X) :write("Keine Ahnung, wer die Eltern sind!"). Abb. 2.2: Stammbaum der Zähringer als Prolog-Programm

Während dieses kleine Programm seine Funktion erfüllt, kann man es nur in einem sehr eingeschränkten Sinne als wissensbasiertes System bezeichnen. Das Programm in Abbildung 2.3 erfüllt diese Bedingung sicherlich viel besser. Hier wird das Wissen über die Familienbeziehungen nicht in das Programm hin­ eincodiert, sondern als gesonderte Wissensbasis repräsentiert. Das heißt, man kann diesen Teil unabhängig betrachten, verstehen und modifizieren. Man kann diese Wis­ sensbasis auch unabhängig von dem Programm verwenden, um z. B. andere Famili­ enzusammenhänge aufzuspüren.

36 | 2 Wissensrepräsentation und -verarbeitung printE(X) :mutter(X,MX), vater(X,VX), !, write(VX), write(" und "), write(MX). printE(X) :write("Keine Ahnung, wer die Eltern sind!"). mutter(ludwig_i,caroline_luise). mutter(karl_ludwig,caroline_luise). mutter(karl,amalie). mutter(alexander,stephanie). vater(ludwig_i,karl_friedrich). vater(karl_ludwig,karl_friedrich). vater(karl,karl_ludwig). vater(alexander,karl). Abb. 2.3: Eltern von Mitgliedern der Zähringer, wissensbasiert erschlossen

Insgesamt sollte klar sein, dass es erhebliche Vorteile bringt, das Wissen auszu­ faktorisieren und separat zu behandeln. Aber natürlich muss man dafür auch einen Preis zahlen. Ein wesentlicher Preis ist, dass man dem explizit in einer Wissensbasis repräsentierten Wissen ja eine Bedeutung zuordnen möchte, die unabhängig von dem Programm ist, das auf der Wissensbasis operiert. Und hier stellt sich die Frage, welche Methode dafür am angemessensten ist. Hat man allerdings diesen Schritt getan, wird es für alle Beteiligten einfacher, über das repräsentierte Wissen zu kommunizieren, da man für die Bedeutung ja nicht mehr auf die Funktion referieren muss, die das Wissen in dem Programm spielt.

2.2.2 Die Rolle der Logik Die formale Logik bietet Werkzeuge, um das o. g. Problem, symbolischen Ausdrücken eine Bedeutung zuzuordnen, zu lösen. Aus diesem Grund spielt die formale Logik auch eine zentrale Rolle innerhalb der Forschung zur Wissensrepräsentation. Dabei gibt die formale Logik nicht nur Methoden vor, wie man symbolische Ausdrücke inter­ pretieren kann, sondern parallel dazu stellt sie auch Methoden bereit, durch syntak­ tische Manipulationen implizite Aussagen zu erschließen, die sich zwangsläufig aus den gegeben symbolischen Ausdrücken ergeben. Dabei ist es eigentlich nicht richtig, von der formalen Logik zu sprechen. Es gibt Standardlogiken, wie die Aussagenlogik und die Prädikatenlogik 1. Stufe (Kapitel 5). Diese werden auch gerne eingesetzt, wenn es um die Formalisierung bestimmter Wis­ sensbereiche geht. Daneben gibt es aber unzählige Varianten, wie intuitionistische Logiken, mehrwertige Logiken, Modallogiken, Relevanzlogiken, dynamische Logiken, Logiken höherer Stufe usw. All diesen ist gemeinsam, dass sie den Begriff der logi­ schen Folgerbarkeit definieren. Das heißt, es wird festgelegt, was aus einer Menge von

2.2 Deklarative Wissensrepräsentation

| 37

Prämissen notwendigerweise folgt. Daneben gibt es aber auch Logiken, sog. nicht mo­ notone Logiken, die darauf abzielen, den Begriff der plausiblen Folgerbarkeit formal zu erfassen (Kapitel 6). Man könnte jetzt meinen, dass diese Logiken direkt für die Repräsentation von Wissen eingesetzt werden. Dies ist allerdings nicht notwendigerweise der Fall. Statt­ dessen wird oft eine formale Sprache – ein Wissensrepräsentationsformalismus – für einen bestimmten Zweck entworfen, der nicht einer existierenden Logik entspricht. Um die Bedeutung der in einem Formalismus erlaubten symbolischen Ausdrücke – die Semantik eines Formalismus – zu spezifizieren und um Schlussfolgerungsproze­ duren zu entwerfen, werden dann aber logische Methoden eingesetzt. Eine Frage, die sich dabei ergibt, ist dann, warum man nicht so etwas wie einen universellen Wissensrepräsentationsformalismus entwirft, der in der Lage ist, alle For­ men menschlichen Wissens zu erfassen. Der wesentliche Grund dafür, nicht in solch eine Richtung zu gehen, ist, dass mit der Ausdruckskraft einer Logik auch die erfor­ derlichen Berechnungsressourcen wachsen. So ist es bereits für die Prädikatenlogik unentscheidbar, ob eine gegebene Aussage aus einer Menge von Prämissen logisch folgt. Allerdings kann man für jede prädikatenlogisch wahre Aussage einen Beweis finden. Für Logiken höherer Stufe gilt aber selbst dies nicht mehr, d. h., es gibt wahre Aussagen, die nicht bewiesen werden können. Da es bei der Wissensrepräsentation auch immer um die Verarbeitung geht, be­ schränkt man sich in diesem Kontext deshalb zumeist auf Formalismen, deren Aus­ druckskraft geringer als die der Prädikatenlogik 1. Stufe ist, um eben logische Schluss­ folgerungen effektiv berechnen zu können.

2.2.3 Schlussfolgerungstypen Die formale Logik erlaubt uns, die logisch zwingenden Schlüsse, die sog. deduktiven Schlüsse präzise zu fassen und tatsächlich auch operational auf dem Rechner umzu­ setzen. Aus einer gegebenen Menge von Prämissen die logisch zwingenden Konse­ quenzen zu berechnen, ist aber nicht die einzige Art, Schlüsse zu ziehen. Wie schon erwähnt, ist man oft auch an Schlüssen interessiert, die nur plausi­ bel, aber nicht logisch zwingend sind. Man spricht dann oft auch von anfechtbaren Schlussweisen (engl. defeasible reasoning), d. h., wir schließen etwas aus einer Menge von Prämissen, sind aber bereit diesen Schluss zurückzunehmen, wenn neue, weitere Annahmen dies erfordern. Solche Schlussweisen sind offensichtlich nicht monoton in dem Sinne, dass hier die Menge der Konsequenzen nicht unbedingt mit der Menge der Prämissen wächst. Oft macht man dabei Annahmen, die zwar in der Regel typischer­ weise stimmen, aber in Einzelfällen auch falsch sein können (engl. default reasoning). Wenn man beispielsweise erfährt, dass jemand einen Vogel besitzt, so wird man plau­ siblerweise schließen, dass dieser Vogel auch fliegen kann. Erfährt man dann zusätz­ lich, dass es sich um einen Strauß handelt, dann muss man diesen Schluss revidieren.

38 | 2 Wissensrepräsentation und -verarbeitung

Neben diesen annahmebasierten Schlussweisen existieren abduktive Schlüsse, bei denen man von Beobachtungen auf wahrscheinliche Ursachen schließt. Dies ist im­ mer dann der Fall, wenn man Diagnosen erstellt oder, wie Sherlock Holmes, versucht Verbrechen aufzuklären. Dabei beobachtet man Symptome, wie z. B. eine laufende Nase oder ein langes blondes Jahr auf der Jacke, und schließt dann, dass dafür ein Schnupfen bzw. die Begegnung mit einer blonden Person verantwortlich ist. Charak­ teristisch für diese Art von Schlüssen ist, dass man versucht, unter den vielen logisch möglichen Erklärungen die plausibelste zu finden. Daneben gibt es dann noch induktive Schlüsse, bei denen man von vielen Beob­ achtungen auf Gesetzmäßigkeiten schließt. Man zieht z. B. aus der Beobachtung, dass alle bisher erhaltenen E-Mails, in denen bestimmte Wörter enthalten sind, uninter­ essant waren, die Schlussfolgerung, dass zukünftige E-Mails, in denen solche Wörter enthalten sind, ebenfalls uninteressant sein werden. Diese Art des Schließens, die eng dazu verwandt ist, wie auch wir Menschen aus unseren Erfahrungen lernen, ist vom Blickwinkel der Künstlichen Intelligenz Gegenstand des Gebiets des Maschinellen Ler­ nens, und wir verweisen daher an dieser Stelle auf Kapitel 11. Neben dem Erschließen neuer Aussagen hat man oft noch ganz andere Ziele im Blick. Wenn man eine Menge von als wahr angenommen Prämissen gegeben hat, so beschränken diese die möglichen Situationen in der beschriebenen Welt. Oft ist man dann einfach an einer solchen möglichen Situation interessiert. Dies bezeichnet man dann als Modellkonstruktion. Solche Schlüsse spielen z. B. bei Konfigurations- und Planungsaufgaben eine große Rolle (Kapitel 10).

2.3 Ein Beispiel: Beschreibungslogiken Als Beispiel eines Repräsentationsformalismus wollen wir im Folgenden eine Sprache vorstellen, in der sich terminologisches Wissen repräsentieren lässt. Dieser Formalis­ mus gehört zur Familie der sog. Beschreibungslogiken [5]. Die grundlegende Idee die­ ser Logiken ist es, eine mit einer präzisen Semantik versehene Sprache zur Verfügung zu stellen, um Beziehungen zwischen Begriffen darzustellen.⁴ Mithilfe dieser Forma­ lismen können wir so z. B. Familienbeziehungen (wie sie etwa in Abbildung 2.3 in der Beschreibung der Familie der Zähringer vorkamen) definieren und diese Beziehun­ gen wiederum nutzen, um Verhältnisse zwischen den realen Familienmitgliedern der Zähringer (oder irgendeiner anderen Familie) zu beschreiben. Beschreibungslogiken sind insbesondere daher von Interesse, weil sie die formale Basis für die sog. Ontologiesprachen bilden, wie sie für das Semantic Web (Kapitel 18)

4 Beschreibungslogiken wurden gelegentlich auch als terminologische Logiken bezeichnet und sind eng verwandt zu den Formalismen der KL-ONE Familie [43], die wiederum aus den sog. Frame-basier­ ten Sprachen [35] hervorgegangen sind.

2.3 Ein Beispiel: Beschreibungslogiken |

39

genutzt werden. Beispiele für solche Ontologiesprachen sind die vom W3C-Konsor­ tium spezifizierten Sprachfamilien OWL und OWL 2.

2.3.1 Der Formalismus Unsere Repräsentationssprache enthält Begriffssymbole, die mit B bezeichnet werden und Objekte beschreiben, sowie Rollensymbole, die mit R bezeichnet werden und Be­ ziehungen zwischen jeweils zwei Objekten beschreiben. Zudem gibt es verschiedene Operatoren, mit denen wir Rollen und Begriffe kombinieren können, um neue Begriffs­ ausdrücke (im Folgenden mit C bezeichnet) zu gewinnen. Die Repräsentationssprache hat, formuliert in einer (abstrakten) BNF-Notation, folgende Gestalt: C





|

B

Begriffssymbole

|

C ⊓ C󸀠

Begriffskonjunktion

|

C ⊔ C󸀠

Begriffsdisjunktion

|

¬C

Begriffsnegation

|

∀R : C

Werterestriktion

|

∃R : C

existenzielle Restriktion

universelles Konzept

Die spezielle Sprache, die wir hier betrachten, trägt den Namen ALC (Attributive Lan­ guage with Complements) [42]. Die Begriffskonjunktion bezeichnet einen Begriff, der die Bedingungen beider Begriffe enthält. Beispielsweise bezeichnet die Begriffskon­ junktion (Mann ⊓ Elternteil) den Begriff Vater. Ebenso verhält es sich mit der Begriffs­ disjunktion und -negation. Die Werterestriktion bezeichnet Begriffe, bei denen die Rol­ lenfüller der angegebenen Rolle R die Restriktionen des gegebenen Begriffs C erfüllen. So bezeichnet der Begriffsausdruck (∀hatKind : Mann) den Begriff „jemand, der nur männliche Kinder hat“. Schließlich können mithilfe der Existenzrestriktion Begriffe beschrieben werden, bei denen es mindestens einen Rollenfüller gibt, der zu einem bestimmten Begriff gehört. Nehmen wir an, dass unser Vokabular die Begriffssymbole männlich, weiblich, Mensch, erwachsen und das Rollensymbol hatKind enthält. Dann können wir z. B. fol­ gende Begriffsausdrücke bilden: Männlich ⊓ Mensch ⊓ Erwachsen Mensch ⊓ ∃hatKind : ⊤ Die erste Zeile beschreibt den Begriff der menschlichen, männlichen Erwachsenen, oder einfach Mann. In der zweiten Zeile wird ein Mensch beschrieben, der mindestens ein Kind hat, also ein Elternteil. Um diese neu definierten Begriffe auch tatsächlich mit

40 | 2 Wissensrepräsentation und -verarbeitung

einem Symbol verknüpfen zu können, gibt es die Operatoren „⊑“ und „≐“, die für eine „partielle Definition“ bzw. „vollständige Definition“ stehen und genauer besagen, dass ein Begriff B von einem anderen Begriff C subsumiert wird (B ⊑ C) oder aber gleich zu C ist (B ≐ C). Zum Beispiel könnten wir folgende Begriffe einführen: Frau ⊑ Mensch ⊓ weiblich Mann ⊑ Mensch ⊓ männlich Elternteil ≐ Mensch ⊓ ∃hatKind : ⊤ Vater ≐ Mann ⊓ Elternteil Großelternteil ≐ Mensch ⊓ ∃hatKind : Elternteil Großmutter ≐ Frau ⊓ Großelternteil Diese nun eingeführten Begriffe, die die Terminologie unserer Anwendungsdomä­ ne bilden, können wir jetzt aufgrund ihrer Definitionen in einer Spezialisierungshier­ archie, auch Subsumptionshierarchie genannt, anordnen. Beispielsweise ist der Be­ griff Großmutter eine Spezialisierung von Elternteil. Um über konkrete Objekte zu reden, erweitern wir unsere Repräsentationsspra­ che um Mittel zur Beschreibung von Objekten. Wir schreiben o ∈ C, wenn das Ob­ jekt o zum Begriff C gehört. Also z. B. s ∈ Mensch, falls s ein Mensch ist. ⟨x, y⟩ ∈ R schreiben wir, wenn das Objekt y ein Rollenfüller für die Rolle R des Objektes x ist. ⟨s, st⟩ ∈ hatKind bedeutet z. B., dass das Objekt st das Kind von s ist. Dies erlaubt uns also, nicht nur terminologisches Wissen, sondern auch einfaches Faktenwissen zu repräsentieren. Im Kontext von Beschreibungslogiken bezeichnet man den termi­ nologischen Teil einer Wissensbasis meist als TBox und den Teil, in dem Faktenwissen (engl. assertions) spezifiziert wird, als ABox. Betrachten wir an dieser Stelle nochmals das Beispiel der Zähringer-Familie aus Abschnitt 2.2.1, so können wir das im dort angegebenen Prolog-Programm (Abbil­ dung 2.2) repräsentierte Wissen in unserem Formalismus nun wie folgt wiederge­ ben: caroline_luise ∈ Frau amalie ∈ Frau ⟨caroline_luise, ludwig_i⟩ ∈ hatKind ⟨caroline_luise, karl_ludwig⟩ ∈ hatKind ⟨amalie, karl⟩ ∈ hatKind ... Natürlich könnte man an dieser Stelle die Frage stellen, was wir durch die Einführung unseres Formalismus gegenüber einer Wissensrepräsentation mittels eines PrologProgramms gewonnen haben. Im Grunde könnten wir mittels Prolog-Programmen bei weitem mehr Wissen repräsentieren: Wir könnten in Prolog ja z. B. Begriffe defi­

2.3 Ein Beispiel: Beschreibungslogiken | 41

nieren wie „Mutter von mindestens drei Kindern“, die wir in unserem Formalismus nicht definieren können. Die wesentliche Idee hierbei ist nun, dass die Beschränkung der Ausdruckskraft eines Formalismus es ermöglicht, Anfragen an eine Wissensbasis effizienter zu beantworten, als dies für eine in einem Prolog-Programm spezifizierte Wissensbasis möglich wäre. Auf diesen entscheidenden Gesichtspunkt kommen wir nochmals in Abschnitt 2.3.5 zu sprechen.

2.3.2 Semantik Ein wesentlicher Schwachpunkt von frühen Repräsentationsformalismen ist es, dass die Bedeutung dieser Formalismen nur intuitiv und/oder durch das Systemverhalten gegeben ist. Beispielsweise kritisierte Woods [46], dass es keine Semantik der semanti­ schen Netze gäbe. Dies führte dazu, dass relativ viele (meist fruchtlose) Debatten über die Ausdrucksfähigkeit von Formalismen geführt wurden. Schlimmer noch, es war auch nicht klar, was denn nun tatsächlich mithilfe eines Repräsentationsformalismus repräsentiert werden kann. Eine Lösung dieses Problems ist es, eine formale Semantik anzugeben. Dabei gibt es natürlich erst einmal beliebige Möglichkeiten. Als Standardwerkzeug dafür haben sich jedoch logische Methoden bewährt. Wir haben damit also die Situation, dass zwar Logik selbst nicht als Repräsentationsformalismus benutzt wird, dass die verschiede­ nen Repräsentationsformalismen aber jeweils eine logische Semantik besitzen. Damit ist es möglich, – die Bedeutung von Repräsentationsformalismen zu kommunizieren, – die intendierte Semantik mit der formalen Spezifikation zu vergleichen [22], – die Ausdrucksfähigkeit von Repräsentationsformalismen zu bestimmen [2; 36], – die Berechenbarkeitseigenschaften von Repräsentationsformalismen zu bestim­ men [10; 31; 34], – Inferenzalgorithmen zu entwickeln und deren Korrektheit und Vollständigkeit zu beweisen [25; 42]. In unserem Fall könnten wir die Semantik unseres kleinen Repräsentationsformalis­ mus durch eine direkte Übersetzung in die Prädikatenlogik erster Stufe angeben. Je­ des Begriffssymbol B entspräche einem einstelligen Prädikat B(x). Jedes Rollensym­ bol R entspräche einem zweistelligem Prädikat R(x, y) und ein komplexer Begriffsaus­ druck C entspricht einer Formel C(x) mit einer freien Variablen x. Alternativ wollen wir die Semantik direkt mithilfe mengentheoretischer Ausdrü­ cke angeben. Wesentlicher Teil einer solchen mengentheoretischen Semantik ist eine Interpretation I bestehend aus einer Interpretationsfunktion ⋅I und einer nicht leeren Grundmenge U. Die Interpretationsfunktion weist jedem Begriffssymbol B eine Teil­ menge B I ⊆ U, jedem Rollensymbol R eine zweistellige Relation R I ⊆ U × U und jedem Symbol für Individuen a ein Element a I ∈ U zu. Komplexen Begriffsausdrücken kön­

42 | 2 Wissensrepräsentation und -verarbeitung

nen wir nun induktiv ebenfalls eine Extension wie folgt zuordnen: ⊤ I := U (C ⊓ C󸀠 )I := C I ∩ C󸀠I (C ⊔ C󸀠 )I := C I ∪ C󸀠I (¬C)I := U \ C I (∀R : C)I := {x ∈ U : für jedes y ∈ U mit (x, y) ∈ R I gilt: y ∈ C I } (∃R : C)I := {x ∈ U : es gibt ein y ∈ U mit (x, y) ∈ R I und y ∈ C I } Eine Interpretation I erfüllt nun eine Formel der Gestalt B ⊑ C, falls B I ⊆ C I , eine For­ mel der Gestalt B ≐ C, falls B I = C I , eine Formel der Gestalt a ∈ C, falls a I ∈ C I , und eine Formel der Gestalt ⟨a, b⟩ ∈ R, falls (a I , b I ) ∈ R M . Man sagt, dass I ein Modell einer Menge Σ solcher Formeln ist, falls I jede einzelne der Formeln aus Σ erfüllt. Ei­ ne Menge von Formeln heißt erfüllbar, falls sie ein Modell hat. Schließlich definieren wir auch den Folgerungsbegriff: Eine Formel φ folgt aus einer Menge Σ von Formeln (symbol. Σ 󳀀󳨐 φ), falls jedes Modell von Σ auch φ erfüllt. Alternativ zu einer Semantik, die alle Terme der Sprache in mengentheoretische Ausdrücke übersetzt, sind auch andere Möglichkeiten denkbar. Beispielsweise könn­ ten wir die Repräsentationssprache in (ein Fragment) der Prädikatenlogik überset­ zen, wie oben skizziert. Daneben eignen sich aber auch andere Logiken. Insbesonde­ re Modallogiken [14] sind dabei gute Kandidaten. Tatsächlich kann man viele termi­ nologische Sprachen als notationelle Varianten von bestimmten Multimodallogiken auffassen [41].

2.3.3 Inferenzdienste Mit der im letzten Abschnitt definierten Semantik können wir nun eine Reihe von Pro­ blemstellungen genauer spezifizieren, die sich ergeben, wenn eine Wissensbasis in unserem Beispielformalismus vorliegt. Hat man algorithmische Lösungen für diese Problemstellungen gefunden, so kann ein Tool, das diese Algorithmen implementiert, Inferenzdienste anbieten, die es dem Anwender erlauben, Anfragen an eine Wissens­ basis zu beantworten. Ein Anwender, der eine Wissensbasis in unserem Beschreibungsformalismus spe­ zifiziert, könnte z. B. daran interessiert sein zu prüfen, ob die von ihm entworfene Ter­ minologie insofern sinnvoll ist, dass alle definierten Begriffe konsistent, d. h. erfüll­ bar, sind. Gerade bei großen Terminologien kann es passieren, dass man solche nicht erfüllbaren Konzepte spezifiziert. Schreiben wir T für den terminologischen Teil der Wissensbasis und ⊥ als eine Abkürzung für den Begriffsausdruck ¬⊤, so kann man dieses Problem in symbolischer Form durch die Frage „T 󳀀󳨐 B ⊑ ⊥?“ beschreiben.

2.3 Ein Beispiel: Beschreibungslogiken | 43

Denn offensichtlich gilt T 󳀀󳨐̸ B ⊑ ⊥ genau dann, wenn es ein Modell M von T (also eine Interpretation aller Begriffssymbole) gibt, derart dass B M keine Teilmenge der leeren Menge, also B M selbst nicht leer ist. Weitere Inferenzdienste, die die Terminologie betreffen, ergeben sich daraus, dass man z. B. überprüfen möchte, ob ein Begriff C (genauer: ein durch C ausgedrückter Begriff) von einem anderen Begriff C󸀠 subsumiert wird (T 󳀀󳨐 C ⊑ C󸀠 ) oder ob C und C󸀠 gar den gleichen Begriff ausdrücken (T 󳀀󳨐 C ≐ C󸀠 ). Man kann des Weiteren auch die Anfrage stellen, ob die gesamte Wissensbasis, also Terminologie T und das in der Wissensbasis spezifizierte Faktenwissen A konsis­ tent ist, ob es also ein Modell gibt, das alle Formeln aus der Menge T∪A zugleich erfüllt (man sagt dann auch, dass A mit T konsistent ist). Diese Fragestellung ist natürlich nur dann interessant, wenn überhaupt Faktenwissen vorhanden ist, denn in unserem Formalismus hat eine TBox stets ein Modell (wenn vielleicht auch nur eines, in dem einzelne Begriffsextensionen leer sind). In Bezug auf das früher angegebene Beispiel der Zähringer-Familie lässt sich natürlich einfach feststellen, dass die faktische Be­ schreibung der Familienverhältnisse der Zähringer mit den allgemeinen Definitionen von Familienkonzepten konsistent ist. Einer der wichtigsten Inferenzdienste ist es zu prüfen, ob ein in der Wissensbasis spezifiziertes Objekt a Instanz eines Begriffs C ist. An dieser Stelle wollen wir dar­ auf hinweisen, dass für die meisten Wissensbasen eine Antwort auf diese Frage nicht eindeutig ist, d. h., Wissensbasen können verschiedene Modelle besitzen, solche, in denen a ∈ C gilt, und solche, in denen a ∈ C nicht gilt. Meist stellt man die Frage da­ her in der Form, ob a Instanz des Konzepts C sein muss, d. h., dass aus Terminologie plus Faktenwissen logisch folgt, dass a Instanz von C ist (T ∪ A 󳀀󳨐 C(a)). Entsprechen­ des muss man berücksichtigen, wenn man zu einem gegebenen Begriff C alle in der Wissensbasis spezifizierten Objekte ausgeben will, die Instanz von C sein müssen.

2.3.4 Inferenzalgorithmen Eine Repräsentationssprache gibt uns die Ausdrucksmittel, um das Wissen einer An­ wendungsdomäne zu beschreiben. Die mit der Sprache assoziierte Semantik verrät uns, welche formale Bedeutung ein gegebener Repräsentationsausdruck hat und wie die Dienste eines Repräsentationssystems zu interpretieren sind. Was uns jetzt noch fehlt, ist die Mechanisierung, die Algorithmisierung, der Dienste eines Repräsenta­ tionssystems. Wie muss ein Algorithmus aussehen, der bei gegebener Wissensbasis entscheidet, ob ein bestimmter Begriff konsistent ist? Wie muss ein Algorithmus aus­ sehen, der für einen Begriff alle in der Wissensbasis spezifizierten Instanzen des Be­ griffs ausgibt? Wie sieht ein Algorithmus aus, der eine Spezialisierungshierarchie ei­ ner Menge von Begriffen berechnet? Und angenommen, wir haben auf alle diese Fra­ gen Antworten gefunden, wie können wir zeigen, dass die Algorithmen tatsächlich die in sie gesetzten Erwartungen erfüllen?

44 | 2 Wissensrepräsentation und -verarbeitung

Wir wollen mit der letzten Frage beginnen. Angenommen, wir haben einen Ent­ scheidungsalgorithmus (ein Algorithmus, der „ja“ oder „nein“ ausgibt) spezifiziert, von dem wir glauben, dass er entscheidet, ob ein beliebiges Objekt a zum Begriff C gehört. Dann müssen wir beweisen, dass – immer, wenn der Algorithmus eine positive Antwort gibt, tatsächlich a ∈ C gilt, – immer, wenn a ∈ C gilt, der Algorithmus eine positive Antwort gibt und – der Algorithmus immer (bei jeder erlaubten Eingabe) terminiert. Die erste Bedingung bezeichnet man als Korrektheit, die zweite als Vollständigkeit des Algorithmus – wie bei logischen Kalkülen (Abschnitt 2.3.2). Die dritte Bedingung ist eine notwendige Bedingung dafür, dass es sich überhaupt um einen Algorithmus han­ delt. Wird die dritte Bedingung nicht erfüllt, sprechen wir von einer Prozedur. Aller­ dings kann es vorkommen, dass nicht alle drei Bedingungen zusammen erfüllt wer­ den können. Schlussfolgerung in der Prädikatenlogik erster Stufe ist beispielsweise unentscheidbar, d. h., dass man keinen korrekten und vollständigen Algorithmus an­ geben kann, der entscheidet, ob eine Aussage aus einer anderen folgt. Man kann al­ lerdings vollständige und korrekte Prozeduren für dieses Problem angeben, z. B. Re­ solution (Kapitel 5), die aber eben nicht immer terminieren. Offensichtlich können wir diese Eigenschaften nur dann untersuchen, wenn wir die Semantik des Repräsentationsformalismus formal angegeben haben. Außerdem ist es offensichtlich, dass wir einen Beweis nur dann führen können, wenn der Al­ gorithmus kompakt genug ist, sodass ein Beweis der Korrektheit und Vollständigkeit auch tatsächlich möglich ist. Aus diesem Grund wählt man eine möglichst abstrakte Form bei der Angabe des Algorithmus. Wir wollen beispielhaft für den oben angegebenen Repräsentationsformalismus einen abstrakten Algorithmus angeben, der Subsumption zwischen zwei Begriffen ent­ scheidet, d. h., der bestimmt, ob innerhalb einer gegebenen Terminologie T ein Be­ griff C spezieller als ein anderer Begriff C󸀠 ist, symbolisch T 󳀀󳨐 C ⊑ C󸀠 . Obwohl dies ja nur einer der Dienste ist, für die wir uns interessieren, ist die Aufgabenstellung doch so beschaffen, dass dieser Algorithmus verallgemeinert werden kann, um auch die anderen Dienste zu realisieren. Als ersten Schritt zur Berechnung der Subsumptionsrelation in einer Terminolo­ gie T geben wir jetzt ein einfaches Verfahren an, um bei der Subsumptionsbestim­ mung von der Terminologie zu abstrahieren. Dazu formen wir die Terminologie T in eine andere Terminologie T ∗ um, in der der ⊑-Operator nicht mehr vorkommt. Zu die­ sem Zweck führen wir für jedes partiell definierte Begriffssymbol ein neues Begriffs­ symbol ein, das auf der rechten Seite der Definition konjunktiv hinzugenommen wird, also z. B.: Frau ≐ Mensch ⊓ Weiblich ⊓ Frau∗ Mann ≐ Mensch ⊓ Männlich ⊓ Mann∗

2.3 Ein Beispiel: Beschreibungslogiken |

45

Die neuen Symbole Mann∗ , Frau∗ , . . . bleiben innerhalb der Terminologie undefi­ niert. Wie man sich leicht klar macht, ändert man durch diesen Übergang von T nach T ∗ nichts an der Bedeutung der ursprünglichen Begriffssymbole. Insbesondere bleibt die Subsumptionsbeziehung zwischen Begriffsausdrücken, die nur Symbole der ur­ sprünglichen Terminologie verwenden, von dieser Transformation unberührt. Wenn wir jetzt einen Begriffsausdruck C gegeben haben, so wollen wir mit E(C) seine Expansion bezüglich der Terminologie T ∗ bezeichnen, wobei mit Expansion die Ersetzung von Begriffssymbolen durch ihre Definition gemeint ist, die so lange durch­ geführt wird, bis nur noch undefinierte Begriffssymbole auftauchen. Beispielsweise ist E(Großmutter): Mensch ⊓ Weiblich ⊓ Frau∗ ⊓ Mensch ⊓ ∃hatKind : (Mensch ⊓ ∃hatKind : ⊤) . Die Funktion E(⋅) ist natürlich nur dann wohldefiniert, wenn 1. jedes Begriffssymbol höchstens einmal auf der linken Seite einer Definition auf­ taucht und 2. die Terminologie keine Zyklen enthält (d. h., man kann die Formeln in der Termi­ nologie so anordnen, dass auf der rechten Seite einer Definition nur Begriffssym­ bole vorkommen, die undefiniert sind oder aber in der Anordnung vorher definiert wurden). Wollen wir jetzt berechnen, ob T 󳀀󳨐 C ⊑ C󸀠 gilt, so können wir stattdessen auch be­ rechnen, ob E(C) von E(C󸀠 ) in der leeren Terminologie subsumiert wird, symbolisch 0 󳀀󳨐 E(C) ⊑ E(C󸀠 ). Damit können wir uns jetzt darauf konzentrieren, einen Algorith­ mus für die Bestimmung der Relation ⊑ in der leeren Terminologie zu entwerfen. Eine erste Idee für solch einen Algorithmus könnte sein, die beiden Ausdrücke E(C) und E(C󸀠 ) strukturell miteinander zu vergleichen. Dies ist auch tatsächlich ei­ ne Möglichkeit, wie Levesque und Brachman [31] gezeigt haben. Sie haben für ei­ ne Teilmenge des oben angegebenen Formalismus einen vollständigen und korrek­ ten Subsumptionsalgorithmus angeben, der auf strukturellem Vergleich basiert. Aller­ dings stellt sich heraus, dass die Verallgemeinerung dieses Vorgehens für mächtigere Formalismen, wie z. B. für den hier betrachteten Formalismus, aus mehreren Gründen nicht gangbar ist. Wir wollen hier einen anderen Weg gehen, der an die Constraint-Lösungsmetho­ de von Schmidt-Schauß und Smolka [42] angelehnt ist. Dazu machen wir uns zuerst klar, dass man Subsumption zwischen zwei Begriffsausdrücken auf Inkonsistenz ei­ nes Begriffsausdruck reduzieren kann, wobei ein Begriffsausdruck inkonsistent oder auch leer genannt wird, wenn man damit keine Objekte beschreiben kann, oder for­ mal, wenn C I = 0 für jede Interpretation I ist. Nun gilt folgende Äquivalenz: C ⊑ C󸀠 genau dann, wennC ⊓ ¬C󸀠 inkonsistent.

46 | 2 Wissensrepräsentation und -verarbeitung

Wenn wir also einen Algorithmus für Subsumption gefunden haben, können wir auch Inkonsistenz von Begriffsausdrücken entscheiden und umgekehrt.⁵ Da Algorithmen für Inkonsistenz einfacher zu entwickeln und verifizieren sind, werden wir uns darauf konzentrieren, genau so einen Algorithmus zu entwickeln. Die Idee dahinter ist relativ simpel. Man versucht auf allen möglichen Wegen ein Modell zu konstruieren, in dem der testende Begriffsausdruck eine Instanz hat. Gelingt dies, ist der Begriffsausdruck konsistent. Gelingt dies nicht – und haben wir tatsächlich alle Möglichkeiten für die Konstruktion eines solchen Modells ausgeschöpft – dann ist der Begriffsausdruck in­ konsistent. Um den Algorithmus möglichst einfach zu halten, werden wir den Begriffsaus­ druck vorher in eine Normalform, die sog. Negationsnormalform, überführen, in der der Negationsoperator nur direkt vor Begriffssymbolen steht. Ein beliebiger Begriffs­ ausdruck kann in seine Negationsnormalform überführt werden, indem man folgende Äquivalenzen ausnutzt: ¬(C ⊓ C󸀠 ) ≡ ¬C ⊔ ¬C󸀠 , ¬(C ⊔ C󸀠 ) ≡ ¬C ⊓ ¬C󸀠 , ¬(¬C) ≡ C , ¬(∀R : C) ≡ ∃R : ¬C , ¬(∃R : C) ≡ ∀R : ¬C . Um zu bestimmen, ob ein Ausdruck in Negationsnormalform inkonsistent ist, führen wir jetzt den Begriff eines Constraints ein. Ein Constraint ist entweder ein Ausdruck der Art (x : C) oder ein Ausdruck der Form (x R y) mit der intuitiven Bedeutung, dass das Objekt x zum Begriff C gehört bzw. dass die beiden Objekte x und y in der R-Bezie­ hung zueinander stehen. Eine Menge von Constraints wird Constraint-System genannt und im Folgenden mit C bezeichnet. Für einen gegebenen Begriffsausdruck C nennen wir das System {(x : C)} ein jungfräuliches Constraint-System und die Variable x wird Wurzelvariable genannt. Ein Constraint-System heißt erfüllbar, wenn der existenzielle Abschluss über die Konjunktion aller Constraints eine erfüllbare Formel ist. Ansons­ ten nennt man es unerfüllbar. Wir geben jetzt eine Menge von Transformationsregeln an, die die Erfüllbarkeitseigenschaft invariant lassen und entweder ein Objekt kon­ struieren, das alle Constraints erfüllt, oder zeigen, dass dies nicht möglich ist [24]. 1. C∪{x : (C⊓C󸀠 )} →⊓ C∪{x : (C⊓C󸀠 ), x : C, x : C󸀠 }, falls nicht schon {x : C, x : C󸀠 } ⊆ C. 2. C∪{x : (∃R : C)} →∃ C∪{x : (∃R : C), xRy, y : C}, falls es nicht schon eine Variable z gibt, sodass {x R z, z : C} ⊆ C (hierbei sei y eine neue Variable, die nicht in C vorkommt). 3. C∪{x : (∀R : C), x R y} →∀ C∪{x : (∀R : C), x R y, y : C}, falls nicht schon (y : C) ∈ C.

5 Voraussetzung dafür ist, dass wir Begriffskonjunktion und -negation in unserer Sprache zur Verfü­ gung haben.

2.3 Ein Beispiel: Beschreibungslogiken | 47

Es sollte klar sein, dass ein Constraint-System C nach der Anwendung einer der obigen Regeln genau dann erfüllbar ist, wenn das System vorher erfüllbar war. Was uns jetzt noch fehlt, ist eine Regel für die Begriffsdisjunktion. Im Gegensatz zu den anderen drei Regeln muss diese jedoch nicht deterministisch sein. Um zu prü­ fen, ob x : (C ⊔ C󸀠 ) erfüllbar ist, müssen wir zeigen, dass x : C oder x : C󸀠 erfüllbar ist. Die entsprechende Regel lautet daher: 󸀠 {C ∪ {x : (C ⊔ C ), x : C} oder 4. C ∪ {x : (C ⊔ C󸀠 )} →⊔ { 󸀠 󸀠 {C ∪ {x : (C ⊔ C ), x : C } , falls nicht schon (x : C) ∈ C oder (x : C󸀠 ) ∈ C. Falls ein Constraint-System erfüllbar ist, dann muss wenigstens eine der beiden Mög­ lichkeiten der Regel →⊔ zu einem erfüllbaren Constraint-System führen. Umgekehrt, falls ein Constraint-System unerfüllbar ist, wird das System nach der Anwendung von →⊔ unerfüllbar sein, egal welche Möglichkeit wir gewählt haben. Wenden wir diese vier Regeln auf ein jungfräuliches Constraint-System solange an, bis keine Regel mehr anwendbar ist, erhalten wir ein vollständiges Constraint-Sys­ tem, und ob ein vollständiges Constraint-System erfüllbar ist, kann man sehr einfach feststellen. Ein Paar von Constraints der Art (x : B), (x : ¬B), wobei B ein Begriffssym­ bol ist, wollen wir elementaren Widerspruch nennen. Offensichtlich ist ein ConstraintSystem nicht erfüllbar, falls es einen elementaren Widerspruch enthält. Gibt es keinen elementaren Widerspruch, dann können wir das vollständige Constraint-System be­ nutzen, um ein Modell aufzubauen, in dem die Wurzelvariable ein Objekt bezeichnet, das zu dem ursprünglichen Begriffsausdruck gehört. Mit den obigen Aussagen folgt daraus, dass der Begriffsausdruck C inkonsistent ist, genau dann, wenn jede mögliche Vervollständigung des jungfräulichen Con­ straint-Systems {x : C} einen elementaren Widerspruch enthält. Wir wollen die Vorgehensweise an einem kleinen Beispiel illustrieren. Wir wollen den Ausdruck (∃R : (B1 ⊔ B2 )) ⊓ (∀R : ¬B1 ) auf Erfüllbarkeit testen. Das heißt, wir kon­ struieren zuerst das jungfräuliche Constraint-System mit einem einzigen Constraint: C0 = {x : ((∃R : (B1 ⊔ B2 )) ⊓ (∀R : ¬B1 ))} . der Regel (1) können wir die Begriffskonjunktion zerlegen: C1 = C0 ∪ {x : (∃R : (B1 ⊔ B2 )), x : (∀R : ¬B1 )} . Mithilfe der Regel (2) können wir jetzt einen Rollenfüller für y für die R-Rolle einfüh­ ren: C2 = C1 ∪ {xRy, y : (B1 ⊔ B2 )} . Mithilfe der Regel (3) können wir die Werterestriktion auf den neuen Rollenfüller an­ wenden: C3 = C2 ∪ {y : ¬B1 } .

48 | 2 Wissensrepräsentation und -verarbeitung

Jetzt können wir schließlich die nicht deterministische Regel (4) anwenden, die uns entweder C4 = C3 ∪ {y : B1 } oder C󸀠4 = C3 ∪ {y : B2 } liefert. Beide Constraint-Syste­ me sind vollständig, da keine weiteren Regeln anwendbar sind. C4 enthält allerdings den elementaren Widerspruch {y : B1 , y : ¬B1 } und ist also unerfüllbar, während C󸀠4 einen solchen Widerspruch nicht enthält. Da es also mindestens eine mögliche Ver­ vollständigung gibt, die keinen Widerspruch enthält, ist der Begriffsausdruck nicht inkonsistent. Man kann einfach aus C󸀠4 ein Modell für unseren ursprünglichen Be­ griffsausdruck konstruieren. Obwohl dieses Verfahren erst einmal nicht wie ein Algorithmus aussieht, kann man sich leicht klarmachen, dass es tatsächlich immer terminiert und damit ein Ent­ scheidungsverfahren ist. Die wesentliche Idee bei einem Terminierungsbeweis für das oben angegebene Verfahren ist, dass die Transformationsregeln komplexe Ausdrü­ cke in einfachere Ausdrücke zerlegen. Die nicht deterministische Komponente kann man leicht beseitigen, indem man jeweils beide Möglichkeiten der Disjunktionsregel durchspielt. Natürlich wird man bei einer konkreten Implementierung nicht unbe­ dingt ein Constraint-System und Regelanwendungen benutzen, um den Inkonsistenz­ test zu realisieren, da dieses nicht sehr effizient ist. Stattdessen wird man vermutlich andere Möglichkeiten, wie z. B. den rekursiven Abstieg über die Struktur des Begriffs­ ausdrucks, benutzen. Für die Verifikation des Verfahrens ist die obige abstrakte Form eines Algorithmus jedoch ideal. Am Schluss dieses Abschnitts wollen wir noch einmal die Entwicklung unseres Inferenzalgorithmus zusammenzufassen. Wir waren ausgegangen von der Frage, wie wir T 󳀀󳨐 C ⊑ C󸀠 bestimmen können. Dieses Problem haben wir reduziert auf die Be­ rechnung von 0 󳀀󳨐 E(C) ⊑ E(C󸀠 ) – auf den Subsumptionstest von Begriffsausdrücken in der leeren Terminologie. Subsumption in der leeren Terminologie haben wir auf den Test der Inkonsistenz der Negationsnormalform von E(C) ⊓ ¬E(C󸀠 ) reduziert, was wie­ derum auf die Unerfüllbarkeit von Constraint-Systemen reduziert wurde. Das letzte Problem wurde schließlich gelöst, indem wir eine Menge von vier Transformationsre­ geln angegeben haben, die angewendet auf ein jungfräuliches Constraint-System ent­ weder immer zu einem elementaren Widerspruch führen und damit die Inkonsistenz beweisen, oder aber zu einem vollständigen Constraint-System ohne elementaren Wi­ derspruch, das es uns erlaubt, ein Modell zu konstruieren, das den ursprünglichen Konzeptausdruck erfüllt.

2.3.5 Berechenbarkeitseigenschaften Man kann sich an dieser Stelle fragen, was denn nun besonderes an unserem Reprä­ sentationsformalismus ist. Offensichtlich ist es doch möglich, ihn vollständig in die Prädikatenlogik einzubetten. Da wir wissen, wie vollständige und korrekte Dedukti­ onsverfahren für Prädikatenlogik aussehen, könnte man jetzt hergehen und solche Verfahren anwenden, statt sich den Kopf über spezielle Inferenzalgorithmen zu zer­

2.3 Ein Beispiel: Beschreibungslogiken |

49

brechen. Tatsächlich geht ein solches Argument jedoch am Kern der Sache vorbei. Um ein Beispiel aus der Bereich der Theoretischen Informatik zu geben, würde man ja auch die Untersuchung der Eigenschaften von kontextfreien Sprachen und die Ent­ wicklung von Parsingalgorithmen für spezielle kontextfreie Sprachen nicht mit dem Argument abtun, dass es sich hierbei nur um Spezialfälle von kontextsensitiven Spra­ chen handelt. Was uns an dieser Stelle interessiert, ist also die spezielle Struktur von Reprä­ sentationsformalismen, die unter Umständen effizientere Verfahren zulässt als allge­ meine Beweisverfahren für die Prädikatenlogik erster Stufe. Unter Umständen sind diese Verfahren so beschaffen, dass wir gewisse Garantien für die Inferenzverfahren abgeben können, z. B., dass wir für jede Eingabe nach endlicher Zeit eine Antwort be­ kommen oder sogar schon nach einer Zeit, die durch eine Funktion in der Länge der Eingabe begrenzt ist. Als Beispiel können wir hier unseren Repräsentationsformalismus betrachten, der offensichtlich die Eigenschaft hat, dass Subsumption entscheidbar ist, da wir ja ein Entscheidungsverfahren angeben können. Das heißt, wir haben gegenüber der Prädikatenlogik tatsächlich etwas gewonnen – auf dem Gebiet der Berechenbarkeits­ eigenschaften. Allerdings haben wir natürlich auch etwas von der Ausdrucksfähig­ keit der Prädikatenlogik eingebüßt. Solche Betrachtungen gehören zu einer der wich­ tigsten Aufgaben der Wissensrepräsentation, nämlich den richtigen Kompromiss zwi­ schen Ausdrucksfähigkeit und Berechenbarkeitseigenschaften zu finden [31]. Hierbei ist zu beachten, dass die spezielle syntaktische Struktur der Repräsen­ tationssprache nur eine relativ untergeordnete Rolle spielt. Würden wir statt der li­ nearen Form unseres Repräsentationsformalismus eine grafische Form wählen, die an semantischen Netzen orientiert ist, so mag man einen Vorteil bei der Präsentation des Wissens und einen heuristischen Vorteil beim Nachdenken über repräsentiertes Wissen und Inferenzverfahren zur Verarbeitung des Wissens haben. Solange aber die Ausdrucksfähigkeit von Formalismen gleich ist, d. h. salopp gesprochen, dass alles, was wir in dem einen Formalismus ausdrücken können, mit ungefähr dem gleichem Aufwand auch in dem anderen Formalismus ausdrückbar ist – ein Punkt, den man mithilfe der formalen Semantik überprüfen kann [2] –, solange werden auch Inferenz­ verfahren ungefähr den gleichen Aufwand benötigen. Nun ist die Unterscheidung in entscheidbare und unentscheidbare Probleme aber sehr grob und meist nicht sehr aussagekräftig. Viele im Prinzip entscheidbare Proble­ me können nichtsdestoweniger sehr kompliziert sein – so kompliziert, dass ein Algo­ rithmus mehr Laufzeit benötigt, als die zu erwartende Lebensdauer der Erde beträgt (auch wenn wir von sehr viel schnelleren Computern ausgehen). Wenn wir z. B. Brett­ spiele wie Schach oder Go betrachten, so ist das Problem den besten Zug zu finden im Prinzip entscheidbar, da es nur endlich viele Brettkonfigurationen gibt und somit auch nur endlich viele Spielverläufe. Die Anzahl der möglichen Brettkonfigurationen ist aber so groß, dass diese prinzipielle Entscheidbarkeit keine Relevanz für die Praxis besitzt.

50 | 2 Wissensrepräsentation und -verarbeitung

Eine feinere Unterteilung zur Beurteilung der Berechenbarkeitseigenschaften bie­ tet die Komplexitätstheorie [17; 38]. Man unterteilt hierbei die Menge aller Probleme in solche, für die Algorithmen existieren, deren Laufzeit in allen Fällen durch eine polynomiale Funktion in der Länge der Eingabe nach oben abgeschätzt werden kön­ nen und solche, bei denen keine Algorithmen mit dieser Eigenschaft existieren. Die ersteren werden als handhabbare Probleme bezeichnet. Der Grund für diese Art der Unterteilung liegt darin, dass man bei handhabbaren Problemen in der Regel davon ausgehen kann, dass auch relativ große Probleme noch in vernünftiger Zeit gelöst wer­ den können, insbesondere, wenn der Grad des Polynoms niedrig ist (≤ 3). Bei nicht handhabbaren Problemen steigt die notwendige Rechenzeit jedoch meist so schnell, dass nur relativ kleine Eingaben in vernünftiger Zeit bearbeitet werden können. Natürlich wäre es wünschenswert, dass die Inferenzprobleme von Repräsentati­ onsformalismen handhabbar sind, dass man also Inferenzalgorithmen angeben kann, die ein polynomiales Laufzeitverhalten haben. Levesque und Brachman [31] gehen sogar so weit, dass sie fordern, jeder Repräsentationsformalismus müsse diese Eigen­ schaft haben. Dies schränkt jedoch die Ausdrucksfähigkeit und/oder die Art der mög­ lichen Dienste sehr radikal ein, sodass diese Forderung meist nicht eingehalten wer­ den kann [11]. Wir wollen an dieser Stelle wieder unsere Repräsentationssprache und die Berech­ nung der Subsumptionsrelation als Beispiel heranziehen. Wenn wir den Constraint-Lö­ sungsalgorithmus, der im letzten Abschnitt entwickelt wurde, analysieren, so stellen wir fest, dass er einige Stellen enthält, die dazu führen, dass im schlechtesten Fall die Laufzeit exponentiell mit der Größe der Eingabe wächst. Natürlich stellt sich sofort die Frage, ob man es nicht besser machen könnte – ob das Subsumptionsproblem hand­ habbar ist und wir lediglich einen schlechten Algorithmus entworfen haben. Wenn man jetzt den Inferenzalgorithmus noch einmal betrachtet, stellt man fest, dass er selbst auf einer nicht deterministischen Maschine⁶ unter Umständen mehr als polynomial viel Zeit verbraucht. Das Zusammenspiel der →∃ - und der →∀ -Regel kann dazu führen, dass exponentiell viele Variablen eingeführt werden. Man kann in der Tat zeigen, dass das Subsumptionsproblem in unserem Formalismus zu den schwie­ rigsten Problemen einer Klasse von Problemen gehört, die dadurch beschrieben wer­ den kann, dass der Speicherplatzbedarf höchstens polynomial mit der Eingabegröße wächst (die Laufzeit aber nicht beschränkt ist) [42]. Diese Klasse heißt PSPACE und umfasst die bekanntere Klasse NP, in der alle Probleme liegen, die in polynomialer Laufzeit auf nicht deterministischen Maschinen entschieden werden können. Von die­ ser Klasse nimmt man an, dass ihre schwierigsten Probleme nicht in polynomialer Zeit entscheidbar sind.

6 Eine nicht deterministische Maschine kann man sich als einen normalen Computer vorstellen, der an bestimmten Punkten nicht deterministisch eine Entscheidung fällt. Man definiert dann, dass ein Problem von einer solchen Maschine gelöst wird, falls es eine Folge von solchen nicht deterministi­ schen Entscheidungen gibt, die zu einer Lösung führen.

2.3 Ein Beispiel: Beschreibungslogiken |

51

Diese sehr präzise Charakterisierung der Komplexität des Subsumptionsproblems macht zweierlei deutlich. Erstens wissen wir jetzt, dass wir tatsächlich keinen im Prin­ zip besseren Algorithmus als den oben angegebenen finden können.⁷ Zweitens ist jetzt klar, dass wir nicht damit rechnen können, dass wir ein Repräsentationssystem bauen können, das unter allen Umständen eine korrekte Antwort in vernünftiger Zeit liefert.

2.3.6 Jenseits von ALC Neben diesem im Detail beleuchteten Formalismus ALC kann man nun eine Vielzahl von Varianten betrachten. So gibt es einerseits deutlich ausdrucksstärkere Formalis­ men, z. B. solche, die noch weitere Konstruktoren für Begriffsausdrücke erlauben (z. B. Konstruktoren, die die Anzahl von Rollenfüllern abschätzen). Ferner kann man Be­ schreibungslogiken betrachten, in denen es möglich ist, die formalen Eigenschaften von Rollen genauer festzulegen, z. B. dass eine Rolle transitiv ist. Diese Konstruktoren und noch ein paar mehr sind beispielsweise in der Beschreibungslogik SHOIN enthal­ ten, die die formale Grundlage der Web-Ontologiesprache OWL-DL darstellt [27]. Die Weiterentwicklung dieser Sprache hat zu OWL 2 geführt [37], die auf der noch mächti­ geren Beschreibungslogik SHROIQ basiert [26]. SHROIQ lässt insbesondere Rollenin­ klusionsaxiome in begrenzter Weise zu, die im Allgemeinen zur Unentscheidbarkeit führen können. Während die bisher erwähnten Erweiterungen immer die Eigenschaft hatten, dass man ein Fragment der Prädikatenlogik erster Stufe erhielt, gibt es auch Konstruktoren (wie etwa der transitive Abschlusskonstruktor), die bewirken, dass sich der resultie­ rende Formalismus nicht mehr in die Prädikatenlogik erster Stufe einbetten lässt. Neben diesen ausdrucksstarken Formalismen sind auch Formalismen von prak­ tischem Interesse, die deutlich ausdrucksschwächer als die oben erwähnten ALC-Va­ rianten sind. Es zeigt sich z. B., dass (oftmals sehr große) medizinische Wissensbasen wie etwa SNOMED (Systematized Nomenclature of Medicine) mit sehr eingeschränkten Begriffskonstruktoren auskommen [44]. Insbesondere ist die Werterestriktion ∀R : C nicht erforderlich. Damit kann man dann den größten Teil der SNOMED-Wissensba­ sis mithilfe der Beschreibungslogik EL++ beschreiben, für die effiziente Schlussfolge­ rungsverfahren zur Verfügung stehen [4]. Dies heißt, dass man ausdrucksschwache Formalismen verwenden kann, um solches Wissen zu repräsentieren, aber effiziente Verfahren zur Verfügung hat, um Anfragen an solche Wissensbasen zu beantworten. Neben der Entwicklung neuer Schlussverfahren für weitere Beschreibungslogiken spielen auch Kombinationen mit anderen Wissensrepräsentationsformalismen eine wichtige Rolle. Beispiele dafür sind die Kombination von Beschreibungslogiken mit probabilistischen Formalismen [6], mit temporalen Wissensrepräsentationsformalis­ 7 Besser in dem Sinne, dass man mit polynomialer Laufzeit auskommt. Es kann durchaus sein, dass ein anderer Algorithmus in allen (oder fast allen) Fällen polynomial besser als der angegebene ist.

52 | 2 Wissensrepräsentation und -verarbeitung

men [3], und die Kombination mit Planungsformalismen [8]. Schließlich sind auch Knowledge-Engineering-Werkzeuge wie der Ontologieeditor Protégé [33] ein wichtiges Forschungsthema.

2.4 Zusammenfassung und Ausblick In diesem Kapitel haben wir einige Kernfragestellungen auf dem Gebiet der Wissensre­ präsentation und Wissensverarbeitung kennengelernt. Nach einem kleinen Streifzug durch verschiedene Spielarten des Wissens konnten wir uns zunächst davon über­ zeugen, dass es sinnvoll ist, in wissensbasierten Systemen das zu repräsentierende Wissen von den wissensverarbeitenden Prozeduren separiert zu halten. Ferner wur­ de die grundlegende Rolle der Logik für die Wissensrepräsentation beleuchtet. So er­ laubt es die Verwendung von logischen Methoden, Repräsentationsformalismen ei­ ne exakte Semantik zu geben: Dies ist eine wesentliche Grundvoraussetzung dafür, verschiedene Repräsentationsformalismen hinsichtlich ihrer Ausdrucksstärke zu ver­ gleichen und (sofern möglich) Übersetzungen zwischen diesen Formalismen anzu­ geben. Exemplarisch haben wir dann einen Repräsentationsformalismus vorgestellt, in dem sich terminologisches wie auch Faktenwissen repräsentieren lässt. Diesen For­ malismus, die Beschreibungslogik ALC, kann man als ein Fragment der Prädikatenlo­ gik erster Stufe verstehen, das im Vergleich zu dieser Logik aber deutlich ausdrucks­ schwächer ist. Wir konnten uns davon überzeugen, dass die Beschränkung der Aus­ drucksstärke jedoch in einem entscheidenden Vorteil mündet, wenn es darum geht, Inferenzanfragen an eine Wissensbasis zu beantworten, die nur die Ausdrucksmit­ tel dieses Formalismus verwendet. Neben diesem im Detail beleuchteten Formalis­ mus haben wir kurz alternative Formalismen vorgestellt, die deutlich ausdrucksstär­ ker oder aber erheblich ausdrucksschwächer sind, dafür aber bessere Berechnungs­ eigenschaften für wichtige Inferenzdienste aufweisen. Beschreibungslogiken stellen ein prominentes, aber beileibe nicht das einzige Pa­ radigma auf dem Gebiet der Wissensrepräsentation dar. Für die Repräsentation von regelbasiertem (also z. B. konditionalem oder kausalem) Wissen gibt es eine ganze Reihe von weiteren Formalismustypen. Um z. B. regelbasiertes Wissen als DefaultAnnahmen zu repräsentieren, bietet es sich an, diese im Rahmen der Antwortmen­ genprogrammierung (answer set programing) [18; 20] darzustellen. Für die Repräsen­ tation temporalen oder räumlichen Wissens bieten sich Constraint-basierte Formalis­ men an, um Inferenzen bezüglich den qualitativen Beziehungen zwischen zeitlichen oder räumlichen Entitäten zu ziehen [40]. Insgesamt konnte dieses Kapitel natürlich nur einen oberflächlichen Einstieg in das Gebiet der Wissensrepräsentation geben. Speziell wurden die Gebiete, die in an­ deren Teilen dieses Buches angesprochen werden, ausgelassen. Wer Interesse an dem Gebiet gefunden hat und sich weiter informieren möchte, dem seien die Lehrbücher

Literaturverzeichnis

| 53

von Brachman und Levesque [9] sowie Beierle und Kern-Isberner [7] empfohlen. Aktu­ elle Forschungsergebnisse findet man z. B. in den Proceedings der zweijährlich statt­ findenden International Conference on Knowledge Representation and Reasoning (KR). Aber auch die bedeutenden internationalen KI-Konferenzen IJCAI, AAAI und ECAI ha­ ben jeweils große Sektionen zum Thema Wissensrepräsentation. Zudem findet man interessante Beiträge auf diesem Gebiet in den wissenschaftlichen Zeitschriften Arti­ ficial Intelligence und Journal of Artificial Intelligence Research. Wie schon zu Beginn des Kapitels angemerkt, kann man sich natürlich die Fra­ ge stellen, ob Wissensrepräsentation durch Maschinelles Lernen nicht überflüssig ge­ macht wird. Kann man heute nicht alles lernen, statt es mühsam händisch explizit zu repräsentieren? Darauf gibt es mehrere Antworten. Zum Ersten ist oft das Wissen bereits explizit vorhanden, z. B. in Form von Web-Ontologien wie YAGO2 [23], die die Wordnet-Datenbasis mit Wikipedia und der Geonames-Datenbasis verknüpft. An sol­ chen Stellen macht es keinen Sinn, dieses Wissen erlernen zu wollen. Hinzu kommt, dass diese Art von Wissen auch nicht so gut den aktuellen Methoden des Maschinellen Lernens zugänglich ist. Deep Learning ist extrem gut geeignet, Wahrnehmungsproble­ me oder auch Steuerungsprobleme zu lösen, resultiert aber in Blackbox-Lösungen, die nicht generell und wenig flexibel und transparent sind. Methoden, die explizites, re­ präsentiertes Wissen einsetzen, haben dagegen diese Nachteile nicht, leiden aber un­ ter dem Skalierungsproblem [19]. Die interessanten Fragestellungen, die sich heute ergeben, sind solche, die die Kombination von solchen Ansätzen betrachten, um ihre Vorteile zu kombinieren und die Nachteile zu eliminieren. Ein solche interessante Kombination von Methoden ergibt sich beispielsweise, wenn man über sehr großen Wissensbasen wie YAGO2 [23] oder auch Cyc [30] Theo­ rembeweiser einsetzen will, um plausible Interpretationen von natürlichsprachlichen Texten zu erhalten. Hier ist es erforderlich, sich vor der Anwendung des Theorembe­ weisers auf relevante Teile der Wissensbasis zu beschränken. Eine interessante Va­ riante zur Lösung dieses sog. Axiom-Selektions-Problems setzt auf sog. Word-Embed­ dings [15]. Diese sind die Darstellung von Worten als Vektoren, die es erlauben, Worte auf ihre semantische Ähnlichkeit hin zu charakterisieren. Gewonnen werden sie durch Maschinelles Lernen bzw. statistische Verfahren.

Literaturverzeichnis [1]

Aiello, M., Pratt-Hartmann, I. und van Benthem, J. (Hrsg.). Handbook of Spatial Logics. Sprin­ ger, Berlin, Heidelberg, New York, 2007.

[2]

Baader, F. A Formal Definition for Expressive Power of Knowledge Representation Languages. In Proceedings of the 9th European Conference on Artificial Intelligence (ECAI-90), Stockholm, Sweden, 1990. Pitman.

[3]

Baader, F., Borgwardt, S., Koopmann, P., Ozaki, A. und Thost, V. Metric Temporal Description Logics with Interval-Rigid Names. In Frontiers of Combining Systems - 11th International Sym­ posium, FroCoS 2017, Brasília, Brazil, September 27-29, 2017, Proceedings, S. 60–76, 2017.

54 | 2 Wissensrepräsentation und -verarbeitung

[4]

[5]

[6]

[7] [8]

[9] [10] [11]

[12] [13] [14]

[15]

[16] [17] [18] [19]

[20] [21] [22] [23] [24]

Baader, F., Brandt, S. und Lutz, C. Pushing the EL Envelope. In Proceedings of the Nineteenth International Joint Conference on Artificial Intelligence (IJCAI-05), S. 364–369. Professional Book Center, 2005. Baader, F., Calvanese, D., McGuinness, D. L., Nardi, D. und Patel-Schneider, P. F. (Hrsg.). The Description Logic Handbook: Theory, Implementation, and Applications. Cambridge University Press, 2003. Baader, F., Ecke, A., Kern-Isberner, G. und Wilhelm, M. The Complexity of the Consistency Problem in the Probabilistic Description Logic ALC ME . In Frontiers of Combining Systems – 12th International Symposium, FroCoS 2019, London, UK, September 4-6, 2019, Proceedings, S. 167–184, 2019. Beierle, C. und Kern-Isberner, G. Methoden wissensbasierter Systeme - Grundlagen, Algorith­ men, Anwendungen. Springer-Vieweg, 6. Aufl., 2019. Borgida, A., Toman, D. und Weddell, G. E. On Special Description Logics for Processes and Plans. In Proceedings of the 32nd International Workshop on Description Logics, Oslo, Norway, June 18-21, 2019, 2019. Brachman, R. J. und Levesque, H. J. Knowledge Representation and Reasoning. Elsevier, 2004. Calì, A., Gottlob, G. und Lukasiewicz, T. A general Datalog-based framework for tractable query answering over ontologies. Journal of Web Semantics, 14:57–83, July 2012. Doyle, J. und Patil, R. S. Two Theses of Knowledge Representation: Language Restrictions, Taxonomic Classification, and the Utility of Representation Services. Artificial Intelligence, 48(3):261–298, April 1991. Fagin, R., Halpern, J. Y., Moses, Y. und Vardi, M. Y. Reasoning About Knowledge. .MIT Press, 1995 Fisher, M., Gabbay, D. M. und Vila, L. (Hrsg.). Handbook of Temporal Reasoning in Artificial Intelligence, Band 1 von Foundations of Artificial Intelligence. Elsevier, 2005. Fitting, M. C. Basic Modal Logic. In Gabbay, D. M., Hogger, C. J. und Robinson, J. A. (Hrsg.), Handbook of Logic in Artificial Intelligence and Logic Programming – Vol. 1: Logical Founda­ tions, S. 365–448. Oxford University Press, Oxford, UK, 1993. Furbach, U., Krämer, T. und Schon, C. Names Are Not Just Sound and Smoke: Word Embeddings for Axiom Selection. In Automated Deduction - CADE-27 - 27th International Conference on Automated Deduction, S. 250–268, 2019. Gabbay, D., Horty, J., Parent, X., van der Meyden, R. und van der Torre, L. (Hrsg.). Handbook of Deontic Logic and Normative Systems. College Publications, 2013. Garey, M. R. und Johnson, D. S. Computers and Intractability—A Guide to the Theory of NP-Com­ pleteness. Freeman, San Francisco, CA, 1979. Gebser, M., Kaminski, R., Kaufmann, B. und Schaub, T. Answer Set Solving in Practice. Synthesis Lectures on Artificial Intelligence and Machine Learning. Morgan & Claypool Publishers, 2012. Geffner, H. Model-free, Model-based, and General Intelligence. In Proceedings of the TwentySeventh International Joint Conference on Artificial Intelligence, (IJCAI-2018), July 13-19, 2018, Stockholm, Sweden, S. 10–17, 2018. Gelfond, M. Answer sets. In van Harmelen, F., Lifschitz, V. und Porter, B. (Hrsg.), Handbook of Knowledge Representation, S. 285–316. Elsevier, 2008. Gettier, E. Is Justified True Belief Knowledge? Analysis, 23:121–123, 1963. Hanks, S. und McDermott, D. Nonmonotonic Logic and Temporal Projection. Artificial Intelli­ gence, 33(3):379–412, November 1987. Hoffart, J., Suchanek, F. M., Berberich, K. und Weikum, G. YAGO2: A spatially and temporally enhanced knowledge base from Wikipedia. Artif. Intell., 194:28–61, 2013. Hollunder, B., Nutt, W. und Schmidt-Schauß, M. Subsumption Algorithms for Concept De­ scription Languages. In Proceedings of the 9th European Conference on Artificial Intelligence (ECAI-90), S. 348–353, Stockholm, Sweden, 1990. Pitman.

Literaturverzeichnis

|

55

[25] Horrocks, I. Using an Expressive Description Logic: FaCT or Fiction? In Principles of Know­ ledge Representation and Reasoning: Proceedings of the 6th International Conference (KR-98), S. 636–647, 1998. [26] Horrocks, I., Kutz, O. und Sattler, U. The Even More Irresistible SROIQ. In Proceedings, Tenth In­ ternational Conference on Principles of Knowledge Representation and Reasoning, Lake District of the United Kingdom, June 2-5, 2006, S. 57–67. AAAI Press, 2006. [27] Horrocks, I., Patel-Schneider, P. F. und van Harmelen, F. From SHIQ and RDF to OWL: the making of a Web Ontology Language. Journal of Web Semantics, 1(1):7–26, 2003. [28] von Kutschera, F. Grundfragen der Erkenntnistheorie. Walter de Gruyter, Berlin, 1982. [29] LeCun, Y., Muller, U., Ben, J., Cosatto, E. und Flepp, B. Off-Road Obstacle Avoidance through End-to-End Learning. In Advances in Neural Information Processing Systems 18 [Neural Infor­ mation Processing Systems, (NIPS-2005), December 5-8, 2005, Vancouver, British Columbia, Canada], S. 739–746, 2005. [30] Lenat, D. B. CYC: A Large-Scale Investment in Knowledge Infrastructure. Commun. ACM, 38(11):32–38, 1995. [31] Levesque, H. J. und Brachman, R. J. Expressiveness and tractability in knowledge representa­ tion and reasoning. Computational Intelligence, 3:78–93, 1987. [32] Lewis, D. Counterfactuals. Harvard University Press, 1973. Reissued London, Blackwell 2001. [33] Musen, M. A. The protégé project: a look back and a look forward. AI Matters, 1(4):4–12, 2015. [34] Nebel, B. Artificial Intelligence: A Computational Perspective. In Brewka, G. (Hrsg.), Essentials in Knowledge Representation, Studies in Logic, Language and Information, S. 237–266. CSLI Publications, Stanford, CA, 1996. [35] Nebel, B. Frame-Based Systems. In Wilson, R. A. und Keil, F. (Hrsg.), MIT Encyclopedia of the Cognitive Sciences, S. 324–325. MIT Press, Cambridge, MA, 1999. [36] Nebel, B. On the Compilability and Expressive Power of Propositional Planning Formalisms. Journal of Artificial Intelligence Research, 12:271–315, 2000. [37] OWL Working Group. OWL 2 Web Ontology Language. http://www.w3.org/TR/owl2-overview/, 2009. [38] Papadimitriou, C. H. Computational Complexity. Addison Wesley, 1993. [39] Pearl, J. Causality: Models, Reasoning, Inference. Cambridge University Press, 2. Aufl., 2009. [40] Renz, J. und Nebel, B. Qualitative Spatial Reasoning Using Constraint Calculi. In Aiello, M., Pratt-Hartmann, I. und van Benthem, J. (Hrsg.), Handbook of Spatial Logics, S. 161–215. Sprin­ ger, 2007. [41] Schild, K. A Correspondence Theory for Terminological Logics: Preliminary Report. In Proceed­ ings of the 12th International Joint Conference on Artificial Intelligence (IJCAI-91), S. 466–471, Sydney, Australia, August 1991. Morgan Kaufmann. [42] Schmidt-Schauß, M. und Smolka, G. Attributive Concept Descriptions with Complements. Artifi­ cial Intelligence, 48:1–26, 1991. [43] Schmolze, J. G. und Woods, W. A. The KL-ONE Family. In Lehmann, F. (Hrsg.), Semantic Networks in Artificial Intelligence. Pergamon Press, 1992. [44] Schulz, S., Suntisrivaraporn, B., Baader, F. und Boekera, M. SNOMED reaching its ado­ lescence: Ontologists’ and logicians’ health check. International Journal of Medical Informa­ tics, 78(1):S86–S94, 2007. [45] Wikipedia Statistik, 2020. [Online; besucht 07. März 2020]. [46] Woods, W. A. What’s in a Link: Foundations for Semantic Networks. In Bobrow, D. G. und Col­ lins, A. M. (Hrsg.), Representation and Understanding: Studies in Cognitive Science, S. 35–82. Academic Press, New York, NY, 1975.

3 Suche Clemens Beckstein und Alexandra Kirsch Suche ist eine grundlegende Technik in fast allen Gebieten der Künstlichen Intelli­ genz. Mithilfe von Suchverfahren kann man eine große Menge unterschiedlicher Pro­ bleme mit einem einheitlichen Ansatz statt durch ein Ausprogrammieren von vielen Einzelfällen lösen. Egal ob Planen, Lernen oder Schlussfolgern – all diese KI-Techni­ ken sind Varianten von Suche. Dieses Kapitel zeigt, wie man Aufgaben als Suchproble­ me formuliert. Es stellt Algorithmen vor, die derart formulierte Probleme lösen. Prak­ tische Hinweise zur Modellierung von realen Anwendungen schließen das Kapitel ab.

3.1 Problemlösen als Suche Das Elegante an KI-Suche ist, dass mit einer recht überschaubaren Menge von Konzep­ ten eine riesige Menge von Aufgabenstellungen abgedeckt wird. Um diese Möglichkei­ ten nutzen zu können, muss man lernen, Aufgaben als Zustandsraumprobleme zu re­ präsentieren. Wir definieren zunächst Zustände und weitere Bestandteile einer Such­ aufgabe. Die Repräsentation von Zustandsräumen in Suchgraphen hilft dann bei der Entwicklung und dem Verständnis von Suchalgorithmen und beim Modellieren der Aufgabe.

3.1.1 Zustandsräume Bevor man ein Suchverfahren zur Lösung eines Problems einsetzen kann, muss die­ ses Problem in eine Form gebracht werden, die es einer Verarbeitung durch Suchver­ fahren zugänglich macht. Eine solche Form ist eine Zustandsraumrepräsentation des Problems. Definition 3.1.1. Zu einem Zustandsraum Z = (S, A) gehört 1. eine Menge S von (Problemlöse-)Zuständen, die den Fortschritt der Problemlösung zu ausgewählten Zeitpunkten darstellen und 2. eine Menge A = {a1 , . . . , a n } von Zustandsübergangsoperatoren a i : S → S (1 ≤ i ≤ n), die elementare Problemlöseschritte darstellen, also beschreiben, wie man von einem ausgewählten Problemlösezustand zu seinen unmittelbaren Nachfolgern gelangen kann. Zu ein und demselben Problem gibt es im Allgemeinen viele, sich zum Teil deutlich unterscheidende, Zustandsraumrepräsentationen. Welche von diesen Repräsentatio­ nen für das konkrete Problem die richtige ist, also das zu lösende Problem in all sei­ nen Facetten am besten modelliert, ist die zentrale erste Frage, die man beantworten https://doi.org/10.1515/9783110659948-003

58 | 3 Suche

muss, wenn man Probleme durch Suche lösen will. Nachdem wir das Grundprinzip von Suche genauer vorgestellt haben, kommen wir deshalb im Kapitel 3.4 noch ein­ mal grundsätzlich auf diese Frage zurück. Definition 3.1.2. Ein Zustandsraumproblem P = (S, A, s0 , S T ) für einen gegebenen Zu­ standsraum Z = (S, A) besteht dann 1. aus dem Zustandsraum Z selbst, 2. einem ausgezeichneten Startzustand s0 ∈ S, von dem aus die Problemlösung in Z starten kann und 3. einer Menge S T ⊂ S von Zielzuständen, in denen das Problem als in Z gelöst be­ trachtet wird. Die Menge der Zielzustände S T kann entweder explizit aufgelistet oder durch ein Ziel­ prädikat beschrieben werden, das einem Zustand s ∈ S genau dann den Wahrheits­ wert true zuweist, falls s ein Zielzustand ist. Beispiel 3.1.1 Schiebepuzzle mit acht Steinen (für eine mathematische Analyse, sie­ he [3]). Bei dieser Aufgabe sind acht horizontal und vertikal bewegliche Steine zusam­ men mit einem Leerraum in einer ebenen 3 × 3 Matrix angeordnet. Ein Stein, der zum Leerraum benachbart ist, kann auf die Stelle des Leerraums verschoben werden (dabei wandert der Leerraum an die alte Position des Steins). Die Aufgabe besteht darin, eine vorgegebene Ausgangskonfiguration (etwa die linke in der Abbildung 3.1) durch Steinbe­ wegungen der genannten Art in die Zielkonfiguration zu überführen, die auf der rechten Seite von Abbildung 3.1 gezeigt ist (Anordnung der Steine gemäß ihrer Nummerierung im Uhrzeigersinn, beginnend links oben mit Stein 1).

1 7 6

2 8

3 4 5

?



1 8 7

2 6

3 4 5

Abb. 3.1: Das Schiebepuzzle

Diese Aufgabe können wir wie folgt als Zustandsübergangsproblem beschreiben: – Zustände werden als Matrix bzw. geschachtelte Vektoren repräsentiert. Das leere Feld bezeichnen wir mit nil. – Startzustand: Der linke Zustand in Abbildung 3.1 wird codiert als [[1, 2, 3], [7, 8, 4], [6, nil, 5]]. – Zielzustände: In diesem Fall beinhaltet die Menge der Zielzustände nur einen Zu­ stand, in unserer Notation den Zielzustand {[[1, 2, 3], [8, nil, 4], [7, 6, 5]]}. – Operatoren: Die Operatoren lassen sich am leichtesten definieren, wenn man nicht Bewegungen von Steinen, sondern Verschiebungen des Leerraums betrachtet. Die möglichen Nachfolger einer Puzzlekonfiguration können dann alleine aufgrund der alten Position des Leerraums, ohne Berücksichtigung der Nummern der ihn umge­ benden Steine, ermittelt werden. Dadurch werden insbesondere die Fälle verein­

3.1 Problemlösen als Suche |

59

facht, bei denen der Leerraum am Rand der Konfiguration liegt. In der linken Konfi­ guration kann der Leerraum nach rechts, links und oben verschoben werden: orechts ([[1, 2, 3], [7, 8, 4], [6, nil, 5]]) = [[1, 2, 3], [7, 8, 4], [6, 5, nil]] , olinks ([[1, 2, 3], [7, 8, 4], [6, nil, 5]]) = [[1, 2, 3], [7, 8, 4], [nil, 6, 5]] , ohoch ([[1, 2, 3], [7, 8, 4], [6, nil, 5]]) = [[1, 2, 3], [7, nil, 4], [6, 8, 5]] . Die Lösung eines so definierten Problems besteht nun darin, einen Pfad im Zustands­ raum zu finden, der den Startzustand s0 in einen Zielzustand aus S T transformiert. Definition 3.1.3. Eine Folge π = (a1 , . . . , a k ) von Operatoren a i ∈ A mit 1 ≤ i ≤ k ist eine Lösung des Zustandsraumproblems P = (S, A, s0 , S T ), wenn sie s0 in einen der Zielzustände t ∈ S T transformiert, falls es also eine Folge von Zuständen s i ∈ S mit 0 ≤ i ≤ k gibt, sodass: 1. a i (s i−1 ) = s i für 1 ≤ i ≤ k und 2. s k = t. Aufgabe der im Folgenden beschriebenen Suchverfahren ist es, solche Pfade unter einem möglichst geringen Einsatz von Ressourcen zu finden. Definition 3.1.4. Sei P = (S, A, s0 , S T ) ein Zustandsraumproblem. Ein Zustand z ∈ S heißt Sackgasse von P, wenn z zwar von s0 erreichbar, aber das Zustandsraumproblem P u = (S, A, z, S T ) unlösbar ist. Von einer Sackgasse aus kann also kein Ziel des Zustandsraums mehr erreicht wer­ den. Zu den Sackgassen zählen insbesondere die Blätter des Suchgraphen, also die Zustände ohne Nachfolger.

3.1.2 Suchgraphen Damit diese Suche auch durch einen Rechner durchgeführt werden kann, der ja kei­ ne Vorstellung von den konkreten Zuständen und Operatoren hat, relativ zu denen in der realen Welt das Problem gelöst werden soll, muss dieser Zustandsraum zunächst geeignet im Rechner dargestellt werden. Dazu liegt es nahe, den Zustandsraum im Rechner durch einen markierten Graphen zu repräsentieren, in dem die Knoten für Zu­ stände und gerichtete Kanten für Übergangsoperatoren des Zustandsraumes stehen: Definition 3.1.5. Sei G = (V, E) ein Graph und Z = (S, A) ein Zustandsraum. Eine Funktion ρ : V → S, die 1. jedem Knoten v ∈ V einen Zustand ρ(v) ∈ S und 2. jeder Kante (v1 , v2 ) ∈ E einen Operator a ∈ A mit a(ρ(v1 )) = ρ(v2 ) zuordnet, heißt dann eine, den Zustandsraum Z über den Graphen G repräsentierende Abbildung.

60 | 3 Suche

Bei dieser Repräsentation sind Knoten, die Start- bzw. Zielzustände repräsentieren, entsprechend als Start- bzw. Zielknoten zu kennzeichnen und die Kanten mit dem Na­ men des Operators zu annotieren, für den sie jeweils stehen. Definition 3.1.6. Sei P = (S, A, s0 , S T ) ein Zustandsraumproblem zum Zustandsraum Z = (S, A). G = (V, E, u 0 , V T , ρ) (oder kurz G = (V, E, u 0 , V T ), falls die repräsentierende Abbil­ dung ρ aus dem Kontext ersichtlich ist) heißt dann Suchgraph zu P, falls: 1. ρ eine, den Zustandsraum Z = (S, A) über den Graphen G = (V, E) repräsentierende Abbildung ist, 2. für den Startknoten u 0 gilt: ρ(u 0 ) = s0 und 3. für die Zielknoten gilt: ρ(V T ) = S T . Jeder Pfad von einem Startknoten zu einem der Zielknoten des Suchgraphen G reprä­ sentiert damit einen Lösungspfad im Zustandsraum Z, also eine Lösung des Problems.

s0

t2

t0

t1 Abb. 3.2: Repräsentation eines Zustandsraums als Graph. Der Startzustand s0 und die drei Zielzu­ stände t 0 , t 1 , t 2 sind entsprechend gekennzeichnet. In diesem Beispiel nehmen wir an, dass alle Operatoren umkehrbar sind. Deshalb sind die Kanten ohne Richtung dargestellt

In der programmiertechnischen Umsetzung des Suchgraphen wird man die repräsen­ tierende Abbildung ρ dadurch (implizit) festlegen, dass man die Knoten im repräsen­ tierenden Graphen G mit Datenstrukturen annotiert, die deren Inhalt codieren – also beschreiben, wie die von ihnen repräsentierten Zustände aussehen und charakteri­ sieren, unter welchen Bedingungen diese Zustände als Start- oder Zielzustände inter­ pretierbar sind. Auf der Grundlage dieser Annotationen kann man dann den Prozess praktisch realisieren, der Knotenexpansion genannt wird. 3.1.2.1 Knotenexpansion Es ist im Allgemeinen nicht ratsam, das Suchverfahren den kompletten Suchraum in einer Datenstruktur aufbauen zu lassen, bevor es mit der eigentlichen Suche beginnt. Selbst wenn der entsprechende Suchgraph endlich ist, wird er häufig sehr groß sein

3.1 Problemlösen als Suche |

61

und damit seine vollständige Erzeugung im Rechner die Problemlösung bereits vor der eigentlichen Suche unverhältnismäßig verteuern: Lösungen, falls sie existieren, er­ strecken sich ja im Allgemeinen nur über einen kleinen Teil dieses Graphen. Stattdes­ sen wird man das Suchverfahren beginnend mit dem Startknoten systematisch immer längere Kandidatenpfade durch den Suchgraphen G generieren lassen – bis dabei im sich so schrittweise entfaltenden Suchgraphen (hoffentlich) ein Lösungspfad gefun­ den wird. Die Rahmenbedingungen für diesen Entfaltungsprozess setzt der implizite Suchgraph zu G. Definition 3.1.7. Der implizite Suchgraph zum Suchgraphen G = (V, E, u 0 , V T ) ist fest­ gelegt durch 1. den Startknoten u 0 ∈ V, 2. ein Prädikat goal: V → 𝔹 = {true, false}, das für beliebige Knoten u ∈ V ent­ scheidet, ob u ∈ V T liegt, also ein Zielknoten ist, und 3. eine Prozedur expand: V → 2V , die für einen gegebenen Knoten u ∈ V dessen Nachfolgeknoten in G berechnet. Im Mittelpunkt dieser schrittweisen Entfaltung von G steht das Berechnen aller Mög­ lichkeiten, einen bereits generierten Kandidatenpfad (u 0 , . . . , u n = u) in G um ei­ ne Kante (u, u 󸀠 ) ∈ E zu einem neuen Kandidatenpfad (u 0 , . . . , u n , u 󸀠 ) zu verlängern. Diese Berechnung wird Expansion des Knotens u genannt. Bezeichnet Succ(u) = {v | (u, v) ∈ E} die Menge der direkten Nachfolger von u in G, entstehen dabei für jeden Kandidatenpfad, der in u endet, |Succ(u)| viele neue, um eins längere, Kandidaten­ pfade. Für eine programmiertechnische Umsetzung dieses Entfaltungsprozesses müssen das Prädikat goal und die Prozedur expand passend zur repräsentierenden Abbildung ρ des Suchraums implementiert werden. Das setzt voraus, dass die ρ implizit beschrei­ benden Datenstrukturen an den Knoten des Suchgraphen G reichhaltig genug sind, damit 1. das Prädikat goal anhand seiner Beschreibung entscheiden kann, ob ein gegebe­ ner Knoten ein Zielknoten ist und 2. die Prozedur expand alleine aus der Beschreibung eines Knotens v die Nachfolger von v in G generieren und passende Beschreibungen für alle diese Nachfolgekno­ ten errechnen kann. Eine wichtige Größe, die den Expansionsprozess beeinflusst, ist der Verzweigungs­ grad. Definition 3.1.8. Sei G = (V, E, u 0 , V T ) ein Suchgraph: – Der Ausgangsverzweigungsgrad out-degree(u) eines Knotens u ∈ V gibt an, wie viele direkte Nachfolger er in G besitzt, d. h. out-degree(u) = |{(u, v)|(u, v) ∈ E}|. – Der Eingangsverzweigungsgrad in-degree(v) eines Knotens v ∈ V gibt an, wie viele direkte Vorgänger er in G besitzt, d. h. in-degree(v) = |{(u, v)|(u, v) ∈ E}|.

62 | 3 Suche

Der Verzweigungsgrad ergibt sich also aus den Operatoren, die auf einen Zustand an­ wendbar sind bzw. den Operatoren, die einen Zustand erzeugen können. Zu einem gegebenen Suchgraphen G lassen sich damit neben seinem kleinsten und größten auch sein durchschnittlicher Eingangs- bzw. Ausgangsverzweigungsgrad definieren. Der durchschnittliche (Ausgangs-)Verzweigungsgrad b bestimmt maßgeb­ lich den Suchaufwand, weil die Anzahl von möglichen (Kandidaten-)Pfaden der Län­ ge l in G grob mit b l abgeschätzt werden kann. Beispiel 3.1.2. Beim Schiebepuzzle aus Beispiel 3.1.1 gibt es in jeder Konfiguration min­ destens zwei und höchstens vier Möglichkeiten, einen Stein zu verschieben. Unter der Annahme einer durchschnittlichen Anzahl von drei Nachfolgern pro Konfiguration und einer typischen Lösungsweglänge von 20 erhält man damit im schlimmsten Falle, also wenn man nicht verhindert, dass Knoten während der Suche eventuell wiederholt ex­ pandiert werden, eine Menge von Kandidatenpfaden mit insgesamt fast 3,5 Milliarden Knoten. 3.1.2.2 Problemvarianten Zustände, Operatoren und die dazugehörigen Graphen sind Grundelemente, die sich durch alle Techniken der Künstlichen Intelligenz ziehen. Operatoren werden oft auch als Aktionen bezeichnet, beispielsweise wenn es um Planung geht. Es gibt jedoch Un­ terschiede in den Aufgabenstellungen, die sich in Variationen der Problemdefinition und der Algorithmen widerspiegeln. Es gibt Aufgaben, bei denen der Startzustand aus der momentanen Situation der Welt hervorgeht und die Menge der Zielzustände recht gut definierbar ist. Die Naviga­ tion im Auto ist ein typisches Beispiel dafür: Man ist an einem bestimmten Ort und weiß, an welchen anderen Ort man fahren möchte; gesucht sind also Operatorfolgen, die den Startzustand in den Zielzustand überführen. Diese Art der Suche ist wichtig für KI-Planung (Kapitel 10) und bei Spielprogrammen (Kapitel 19). Bei anderen Aufgaben ist vor allem der Zielzustand an sich interessant. Wenn es z. B. darum geht, einen Belegungsplan für Hörsäle in einer Universität zu erstellen, interessiert der fertige Belegungsplan, nicht der Pfad durch den Zustandsgraphen, der zu diesem Plan geführt hat. Solche Aufgaben werden auch als Optimierungsprobleme bezeichnet. Sie bilden unter anderem die Grundlage für Constraint Solving (Kapitel 16) und Maschinelles Lernen (Kapitel 11). Wir erklären im Folgenden zunächst die Lösungsverfahren für Pfadsuchproble­ me, danach typische Verfahren für Optimierungsprobleme. Die Trennung ist jedoch nicht scharf. Die Grundlage einer Suche durch einen Zustandsgraphen ist bei allen gleich. Typischerweise wird jedoch ein Optimierungsverfahren den Pfad zur Lösung nicht mitführen bzw. zurückgeben. Möchte man also beim Optimieren auch die Schrit­ te zur Lösung haben, muss man entweder den Algorithmus entsprechend anpassen oder das Problem so formulieren, dass es als Pfadsuche lösbar ist.

3.2 Pfadsuche | 63

3.2 Pfadsuche 3.2.1 Generisches Verfahren Algorithmus 3.1 zeigt das Skelett eines Suchverfahrens, das wir im Folgenden auch als generisches Suchverfahren bezeichnen werden, weil es noch so allgemein gehalten ist, dass beliebige Suchverfahren durch Spezialisierung und Konkretisierung aus ihm gewonnen werden können.

Algorithmus 3.1: Generisches Verfahren zum Lösen von Suchproblemen Gegeben: der implizite Suchgraph zum Suchgraphen G = (V, E, u 0 , V T ) 1. Sei L die Liste der noch nicht überprüften Knoten aus V. Initial enthält sie nur den Startknoten u 0 : L ← {u 0 }. 2. Ist L leer, so melde einen Fehlschlag. 3. Andernfalls wähle den ersten Knoten v ∈ L und entferne v aus L: L ← L \ {v}. 4. Gilt v ∈ V T , so melde Erfolg und liefere den Pfad vom Startknoten u 0 zu v. 5. Andernfalls expandiere v und füge die daraus resultierenden Knoten expand(v) gemäß Suchstrategie in L ein: L ← insert(expand(v), L). Markiere dabei die neuen Knoten mit dem jeweils zugehörigen Wurzelpfad vom Startknoten. 6. Weiter mit Schritt 2!

Dieses Verfahren verwaltet in der Liste L die Knoten, d. h. Repräsentanten von Such­ raumzuständen. Bei diesen Knoten werden auch jeweils die (Wurzel-)Pfade vermerkt, auf denen sie ausgehend vom Startknoten u 0 von dem Suchverfahren erreicht wur­ den. Die Liste L enthält Knoten, die noch darauf hin zu explorieren sind, ob über sie ein Zielknoten erreichbar ist. Sie heißt daher auch open list oder Liste offener Knoten, wir bezeichnen sie im Folgenden als Agenda. Definition 3.2.1. Die Elemente der Agenda L sind zu jedem Zeitpunkt t während der Su­ che im Suchgraphen G = (V, E, u 0 , V T ) die Blätter v eines Baums mit der Wurzel u 0 , der durch die Gesamtheit der zu diesen Blättern bisher durch den Algorithmus 3.1 gespei­ cherten Pfade (u 0 , . . . , v) aus G definiert ist. Wir nennen diesen Baum im Folgenden den Suchbaum, wie er bis zum Zeitpunkt t vom Suchverfahren entfaltet wurde. Neue Knoten kommen auf die Agenda L durch Knotenexpansion, d. h. als Nachfolger von Knoten v ∈ V, die vorher aus L zur Expansion ausgewählt wurden: expand(v) ⊆ Succ(v) . Solange die Agenda L noch mindestens einen Knoten enthält, besteht noch eine Chan­ ce, dass ein Zielknoten gefunden wird. Wird sie jedoch leer, so bedeutet dies, dass

64 | 3 Suche

der von dem Verfahren prinzipiell explorierbare Teil des Suchgraphen vergeblich auf einen Zielknoten hin durchforstet wurde (jeder offene Knoten wurde bereits getestet, und es gibt keine Nachfolger mehr). Das Verfahren signalisiert dann einen Fehlschlag. Der bis zum Zeitpunkt t entfaltete Suchbaum ist also eine explizite Repräsentation des (um soweit bekannte Sackgassen bereinigten) Teils des impliziten Suchgraphen, der bis zu diesem Zeitpunkt bereits von der Suche exploriert wurde. Stellt man bei der Generierung dieses Suchbaums durch Identifizieren von Knoten mit den gleichen Beschreibungen (und damit zum selben Zustand) sicher, dass Knoten nicht in mehr­ fachen Kopien im Baum auftreten können (das ist z. B. geboten, wenn der Suchgraph Zyklen enthalten kann, dazu gleich mehr), so entsteht während der Suche anstelle eines Baums ein baumartiger (d. h. zyklenfreier) Graph, den wir hier aber trotzdem (et­ was salopp) als den soweit entfalteten Suchbaum bezeichnen werden. Beispiel 3.2.1 Missionare und Kannibalen [20]. Zwei Missionare und zwei Kannibalen müssen von einer Uferseite auf die andere gelangen. Dazu steht ihnen ein Ruderboot zur Verfügung, das maximal zwei Personen fasst. Wann immer aber die Kannibalen auf einer Uferseite in der Überzahl sind, müssen die Missionare um ihr Leben fürchten. Wie kann das Ruderboot so eingesetzt werden, dass alle vier Personen lebend auf die andere Uferseite gelangen? Abbildung 3.3 zeigt den baumartigen Suchgraph, der entsteht, wenn man bei sei­ ner Festlegung folgende vereinfachende, den sich entfaltenden Suchbaum kleinhalten­ de, Annahmen trifft: In den Knoten wird nur jeweils die Gemengelage auf einer der bei­ den Uferseiten (z. B. immer der linken) repräsentiert (da damit die jeweils andere Seite festliegt) und von den konkreten Missionaren bzw. Kannibalen abstrahiert (nur deren jeweilige Zahl ist für das Problem interessant). Außerdem wird ein Nachfolgezustand nur dann in die Agenda aufgenommen, wenn er nicht schon einmal vorher erzeugt wur­ de (andernfalls wäre die Terminierung der Suche gefährdet und der soweit entfaltete Suchbaum könnte beliebig groß werden) und auch nur dann, wenn er für die Missionare keine Bedrohung darstellt. Ein mit (xM, yC, B) markierter Knoten repräsentiert dabei den Zustand, in dem x Missionare und y Kannibalen auf der repräsentierten Uferseite versammelt sind und das Boot auf ihrer Seite haben, falls B nicht leer ist, und eine Kante zwischen zwei Knoten repräsentiert die Überfahrt, die aus dem von dem Startknoten der Kante repräsentierten Zustand den Zustand ihres Endknotens macht. 2M, 2K, B 0M, 2K 0M, 0K

2M, 0K

0M, 2K, B 1M, 1K, B

2M, 1K 0M, 1K

1M, 1K 2M, 1K, B Abb. 3.3: Missionare und Kannibalen

Knoten werden von dem skizzierten Suchverfahren erst beim Expandieren und nicht schon zum Zeitpunkt ihres Eintragens in die Agenda auf Zieleigenschaft geprüft. Dies

3.2 Pfadsuche | 65

vereinfacht die nachfolgenden Überlegungen zur Komplexität von Konkretisierungen des generischen Verfahrens. Die Art und Weise, wie die Wahl eines Knotens aus L in Schritt 3 und das Einfügen seiner Nachfolger in Schritt 5 des Suchverfahrens 3.1 vorgenommen wird, bestimmt die Suchstrategie, die die wesentlichen Eigenschaften dieser Konkretisierungen festlegt (mehr dazu im Abschnitt 3.2.1.3). Wird L als eine geordnete lineare Datenstruktur (eine Liste im programmier­ sprachlichen Sinne) repräsentiert, so kann man eine beliebige Auswahlstrategie dadurch erreichen, dass man Elemente grundsätzlich am vorderen Ende der Liste entnimmt und zusätzlich eine Prozedur insert festlegt, die bestimmt, an welcher Stelle neue Elemente in L eingeordnet werden. Dazu wertet diese Prozedur – wie schon das Prädikat goal und die Prozedur expand – die zu den Knoten im Suchgra­ phen gehörenden Beschreibungen der von ihnen repräsentierten Zustände aus. Die generische Suchprozedur wird damit also zu einem spezifischen Suchverfah­ ren einzig durch die konkrete Instanziierung der Prozedur insert in Schritt 5. Definition 3.2.2. Erfolgt die Einordnung eines Knotens in die Agenda L alleine aufgrund seiner Position im soweit entfalteten Suchbaum zum Suchgraphen G = (V, E, u 0 , V T ), also insbesondere unabhängig von seinem (über die bei ihm gespeicherte Zustandsbe­ schreibung codierten) Inhalt, so spricht man von uninformierter oder blinder Suche. Spielt dagegen bei der Auswahl auch der Inhalt des Knotens eine Rolle, so spricht man von informierter oder heuristischer Suche. Beiden Arten von Suche ist im Folgenden ein eigener Abschnitt gewidmet. 3.2.1.1 Vorwärts- vs. Rückwärtssuche Häufig sind Zielzustände nur implizit gegeben (beispielsweise beim Lösen eines Kreuzworträtsels), weshalb das geschilderte generische Suchverfahren den Suchraum auch vorwärts, beginnend bei den typischerweise explizit vorgegebenen Startknoten, exploriert, bis es über das Prädikat goal einen Knoten findet, der die Zieleigenschaft aufweist. Bei manchen Suchproblemen sind jedoch neben den Startzuständen auch die Zielzustände explizit vorgegeben oder mit einem – im Vergleich zur Lösung des Such­ problems – geringen Aufwand durch ein Programm aufzählbar. Wenn dann auch noch die den Suchraum definierenden Operatoren einfach invertierbar sind (was ganz und gar nicht selbstverständlich ist, wenn diese Operatoren nur prozedural gegeben sind), so kann man eine Rückwärtssuche durchführen. Definition 3.2.3. Ein Zustandsraumproblem P = (S, A, s0 , S T ) heißt reversibel, wenn es zu jedem Operator a ∈ A einen inversen Operator a−1 ∈ A gibt, für den also für alle s ∈ S gilt: a(a−1 (s)) = a−1 (a(s)) = s .

66 | 3 Suche

Beispiel 3.2.2. Beim Schiebepuzzle-Problem aus Beispiel 3.1.1 gibt es genau einen, ex­ plizit bekannten Zielzustand (der, bei dem die Steine, links oben, beginnend mit Stein 1, gemäß ihrer Nummerierung im Uhrzeigersinn angeordnet sind) und zu jeder Schiebe­ operation existiert eine eindeutige, sie kompensierende, inverse Schiebeoperation. Beispiel 3.2.3. Auch beim Missionare-und-Kannibalen-Problem aus Beispiel 3.2.1 sind der Vorwärts- und Rückwärtssuchraum identisch, da es sich um ein symmetrisches Pro­ blem handelt: Zu jedem Bootstransfer gibt es einen inversen Bootstransfer, und es macht keinen Unterschied, ob man die gesamte Gesellschaft sicher von einem Ufer zum ande­ ren oder umgekehrt bringen will. Für eine Rückwärtssuche exploriert man den Suchgraph, beginnend bei einem der Zielknoten, indem man zu einem vorgegebenen Knoten v ∈ V des Suchgraphen G = (V, E, u 0 , V T ) jeweils alle möglichen direkten Vorgänger pred(v) = {u | (u, v) ∈ E} ge­ neriert, bis man einen Startknoten antrifft. Man macht bei zielorientierter Suche also im Endeffekt eine reguläre (Vorwärts-)Suche in dem Suchraum, der aus dem ursprüng­ lichen Suchraum dadurch entsteht, dass man die Operatorkanten umdreht, die Rol­ le von Start- und Zielknoten miteinander vertauscht und Lösungspfade dieses neuen Suchproblems in umgekehrter Kantenreihenfolge als Lösungspfade des ursprüngli­ chen Suchproblems ausgibt. Haben die Knoten eines Unterraums des Suchraums typischerweise einen kleine­ ren Eingangs- als Ausgangsverzweigungsgrad, so verhält sich für diesen Unterraum die Rückwärtssuche besser als die Vorwärtssuche. Deshalb bieten sich auch Varianten der generischen Vorgehensweise an, bei denen nicht der ganze Suchraum ausschließ­ lich vorwärts oder rückwärts durchsucht wird, sondern – je nach seiner Gestalt – der eine Unterraum vorwärts und der andere rückwärts. So wird z. B. bei inselgesteuerter Suche zunächst eine „Insel“ (ein Knoten auf dem halben Weg vom Start- zum Ziel­ knoten) bestimmt und dann nach einem Lösungspfad gesucht, der über diese Insel läuft (dazu muss insbesondere der Wurzelpfad zur Insel bestimmt werden). Findet man keinen solchen Pfad, ist die potenzielle Insel also eine Sackgasse, so löst man das ursprüngliche Problem unter Ignorieren der Insel. 3.2.1.2 Redundante Pfade Eventuell repräsentieren unterschiedliche Knoten des Baumes, der von der Suchpro­ zedur entfaltet wird, ein und denselben Zustand im Suchraum, der nur auf verschie­ denen Wegen erreichbar ist. So lässt sich im Schiebepuzzle-Beispiel jede Teillösung des Problems durch entsprechende inverse Schiebeoperationen in die Ausgangssitu­ ation rücküberführen, d. h., jeder von der Ausgangssituation aus erreichbare Punkt des Suchraums zu diesem Problem kann auf beliebig vielen und beliebig langen We­ gen erreicht werden, die beim Startknoten beginnen. Führen zu einem Knoten im Suchgraphen unterschiedliche Wege, so kann das zur Folge haben, dass er vom Suchverfahren wiederholt zur Expansion auf die Agenda L

3.2 Pfadsuche | 67

gesetzt wird. Enthält der Suchgraph Zyklen, so kann dies je nach verwendeter Such­ strategie sogar die Terminierung der Suche verhindern: Das Verfahren wickelt dann einen Zyklus eventuell unendlich oft als unendlich langen Pfad im sich entfaltenden Suchbaum ab. Auf jeden Fall trägt jedoch ein Suchgraph, der nicht Baumgestalt hat, auch bei Abwesenheit von Zyklen die Gefahr in sich, dass das Suchverfahren Teile von ihm, wenn auch nicht unendlich oft, so doch unnötig wiederholt exploriert. Um dies zu verhindern, modifiziert man deshalb bei Suchgraphen G = (V, E, u o , V T ), die keine Bäume darstellen, das generische Suchverfahren so, dass es Nach­ folger eines Knotens v ∈ V nur dann zur Liste L der noch zu explorierenden Knoten hinzufügt, wenn nicht schon in L oder der Liste bereits geschlossener Knoten Knoten mit dem gleichen Inhalt enthalten sind. Die Liste C der bereits geschlossenen Knoten (engl. closed list) enthält all jene Knoten, die schon geprüft und aus L entfernt wur­ den¹, und man wählt expand(v) ⊆ Succ(v) − C . Selbst wenn dann vom Suchverfahren Knoten mehrfach erzeugt werden, werden so die entsprechenden Teilräume nicht erneut durchsucht. Abbildung 3.3 zeigt, welche drastische Reduktion des Suchgraphen diese Modifikation für das Missionare-undKannibalen-Problem 3.2.1 bewirken kann. Natürlich darf man nicht übersehen, dass das Verwalten der Liste C und die Re­ dundanztests mit den Listen der noch offenen (L) bzw. bereits geschlossenen Knoten (C) ebenfalls nicht zu unterschätzende Kosten verursachen: Das Suchverfahren muss dazu ständig die Liste C im Speicher halten und bei jedem Erzeugen eines Knotens jeweils sowohl die Liste L als auch die immer länger werdende Liste C daraufhin über­ prüfen, ob der fragliche Knoten bereits in ihr enthalten ist. 3.2.1.3 Generisches Suchverfahren Die Suchstrategie des generischen Suchverfahrens 3.1 prägt die wesentlichen Eigen­ schaften von Konkretisierungen des Verfahrens. Sie bestimmt, welcher Teil des Such­ graphen in welcher Reihenfolge exploriert wird. Definition 3.2.4. Eine für die generische Suche gemäß Algorithmus 3.1 vorgegebene Strategie ist vollständig (erschöpfend), wenn sie schließlich jeden Knoten des Suchgra­ phen expandiert, sofern nicht vorher schon ein Zielknoten gefunden wird. Ein vollständiges Suchverfahren findet garantiert eine Lösung, wenn es nur (mindes­ tens) eine Lösung gibt und der Suchraum endlich ist – sogar dann, wenn der zugehö­ rige Suchgraph Zyklen enthält, die zu unendlichen Wurzelpfaden in dem Suchbaum führen könnten, der von dem Verfahren entfaltet wird.

1 In der Fabel von Ariadne und Minotaurus spielt der Faden, mit dem sich Ariadne im Labyrinth zu­ rechtfindet, die Rolle der Liste der bereits geschlossenen Knoten.

68 | 3 Suche

Enthält der Suchraum mehr als eine Lösung, so ist es natürlich wünschenswert, eine möglichst gute Lösung zu finden. Dabei definiert das Verfahren, was als Güte einer Lösung anzusehen ist. Üblicherweise wird hier als Güte einer Lösung ein Maß für die Kosten verwendet, die für das Herstellen der Zielzustände aus dem jeweiligen Startzustand gemäß deren Lösungspfad benötigt werden. Dazu wird von den Opera­ toren häufig und auch im Folgenden angenommen, dass deren Ausführung mit im Allgemeinen operatorspezifischen, positiven Kosten verbunden ist. Definition 3.2.5. Ein gewichteter Zustandsraum Z = (S, A, w A ) ist ein Zustandsraum (S, A), ergänzt um eine Kostenfunktion w A : A → ℝ, die – einzelnen Operatoren a ∈ A die Kosten w A (a) und – Operatorpfaden a1 , . . . , a n im Zustandsraum S die Kosten ∑ni=1 w(a i ) zuordnet. Für Szenarien, bei denen die Kosten der einzelnen Operatoren für die Problemlösung irrelevant sind, setzt man der einheitlichen Repräsentation halber für alle Operato­ ren a ∈ A gleiche (Einheits-)Kosten (uniforme Kosten) an – typischerweise und ohne Beschränkung der Allgemeinheit mit w(a) = 1. Definition 3.2.6. Sei P = (S, A, s0 , S T , w A ) ein gewichtetes Zustandsraumproblem zum gewichteten Zustandsraum Z = (S, A, w A ). Der gewichtete Suchgraph G = (V, E, u 0 , V T , w E , ρ) (oder kurz G = (V, E, u 0 , V T , w E ), falls die repräsentierende Abbildung ρ aus dem Kontext ersichtlich ist) zu P ist dann der Suchgraph (V, E, u 0 , V T , ρ) zu P, ergänzt um die kanonische Erweiterung w E : E → ℝ von w A : A → ℝ mit: 1. w E ordnet Kanten (u, v) ∈ E das Gewicht w E (u, v) = w A (a) zu, falls es einen Ope­ rator a ∈ A gibt, mit a(ρ(u)) = ρ(v) und 2. die Kosten eines Pfades π = (v0 , . . . , v k ) in G sind w E (π) = ∑ki=1 w E (v i−1 , v i ). Unter der Annahme von Einheitskosten der Größe eins stimmt die Länge eines Pfades also mit seinen Kosten überein. Definition 3.2.7. Ein Pfad π = (v0 , . . . , v k ) im Suchgraphen G = (V, E, u 0 , V T , w E ) heißt optimal, wenn es keinen kostengünstigeren Pfad von v0 nach v k gibt. In diesem Fall notiert man seine Kosten w(π) als δ G (v0 , v k ) (kurz δ(v0 , v k ), falls G aus dem Kontext klar ist). Eine für G = (V, E, u 0 , V T , w E ) bestmögliche Lösung π∗ hat damit die Kosten w E (π∗ ) = minv∗ ∈V T δ(u 0 , v∗ ) . Definition 3.2.8. Ein Suchverfahren heißt optimal, wenn es immer eine bezüglich des jeweiligen Gütemaßes optimale Lösung findet, sofern es überhaupt eine Lösung gibt. Neben dem Aufwand für die Herstellung einer gefundenen Lösung in der realen Pro­ blemlösewelt ist natürlich auch der Aufwand für das eigentliche Finden der Lösung

3.2 Pfadsuche | 69

(Zielknoten und zugehöriger Wurzelpfad zu seiner Herstellung aus dem Startknoten) ein wichtiges Gütekriterium für ein Suchverfahren. Unterschiedliche Konkretisierun­ gen haben im Allgemeinen auch eine unterschiedliche algorithmische Komplexität, gehen also unterschiedlich mit den Ressourcen Zeit und Speicher um. Bei der nachfolgenden Diskussion konkreter Suchverfahren legen wir bei der Untersuchung ihrer algorithmischen Komplexität – sofern jeweils nicht ausdrück­ lich etwas anderes erwähnt wird – die folgenden einfachen Komplexitätsmaße zu­ grunde: – Unter dem Speicherbedarf Space(X), den das Suchverfahren X für ein konkretes Suchproblem hat, wird die maximale Anzahl von während der Suche gleichzeitig in der Agenda zu speichernden Knoten verstanden. – Der Zeitbedarf Time(X), den das Suchverfahren X für ein konkretes Suchproblem hat, gibt an, wie viele Knoten bei der Suche vom Suchverfahren auf ihre Zieleigen­ schaft hin untersucht werden. Wenn nicht anders vermerkt, nehmen wir bei den entsprechenden Komplexitätsbe­ trachtungen auch jeweils (stark) vereinfachend an, dass der Suchgraph ein uniformer Baum ist, d. h. einen konstanten Ausgangsverzweigungsgrad b und eine einheitliche Tiefe d aufweist, wobei der Wurzelknoten die Tiefe d = 0 haben soll. Außerdem unterstellen wir zunächst, dass der Suchgraph nur einen Lösungskno­ ten enthält, der mit gleicher Wahrscheinlichkeit an jeder Stelle in der Tiefe d des Such­ graphen liegt, und geben dann für die Suchverfahren, abhängig von der Lage der Lö­ sung, jeweils den günstigsten (engl. best case), mittleren (engl. average case) und un­ günstigsten (engl. worst case) Speicher- bzw. Zeitbedarf an.

3.2.2 Uninformierte Suche Wir betrachten zunächst uninformierte Suchverfahren. Gemäß Definition 3.2.2 sind dies Verfahren, deren Strategie zum Einfügen von Knoten in die Agenda nicht vom Inhalt der neuen Knoten bestimmt wird. 3.2.2.1 Breitensuche Bei der Breitensuche (engl. breadth first, BF) werden neue Knoten immer am Ende der Agenda eingefügt. Das Verhalten der Agenda entspricht damit einer Warteschlange. Daraus ergibt sich folgende Auswahlmaxime: Ein Knoten auf der Tiefe k im soweit entfalteten Suchbaum darf erst dann expandiert werden, wenn alle Knoten der Tiefe k − 1 bereits expandiert sind.

Das Suchverfahren durchforstet damit den Suchbaum Schicht für Schicht, eben in der Breite zuerst, von oben nach unten (Abbildung 3.4).

70 | 3 Suche

3

1

3

1

Zustand in Agenda

4

2

3 t0

s0 1

2

3

3

1

2

3

expandiert t2 in Lösungspfad

2

2

3

3 t1

si

Start-/Zielzustand Die Zahlen über den Zuständen bezeichnen den Abstand des Knotens vom Zielknoten im entfalteten Suchbaum. Operator expandiert Lösungspfad

Abb. 3.4: Breitensuche. Beim Einfügen mehrerer Knoten in die Agenda wurde im Beispiel folgende Reihenfolge gewählt: Knoten vom expandierten Knoten aus links oben, links unten, rechts unten, rechts oben. Die Breitensuche findet ausgehend vom Startzustand s0 einen optimalen Pfad der Länge 3 zum Zielzustand t 0

Die genannte Auswahlmaxime legt die Suchstrategie noch nicht eindeutig fest, da noch offengelassen ist, in welcher Reihenfolge die Nachfolger eines Knotens in die Agenda einzufügen sind, wenn ein Knoten mehr als einen Nachfolger besitzt. Die sich anschließenden Überlegungen haben aber unabhängig davon Gültigkeit. Wir hatten vereinfachend angenommen, dass der Suchgraph ein uniformer Baum ist und der (einzige) Zielknoten auf der Tiefe d dieses Baumes und damit auch des sich entfaltenden Suchbaums liegt. Nachdem von der Breitensuche alle Knoten auf der Tiefe k − 1 expandiert sein müssen, bevor der erste Knoten auf der Tiefe k getestet werden darf, enthält die Agenda L vor der ersten Überprüfung (und ggf. Expansion) eines Knotens der Tiefe k alle Knoten der Tiefe k. Damit ist der Speicherbedarf für die Breitensuche – unabhängig von der Lage der Lösung auf der Tiefe d des Suchbaums – immer Space(BF) = b d , also exponentiell in der Tiefe des Suchbaums! Ein Knoten wird von der Breitensuche erst untersucht, wenn er expandiert, nicht schon, wenn er in L gespeichert wird. Um auf die Tiefe d des Zielknotens zu gelangen, müssen also vorher alle Knoten auf den höheren Ebenen 0, . . . , d − 1 untersucht wer­ b d −1 k den. Von diesen gibt es (wieder aufgrund der Uniformitätsannahme) ∑d−1 k=0 b = b−1 . Bis der Zielknoten angetroffen wird, sind dann auf der Tiefe d des Suchbaums besten­ falls einer (nämlich der Zielknoten) und schlimmstenfalls alle b d Knoten der Tiefe d auf ihre Zieleigenschaft hin zu untersuchen (wenn der Zielknoten der letztuntersuch­ d +b−2 te Knoten der Tiefe d ist). Der günstigste Zeitbedarf ist demnach b b−1 = O(b d−1 ) und der ungünstigste

b d+1 −1 b−1

= O(b d ). Daraus resultiert ein mittlerer Zeitbedarf Time(BF) = O(b d )

3.2 Pfadsuche | 71

für die Breitensuche, der unter unseren vereinfachenden Annahmen – wie schon der Speicherbedarf der Breitensuche – exponentiell in der Tiefe d des Suchgraphen ist. Die o. g. Auswahlmaxime stellt sicher, dass die Breitensuche vollständig ist, also auf jeden Fall eine Lösung findet, wenn es überhaupt eine Lösung gibt. Im schlimms­ ten Fall muss dazu der ganze Suchgraph durchsucht und damit der Suchbaum voll entfaltet werden. Nachdem der Suchbaum aufgrund der Uniformitätsannahme von der Größe b d ist, entschuldigt dies in gewisser Weise das geschilderte kostspielige Zeitverhalten der Breitensuche als im Prinzip unvermeidlich. Ärgerlich ist dagegen, dass die Breitensuche im schlimmsten Fall Speicher in der Größe des gesamten (baumförmigen) Suchgraphen abzüglich des Teils auf der Tiefe d benötigt, um eine Lösung zu finden. Dafür garantiert aber die Auswahlmaxime dieses Verfahrens, dass von ggf. mehreren vorhandenen eine Lösung zuerst gefunden wird, die an höchster Stelle im Suchbaum liegt, also mit einer minimalen Anzahl von Ope­ ratoranwendungen aus dem Startzustand hergestellt werden kann. 3.2.2.2 Tiefensuche Im Gegensatz zur Breitensuche wird die Agenda bei der Tiefensuche (engl. depth-first, DF) wie ein Keller verwaltet: Neue Knoten werden am gleichen (vorderen) Ende der Agenda eingeordnet, an dem der jeweils als Nächstes zu überprüfende Knoten vom Suchverfahren entnommen wird. Die Auswahlmaxime zur Tiefensuche lautet also: Bevor im soweit entfalteten Suchbaum Geschwister eines Knotens expandiert werden dürfen, müssen erst alle Kinder und Kindeskinder dieses Knotens expandiert worden sein.

Das Suchverfahren durchforstet damit immer erst den kompletten Suchbaum unter dem zuletzt expandierten Knoten der Agenda, bevor es im Suchbaum wieder auf­ steigt – daher auch der Name Tiefensuche (Abbildung 3.5). Auch die Maxime zur Tiefensuche legt die Suchstrategie noch nicht vollständig fest, da – ähnlich wie bei der Breitensuche – noch zusätzlich spezifiziert werden muss, in welcher Reihenfolge jeweils die Kinder eines Knotens an der alten Stelle ihres El­ ternknotens in die Agenda einzufügen sind. Repräsentiert v den momentanen Suchzustand, ist also v der erste Knoten auf der Agenda, dann müssen – der Auswahlmaxime für Tiefensuche zur Folge – alle unex­ pandierten Geschwister von Knoten auf dem Wurzelpfad vom Startknoten zum Kno­ ten v in der Agenda gespeichert sein (sie werden ja erst beim Aufstieg expandiert). Nachdem wir vereinfachend angenommen hatten, dass der einzige Lösungsknoten auf der Tiefe d des (baumförmigen) Suchgraphen liegt und dass der Suchgraph einen konstanten Verzweigungsgrad b hat, ist der Speicherbedarf Space(DF) für die Tiefen­ suche – unabhängig von der Lage der Lösung – linear in d: Space(DF) = d(b − 1) + 1 = O(d) (dieser Speicher wird erstmals bei Expansion des ersten Knotens auf Tiefe d benötigt).

72 | 3 Suche

3

1

1

Zustand in Agenda

4

2 3/5 t0

expandiert t2 in Lösungspfad

s0 1

si

Start-/Zielzustand Die Zahlen über den Zuständen bezeichnen den Abstand des Knotens vom Zielknoten im entfalteten Suchbaum.

1

Operator t1

expandiert Lösungspfad

Abb. 3.5: Tiefensuche. Beim Einfügen mehrerer Knoten in die Agenda wurde im Beispiel wieder die folgende Reihenfolge gewählt: Knoten vom expandierten Knoten aus links oben, links unten, rechts unten, rechts oben. Bei dieser Strategie findet Tiefensuche einen nicht optimalen Pfad der Länge 5 vom Startknoten s0 zum Zielknoten t 0 . Der Zielknoten t 0 wurde auf Baumtiefe 3 zum ersten Mal in die Agenda gestellt, jedoch nicht expandiert. Deshalb hat die gefundene Lösung die Tiefe 5

Der mittlere Zeitbedarf für die Tiefensuche ist nicht ganz so leicht zu ermitteln – wir folgen hier der Analyse in [11]. Zur Veranschaulichung stellen wir uns den Such­ baum vor. Die Knoten in diesem Baum markieren wir jeweils mit dem Zeitpunkt, zu dem sie expandiert werden, wenn vorher nicht ein Zielknoten angetroffen wurde. Die Kinder (direkten Nachfolger) eines Knotens zeichnen wir von links nach rechts sor­ tiert in der Reihenfolge ihres jeweiligen Expansionsalters. Mit diesen Festlegungen werden die Knoten bei einer Tiefensuche in diesem Suchbaum also von links unten nach rechts oben traversiert. Das Resultat der Visualisierung ist für den Spezialfall b = 3 in Abbildung 3.6 (mit kleiner Änderung aus [11]) zu sehen. Wenn das Verfahren nach B Zeiteinheiten zum ersten Mal auf die Tiefe d des (baumförmigen) Suchgraphen vordringt und nach W Zeiteinheiten den Suchgraphen komplett durchsucht hat, so vergeht aufgrund unserer vereinfachenden Annahmen

Abb. 3.6: Zeitbedarf Tiefensuche

3.2 Pfadsuche | 73

mindestens die Zeit B = d + 1 = O(d) und höchstens die Zeit W = ∑dk=0 b k = b d+1 −1 d b−1 = O(b ) bis der Zielknoten gefunden ist. In der von uns gewählten Visuali­ sierung weisen außerdem je zwei Knoten auf der Tiefe d im (baumförmigen) Such­ graphen, die den gleichen Abstand zum linken bzw. rechten Rand der Knotenschicht auf dieser Tiefe haben, die gleiche Summe B + W in ihren Knotenmarkierungen auf (in der Abbildung 3.6 sind solche Paare jeweils durch eine horizontale Klammer verbunden). Die Tiefensuche hat damit also einen mittleren Zeitbedarf von Time(DF) =

b d /2 × (B + W) B + W = = O(b d ) . 2 bd

Wie bereits das Breitensuchverfahren weist also das Tiefensuchverfahren einen Zeit­ bedarf auf, der unter unseren vereinfachenden Annahmen exponentiell in der Lö­ sungstiefe d des Suchgraphen wächst. In Bezug auf das Zeitverhalten kann daher kei­ nem der beiden Verfahren von vornherein der Vorzug gegeben werden. Anders liegen die Verhältnisse jedoch bei dem von uns ermittelten Speicherbe­ darf. Eine Suchstrategie, die schnell zu Endzuständen (unter unseren vereinfachen­ den Annahmen Zustände auf der Tiefe d des baumförmigen Suchgraphen) vorstößt, ist speicherökonomisch, da allein die Endzustände für eine Verkleinerung der Agenda sorgen. Damit entscheidet also die Form des Suchgraphen, ob Breiten- oder Tiefensu­ che für ein vorgelegtes Suchproblem in Bezug auf den Umgang mit Speicher besser abschneidet: Solange der aus dem Suchgraphen entfaltete Suchbaum nicht im Ver­ gleich zu seiner Breite sehr lange Wurzelpfade enthält und der Zielknoten in unserer Visualisierung des Suchbaums weit oben und rechts von diesen langen Wurzelpfa­ den liegt, wird die Tiefensuche der Breitensuche in Bezug auf das Speicherverhalten überlegen sein. Fatal ist die Situation allerdings, wenn die erste Lösung rechts oberhalb eines Un­ terbaums des Suchbaums liegt, in dem ein unendlicher Wurzelpfad liegt. In diesem Fall wird die Tiefensuche diesem unendlichen Pfad in die Tiefe folgen und nicht termi­ nieren. Tiefensuche ist also kein vollständiges Suchverfahren. Sie ist im Allgemeinen auch nicht optimal, da sie von zwei Lösungen immer diejenige zuerst finden wird, die links unterhalb der anderen liegt. Häufig unangemessen ist das uninformierte Verhalten von Tiefensuche auch beim Erkennen von Sackgassen. Tiefensuche steigt in so einem Fall grundsätzlich zum Va­ terknoten der Sackgasse auf, nimmt also die zeitlich zuletzt getroffene Entscheidung zurück und versucht dann über dessen nächstes Geschwister, d. h. mit einer Alternati­ ve für die letzte Entscheidung, wieder abzusteigen. Dieses chronologische Rücksetzen (engl. backtracking) ist aber z. B. beim Lösen eines Kreuzworträtsels fast immer kon­ traproduktiv: Meist ist nämlich nicht der letzte Versuch, ein Wort zu vervollständigen, sondern eine schon viel frühere Festlegung beim Ausfüllen des Rätsels für das späte­ re Scheitern des Lösungsversuchs verantwortlich, und es wäre viel klüger, gleich alle Entscheidungen von der eigentlich verantwortlichen bis zur Letzten auf einmal zu­ rückzunehmen und die Suche mit einer Alternative für die verantwortliche Entschei­

74 | 3 Suche

dung fortzusetzen. Dafür wird aber im Allgemeinen Information benötigt, über die ein blindes Suchverfahren nicht verfügt. In der Literatur werden zur Lösung des Sack­ gassenproblems im Wesentlichen zwei Lösungsvorschläge gemacht, die wir hier nicht weiter ausführen können und für die wir deshalb lediglich auf die Originalquellen ver­ weisen: schrittweise verbreitende Suche (engl. iterative broadening, [12]) und Suche mit abhängigkeitengesteuertem Rücksetzen (engl. dependency-directed backtracking, [7; 27] und [2]). 3.2.2.3 Schrittweise vertiefende Suche Wir hatten in den vorausgegangenen Abschnitten gesehen, dass das Tiefensuchver­ fahren unter unseren vereinfachenden Annahmen meist ein etwas besseres Zeit- und ein deutlich besseres Speicherverhalten als das Breitensuchverfahren aufweist, da­ für aber gelegentlich zum Nichtterminieren neigt und nicht optimal ist. Es wäre daher schön, wenn man nach der Aschenputtelmethode die guten Eigenschaften der beiden Verfahren kombinieren könnte, ohne dabei gleichzeitig die schlechten Eigenschaften in Kauf nehmen zu müssen. Dieses Verfahren müsste also im Wesentlichen den Raum­ bedarf von Tiefensuche und den Zeitbedarf sowie die Robustheit und Optimalität von Breitensuche aufweisen. Ein solches Suchverfahren gibt es tatsächlich. Die Schlüsselidee ist dabei, im Prin­ zip Breitensuche durchzuführen, jedoch nicht jeweils alle Knoten einer Ebene zwi­ schenzuspeichern, sondern diese jeweils zum Expansionszeitpunkt ggf. neu zu erzeu­ gen. Wie wir gleich sehen werden, rechnet sich dieses wiederholte Erzeugen unter un­ seren vereinfachenden Annahmen, solange die Zeit dafür nur kleiner ist, als die für das Überprüfen der Knoten auf der Tiefe d des (baumförmigen) Suchgraphen. Nach­ dem sich Tiefensuche außerdem vor allem dann schlecht verhält, wenn der Zielknoten höher liegt als der Suchgraph tief ist, ist es gut, wenn der Suchgraph nicht tiefer durch­ sucht wird, als das oberste Ziel liegt. Dem wird in Algorithmus 3.2 Rechnung getragen.

Algorithmus 3.2: Schrittweise vertiefende Suche Gegeben: der implizite Suchgraph zum Suchgraphen G = (V, E, u 0 , V T ) 1. Sei m = 1 (m steht für die maximale Suchtiefe). 2. L ← {u 0 }. 3. Ist L leer, so erhöhe m um 1 und mache weiter mit Schritt 2! 4. Andernfalls sei v der erste Knoten in L. 5. Gilt v ∈ V T , so melde Erfolg und liefere den Pfad vom Startknoten u 0 zu v. 6. Andernfalls entferne v aus L: L ← L − {v}: Befand sich v in dem so weit entfalteten Suchbaum auf einer Tiefe kleiner als m, so füge an den Anfang von L die Nachkommen von v an. Markiere dabei die neuen Knoten jeweils mit dem zugehörigen Wurzelpfad. 7. Weiter mit Schritt 3!

3.2 Pfadsuche | 75

Wie man sieht, führt der Algorithmus im Wesentlichen eine iterierte Tiefensuche durch, bei der nur bis zu einer bestimmten maximalen Suchtiefe m im Suchbaum vor­ gestoßen wird, die bei jedem neuen Suchvorgang um eins erhöht wird. Daher wird dieses Suchverfahren auch als Suchverfahren der schrittweisen Vertiefung (engl. itera­ tive deepening, ID ) bezeichnet. Offensichtlich findet die ID-Suche wie die Breitensuche immer zuerst die im (baumförmigen) Suchgraph höchstgelegene Lösung, ist also optimal und vollständig und kann sich nicht wie die Tiefensuche in unendlichen Wurzelpfaden verirren. Auf­ grund ihrer Realisierung hat sie jedoch – unabhängig von der Lage der Lösung auf der Tiefe d des Suchgraphen – den gleichen Raumbedarf, den auch die Tiefensuche aufweist: Space(ID) = Space(DF) . Der Speicherbedarf von ID stimmt also mit dem Speicherbedarf für die letzte Iteration überein. Der Zeitbedarf für die letzte Iteration der schrittweise vertiefenden Suche ist der, den eine Tiefensuche (unter unseren vereinfachenden Annahmen über die Lage der einzigen Lösung) mit einer Tiefenbegrenzung von d aufweisen würde. Vorher werden aber noch alle Teilbäume zu den Tiefen 1, . . . , d − 1 jeweils komplett aber vergeblich b j+1 −1 b d+1 −bd−b+d verstreicht. Zusammen durchsucht, wobei die Zeit T = ∑d−1 j=0 b−1 = (b−1)2

ergibt das im günstigsten Fall einen Zeitbedarf von T + (d + 1) = O(b d−1 ) und im d+1 ungünstigsten Fall von T + b b−1−1 = O(b d ), wodurch das Mittel für große d von (b+1)b d+1 2(b−1)2

dominiert wird, also in etwa mit dem Zeitbedarf Time(DF) der Tiefensuche übereinstimmt. Insgesamt erhalten wir damit für das Verhältnis des mittleren Zeitbe­ darfs für die schrittweise vertiefende und die reguläre Tiefensuche: 1≤

b+1 Time(ID) = ≤3. Time(DF) b − 1

Das Iterieren stellt also unter unseren vereinfachenden Annahmen (für große d) – ent­ gegen dem ersten Augenschein – nicht wirklich ein Problem dar.

3.2.3 Informierte Suche Die Strategien der bisherigen Suchverfahren organisieren die Knoten in der Agenda ohne Kenntnis des Knoteninhalts. Eine Information, die gerade bei gewichteten Such­ problemen berücksichtigt werden muss, sind die im Pfad vom Startknoten bis zu dem einzufügenden Knoten entstandenen Kosten. Eine weitere Information kann eine heu­ ristische Schätzfunktion liefern, die dem Suchverfahren problemspezifische Hinweise gibt, welche Knoten auf dem Pfad zu einem Zielknoten liegen.

76 | 3 Suche

3.2.3.1 Gleiche-Kosten-Suche Die im Folgenden skizzierte Gleiche-Kosten-Suche wird oft als uninformiertes Such­ verfahren beschrieben, da sie keine heuristische Schätzfunktion benötigt. Nach un­ serer Definition benötigt sie jedoch Informationen aus den Knoten (nämlich die ak­ kumulierten Kosten der Wurzelpfade der Knoten im soweit entfalteten Suchbaum). Außerdem passt sie insofern besser zu den anderen informierten Suchverfahren, als sie explizit Kosten für Aktionen berücksichtigt. Die Gleiche-Kosten-Suche entspricht dem Dijkstra-Algorithmus, der kürzeste Pfa­ de in kantengewichteten Graphen berechnet und in Lehrbüchern zur Graphentheorie oder allgemein zu Theoretischer Informatik zu finden ist. Zur konsistenten Benennung der Suchalgorithmen bleiben wir hier jedoch bei der in der KI üblicheren Bezeichnung der Gleiche-Kosten-Suche. Im Folgenden sei davon ausgegangen, dass in unserem gewichteten Zustands­ raum Z = (S, A, w A ) Operatoren nur positive Kosten verursachen, es also keine Opera­ toren gibt, deren Anwendung umsonst ist oder gar Gewinne (negative Kosten) bringt. Außerdem nehmen wir hier an, dass es eine (positive) untere Schranke ϵ ∈ ℝ für die Kosten der Operatoren gibt, d. h. für alle Zustände s ∈ S und alle Operatoren a ∈ A, die in s anwendbar sind, die Beziehung w A (a) ≥ ϵ > 0 gilt. Eine solche untere Schranke gibt es natürlich immer schon dann, wenn die Zahl der zur Problemlösung zur Verfügung stehenden Operatoren – wie vorne unterstellt – endlich ist. Definition 3.2.9. Für einen beliebigen Knoten v im so weit entfalteten, gewichteten Suchbaum B zum gewichteten Suchgraphen G = (V, E, u 0 , V T , w E ) nennen wir die Kosten g(v) := δ B (u 0 , v) eines in B kostenminimalen Wurzelpfades vom Startknoten u 0 zu v die (derzeitigen) Min­ destkosten von v. Im Fall von Suchgraphen, die keine Bäume sind, also Zusammenführungen von Pfa­ den oder gar Zyklen enthalten (ein Knoten ist dann nicht mehr auf eindeutigem Wege vom Startknoten aus zu erreichen), muss man einem Knoten zur Bestimmung seiner derzeitigen Mindestkosten natürlich jeweils die Kosten des Pfades zuordnen, auf dem der Knoten im soweit entfalteten Suchbaum B mit minimalen Kosten erreichbar ist. Dazu prüft man vor dem Einfügen eines Knotens v in die Agenda, ob v dort bereits mit einem Pfad enthalten ist, der größere Kosten verursacht, ersetzt dann ggf. diesen Pfad destruktiv durch den neu gefundenen, kostengünstigeren Pfad und platziert den Kno­ ten nicht neu auf die Agenda. Die Agenda enthält damit zu jedem Zeitpunkt für jeden auf ihr gespeicherten Knoten einen Wurzelpfad, der relativ zum bereits explorierten Teil des Suchgraphen kostenoptimal ist.

3.2 Pfadsuche | 77

Definition 3.2.10. Gleiche-Kosten-Suche (engl. uniform cost search, branch & bound) expandiert im so weit entfalteten Suchbaum zum gewichteten Suchgraphen G = (V, E, u 0 , V T , w E ) den Knoten v ∈ V auf der Agenda zuerst, der die geringsten derzeitigen Mindestkosten g(v) besitzt. Das Verfahren zur Gleiche-Kosten-Suche ist in Abbildung 3.7 illustriert. 1

1

Zustand in Agenda

3

s0 1

t0 3

2

3

1 3/4

expandiert t2 in Lösungspfad Start-/Zielzustand

Die Zahlen über den Zuständen bezeichnen den Abstand des Knotens vom Zielknoten im entfalteten Suchbaum.

2

3

si

3 t1

Operator expandiert Lösungspfad w=2 w=4 w=6

Abb. 3.7: Gleiche-Kosten-Suche. Wenn bei der Expansion mehrere Knoten mit gleichen Pfadkosten zur Verfügung stehen, wird dieselbe Strategie wie beim Beispiel der Tiefen- und Breitensuche ver­ wendet: Knoten vom expandierten Knoten aus links oben, links unten, rechts unten, rechts oben. Gleiche-Kosten-Suche findet den optimalen Pfad mit Pfadkosten 6 vom Startknoten s0 zum Zielkno­ ten t 1

Breitensuche ist der Spezialfall von Gleiche-Kosten-Suche, bei dem Einheitskosten für die Operatoren vorliegen. Die Mindestkosten eines Knotens stimmen dann mit des­ sen Tiefe im soweit entfalteten Suchbaum überein. Nachdem unter den o. g. Annah­ men die Mindestkosten g auf Wurzelpfaden streng monoton wachsen, lässt sich die Argumentation für die Vollständigkeit der Breitensuche direkt auf die Gleiche-Kos­ ten-Suche übertragen. Gleiche-Kosten-Suche ist also wie die Breitensuche nicht nur optimal, sondern auch vollständig. Gleiche-Kosten-Suche ist übrigens ein Spezialfall des noch vorzustellenden infor­ mierten Suchverfahrens, das durch den sog. A*-Algorithmus realisiert wird und teilt deshalb auch wesentliche Eigenschaften mit der A*-Suche. 3.2.3.2 Heuristische Schätzfunktionen Die Gleiche-Kosten-Suche verwendet für die Knotenauswahl nur Informationen zu den bisherigen (Mindest-)Kosten eines Pfades im soweit entwickelten Suchbaum. Zum

78 | 3 Suche

Leiten der Suche durch den Suchgraphen wären jedoch auch Informationen zum wei­ teren Verlauf interessant. Sogenannte heuristische Suchverfahren (die Klassiker zu die­ sem Thema sind [23] und [5]) bevorzugen daher bei der Knotenexpansion solche Kno­ ten, die aus deren Sicht vermutlich nahe am Ziel liegen. Was genau bei heuristischer Suche unter „Nähe zum Ziel“ zu verstehen ist, hängt natürlich vom konkreten Problem ab. Selbst dann, wenn das Ziel gut bekannt ist, fällt es häufig schwer, ein gutes Maß für die Nähe zu diesem Ziel festzulegen. Sicher wird diese Nähe aber von den Kosten der Operatoren abhängen, die für die Errei­ chung des Ziels in Betracht gezogen werden. Wir unterstellen daher im Folgenden, dass wir es mit einem Zustandsraumproblem mit einem gewichteten Suchgraphen G = (V, E, u 0 , V T , w E ) zu tun haben. Natürlich würde man zur Steuerung der Suche gerne über eine Funktion h∗ : V → ℝ verfügen, die für beliebige Knoten v ∈ V des Suchgraphen, auf der Grundlage der dort gespeicherten Informationen über den von u repräsentierten Zustand, die tat­ sächlichen Kosten h∗ (v) := minv∗ ∈V T δ(v, v∗ ) eines optimalen Pfads (im Fall von Einheitskosten also die kürzeste Distanz) von u zu einem Zielknoten angibt, falls ein Zielknoten von u aus erreichbar ist. Diese opti­ male Heuristik h∗ im Vorhinein zu bestimmen, ist aber im Allgemeinen mindestens genauso kostspielig wie die Bestimmung der eigentlichen Lösung des Suchproblems. Deshalb setzt man üblicherweise Daumenregeln zur Abschätzung h des tatsächlichen (Kosten-)Abstands h∗ zum nächstgelegenen Ziel ein und versucht dann mithilfe die­ ser Abschätzung einen möglichst guten, als Nächstes zu expandierenden Knoten zu bestimmen. Definition 3.2.11. Eine Funktion h : V → ℝ, die die Knoten des gewichteten Suchgra­ phen G = (V, E, u 0 , V T , w E ) über eine Schätzung von h∗ bewertet, heißt heuristische Schätzfunktion. Von einer heuristischen (Schätz-)Funktion h, die wir im Folgenden manchmal auch salopp als Heuristik bezeichnen werden, erwartet man einerseits, dass sie den Such­ prozess nicht an der Nase herumführt, also bei tatsächlicher Annäherung an ein Ziel auch größere Nähe signalisiert und andererseits, dass sie für eine gegebene Situation mit möglichst geringem Aufwand eine Schätzung dieses Abstands ermöglicht – zwei Ziele, die nur schwer gleichzeitig zu erfüllen sind. Formal verlangt man von einer heuristischen Funktion h meist nur, dass sie immer nicht negative Werte liefert und zumindest die Zielknoten v ∈ V T mit null bewertet: goal(v) = true

󳨐⇒

h(v) = 0 .

Eine plausible, aber – wie wir später sehen werden – starke Forderung an eine heu­ ristische Schätzfunktion ist ihre Konsistenz.

3.2 Pfadsuche | 79

Definition 3.2.12. Eine heuristische Schätzfunktion h für einen gewichteten Suchgraph G = (V, E, u 0 , V T , w E ) heißt konsistent, wenn für beliebige Kanten (u, v) ∈ E gilt: h(u) − h(v) ≤ w E (u, v) . Bei einer konsistenten Schätzfunktion schrumpft also die geschätzte (Kosten-)Distanz zum Ziel bei einem vorgegebenen Schritt im Suchgraphen nicht mehr, als die Kosten, die dieser Schritt verursacht. Damit ist auch das Maximum zweier konsistenter Schätz­ funktionen wieder konsistent. Definition 3.2.13. Gilt für zwei Heuristiken h1 und h2 die Beziehung ∀v ∈ V : h1 (v) ≤ h2 (v), so heißt h2 besser informiert als h1 . Das Maximum zweier Heuristiken h1 und h2 ist also mindestens so gut informiert wie h1 und h2 . Die am schlechtesten informierte, aber trotzdem konsistente Heuristik h ist die mit der Eigenschaft ∀v ∈ V : h(v) = 0 , die sog. „Ich-bin-schon-da“-Heuristik. Diese Heuristik macht offensichtlich gar kei­ nen Gebrauch von den bei den Knoten gespeicherten, zustandscharakterisierenden Informationen. Beispiel 3.2.4. Eine Heuristik h1 für das Schiebepuzzle-Problem in Beispiel 3.1.1 besteht z. B. darin, die Anzahl der Steine zu zählen, die in der momentanen Situation noch nicht am richtigen Platz sind – die Situation in Abbildung 3.1 wäre danach mit drei zu bewer­ ten. Offensichtlich ist eine Schiebepuzzle-Stellung umso weiter vom Ziel entfernt, je mehr derartige Fehlplatzierungen in ihr bestehen. Eine bessere, aber auch etwas aufwendiger zu bestimmende Heuristik h2 für das Schiebepuzzle erhält man durch Berechnen der sog. Manhattan-Distanz. Dabei bestimmt man für jeden Stein den kürzesten Weg zu sei­ ner Zielposition und summiert diese Werte zu einer Bewertung der Gesamtstellung auf – für die gezeigte Beispielsituation erhält man damit ebenfalls den Wert drei. Die fehlplat­ zierten Steine einer Situation gehen in die Manhattan-Distanz also umso stärker ein, je weiter sie von ihrer jeweiligen Zielposition entfernt sind. Die Heuristik der ManhattanDistanz ist besser informiert als die der Fehlplatzierungsanzahl. 3.2.3.3 Gierige Suche Verwendet man zum Einsortieren von neuen Knoten in die Agende nur eine gegebene heuristische Schätzfunktion h, so spricht man von gieriger Suche (engl. greedy search). Definition 3.2.14. Gierige Suche expandiert im so weit entfalteten Suchbaum zum ge­ wichteten Suchgraphen G = (V, E, u 0 , V T , w E ) den Knoten v ∈ V auf der Agenda zuerst, für den die heuristische Schätzfunktion h den kleinsten Schätzwert h(v) liefert, Gierige Suche sieht nur nach vorne, sie strebt in die Richtung des aus agendalokaler Sicht nächstgelegenen Ziels ohne dabei in Betracht zu ziehen, welche Mindestkosten

80 | 3 Suche

Zustand

Operator

w=2

h=2

in Agenda

expandiert

w=4

h=3

expandiert

Lösungspfad

w=6

h=4

in Lösungspfad si

h=5

Start-/Zielzustand

Die Zahlen über den Zuständen bezeichnen den Abstand des Knotens vom Zielknoten im entfalteten Suchbaum. 1

2

3 t0

s0 1

2

3

1

t2 1

2

3 t1

Abb. 3.8: Gierige Suche. Die heuristische Schätzfunktion ist an jedem Zustand als gepunkteter Kreis angegeben. An den Zielzuständen ist der Wert der heuristischen Schätzfunktion jeweils null. Gierige Suche findet einen nicht optimalen Pfad mit Pfadkosten zehn vom Startknoten s0 zum Zielknoten t 0

das Streben in die betreffende Richtung für eine potenzielle Lösung bewirken wird (Abbildung 3.8). Gierige Suche findet im Allgemeinen nicht eine optimale Lösung. Da die zugehöri­ ge Einfügestrategie (Implementierung von insert) die derzeitigen Mindestkosten von Kandidatenpfaden ignoriert, kann man dies auch kaum erwarten. Trotzdem ist gierige Suche eine wichtige Strategie in der Praxis, da sie in vielen Fällen schnell zu vernünftigen Lösungen führt. Dabei ist auch zu bedenken, dass die Modellierung einer Aufgabe als Suchproblem sowieso eine Abstraktion der eigentli­ chen Aufgabe darstellt (mehr dazu in Abschnitt 3.4) und das Optimum des Suchpro­ blems nicht notwendigerweise die beste Lösung der ursprünglichen Aufgabe reprä­ sentiert. 3.2.3.4 A*-Suche Die Schwäche von gieriger Suche, die Mindestkosten von Kandidatenpfaden zu igno­ rieren, behebt der A*-Algorithmus durch eine Kombination dieser Mindestkosten (wie sie die Gleiche-Kosten-Suche nutzt) mit der Vorausschau anhand einer Heuristik h (wie sie die gierige Suche vornimmt). Er wurde das erste Mal 1968 von Peter Hart,

3.2 Pfadsuche |

81

Nils J. Nilsson und Bertram Raphael beschrieben [15]. Dem A*-Algorithmus liegt die folgende Auswahlmaxime zugrunde: Definition 3.2.15. A*-Suche expandiert im so weit entfalteten Suchbaum zum gewich­ teten Suchgraphen G = (V, E, u 0 , V T , w E ) den Knoten v ∈ V auf der Agenda zuerst, der (aus Sicht von v) schätzungsgemäß am nächsten an einem möglichst kostengünstigen Ziel t ∈ V T liegt, d. h. den mit minimalem f(v) := g(v) + h(v). Die Funktion g errechnet hier – wie bei der Gleiche-Kosten-Suche gemäß Definiti­ on 3.2.9 – die derzeitigen Mindestkosten des zu expandierenden Knotens v. Das Ver­ fahren ist in Abbildung 3.9 illustriert.

Zustand

Operator

w=2

h=2

in Agenda

expandiert

w=4

h=3

expandiert

Lösungspfad

w=6

h=4

in Lösungspfad si

h=5

Start-/Zielzustand

Die Zahlen über den Zuständen bezeichnen den Abstand des Knotens vom Zielknoten im entfalteten Suchbaum. 1

1

2

s0

t0

1

3

1

2

t2

2

3

3 t1

Abb. 3.9: A*-Suche. Die heuristische Schätzfunktion ist an jedem Zustand als gepunkteter Kreis an­ gegeben. An den Zielzuständen ist der Wert der heuristischen Schätzfunktion jeweils null. A*-Suche findet denselben optimalen Pfad mit Pfadkosten sechs wie die Gleiche-Kosten-Suche, muss dazu aber weniger Knoten expandieren

3.2.3.4.1 Zulässige Schätzfunktionen Solange nichts weiter über die im A*-Algorithmus verwendete Schätzfunktion be­ kannt ist, kann nur wenig über das Verhalten des A*-Algorithmus ausgesagt werden. Dies ändert sich schlagartig, wenn wir verlangen, dass die Schätzfunktionen konsis­ tent oder wenigstens zulässig sein soll.

82 | 3 Suche

Definition 3.2.16. Eine Schätzfunktion h wird als optimistisch oder zulässig bezeich­ net, falls h(v) ≤ h∗ (v) für alle Knoten v ∈ V des Suchgraphen G = (V, E, u 0 , V T , w E ) gilt, die (Kosten-)-Distanz von v zum nächsten Zielknoten also nicht überschätzt wird. Beispiel 3.2.5. Die beiden weiter vorne für das Schiebepuzzle beispielhaft aufge­ führten Schätzfunktionen („Anzahl Fehlplatzierungen“ bzw. „Manhattan-Distanz“) sind zulässig (eine entsprechende Analyse des allgemeinen Schiebepuzzles findet sich u. a. in [5]). Das Maximum zweier zulässiger Schätzfunktionen ist offenbar wieder zulässig. Kon­ sistente Schätzfunktionen sind immer auch zulässig, aber nicht jede zulässige Schätz­ funktion ist auch konsistent (für einen Beweis dieser Aussage, siehe [5]). Der A*-Algorithmus findet garantiert zuerst eine optimale Lösung, wenn die Schätzfunktion zulässig ist. Außerdem hat die Schätzfunktion einen wesentlichen Einfluss auf die Geschwindigkeit, mit der der A*-Algorithmus so eine optimale Lö­ sung findet: Sind zwei Schätzfunktionen h1 und h2 zulässig und ist h2 besser informiert als h1 , dann explo­ riert der A*-Algorithmus mit h2 nie mehr Knoten als mit h1 (für einen Beweis konsultiere man [7] bzw. [22]).

Das eine Geschwindigkeitsextrem stellt hier die „Ich-bin-schon-da“-Heuristik dar, bei der A* zur Breitensuche (bzw. Gleiche-Kosten-Suche bei variablen Operatorkosten) entartet. Das andere Extrem resultiert, falls die Schätzfunktion zur Verfügung steht, die den Abstand zum nächsten Zielknoten immer exakt angibt; in diesem Fall steu­ ert der A*-Algorithmus ohne Umwege, d. h. mit maximaler Geschwindigkeit, auf das nächstgelegene Ziel zu. Es kann übrigens keine zulässige Schätzfunktion geben, die mit A*-Suche Tiefen­ suche realisiert, da Tiefensuche im Allgemeinen nicht die optimale Lösung eines Such­ problems findet, ja nicht einmal vollständig ist.

3.2.4 Zusammenfassung Tabelle 3.1 fasst die hier vorgestellten Algorithmen zusammen. Die Wahl des besten Al­ gorithmus für ein gegebenes Suchproblem kann jedoch nicht einfach einer Checkliste folgen. Man sollte eine Vorstellung über die Art des Zustandsraumes haben, insbe­ sondere davon, ob unendliche Schleifen möglich sind. In diesem Fall ist Tiefensuche problematisch, es sei denn, man verhindert redundante Pfade durch eine Liste ge­ schlossener Knoten. Auch Laufzeitangaben sind nur bedingt hilfreich. Alle Algorithmen haben im schlimmsten Fall exponentielle Laufzeit, was nicht überrascht, wenn man sich vor Au­ gen führt, dass die meisten interessanten Probleme, die man mit Suche zu lösen ver­ sucht, NP-vollständig sind. Wichtiger ist, dass die Modellierung (Abschnitt 3.4) zum

3.3 Optimierung

| 83

Tab. 3.1: Überblick über die vorgestellten Suchalgorithmen Verfahren

Insert-Strategie

Vollständigkeit

Optimalität

Breitensuche Tiefensuche Schrittweise Tiefensuche

Am Ende Am Anfang Am Anfang

Ja Nein Ja

Ja Nein Ja

Gleiche-Kosten-Suche Gierige Suche A*-Suche

Pfadkosten Heuristik Pfadkosten und Heuristik

Ja Nein Ja

Ja Nein Ja

Algorithmus passt. Möchte man beispielsweise Optimalität mit dem A*-Algorithmus garantieren, muss man sich die Mühe machen, eine zulässige Heuristik zu finden.

3.3 Optimierung Die Aufgabe bei der Pfadsuche besteht darin, die Arbeitsschritte zu ermitteln, die ei­ nen gegebenen Anfangszustand in einen Zielzustand verwandeln. In vielen Fällen ist jedoch der Zielzustand selbst der interessanteste Teil des Prozesses und der Weg da­ hin nicht weiter wichtig. Beispiele sind das Finden von kürzesten Routen als Rund­ reiseproblem, bei dem die Zustände Kandidatenrouten darstellen, das Erstellen von Zeitplänen oder die Zuschnittplanung in Produktionsprozessen. Das Ziel wird dabei üblicherweise nicht durch eine Menge von Zielzuständen oder ein Zielprädikat vor­ gegeben, sondern durch eine Zielfunktion f , die die Güte von Zuständen numerisch bewertet. Die Aufgabe bei solchen Aufgaben ist das Maximieren (z. B. von Durchsatz­ mengen) oder Minimieren (z. B. von Kosten) dieser Zielfunktion. Definition 3.3.1. Ein Optimierungsproblem P = (S, A, f) besteht aus 1. einer Menge S von Zuständen, die potenzielle Lösungen der Aufgabe darstellen, 2. einer Menge A = {a1 , . . . , a n } von Zustandsübergangsoperatoren a i : S → S (1 ≤ i ≤ n), die Transformationen von Lösungen darstellen und durch deren Anwendun­ gen neue Lösungsalternativen generiert werden und 3. einer Zielfunktion f , die jedem Zustand eine numerische Bewertung (üblicherweise eine natürliche oder reelle Zahl) zuordnet: f : S → ℝ. Optimierungsalgorithmen zu derartigen Optimierungsproblemen werden auch als lo­ kale Suchverfahren bezeichnet. Im Gegensatz zur Pfadsuche benötigt ein Optimierungsproblem keinen Startzu­ stand. Es ist möglich, solch einen Startzustand fest vorzugeben, meist wird er jedoch zufällig gewählt. Außerdem tritt an die Stelle der Zielzustände die Zielfunktion (Abbil­ dung 3.10). Theoretisch wäre die Menge der Zielzustände als die Menge von Zuständen vorgebbar, die die höchst- (oder niedrigst-)mögliche Bewertung von der Zielfunktion

84 | 3 Suche

Abb. 3.10: Zustandsraum für ein Optimierungsproblem. Die Größe der Kreise repräsentiert die Ziel­ funktion. Statt Zielzuständen enthält der Raum lokale Maxima (mit dicken Konturen markiert), die jedoch unterschiedliche Güte aufweisen

erhalten. Um solch ein globales Optimum zu finden, wäre im Allgemeinen aber eine systematische Aufzählung aller Zustände nötig, was für reale Probleme üblicherweise jede verfügbare Rechenkapazität übersteigt. Die meisten Verfahren können daher nur lokal optimale Lösungen zurückliefern, also Lösungen, die durch Anwendung jedes Operators nur schlechter werden würden (eine Verbesserung könnte nur durch An­ wendung einer Kette von Operatoren eintreten). Eine andere Möglichkeit ist es, den Zustandsraum so zu transformieren, dass die Zielfunktion konvex ist, d. h. nur ein Mi­ nimum oder Maximum besitzt. Dann ist jedes lokale Optimum gleichzeitig das globale Optimum. Solche Transformationen sind jedoch nur für Spezialfälle bekannt. Beispiel 3.3.1. Stellen wir uns ein extrem vereinfachtes medizinisches Experiment vor. In diesem Experiment wurden Versuchspersonen bestimmte Dosen eines Medikaments verabreicht und dann in irgendeiner, uns nicht weiter bekannten Form der daraus resul­ tierende Zustand der Versuchspersonen gemessen. Das Ergebnis wäre z. B. eine solche Tabelle: Medikamentendosis

Patientenzustand

2.13 2.38 1.96 ...

4.56 5.16 3.17 ...

Die Initiatoren des Experiments vermuten einen funktionalen Zusammenhang p zwi­ schen der Medikamentendosis und dem Patientenzustand, der mit einer quadratischen Gleichung beschrieben werden kann: p(Medikamentendosis) = a ⋅ Medikamentendosis2 + b ⋅ Medikamentendosis + c .

3.3 Optimierung

| 85

Gesucht sind nun Belegungen der Variablen a, b und c, für die der vermutete Zusammen­ hang die Beobachtungen möglichst gut beschreibt. Diese Aufgabe kann man wie folgt als Optimierungsproblem formulieren. Zustände: die Menge {[a, b, c] | a, b, c ∈ ℝ} von dreistelligen Vektoren, die mögliche Werte der gesuchten Variablen repräsentieren, Operatoren: Veränderungen der durch die Vektoren codierten Variablenwerte, z. B. um einen festen Wert ε: o a : [a, b, c] → [a + ε, b, c] ,

o b : [a, b, c] → [a, b + ε, c] , o c : [a, b, c] → [a, b, c + ε] ,

Zielfunktion: implizit definiert über die Tabelle: Pro Tabellenzeile ermittelt man die Abweichung zwischen dem dort zur Medikamen­ tendosis vermerkten, gemessenen Patientenzustand und dem für die aktuelle Varia­ blenbelegung [a, b, c] prognostizierten Zustand p(Medikamentendosis). Diese Ab­ weichung, quadratisch aufsummiert über alle Tabellenzeilen, soll möglichst klein sein. Dieses Beispiel ist übrigens auch ein Beispiel für überwachtes Maschinelles Lernen. Ver­ fahren zum Maschinellen Lernen (Kapitel 11) sind Varianten der hier vorgestellten Opti­ mierungsalgorithmen.

3.3.1 Bergsteigerverfahren Wenn man sich in einer unbekannten Gegend verlaufen hat, soll man einer Pfadfin­ derregel zufolge permanent versuchen, in der Landschaft abzusteigen und keinesfalls bergauf gehen: So hat man eine gute Chance, früher oder später in einem Tal und an einem (natürlich abwärts fließenden) Gewässer anzugelangen, wo bevorzugt Siedlun­ gen anzutreffen sind. Als Verbesserung der eigenen Situation wird bei dieser Pfadfin­ derregel also die lokale Verminderung der Höhe über dem Meeresspiegel genommen. Dieses Verhalten wird durch den Optimierungsalgorithmus 3.3 realisiert, für den die Abbildung 3.11 beispielhaft einen Zustandsraum zeigt. Beim Bergsteigerverfahren (engl. hill climbing, HC) nimmt man (passend zum Na­ men des Verfahrens) meistens an, dass ein Maximum der Zielfunktion gesucht wird, man also immer bergauf läuft. Das Verfahren funktioniert natürlich auch zur Suche eines Minimums, wenn man das Vorzeichen der Zielfunktion umdreht. Ist die Anzahl der Operatoren beschränkt, so hat Bergsteigen lediglich einen kon­ stanten Speicherbedarf von Space(HC) = O(b) , wobei dann b der maximale Verzweigungsgrad im Suchraum, also die maximale An­ zahl in einem Zustand anwendbarer Operatoren, ist.

86 | 3 Suche

Algorithmus 3.3: Das Bergsteigerverfahren Gegeben: das Optimierungsproblem P = (S, A, f) 1. Sei s0 ein beliebiger Zustand aus S. 2. Berechne die Menge N 0 der Nachbarzustände von s0 : N 0 ← {a(s0 ) | a ∈ A und a anwendbar in s0 }. 3. Berechne die Zielfunktion f für alle Zustände in N 0 und bestimme den Nachbarzustand s󸀠 von s0 mit der höchsten Bewertung: s󸀠 ← arg maxs∈N0 f(s). 4. Gilt f(s󸀠 ) > f(s0 ), so verwende s󸀠 als neuen besten Zustand: s0 ← s󸀠 , weiter mit Schritt 2! 5. Ansonsten gib s0 als lokales Maximum zurück.

Abb. 3.11: Das Bergsteigerverfahren. Die Größe der Kreise repräsentiert die Zielfunktion. Statt Ziel­ zuständen enthält der Raum lokale Maxima (mit dicken Konturen markiert), die jedoch unterschiedli­ che Güte aufweisen

Einen zu hohen Verzweigungsgrad kann man umgehen, indem man in Schritt 2 nur eine zufällig (oder regelbasiert) gewählte Stichprobe der Nachbarzustände generiert und bewertet. Das Bergsteigerverfahren vollzieht auf der Zielfunktion im Wesentlichen eine diskrete Variante dessen, was ein Gradientenabstieg (Kapitel 11), beginnend beim Startknoten des Suchraums, leisten würde, wenn die Schätzfunktion differenzier­ bar wäre (was bei einem per Definition diskreten Suchraum natürlich nicht möglich ist). Neben dem bereits angesprochenen Problem der lokalen Maxima, bestimmt die Struktur des Suchraums auch die Effizienz der Suche. In Teilen des Suchraums, in de­ nen sich der Wert der Schätzfunktion nicht ändert (sog. Plateaus) vollzieht Bergstei­ gen im Wesentlichen blinde Suche und führt mangels jeglicher Anhaltspunkte nur zufällige lokale Richtungsänderungen aus. Deshalb ist man z. B. mit dem Bergsteiger­ verfahren in flachen Wüstenlandschaften hoffnungslos verloren.

3.3 Optimierung

|

87

3.3.1.1 Randomisierte Varianten des Bergsteigens Eine naheliegende Möglichkeit, die genannten Probleme zu lindern, besteht darin, das Bergsteigerverfahren an einem zufällig gewählten Zustand neu zu starten, sobald es an einem Zustand angelangt ist, von dem aus kein Fortschritt mehr erzielt wird und sich für die soweit erfolgten Suchvorgänge das bisher beste Endergebnis zu mer­ ken (engl. random-restart hill climbing). Hat man genug Zeit für solche Neustarts, so wird man auf diese Weise früher oder später ein globales Maximum finden. Dabei be­ nötigt man im Mittel umso mehr Durchgänge, je mehr lokale Maxima in der durch die Schätzfunktion definierten Landschaft enthalten sind. Einen anderen Weg zur Lösung der Probleme beschreitet das Verfahren des sog. si­ mulierten Ausglühens (engl. simulated annealing, [17]), bei dem nicht der Startzustand zufällig variiert wird, sondern während der Suche mit einer bestimmten Wahrschein­ lichkeit auch Schritte in eine Richtung unternommen werden dürfen, die keine lokale Maximierung der Zielfunktion bewirken. Auf diese Weise können lokale Maxima mit einer im Verlauf der Zeit sinkenden Wahrscheinlichkeit wieder verlassen werden. Die Wahrscheinlichkeit wird proportional zu einer globalen Größe T, der sog. Tempera­ tur gewählt, die von Iteration zu Iteration langsam reduziert wird. Irgendwann ist die Wahrscheinlichkeit dann so klein, dass das Verfahren nur noch aufwärts schreiten darf und sich wie das Bergsteigerverfahren verhält, also das nächste lokale und hof­ fentlich auch globale Maximum ansteuert. Nachdem der zum simulierten Ausglühen gehörende stochastische Prozess die Markov-Eigenschaft besitzt, kann man zeigen, dass das Verfahren asymptotisch kon­ T0 , fällt die vergiert. Gilt etwa für die Temperatur T k beim k-ten Schritt T k ≥ log(1+k) Temperatur also sehr langsam und ist T0 eine hinreichend große Starttemperatur, so gelangt die Suche schließlich mit einer Grenzwahrscheinlichkeit von eins in ein glo­ bales Maximum ([8] – andere hinreichende Konvergenzbedingungen finden sich z. B. in [1]). Das Verfahren bezieht seinen Namen nach einer Erfahrung beim Kochen von Stahl, wonach man einen besonders guten und harten Stahl dadurch erhält, dass man den rohen Stahl anfangs stark erhitzt und dann langsam abkühlen lässt.

3.3.2 Evolutionäre Algorithmen Wie der Name vermuten lässt, leitet sich die Idee der evolutionären Algorithmen aus der Biologie ab, ebenso wie die damit verbundenen Begrifflichkeiten: Population, Mu­ tation und Selektion. Im Grunde handelt es sich aber um eine Art parallelisierte Ver­ sion des Bergsteigeralgorithmus. Beim Bergsteigen haben wir randomisierte Neustarts als Möglichkeit erwähnt, um das Problem der lokalen Maxima zum umgehen. Statt sequenzieller Neustarts könnte man das Verfahren auch mehrfach parallel laufen lassen. Neben der Zeitersparnis er­ möglichen es parallele Läufe sogar, Informationen der verschiedenen Läufe unterein­

88 | 3 Suche

ander auszutauschen. In komplexen Zustandsräumen kann es sein, dass eine Lösung ein Gütekriterium besonders gut erfüllt, eine andere Lösung dagegen bei einem an­ deren Gütekriterium besser abschneidet. Durch Kombination der Zustände lässt sich damit schneller ein vielversprechender Zustand erzeugen, als durch das Suchen in der Nachbarschaft (Abbildung 3.12). Das Kombinieren von Zuständen setzt jedoch voraus, dass die Zustände in einem Format repräsentiert sind, das sich für solch eine Opera­ tion eignet. In evolutionären Algorithmen wird deshalb die Definition von Optimie­ rungsalgorithmen auf Zustandsrepräsentationen mit Vektoren eingeschränkt. Definition 3.3.2. Ein Problem P = (S, f) für einen evolutionären Algorithmus besteht aus 1. einer Menge S von Individuen (Zuständen), die jeweils als Vektoren repräsentiert sind und 2. einer Fitnessfunktion (Zielfunktion) f , die jeden Zustand auf eine (üblicherweise reellwertige) Bewertung abbildet: f : S → ℝ. Die Operatoren sind bei evolutionären Algorithmen fest im Algorithmus angelegt, können jedoch durch Parameter weiter detailliert werden: – Mutation ändert einen Wert im Zustandsvektor, ähnlich wie die Operatoren in Bei­ spiel 3.3.1, jedoch nicht um einen festen Wert ε, sondern üblicherweise um einen zufälligen Wert aus einem konfigurierbaren Bereich. – Rekombination, auch als cross-over bezeichnet, transformiert zwei Vektoren in ei­ nen neuen Vektor (macht gewissermaßen aus zwei Elternvektoren einen Kindvek­ tor). Üblicherweise geschieht dies, indem einige Elemente aus dem ersten Vektor i mit einigen aus dem zweiten Vektor j zu einem neuen Vektor k zusammengesetzt wer­ den, z. B. wie folgt:

i = [i0 , i1 , i2 , i3 ], j = [j0 , j1 , j2 , j3 ]



k = [i0 , i1 , j2 , j3 ] .

Der evolutionäre Algorithmus 3.4 beginnt mit einer vorgegebenen Anzahl n von zu­ fällig gewählten Zustandsvektoren (Population). Auf jeden dieser Vektoren wird die Fitnessfunktion angewendet, die die Fortpflanzungschancen des Individuums misst. Im Selektionsschritt werden dann zufällig Individuen für die nächste Iteration ausge­ wählt, wobei die Wahrscheinlichkeit, gewählt zu werden, von der Fitness des Indivi­ duums abhängt. Die gewählten Individuen werden schließlich durch Rekombination und Mutation zu neuen Individuen zusammengesetzt, wodurch eine neue Population der Größe n zur weiteren Evolution entsteht. Algorithmus 3.4 enthält kein explizites Abbruchkriterium. Üblicherweise verwen­ det man eine feste Zahl von Iterationen (Generationen) oder ein Konvergenzkriterium ähnlich dem beim Bergsteigen: Stoppe, wenn von einer Generation zur nächsten keine nennenswerte Verbesserung eintritt (oder sogar eine Verschlechterung).

3.3 Optimierung

Zustand in erster Generation

Rekombination

Zustand in zweiter Generation

Mutation

Zwischenzustand nach Rekombination, vor Mutation

(a)

(b)

(c)

| 89

90 | 3 Suche

◂ Abb. 3.12: Evolutionärer Algorithmus. Die Größe der Kreise repräsentiert die Zielfunktion. Statt Zielzuständen enthält der Raum lokale Maxima (mit dicken Konturen markiert), die jedoch unter­ schiedliche Güte aufweisen. (a) Erste Generation aus vier zufälligen Zuständen (hellgrau markiert). Die Gesamtfitness (Summe der Zielfunktionen aller Zustände in der Population) ist 7,5. (b) Optimie­ rungsschritt durch Rekombination und Mutation; das Übernehmen eines Zustandes ohne Rekom­ bination wird in diesem Beispiel auch erlaubt. Mutationen werden zufällig nach der Rekombination oder Übernahme von Zuständen durchgeführt. (c) Zweite Generation von Zuständen nach dem ers­ ten Optimierungsschritt. Die Gesamtfitness ist 10,5

Wie das Bergsteigerverfahren kann man evolutionäre Algorithmen in verschiede­ nen Varianten anwenden. Beispielsweise kann das beste Individuum immer unver­ ändert in die neue Population aufgenommen werden, die Populationsgröße könnte sich ändern oder die Selektionsfunktion könnte (wie beim simulierten Ausglühen) am Anfang die Fortpflanzungschancen für weniger privilegierte Individuen erhö­ hen.

Algorithmus 3.4: Evolutionärer Algorithmus Gegeben: ein Problem P = (S, f) für einen evolutionären Algorithmus 1. Sei S󸀠 eine zufällige Menge von Zuständen mit S󸀠 ⊂ S. 2. Berechne die Fitness f für alle Individuen in S󸀠 . 3. Bestimme eine Menge I ⊂ S󸀠 von sich fortpflanzenden Individuen, wobei die Wahrscheinlichkeit dafür, dass ein Individuum i aus S󸀠 in I aufgenommen wird, proportional zu dessen Fitness f(i) ist. 4. Bestimme aus I eine neue Population S󸀠󸀠 durch Rekombination und Mutation der Individuen in I. 5. S󸀠 ← S󸀠󸀠 , weiter mit Schritt 2.

3.4 Modellierung von Problemräumen Das Grundprinzip von Suche verlagert die Arbeit vom Programmieren auf das Model­ lieren. Die Modellierung ist der Schritt, der eine Aufgabe aus der realen Welt über eine Zustandsraumrepräsentation so beschreibt, dass sie in das Schema einer Suchaufgabe passt. Dazu müssen wir festlegen, was wir als Zustände auffassen wollen und welche Operatoren dann diese Zustände ineinander überführen sollen. Bei Optimierungsauf­ gaben ist zusätzlich die Wahl der Zielfunktion entscheidend. Die Suchalgorithmen haben wir bereits ausführlich behandelt, und Implementie­ rungen dieser Algorithmen sind leicht zu bekommen. Für die Modellierung gibt es – im Gegensatz zu den Suchalgorithmen – keine naheliegenden oder gar universellen Definitionen und Formeln. Hier ist menschliche Kreativität gefragt – ähnlich wie beim Lösen mathematischer Aufgaben [24].

3.4 Modellierung von Problemräumen

| 91

Beispiel 3.4.1 Das Acht-Damen-Problem [25]. Auf einem Schachbrett sollen acht Da­ men so angeordnet werden, dass sie sich nach den Regeln des Schachspiels nicht gegen­ seitig bedrohen, d. h., in jeder Zeile, Spalte und Diagonale des Schachbrettes darf für eine Lösung nur jeweils genau eine Dame platziert werden. Modell 1: Ein Zustand ist ein Schachbrett mit acht Damen darauf, der Anfangszustand ist eine zufällige Anordnung der Damen. Ein Operator verschiebt eine Dame um ein Feld. Die Zielfunktion zählt die Angriffe, die in dem Zustand möglich wären. Ein Ziel­ zustand ist ein Zustand, bei dem die Anzahl der Angriffe null ist. Dieser Zustands­ raum beinhaltet 4 ⋅ 109 Zustände. Neben dem großen Zustandsraum ist bei diesem Modell auch die Zielfunktion pro­ blematisch. In vielen Fällen wird sich die Zielfunktion durch Anwendung eines Ope­ rators kaum ändern und somit helfen lokale Verbesserungen nicht weiter. Modell 2: Ein Zustand ist ein Schachbrett mit null bis acht Damen darauf. Ein Operator setzt eine Dame in die auf dem Schachbrett am weitesten links befindliche Spalte, in der noch keine Dame steht und zwar so, dass die neue Dame von keiner vorhandenen Dame angegriffen wird. Ein Zielzustand ist ein Zustand, in dem alle Damen auf dem Brett platziert sind. In diesem Fall haben wir den für ein Optimierungsproblem untypischen Weg ge­ wählt, das Problem als Pfadsuche zu formulieren. Der Suchraum beinhaltet nur noch 2057 Zustände. Die Modellierung umfasst also eine Abwägung, wie viel Arbeit man selbst für die Lö­ sung zu investieren bereit ist und wie viel Arbeit man dem Suchalgorithmus überlas­ sen will. Beim Acht-Damen-Problem ist die erste Formalisierung die naheliegende, die zweite braucht mehr Denkaufwand. Ebenso bedeutet das Entwickeln einer guten Heu­ ristik für die A*-Suche menschlichen Aufwand. In gewisser Weise relativiert sich so der Anspruch auf Allgemeinheit von Suche. Sie funktioniert umso besser, desto mehr Ge­ danken man sich beim Modellieren gemacht hat. Suche ist eben ein Werkzeug, keine Wunderwaffe.

3.4.1 Zustände und Operatoren Ein Problem, das bereits mehrfach angesprochen wurde, ist die Größe von realisti­ schen Zustandsräumen. Wir haben am Acht-Damen-Problem gesehen, wie eine güns­ tige Modellierung die Größe des Zustandsraums einschränken kann. Jedoch geht es nicht nur darum, einen möglichst kleinen Zustandsraum zu defi­ nieren, sondern einen, der die Aufgabe so gut wie möglich repräsentiert. Betrachten wir daher noch ein etwas komplexeres Beispiel. Beispiel 3.4.2 Eine App, die uns Empfehlungen für unser Mittagessen geben soll. Üb­ licherweise wird man für dieses Problem als Zustände – also mögliche Lösungen – Re­ staurants und Imbisse in einem bestimmten Umkreis vom aktuellen Standort in Betracht

92 | 3 Suche

ziehen.² Von diesen Varianten gibt es häufig viel mehr als von den Alternativen, die ein Mensch für eine Auswahl erwägen würde. Das führt nicht selten dazu, dass uns als Mensch Lösungen, die Computer vorschlagen, überraschen. Andererseits ist die App darauf beschränkt, schlicht eine der (ggf. vielen) verfügba­ ren Essenslokalitäten auszuwählen. Als Mensch könnte man sich aber auch entscheiden, überhaupt nicht zu Mittag zu essen, die Reste im Kühlschrank zu plündern, einen Liefer­ service zur Essensbeschaffung zu bemühen oder zu versuchen, bei den Nachbarn etwas Leckeres abzustauben. Bei der Modellierung des Zustandsraums ließen sich all diese Möglichkeiten ebenfalls codieren. Damit wird dann aber der Zustandsraum deutlich grö­ ßer. Und da diese Varianten eher selten auftreten werden, ist zu überlegen, ob sie den zusätzlichen Rechenaufwand wert sind. Schließlich wird auch die Kontrolle des Ergeb­ nisses schwieriger. Wenn man dem Suchalgorithmus erst einmal verraten hat, dass man auch Nahrung bei den Nachbarn bekommen kann, wird er diese Möglichkeit grundsätz­ lich in Betracht ziehen. Dann muss man aber wieder über die Zielfunktion sicherstellen, dass diese Möglichkeit nur in Ausnahmefällen als Lösung angezeigt wird. Lässt sich ein großer Zustandsraum nicht vermeiden, muss man anderweitig dafür sorgen, dass die Suche trotzdem effizient verläuft. Ein Lösungsansatz, den wir bereits gesehen haben, ist der Einsatz von Heuristiken. Eine andere Möglichkeit besteht dar­ in, die Aufgabe über eine geschickte Modellierung in Teilaufgaben zu zerlegen. Insbe­ sondere die Zerlegung in hierarchische Unteraufgaben hilft einerseits die Zustands­ räume beherrschbar zu machen, andererseits sinnvolle Ergebnisse zu produzieren. Für unsere Beispiel-App, die Essensvorschläge macht, könnte man zunächst ei­ ne Bedingung definieren, die den Modus des Mittagessens bestimmt: zu Hause, im Restaurant, bei den Nachbarn oder überhaupt nicht. Je nach Ergebnis wird dann die Ausgestaltung des gewählten Modus in einer eigenen Suchaufgabe modelliert. Diese Art der Modellierung hat auch den Vorteil, dass Menschen leichter in den Auswahl­ prozess eingreifen können. Wenn einer Nutzerin der App die Wahl des Modus nicht zusagt, kann sie diese manuell ändern und trotzdem von weiteren Hilfestellungen bei der Lösungsausgestaltung profitieren. Doch hierarchische Modelle bringen auch neue Herausforderungen. Dabei ist vor allem der Übergang zwischen den Abstraktionsebenen zu nennen. Damit unsere Es­ sensauswahl-App entscheiden kann, welcher Modus des Essens gut ist, kann es sein, dass die spezifischen Lösungen der einzelnen Modi schon bekannt sein müssen. Ob man z. B. zu Hause oder im Restaurant essen möchte, hängt manchmal vom Wetter ab (dann ist die Entscheidung direkt möglich), manchmal aber auch davon, was man im Kühlschrank hat und was im Restaurant an der Ecke auf der Mittagskarte steht. Barba­

2 Man kann sich streiten, ob diese Aufgabe überhaupt ein Optimierungsproblem ist, da vermutlich al­ le in Betracht kommenden Alternativen betrachtet werden. In diesem Fall wird ungewöhnlicherweise der komplette Zustandsraum expandiert. Das Beispiel zeigt aber auch, dass die Größe von Zustands­ räumen nicht die einzige Herausforderung für die praktische Anwendung von Suchverfahren ist.

3.4 Modellierung von Problemräumen |

93

ra und Frederick Hayes-Roth haben in den 1970er-Jahren gezeigt, dass Menschen bei komplexen Entscheidungen zwischen Abstraktionsebenen wechseln [16], d. h., dass die abstrakte Entscheidung über den Essensmodus im Wechsel mit Detailentschei­ dungen stattfindet, wobei auch die Detailentscheidungen die abstrakte Entscheidung beeinflussen können und nicht nur umgekehrt. Dieses Prinzip wurde bisher jedoch kaum in KI-Methoden umgesetzt.

3.4.2 Zielfunktionen Über Kosten und Zielfunktion können wir steuern, welche der durch den Zustands­ raum gegebenen potenziellen Lösungen in einer gegebenen Situation gute oder schlechte Lösungen sind. Menschen sind jedoch nicht gewohnt, ihre Präferenzen in Zahlenwerten auszudrücken und durch die Varianz von möglichen Situationen ist das Testen der Zielfunktion schwierig. Beispiel 3.4.3. Bei einer Reise nach Italien will man sich die österreichische Autobahn­ maut sparen. Praktischerweise hat das mitgeführte Navigationssystem eine Option, die Mautstraßen ausschließt. Deren Aktivierung führt allerdings dazu, dass das Gerät versu­ chen wird, eine Route um den Brennerpass herum zu planen – selbst dann, wenn man be­ reit wäre, die Maut für den Brenner zu bezahlen, um sich den stundenlangen Umweg zu ersparen, den die Alternative bedeutet würde. Man könnte angesichts dieses Problems argumentieren, dass die Option im Navigationssystem nicht als „mit oder ohne Maut­ straßen“ ausgelegt sein sollte, sondern als eine graduell spezifizierbare Präferenz, die von dem Gerät im Zusammenspiel mit anderen Werten betrachtet wird. Aber auch das würde das Problem nicht lösen, wenn schon nur ein paar Meter auf mautpflichtigen Stra­ ßen in Österreich eine hohe Geldstrafe bedeuten können und man nur keine Mautstraße außer den Brenner nutzen möchte. Üblicherweise setzt sich also das Ziel von Optimierung aus mehreren Kriterien zusam­ men. Man spricht dabei von mehrkriterieller Optimierung [6]. Dazu definiert man zu­ nächst einzelne Zielfunktionen zu den Kriterien. Für die App, die uns beim Mittag­ essensuchen helfen soll, könnten dies Bewertungen für Kriterien wie die geschätzte Zeitdauer, die Güte des Essens oder dessen Preis sein. Die Frage ist dann, wie man die Bewertungen zu den spezifischen Kriterien in einer Gesamtzielfunktion zusammen­ fasst. 3.4.2.1 Gewichtete Summierung von Bewertungsmaßen Die am Weitesten verbreitete Methode zur Zusammenfassung ist eine Kombination der Einzelwerte in einer gewichteten Summe. Dazu muss festgelegt werden, wie wichtig jedes einzelne Kriterium sein soll. Beispielsweise könnte für das Mittagessen an ei­ nem Arbeitstag die Zeit doppelt so wichtig sein wie die Güte. Obwohl das Verfahren unkompliziert aussieht, weist es in der Praxis Tücken auf.

94 | 3 Suche

3.4.2.1.1 Einschätzung der Gewichte Als Menschen sind wir zwar gewohnt, verschiedene Güteaspekte gegeneinander ab­ zuwägen, wir tun dies aber üblicherweise nicht quantitativ. Daher kann es sich als schwierig herausstellen, entsprechende Gewichtungen zur Parametrisierung des Op­ timierungsverfahrens direkt von Nutzenden abzufragen. Die Auswirkungen der Ge­ wichte werden häufig erst beim Testen an Einzelfällen sichtbar, und man sollte des­ halb auch entsprechend Zeit und Ressourcen für entsprechende Tests einplanen. Ein anderer Weg zur Ermittlung geeigneter Gewichte könnte es sein, anhand von Beispie­ len gefundene Ergebnisse bewerten zu lassen und per Reinforcement Learning die Ge­ wichtsfunktion automatisch zu optimieren (Kapitel 11). Doch auch hier hat man das fundamentale Problem, dass es nicht immer eine einzige Gewichtszuweisung gibt, die alle Fälle gut abdeckt. Eventuell muss man deshalb auch dabei nach Situationsklas­ sen unterscheiden und für diese Klassen jeweils spezifische Gewichtsfunktionen de­ finieren. 3.4.2.1.2 Skalierung Um einigermaßen die Kontrolle über das Ergebnis der Optimierung zu haben, sollte dieses in erster Linie von den gesetzten Gewichten abhängen. Dies ist nur gewährleis­ tet, wenn die Einzelbewertungen sinnvoll und einheitlich skaliert sind. Zunächst soll­ te man daher einen Wertebereich definieren, in den alle Teilzielfunktionswerte fallen müssen – z. B. der kanonische Bereich zwischen null und eins. Wenn wir z. B. für unsere Essensauswahl-App den Preis eines Mittagessens auf dieser Skala einordnen wollen, ist ein geschenktes Essen wahrscheinlich am besten, bekäme also den Wert eins. Doch wann ist ein Gericht zu teuer? Zur Entscheidung dieser Frage wird man weitere Parameter festlegen müssen, die Einfluss auf die Ziel­ funktion und damit das Ergebnis haben – z. B. einen angenommenen Maximalpreis zusammen mit der Maßgabe, dass Preise, die darüber liegen, mit null bewertet wer­ den. Diese Parameter sind aber häufig nur implizit in der Zielfunktion codiert und damit weder sichtbar noch explizit manipulierbar. Mit der skizzierten Bewertung des Essenspreises, z. B., wird nur selten der gesamte Wertebereich ausgeschöpft werden. So wird der Wert zwischen eins und dem ersten Wert eines bezahlten Mittagessens nur selten auftreten. Wenn der so skalierte Preis jedoch üblicherweise nicht über einen Wert von (beispielsweise) 0,8 hinauskommt, wird er automatisch niedriger gewichtet als andere Faktoren, die ihren vollen Wertebereich ausnutzen oder vielleicht nur hohe Werte aufweisen. 3.4.2.1.3 Vermeiden von ungültigen Zuständen Oft hat man auch den Fall, dass Kriterien zwar in einem vorgegebenem Wertebereich skalierbar sind, dass es jedoch Werte gibt, mit denen die Lösung ungültig wird. In un­ serem Essensbeispiel könnte die Güte des Essens an Werktagen eine untergeordnete Rolle für unsere Essenswahl spielen, obwohl es vielleicht ein Mindestmaß an Qua­

3.4 Modellierung von Problemräumen |

95

lität gibt, das wir keinesfalls unterschreiten möchten. In gewichteten Summen kann jedoch immer eine schlechte Bewertung eines Faktors durch eine besonders gute Be­ wertung anderer Faktoren kompensiert werden (deswegen werden gewichtete Sum­ men und andere Verfahren mit dieser Eigenschaft auch als kompensatorische Metho­ den bezeichnet). 3.4.2.2 Alternativen zu gewichteten Summen In der KI findet man kaum Alternativen zur gewichteten Summe. In anderen Fachge­ bieten gibt es jedoch interessante Alternativen. 3.4.2.2.1 Sozialwahltheorie Die computerunterstützte Sozialwahltheorie (engl. computational social choice the­ ory) [4] untersucht mathematisch fundierte Methoden zur Aggregation von Einzelmei­ nungen, wie dies beispielsweise bei politischen Wahlen notwendig ist. Jede Wählerin und jeder Wähler gibt nach einem bestimmten Muster eine Meinung ab. Üblicherwei­ se wird die Meinungsabgabe dabei als geordnete Liste von Alternativen modelliert, die die Rangfolge der Präferenz angibt. Die Frage ist dann, wie man aus den Einzel­ meinungen eine gemeinsame Rangfolge errechnet. Wenn man nun jedes Kriterium in der multikriteriellen Optimierung als Wähler betrachtet, hat man genau die gleiche Aufgabenstellung. Beispiel 3.4.4. Die App zur Wahl des Mittagessens zieht vielleicht drei Restaurants A, B und C näher in Betracht und unterstellt dabei für jedes der drei Kriterien Preis, Güte und Zeit eine eigene Rangfolge der drei Restaurants: Preis: Güte: Zeit:

A, C, B C, B, A C, A, B

Wäre der Preis allein entscheidend, würde die App damit Restaurant A wählen, wenn dieses gerade geschlossen hat, Restaurant C, und als letzte Alternative Restaurant B. Das Problem ist hier also, aus den gegebenen Rangfolgen eine gemeinsame zu erstel­ len, mit der alle Abstimmenden möglichst zufrieden sind. Dies kann beispielsweise durch die Condorcet-Methode passieren, in der die Alternativen paarweise verglichen werden. Beispiel 3.4.5. In unserem Beispiel wird Restaurant A zweimal vor B sortiert, aber B nur einmal vor A. Deshalb sollte in der Gesamtrangfolge A vor B liegen. Ebenso wird C zweimal vor A sortiert, aber A nur einmal vor C. Folglich sollte im Ergebnis C besser sein als A. Die Gesamtrangfolge wäre also C, A, B.

96 | 3 Suche

Diese Methode liefert nicht immer eindeutige Ergebnisse, aber es gibt verschiedene Verfahren, die nach diesem Prinzip beliebige Abstimmungsergebnisse in eine Rang­ folge kombinieren können. 3.4.2.2.2 Menschliche Entscheidungsheuristiken In der Psychologie und den Wirtschaftswissenschaften wird seit Jahren experimen­ tell untersucht, wie Menschen mithilfe vereinfachender Heuristiken Entscheidungen treffen³ [9; 26; 28]. Menschen nutzen für ihre Entscheidungen u. a. Eliminationsregeln. Dabei werden Attribute nach Wichtigkeit sortiert (im Gegensatz zu gewichteten Summen ist dies eine bloße Reihung ohne Zahlenwerte). Zunächst werden die Alternativen nach dem wich­ tigsten Attribut bewertet, beispielsweise dem Preis. Wenn eine Lösung unter eine be­ stimmte Schwelle fällt, wird sie im Weiteren nicht mehr betrachtet. Dann werden die restlichen Alternativen anhand des nächstwichtigsten Attributs betrachtet und ent­ sprechend aussortiert, solange bis nur noch eine Alternative übrig ist. Eliminations­ regeln sind ein Beispiel für nicht kompensatorische Methoden. Egal, wie gut eine Alter­ native in anderen Bereichen sein mag, wenn sie vom ersten (und damit wichtigsten) Bewertungskriterium ausgeschlossen wurde, wird sie nicht weiter betrachtet. Die Erkennungsheuristik (engl. recognition heuristic) kommt sogar ohne explizite Attribute aus. Die reine Wiedererkennung einer Alternative genügt in manchen Fällen für eine Entscheidung [13]. Will man diese Heuristik für KI-Suche nutzen, so braucht man allerdings ein gut organisiertes Gedächtnismodell (Kapitel 7). Psychologie und Wirtschaftswissenschaften haben ganze Listen von Heuristiken identifiziert, die bei Menschen in bestimmten Situationen beobachtet wurden [10; 28]. Diese Resultate fanden in der KI bisher aber kaum einen methodischen Niederschlag. Das gilt auch für die philosophischen Konsequenzen dieser Forschung zu menschli­ chen Heuristiken. Die gängigen KI-Suchverfahren unterstellen, dass es zu einer Auf­ gabe eine Menge von Lösungen bzw. beste Lösungen gibt und dass die Bewertung der (besten) Lösung alle relevanten Gesichtspunkte der Problemstellung berücksichtigt. In vielen potenziellen Anwendungsfällen ist diese Annahme jedoch ungerechtfertigt: Einerseits sind Aufgaben selten fest, sie verändern sich oft so schnell, dass die beste Lösung gar nicht definiert ist [19]. Andererseits hat man festgestellt, dass Entscheidun­ gen besser sein können, wenn weniger Daten berücksichtigt werden [14]. Einfache Re­ geln liefern dann bessere Entscheidungen als ausgeklügelte Optimierungsverfahren.

3 Diese Heuristiken sind nicht zu verwechseln mit der heuristischen Schätzfunktion von Suchalgo­ rithmen. Auch wenn die Grundidee der „Anwendung von Daumenregeln“ ähnlich ist, so sind die Strategien, die bei Menschen untersucht wurden, eher als allgemeine, problemunabhängige Verein­ fachungsstrategien zu verstehen, während heuristische Schätzfunktionen eine problemspezifische Funktion zur Kostenabschätzung darstellen.

3.4 Modellierung von Problemräumen

| 97

3.4.3 Interaktion Im Zuge der zunehmenden Nutzung von Maschinellem Lernen wird das Thema „Ex­ plainable AI“, also erklärbare KI, aktuell viel diskutiert (Kapitel 13). Wenn ein Compu­ terprogramm als Entscheidungshilfe herangezogen wird oder gar autonom Entschei­ dungen trifft, ist es wichtig, dass Menschen diese von der Maschine getroffenen Ent­ scheidungen auch nachvollziehen können. Stuft beispielsweise eine Maschine eine Person in einem Kriminalfall als verdächtig ein, sollte diese Einstufung auch von ei­ ner menschenverstehbaren Erklärung begleitet sein, anhand der die Ermittlungsbe­ hörden entscheiden können, ob sie gegen diese Person ggf. rechtlich aktiv werden dürfen oder sogar müssen. Die Grundidee der Modellierung von Aufgaben in Suchräumen geht auf die Ar­ beit von Newell und Simon zurück, die versucht haben, menschliches Problemlösen zu verstehen [21]. Die damals untersuchten Aufgaben waren allerdings eher abstrakter Natur: Schachspielen, kryptarithmetische Puzzles und Logik. Die daraus gewonnenen Erkenntnisse spiegeln daher auch nicht unbedingt menschliches Alltagsverhalten wi­ der. Trotzdem kann die grundlegende Idee von Suche in Zustandsräumen durchaus als Modell menschlichen Problemlösens dienen [18]. Damit eignet sich Suche grundsätzlich als Methode, um erklärbare Entscheidun­ gen zu produzieren. Wenn beispielsweise eine Alternative, die einer Nutzerin sinnvoll erscheint, nicht vom Programm vorgeschlagen wurde, kann man herausfinden, ob die Alternative nicht betrachtet, ob sie betrachtet, aber nicht für gut befunden wurde oder ob sie vielleicht gar nicht im Zustandsraum modelliert ist. Um solche Erklärungen zu ermöglichen, ist beim Suchalgorithmus sicherzustellen, dass die entsprechenden In­ formationen mitgeführt werden. Außerdem ist die Modellierung der Zustände wich­ tig – ein reiner Zahlenvektor als Inhalt ist durch Menschen normalerweise schwer zu beurteilen. Noch hilfreicher als das Erklären des Ergebnisses ist eine direkte Interaktion zwi­ schen Suchalgorithmus und Mensch. Die Informationsfülle, die Menschen in ihren Köpfen tragen, ist auch mit enormem Aufwand nicht vollständig für eine Maschine modellier- und formalisierbar. Selbst wenn man bereit wäre, den damit verbunde­ nen Aufwand zu treiben, handelte man sich damit riesige Suchräume und (wie in Abschnitt 3.4.1 diskutiert) manchmal recht seltsame Ergebnisse ein. Deutlich effizien­ ter und stabiler ist es, das Suchproblem stattdessen für typische Fälle zu modellieren und die Spezialfälle Menschen zu überlassen. Je nach Aufgabe und Modellierung des Suchproblems können Menschen dessen Komplexität verringern, indem sie Alterna­ tiven manuell ausschließen. Das oben diskutierte Problem komplexer Zielfunktionen lässt sich abmildern, wenn Menschen einzelne Alternativen bewerten können (dabei sollte sich deren Anzahl natürlich in Grenzen halten). Die Interaktion zwischen Optimierung und menschlicher Kreativität wird im künstlerischen und gestalterischen Bereich bereits genutzt, beispielsweise in Archi­ tektur und Produktentwicklung. Unter dem Stichwort parametrisches Design explo­

98 | 3 Suche

rieren Menschen unter Zuhilfenahme von Suchalgorithmen Lösungsräume zu realen Aufgaben. Anders als bei der Alltagsaufgabe, ein Mittagessen auszusuchen, verlässt man sich bei deren Ausgestaltung besser nicht auf den ersten Impuls, sondern ex­ ploriert bewusst Alternativen. Die Fähigkeit, viele Alternativen zu erdenken, wird bei Menschen als Maß für Kreativität angesetzt. In diesem Sinne sind Suchalgorithmen tatsächlich kreativer als Menschen, da typische Suchräume deutlich mehr (häufig auch unsinnige) Alternativen enthalten als sich Menschen dabei erdenken.⁴ Oft in Kombination mit 3-D-Visualisierungen verbindet man deshalb für die Exploration großer Zustandsräume die Möglichkeiten von Suchalgorithmen mit der Urteilsfähig­ keit der Menschen, um interessante und nützliche Artefakte zu schaffen. Bei dieser Interaktion zwischen Mensch und KI-Suchverfahren muss man sich na­ türlich von der Vorstellung lösen, dass eine Aufgabe einen wohldefinierten Zielzu­ stand oder eine eindeutige optimale Lösung hat. Der ideale Turnschuh wird für jeden ein wenig anders aussehen. Parametrisches Design kann helfen, dass die produzier­ ten Turnschuhe stabil sind und an möglichst viele Füße passen, einen Standardschuh vorgesetzt zu bekommen, wäre jedoch unbefriedigend. Mit kleinen Anpassungen kön­ nen aber auch Standardoptimierungsalgorithmen mehr als ein Ergebnis erzeugen: Ein evolutionärer Algorithmus kann die gesamte letzte Population zurückliefern anstatt nur das beste Individuum; ein mehrmals gestartetes Bergsteigerverfahren alle gefun­ denen lokalen Maxima. Die Interaktion zwischen menschlichem und maschinellem Problemlösen ist also weniger ein algorithmisches Problem als eines der Modellierung und Ausgestaltung.

Literaturverzeichnis [1] [2] [3] [4] [5] [6] [7]

Aarts, E. und Korst, J. Simulated Annealing and Boltzmann Machines: A Stochastic Approach to Combinatorial Optimization and Neural Computing. Wiley, New York, 1989. Beckstein, C. Begründungsverwaltung: Grundlagen, Systeme und Algorithmen. Teubner-Texte zur Informatik. Teubner-Verlag, Leipzig, 1996. Berlekamp, E. R., Conway, J. H. und Guy, R. K. Gewinnen: Strategien für mathematische Spiele, Band 1–4. Vieweg, Braunschweig, 1985 und 1986. Brandt, F., Conitzer, V., Endriss, U., Lang, J. und Procaccia, A. D. (Hrsg.). Handbook of Computa­ tional Social Choice. Cambridge University Press, 2016. Edelkamp, S. und Schrödl, S. Heuristic Search: Theory and Applications. Morgan Kaufmann, MA, 2012. Ehrgott, M. Multicriteria Optimization. Springer-Verlag Berlin Heidelberg, 2. Aufl., 2005. Gaschnig, J. Performance Measurement and Analysis of Certain Search Algorithms. Technical Report CMU-CS-79-124, Carnegie-Mellon University, 1979.

4 Andererseits zeichnen sich kreative Menschen auch dadurch aus, dass sie in der Lage sind, Problem­ stellungen clever umzuformulieren und zu hinterfragen. In dieser Hinsicht sind Suchalgorithmen mit fest definierten Zustandsräumen also deutlich unkreativer.

Literaturverzeichnis

[8]

[9] [10] [11] [12] [13] [14]

[15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28]

| 99

Geman, S. und Geman, D. Stochastic relaxation, Gibbs distributions, and the Bayesian res­ toration of images. IEEE Transactions on Pattern Analysis and Machine Intelligence PAMI-6, S. 721–741, 1984. Gigerenzer, G. The Adaptive Toolbox. In Gigerenzer, G. und Selten, R. (Hrsg.), Bounded ratio­ nality: The adaptive toolbox. MIT Press, Cambridge, MA, 2001. Gigerenzer, G. und Brighton, H. Homo Heuristicus: Why Biased Minds Make Better Inferences. Topics in Cognitive Science, 1:107–143, 2009. Ginsberg, M. L. Essentials of Artificial Intelligence. Morgan Kaufmann, 1993. Ginsberg, M. L. und Harvey, W. D. Iterative Broadening. In Proc. of the Eighth National Confer­ ence on Artificial Intelligence, S. 216–220, 1990. Goldstein, D. G. und Gigerenzer, G. Models of ecological rationality: The recognition heuristic. Psychological Review, 109(1):75–90, 2002. Haksöz, Ç., Katsikopoulos, K. und Gigerenzer, G. Less can be more: How to make operations more flexible and robust with fewer resources. Chaos: An Interdisciplinary Journal of Nonlinear Science, 6(28), 2018. Hart, P., Nilsson, N. und Raphael, B. A Formal Basis for the Heuristic Determination of Minimum Cost Paths. IEEE Transactions on SCC, 4, 1968. Hayes-Roth, B. und Hayes-Roth, F. A Cognitive Model of Planning. Cognitive Science, 3(4):275–310, 1979. Kirkpatrick, S., Gelatt, D. und Vercchi, M. P. Optimization by Simulated Annealing. Science, 220:671–680, 1983. Kirsch, A. A Unifying Computational Model of Decision Making. Cognitive Processing, 20(2):243–259, 2019. Klein, G. The Fiction of Optimization. In Gigerenzer, G. und Selten, R. (Hrsg.), Bounded ratio­ nality: The adaptive toolbox, S. 103–122. MIT Press, Cambridge, MA, 2002. McCarthy, J. Circumscription — a Form of Non-monotonic Reasoning. Artificial Intelligence, 13:27–39, 1980. Newell, A. und Simon, H. Human Problem Solving. Prentice Hall, Upper Saddle River, New Jer­ sey, 1972. Nilsson, N. J. Principles of Artificial Intelligence. Springer-Verlag, 2014. Pearl, J. Heuristics: Intelligent Search Strategies for Computer Problem Solving. Addison-Wes­ ley, Reading, MA, 1984. Polya, G. How to Solve it: A New Aspect of Mathematical Method. Princeton University Press, New Jersey, 2. Aufl., 2014. Russell, S. und Norvig, P. Artificial Intelligence, A Modern Approach. Prentice Hall Series in Artificial Intelligence, 3. Aufl., 2016. Shah, A. K. und Oppenheimer, D. M. Heuristics made easy: An effort-reduction framework. Psychological Bulletin, 134(2):207–222, 2008. Stallman, R. und Sussman, G. Forward Reasoning and Dependency Directed Backtracking in a System for Computer-aided Circuit Analysis. Artificial Intelligence, 9:135–196, 1977. Svenson, O. Process Descriptions of Decision Making. Organizational Behavior and Humand Performance, 23:86–112, 1979.

4 Wissen über Raum und Zeit Diedrich Wolter und Özgür L. Özçep Alltägliches Wissen beinhaltet in den meisten Fällen auch räumliche oder zeitliche Aspekte. Die Fähigkeit, Information über Raum und Zeit aufzunehmen, zu verarbei­ ten und zu kommunizieren, ist ein wesentlicher Bestandteil komplexen menschlichen Verhaltens. Menschliches Problemlösen im Alltag ist durchdrungen von der Verarbei­ tung räumlichen und zeitlichen Wissens, wie folgende Beispiele zeigen: – Wir erkennen, wie schmutziges Geschirr in einer Spüle so umgeräumt werden kann, dass ein weiterer Becher hineinpasst – und so ein Abspülen vorerst ver­ mieden werden kann. – Dabei können wir das Geschirr auch ohne Kenntnis seiner konkreten physikali­ schen Eigenschaften zielsicher stapeln. – Wir erkennen auch, wenn ein Umräumen nicht mehr hilft, und können das Ab­ spülen dann in unser Tun einplanen. – Wir wissen, wenn wir auf einem geplanten Weg unerwartet abbiegen müssen, wel­ che Abzweigungen uns möglicherweise auf den ursprünglich geplanten Weg zu­ rückführen. – Wir sind in der Lage, unsere Mitmenschen nach dem Weg zu fragen und uns aus der Antwort ein Modell der Umgebung aufzubauen. Eine genauere Betrachtung der Beispiele zeigt, dass verschiedene klassische KI-Pro­ blemstellungen wie Konfigurations- und Planungsprobleme oder Deduktionen zur Be­ wältigung dieser Alltagsprobleme mit räumlicher und zeitlicher Information ange­ wendet werden müssen. Bemerkenswert dabei ist, dass unterschiedliche Konzeptuali­ sierungen der Problemstellung zum Lösen zweckdienlich sind und selbstverständlich benutzt werden. Beispielsweise kann sich anhand einer zweidimensionalen Projek­ tion eines dreidimensionalen Objektes die Frage nach einem freien Stellplatz beant­ worten lassen, während für das Planen eines stabilen Stapels eine dreidimensionale Information notwendig ist. Auch zeitliche Information lässt sich auf vielfältige Wei­ se konzeptualisieren (Abbildung 4.1). In der Abfolge von Instruktionen einer Wegbe­ schreibung können wir die einzelnen Anweisungen als atomare Entitäten gleich Punk­ ten auf einem linearen Zeitstrahl betrachten, in der Diagnose oder Planung hinge­ gen mag eine sich in die Vergangenheit oder Zukunft verzweigende Zeit adäquater die unterschiedlichen Möglichkeiten repräsentieren. Abhängig von einer durchgeführten Aktion in einem Plan ergeben sich verschiedene Abläufe, die in einem zeitlichen Be­ zug zueinander stehen. In Abbildung 4.1 ist als Spülen ein derartiger Verzweigungs­ punkt dargestellt. Müssen wir eine neue Tätigkeit in unseren Tagesablauf einplanen, so muss deren Dauer mit repräsentiert sein. Eine Abstraktion zu Zeitpunkten ist hier­ für wenig geeignet.

https://doi.org/10.1515/9783110659948-004

102 | 4 Wissen über Raum und Zeit

arbeiten

Zeitlinie

abgespült

Besprechung spülen? keine saubere Tasse mehr 1958: John McCarthy entwirft LISP 1843: Ada Lovlace veröffentlicht ihre Notizen

Abb. 4.1: Beispiele zeitlicher Konzeptbildungen: Ereignisse können als Zeitpunkte oder Zeitspannen repräsentiert werden; zeitliche Abfolgen können als verzweigt betrachtet werden, wenn verschie­ dene mögliche Verläufe betrachtet werden. Zeitpunkte auf unterschiedlichen Zweigen können unter Umständen nicht sinnvoll zeitlich geordnet werden.

Modelle zu entwickeln, die das oben skizzierte intelligente Verhalten natürlicher Agenten erklären können und es künstlichen Agenten erlauben, ebenso intelligen­ tes Verhalten zu zeigen, ist das Kernanliegen des Gebietes Raumkognition. Diese Ziel­ setzung umfasst in weiten Teilen auch die Behandlung zeitlicher Information, denn einige räumliche Strukturen lassen sich auch auf die Zeitinformation anwenden. Bei­ spielsweise lässt sich eine lineare zeitliche Abfolge auch als eindimensionale räumli­ che Anordnung darstellen.

Raumkognition und KI – eine Standortbestimmung In der Raumkognition treffen die verschiedenen Disziplinen zusammen, die Grund­ prinzipien des Wissens über Raum und Zeit in natürlichen und künstlichen kognitiven Systemen betrachten. Dies umfasst die Psychologie, die Philosophie, die Neurowis­ senschaften, die Linguistik und auch die KI: Das Verständnis natürlicher kognitiver Systeme kann als Vorbild für künstliche Systeme dienen. Eine Beachtung der mensch­ lichen Kognition ist vor allem unabdingbar in KI-Systemen, die Menschen unterstüt­ zen und mit ihnen auf komplexe Weise interagieren, z. B. durch natürliche Sprache. Dies führt dazu, dass viele Ansätze der KI zur Handhabung von Wissen über Raum und Zeit durch Erkenntnisse oder Annahmen über die menschliche Kognition moti­ viert sind. Intelligentes Verhalten umfasst Handeln und Problemlösen, aber ebenso Verste­ hen und Kommunizieren. Handlungen werden ausgeführt, um Einfluss auf die Ent­ wicklung des Geschehens der Welt zu nehmen: Zustände sollen herbeigeführt oder beendet werden; Prozesse an einem bestimmten Ort in Gang gesetzt, zu Ende geführt oder vorzeitig abgebrochen werden; Ereignisse sollen verursacht oder verhindert wer­ den. Situation – wie wir im Folgenden allgemeiner sagen wollen – herrschen zu be­ stimmten Zeiten an bestimmten Orten, bzw. finden in Raum und Zeit statt; sie un­ terliegen raumzeitlichen Bedingungen. Beachtenswert ist, dass diese raumzeitlichen

4 Wissen über Raum und Zeit |

103

Bedingungen fundamentale Aspekte räumlichen und zeitlichen Wissens umschrei­ ben und sowohl universell als auch aufgabenunabhängig sind: Sie charakterisieren räumliches und zeitliches Wissen. Forschung im Gebiet Raumkognition verfolgt des­ halb auch das Ziel, diese Bedingungen wie mathematische Wahrheiten zu entdecken und zu beschreiben. Grundsätzlich wird die Untersuchung von Repräsentation und Schlussfolge­ rungstechniken innerhalb der KI dem Fachgebiet Wissensrepräsentation (engl. know­ ledge representation) zugeschrieben. Die Schnittmenge von KI und Raumkognition könnte als ein Spezialfall des im Naive Physics Manifesto [61] propagierten Unter­ fangens gesehen werden, Wissen über die physikalische Umwelt umfassend derart repräsentieren zu können, dass alltäglich intelligentes Verhalten damit erklärt wer­ den kann. Die einleitenden Beobachtungen zeigen aber auch, dass die Verarbeitung von Wissen über Raum und Zeit eine fundamentale und allgegenwärtige mensch­ liche Fähigkeit ist, deren Betrachtung innerhalb der KI dem Gebiet Commonsense Reasoning zugeordnet werden kann. Forschung im Bereich Wissen über Raum und Zeit geht jedoch über diese Zielsetzung hinaus [58], insbesondere durch die Unter­ suchung menschlicher Vorstellungen und der Betrachtung von Kommunikation und Wahrnehmung. Die Zielsetzung, menschliche Fähigkeiten verstehen und nachbil­ den zu können, stellt zusätzlich einen engen Bezug zur Kognitionswissenschaft und zu den beitragenden Disziplinen wie Psychologie und Linguistik dar. Diese Vernet­ zung macht Raumkognition zu einem interdisziplinären Themengebiet unter Betei­ ligung der KI, das originäre Forschungsfragen für verschiedene Disziplinen bereit­ hält [48]. Die besonderen Fragestellungen der Repräsentation von Wissen über Raum und Zeit innerhalb der KI wollen wir etwas näher beleuchten. Die einleitenden Beobach­ tungen illustrieren, dass menschliche Fähigkeiten nicht auf die Kenntnis präziser quantitativer Information angewiesen sind. Dies begründet ein besonderes Interesse der Raumkognition, qualitative Repräsentationen zu entwickeln, die relevante Eigen­ schaften in diskreten Klassen repräsentieren und als Basis für – typischerweise sym­ bolische – Problemlöseprozesse dienen. Dieses Arbeitsgebiet wird (im Englischen) auch als Qualitative Spatial (and Temporal) Reasoning bezeichnet und ist eng mit dem Gebiet Qualitative Reasoning [134] verbunden. Im Gegensatz zu Ansätzen, die einen Mangel an präziser quantitativer Information durch Wahrscheinlichkeitsver­ teilungen über mögliche Werte darstellen, abstrahieren qualitative Repräsentationen gänzlich von Werten. Relevante Beziehungen werden explizit repräsentiert, z. B., ob eine freie Fläche in einer Spüle größer oder kleiner als der Grundriss eines Bechers ist: kleiner(FBecher , Ffrei ) bzw. größer(FBecher , Ffrei ). Die Exploration nützlicher Relationen (größer, kleiner, neben, hinter, vor, . . . ), ihrer Axiomatisierung und Untersuchung in Bezug auf Berechnungseigenschaften ist eine wichtige Aufgabe der KI innerhalb der Raumkognition. Schon früh wurde vermutet, dass es sich um keine kleine Menge nützlicher Relationen handeln kann, sondern dass die Menge an relevanten Relatio­ nen aufgabenspezifisch und unerschöpflich ist (Poverty Conjecture) [45]. Die Fülle an

104 | 4 Wissen über Raum und Zeit

Arbeiten und Ansätzen in der Raumkognition mag als Beleg der Behauptung gewertet werden.

Eine kurze Geschichte des zeitlichen und räumlichen Wissens Anders als der Vorlagengeber dieser Überschrift¹ werden wir keine zwölf Kapitel aus­ breiten, sondern in lediglich zwölf Sätzen die relevante Entwicklung bis zum heuti­ gen Punkt zusammenfassen. Fundamentale Untersuchungen fanden bereits vor der Geburt der KI statt. Das 1983 von James Allen beschriebene Intervallkalkül [3] (oft Allen-Kalkül ge­ nannt) lieferte einen wesentlichen Impuls und motivierte zahlreiche Ansätze, zeitli­ che und räumliche Beziehungen in einem einfachen algebraischen Rahmenwerk zu repräsentieren. Ähnlich tiefgreifende Aufmerksamkeit konnte seitdem nur die 1992 beschriebene topologische Theorie des Region Connection Calculus erreichen, die Ar­ beiten des Mathematikers Whitehead aus den 1920er-Jahren [132] wurden auf nützli­ che Weise operationalisiert. Ebenfalls in den 1980er-Jahren erwuchs das Gebiet des qualitativen Schlussfolgerns (engl. qualitative reasoning) [134], in dem räumliche Re­ präsentation eine wichtige Rolle spielt. In Deutschland untersuchte seit 1986 das durch IBM geförderte Verbundprojekt LILOG (LInguistic and LOGic methods and tools) [63] u. a. Methoden zur Repräsenta­ tion und Verarbeitung räumlichen und zeitlichen Wissens [57]. Heutzutage existiert ein großer Fundus an räumlichen und zeitlichen Repräsentationen ([38] für eine um­ fassende Übersicht), deren berechnungstheoretische Eigenschaften umfassend, aber nicht erschöpfend analysiert worden sind. Auch existieren Werkzeuge wie SparQ [123; 139] oder GQR [131], die Standardalgorithmen und Werkzeuge zur einfachen Verwen­ dung bereithalten. Neben etlichen offenen Detailfragen verbleiben auf der Landkar­ te räumlicher und zeitlicher Repräsentationen weiße Flecken in den Grenzgebieten einzelner Techniken, etwa der Verbindung algebraisch-relationaler und logikbasier­ ter Ansätze, quantitativer und qualitativer Beschreibungen oder der Verbindung zeit­ licher und räumlicher Repräsentation. Dies wurde bereits 2007 treffend von Kontcha­ kov et al. [66] durch die Artikelüberschrift „Spatial Logic + Temporal Logic = ?“ be­ schrieben. Auch ist es trotz einer Vielzahl erfolgreicher Anwendungen räumlicher und zeitlicher Repräsentationstechniken noch nicht gelungen, unser alltägliches Wissen über physikalische Prozesse im Sinne des Naive Physics Manifesto [61] zu formalisieren und zu operationalisieren, um intelligentes Verhalten in der Umwelt zu synthetisie­ ren. Auch im Bereich des Sprachverstehens bleiben Computerprogrammen viele für Menschen triviale Folgerungen verborgen, wie die Betrachtung des Winograd-Sche­ mas zeigt [77] (Abbildung 4.2).

1 Stephen Hawking (1991). Eine kurze Geschichte der Zeit, Rowohlt, Reinbek bei Hamburg.

4 Wissen über Raum und Zeit

The suitcase doesn’t fit in the green car because it’s too big [small]. What is too big? (a) The suitcase. (b) The car.

nn Gü

| 105

e

Abb. 4.2: Schlussfolgern über räumliche Beziehungen ist notwendig zum Textverstehen, wie das ausgewählte Winograd-Schema illustriert. Ein Schema ist im Englischen so konstruiert, dass keine syntaktischen oder statistischen Merkmale Indizien bieten. Durch Austausch des in eckigen Klam­ mern stehenden Wortes kehrt sich die korrekte Antwort um.

Die Verarbeitung räumlichen und zeitlichen Wissens stellt somit einen Anker­ punkt im noch unerreichbaren Verstehen alltäglichen Wissens dar und lädt zu wei­ teren Studien ein.

Themen dieses Kapitels Fragestellungen der Raumkognition mit primärem Bezug zur KI lassen sich in zwei wesentliche Gruppen von Fragen einteilen: 1. Ist Wissen über Raum und Zeit ein spezieller Typ von Wissen? Wie kann Wissen über Raum und Zeit repräsentiert werden? Welche speziellen Schlussfolgerungs­ verfahren existieren für diese Bereiche? 2. Wie wird die Verankerung zwischen Situationen und Objekten in Raum und Zeit realisiert? Wie kann Schlussfolgern über Situationen, etwa zur Analyse von Kau­ salbeziehungen, mit anderen Mechanismen zur Schlussfolgerung integriert wer­ den? Wie integrieren sich Wissensrepräsentation und Schlussfolgerungstechni­ ken mit Wahrnehmung und Interaktion? Im vorliegenden Kapitel werden primär die originären Ansätze der Wissensrepräsen­ tation räumlichen und zeitlichen Wissens und die Zusammenhänge ihrer Teilaspekte dargestellt. Ziel der Untersuchung von Zusammenhängen ist, das Wissen über die On­ tologie und die Struktur von Raum und Zeit, wie es Teil unseres Alltagswissens ist, zu repräsentieren, d. h. in einer formalen Beschreibung zu explizieren. Die Repräsenta­ tion von Situationen und der Verankerungsbeziehung – entsprechend Fragestellung 2 – sowie die Repräsentation von Objekten wird nur insoweit berücksichtigt, wie es für die Motivation der raumzeitlichen Strukturen und Entitäten notwendig ist. Bevor wir auf konkrete Ansätze zur Repräsentation der Domänen Raum und Zeit näher eingehen, sollen noch zwei methodische Vorbemerkungen erfolgen: Ausgangs­ punkt vieler Beispiele ist die Analyse von Sätzen natürlicher Sprache. Dieses Vorgehen ist darin begründet, dass das räumliche und zeitliche Inventar natürlicher Sprache als Anhaltspunkt für die Erforschung der Kognition von Raum und Zeit verwendet werden kann. Es wird nämlich angenommen, dass Sprache und kognitive Konzepte einander

106 | 4 Wissen über Raum und Zeit

bedingen [29; 113; 133]. Unsere beispielhaften Analysen natürlichsprachlicher Sätze erheben jedoch in keiner Weise den Anspruch, linguistische Theorien über räumliche bzw. zeitliche Sprache darzustellen. Wissen über Raum und Zeit ist in vielen Bereichen der Informatik und anderen Wissenschaften von Bedeutung. Obwohl Methoden wie physikalische Simulation und Datenstrukturen der Computergrafik zur Darstellung von Körpern zweifelsohne hilfreich sind, um mit räumlichen und zeitlichen Wissen umzugehen, so werden derartige Techniken in diesem Kapitel ausgeblendet. Dieses Kapitel betrachtet Raum und Zeit aus der Perspektive der Wissensrepräsentation und setzt in Teilen Vorkenntnisse der Logik voraus. Da für eine Verwendung in Systemen der KI Wissen in einem eindeutigen und ma­ schinell verarbeitbaren Format repräsentiert werden muss, ist das Ziel des vorliegen­ den Kapitels, explizite Repräsentationen von Alltagswissen über Raum und Zeit im Rahmen mathematischer, formaler Theorien vorzustellen und ihre algorithmischen Eigenschaften zu beleuchten.

4.1 Prinzipielle Ansätze der Repräsentation und des Schlussfolgerns für Wissen über Raum, Zeit und Situationen Ziel dieses Abschnitts ist, die grundlegenden Repräsentationstechniken auf Basis all­ gemeiner Prädikatenlogik und speziell gestalteter Logiken sowie qualitativer relatio­ naler Modellierung durch Beschränkungen (engl. constraints) und dem darauf basie­ renden constraint-basierten Schließen einzuführen. Als Anschauungsobjekte sollen für diesen Zweck die folgenden wichtigen Repräsentationen – eine zeitliche und eine räumliche – dienen. Wir gehen später auf diese noch genauer ein. Seitens einer Repräsentation zeitlichen Wissens soll das Allen-Kalkül [3] als Bei­ spiel dienen, welches die relative Beziehung von zwei zeitlich ausgedehnten Ereig­ nissen durch die Anordnung von geschlossenen Intervallen auf der Zeitlinie, einem reellwertigen Zahlenstrahl, beschreibt. Die Lage der Intervalle wird dabei durch den Vergleich der Start- und Endpunkte anhand der mathematischen Prädikate be­ schrieben (Abbildung 4.3). Zwischen dem in der Abbildung schwarz dargestellten und dem schraffierten Intervall gilt beispielsweise die Relation „vor“, wenn der Endpunkt des schwarzen Intervalls vor dem Startpunkt des schraffierten Intervalls liegt. Diese Relation ist gerichtet, denn bei vertauschter Perspektive – die Lage des schraffierten Intervalls in Bezug auf das schwarze Intervall – gilt die Relation „nach“. Insgesamt führt dies zu einem Repertoire von 13 unterschiedlichen Relationen, welche in Abbil­ dung 4.3 dargestellt sind. Im Allen-Kalkül wird beispielsweise von der Länge der Inter­ valle bewusst abstrahiert, es kann also nicht unterschieden werden, ob ein kürzeres Intervall auf ein längeres folgt oder umgekehrt. Seitens der Repräsentation räumlichen Wissens betrachten wir die RCC-Fami­ lie [109] (engl. region connection calculus, RCC), die Regionen alleinig durch eine topologische Verbundenheitsrelation beschreibt. Ein populärer Repräsentant dieser

4.1 Prinzipielle Ansätze der Repräsentation und des Schlussfolgerns

R(

)

,

R(

,

|

107

)

(gleich)

gleich

startet

beginnt mit

während

umfasst

beendet

endet mit

überlappt von

überlappt

getroffen von

trifft vor

nach

Zeitlinie Abb. 4.3: Die 13 im Allen-Kalkül unterschiedenen Konfigurationen von Intervallen: die symmetrische Relation „gleich“ plus 2 × 6 gerichtete Relationen. Von der Dauer der Intervalle wird abstrahiert, Relationen werden ausschließlich anhand der Abfolge der Intervallgrenzen entlang der Zeitlinie bestimmt.

)

R(

, = ,

)

DC

EC

PO

EQ

R(

,

)

TPP

TPPi

NTPP

NTPPi

R(

Abb. 4.4: Die acht topologisch unterscheidbaren Konfigurationen von Regionen in RCC-8: discrete (DC), externally connected (EC), partially overlapping (PO), equal (EQ), tangential proper part (TPP), TPP inverse (TPPi), nontangential proper part (NTPP), NTTP inverse (NTPPi). Von sowohl Form der Regionen als auch Dimension des Raumes wird abstrahiert, lediglich anhand des Kontakts von Inne­ rem, Rand und Komplement einer Region bestimmt sich die Relation.

Familie, RCC-8, ist in Abbildung 4.4 illustriert. Anhand der Unterscheidung, ob jeweils das Innere und/oder der Rand einer Region mit dem Inneren und/oder dem Rand ei­ ner zweiten Region verbunden sind, lassen sich acht Konstellationen unterscheiden (daher der Name RCC-8). Werden hingegen Regionen als offen angenommen, wie etwa eine offene Kreisscheibe {(x, y)|x2 + y2 < 1}, dann existieren keine Relatio­ nen, die aus dem Kontakt mit dem Rand einer Region hervorgehen. Es sind dann nur die fünf in Abbildung 4.5 dargestellten Relationen möglich, man bezeichnet dieses Relationensystem als RCC-5.

108 | 4 Wissen über Raum und Zeit

)

R(

, = ,

)

DR

PO

R(

,

)

PP

PPi

R(

EQ

Abb. 4.5: Die fünf topologisch unterscheidbaren Konfigurationen von Regionen in RCC-5: discrete (DR), partially overlapping (PO), equal (EQ), proper part (PP), PP inverse (PPi). In RCC-5 werden Re­ gionen als offen angenommen. Die in Abbildung 4.4 dargestellten Relationen aus RCC-8, die durch Kontakt eines Randes charakterisiert werden, existieren deshalb nicht in RCC-5

4.1.1 Axiomatisierung in klassischer Logik Logiken spielen eine zentrale Rolle in der Wissensrepräsentation und so existieren auch zahlreiche Ansätze, die räumliche und zeitliche Beziehungen axiomatisieren, al­ so diese durch Axiome in einer Logik darstellen. Axiomatisierungen in Prädikatenlogik sind hilfreich, um die betrachteten Aspek­ te und zugrunde liegenden Strukturen räumlichen oder zeitlichen Wissens zu erfas­ sen. Allerdings erfordert die Beschreibung von geometrischen Eigenschaften ein oft umfangreiches Axiomensystem [64]. In der praktischen Anwendung spielen Axioma­ tisierungen in der Prädikatenlogik kaum eine Rolle, da generelle Inferenzverfahren ineffizient sind und Erfüllbarkeit in der Prädikatenlogik sogar unentscheidbar ist. Auf räumliches oder zeitliches Wissen spezialisierte Inferenzverfahren sind hingegen oft effizient durchführbar. Axiomatisierungen helfen jedoch, derartige spezialisierte In­ ferenzverfahren zu entdecken. Als motivierendes Beispiel für eine Axiomatisierung lässt sich das RCC anführen (Abbildung 4.4). Das RCC wurde zunächst als prädikaten­ logische Theorie eingeführt [108]. Die Theorie des RCC fußt auf der grundlegenden Be­ schreibung der Verbindung (engl. connection) zweier Regionen, charakterisiert durch ein zweistelliges Prädikat C: ∀x.C(x, x)

(4.1)

∀x, y. (C(x, y) → C(y, x))

(4.2)

Auf Basis dieser elementaren Charakterisierung einer Verbindung als symmetrische (4.1) und reflexive (4.2) Relation zwischen Regionen lassen sich die in Abbildung 4.4 dargestellten Relationen (sowie einige Hilfsrelationen) wie in Tabelle 4.1 beschreiben. So wird beispielsweise die Relation DC (engl. disconnected) als das Nichtvorhanden­ sein einer Kontaktbeziehung definiert, die Hilfsrelation P (engl. part of ) durch eine Im­ plikation von Kontaktbeziehungen: Eine Region x ist genau dann Teil einer Region y, wenn jede Region z, die in Kontakt mit x steht, immer auch in Kontakt mit y steht. Aus

4.1 Prinzipielle Ansätze der Repräsentation und des Schlussfolgerns

| 109

Tab. 4.1: Axiomatisierung der Relationen des Region Connection Calculus (Abbildung 4.4)

∀x, y.[DC(x, y)

↔ ¬C(x, y)]

∀x, y.[P(x, y)

↔ ∀z. (C(z, x) → C(z, y))]

∀x, y.[PP(x, y)

↔ P(x, y) ∧ ¬P(y, x)]

∀x, y.[EQ(x, y)

↔ P(x, y) ∧ P(y, x)]

∀x, y.[O(x, y)

↔ ∃z.(P(z, x) ∧ P(z, y))]

∀x, y.[PO(x, y)

↔ ∃O(x, y) ∧ ¬P(x, y) ∧ ¬P(y, x)]

∀x, y.[DR(x, y)

↔ ¬O(x, y)]

∀x, y.[TPP(x, y)

↔ PP(x, y) ∧ ∃z.(EC(z, x) ∧ EC(z, y))]

∀x, y.[TPPi(x, y)

↔ TPP(y, x)]

∀x, y.[EC(x, y)

↔ C(x, y) ∧ ¬O(x, y)]

∀x, y.[NTPP(x, y) ↔ PP(x, y) ∧ ¬∃z.(EC(z, x) ∧ EC(z, y))] ∀x, y.[NTPPi(x, y) ↔ NTPP(y, x)]

diesen Axiomen konnten dann Operationen automatisch abgeleitet werden, die die in Abschnitt 4.1.4 beschriebenen effizienten Inferenzverfahren ermöglichen [107]. Zahlreiche weitere Untersuchungen schlossen sich an die dargestellte Axioma­ tisierung topologischer Relationen an. So wurden beispielsweise die algebraischen Eigenschaften der Verbindungsrelation zweier Regionen beschrieben [118], auf deren Basis Modelle für RCC gefunden werden konnten, die eine effiziente Manipulation er­ lauben [136], etwa für Anwendungen in der Handlungsplanung oder der Diagnose. Die Inferenzeigenschaften von RCC für verschiedene Modelle sind detailliert in [68] beschrieben.

4.1.2 Temporale Logiken Allgemeine, nicht auf die betrachtete Domäne spezialisierte Logiken erfordern eine Axiomatisierung der Domäne. Dies kann schwierig sein und auch eine ausdruckskräf­ tige Logik erfordern, die keine effizienten Inferenzeigenschaften erkennen lässt. Bei­ de Aspekte motivieren die Untersuchung speziell einer Domäne angepasster Logiken. Das Ziel dabei sind anwendungsorientierte Logiksysteme, die als formaler Rahmen für die Wissensrepräsentation und -verarbeitung dienen. Das Gebiet der Temporallogiken, oft als Teilgebiet der Modallogiken dargestellt, ist dabei auch außerhalb der KI von besonderem Interesse. Temporallogiken werden beispielsweise in der Softwaretechnik zur Spezifikation von Protokollen und Verhal­ ten von Softwarekomponenten eingesetzt. Wir können an dieser Stelle keine Einfüh­ rung in das Gebiet der Modallogiken bieten und beschränken uns auf die Beschrei­

110 | 4 Wissen über Raum und Zeit

bung der Temporallogik als Erweiterung der Aussagenlogik. Vertiefende Informatio­ nen können in [22] nachgelesen werden. Syntaktisch erweitern Temporallogiken die Aussagenlogik um sog. Modalopera­ toren, die Beziehungen zu anderen Zeitpunkten herbeiführen. Temporallogiken ba­ sieren klassisch auf einem Modell von diskreten Zeitpunkten; die Halpern-ShohramLogik [59] stellt eine intervallbasierte Temporallogik dar. Bei Betrachtung diskreter Zeitpunkte werden Modaloperatoren definiert, die auf den nächsten Zeitpunkt ver­ weisen, auf einen beliebig späteren und auf alle späteren Zeitpunkte. Die Semantik der Modaloperatoren wird auf einer sog. Menge von Welten (engl. set of worlds) definiert. Jeder Zeitpunkt wird als unabhängige Welt innerhalb der zeitli­ chen Struktur aufgefasst. Im Falle der linearen temporalen Logik (LTL) ist diese Struk­ tur die lineare Abfolge der Zeitpunkte. Für jeden Zeitpunkt – in jeder Welt – wird eine aussagenlogische Formel wie gewöhnlich durch eine Interpretationsfunktion auf ei­ nen Wahrheitswert {wahr, falsch} abgebildet. Ein Modell einer Formel in LTL besteht also als Folge I n , n = 0, 1, . . . von Interpretationsfunktionen. Der Modaloperator er­ zeugt einen Wechsel des betrachteten Zeitpunktes durch einen Wechsel der Interpre­ tationsfunktion. Folgende vier Modaloperatoren sind üblich, weitere können daraus abgeleitet werden:² X (next) bezieht eine Aussage über den nachfolgenden Zeitpunkt; ⬦ (eventually) bezieht eine Aussage auf einen späteren Zeitpunkt; (always) bezieht eine Aussage auf alle folgenden Zeitpunkte; U (until) betrachtet die zeitliche Abfolge der Gültigkeit zweier Aussagen.

Tab. 4.2: Mögliche Modaloperatoren und ihre Semantik in linearer temporaler Logik φ

I n 󳀀󳨐 X φ

I n+1 (φ) = wahr

n

I n 󳀀󳨐 ⬦ φ

∃m ≥ n.I m (φ) = wahr

n

I n 󳀀󳨐

∀m ≥ n.I m (φ) = wahr

φ

φ

∃m.(m ≥ n ∧ I (ψ) = wahr) 󸀠

φ

φ

φ

ψ

n

m

I n 󳀀󳨐 φ U ψ

φ m

󸀠

n󸀠

∧ ∀n .(n ≤ n < m → I (φ) = wahr)

n

m

In Tabelle 4.2 sind die Modaloperatoren sowie ihre Semantik dargestellt. Damit lassen sich eine Vielfalt von Aussagen mit temporalem Charakter modellieren:

2 Aufmerksamen mag auffallen, dass nicht alle vier Operatoren notwendig sind, denn äquivalent durch ¬ ⬦ ¬φ ersetzen.

φ lässt sich

4.1 Prinzipielle Ansätze der Repräsentation und des Schlussfolgerns

– – –

| 111

Der Regen wird aufhören: ⬦¬r. Fortwährend wechseln sich Ein- und Ausatmen ab: (¬(e ∧ a) ∧ ((e ∧ Xa) ∨ (a ∧ Xe))). Prolog ist eine unverständliche Programmiersprache, bis man deklarative Pro­ grammierung verstanden hat: ¬p U d.

4.1.3 Räumliche Logiken Analog zu den temporalen Logiken werden auch räumliche Logiken betrachtet. Marco Aiello und Kollegen [1] charakterisieren räumliche Logik dabei als jegliche Logik, die über einer räumlichen Domäne interpretiert wird. Betrachtet man den Zeitstrahl als eindimensionale räumliche Domäne, so schließt dies temporale Logiken ein. Auch andere Interpretationen ursprünglich temporaler Logiken sind möglich: Die Modal­ operatoren für zeitliche Nachfolge aus LTL lassen sich auch als topologische Opera­ toren für ‚Inneres‘ interpretieren, wodurch sich die RCC-Theorie auch als Modallogik darstellen lässt [18; 19]. Dies erlaubt beispielsweise, Inferenzverfahren der Modallogik auf Problemstellungen der RCC-Theorie anzuwenden. Dabei entsteht ein logikbasier­ ter und entscheidbarer Ansatz als interessante Alternative zur ausdrucksstarken, aber unentscheidbaren Prädikatenlogik oder den weniger ausdrucksstarken Ansätzen des constraint-basierten Schließens. Die Untersuchung räumlicher Logiken exploriert auch mögliche Semantiken für Junktoren und Quantoren [1]. Beispielsweise wurden die booleschen Operatoren ∧, ∨, ¬ auf Regionen im Kontext der RCC-Theorie angewendet [140]. Dabei steht ∧ für den Schnitt zweier Regionen, ∨ für deren Vereinigung und ¬ für das Komplement. Der Ausdruck PO(x, y ∧ z) beschreibt demnach, dass Region x mit dem Schnitt von Region y und z überlappt. Diese Anwendung von Operatoren erlaubt ausdrucksstarke Beschreibungen ohne zusätzliche Verwendung von Quantoren.³

4.1.4 Qualitative Modellierung und constraint-basiertes Schließen Qualitative Repräsentationen beschränken sich auf die Darstellung der essenziellen Information [134]. In der Anwendung auf Wissen über Raum und Zeit werden alleinig räumliche bzw. zeitliche Aspekte repräsentiert, der „Ballast“ einer ausdrucksstarken Logik wird vermieden. In der qualitativen Modellierung sowohl räumlichen als auch zeitlichen Wissens stehen Vergleiche im Vordergrund: Startet ein Intervall früher als das andere oder umgekehrt? Ist eine Region vollständig in einer anderen enthalten? Das Ergebnis dieser Vergleiche wird fast immer als boolescher Wahrheitswert inter­ 3 Das Komplement x C einer Region x, x C = ¬x lässt sich mithilfe der RCC-Theorie nur unter Verwen­ dung von Quantoren beschreiben: EC(x C , x) ∧ ¬∃x 󸀠 .(EC(x 󸀠 , x) ∧ PP(x C , x 󸀠 )).

112 | 4 Wissen über Raum und Zeit

pretiert, die betrachtete Eigenschaft kann also mathematisch als Relation modelliert werden. Aufgrund ihrer Natur, Entitäten miteinander zu vergleichen, sind Relationen in qualitativen Repräsentation meist zweistellig, selten dreistellig. Wir konzentrieren uns im Folgenden auf die Betrachtung von zweistelligen Relationssystemen, für die Behandlung höherstelliger relationaler Systeme sei auf [31; 38] verwiesen. In einer qualitativen Wissensrepräsentation gilt es, ausgewählte Relationen sym­ bolisch zu repräsentieren und ihre Wechselbeziehungen zu erfassen. Gegeben sei ei­ ne räumliche oder zeitliche Domäne D, so bildet die Menge aller Relationen auf D, R i ⊆ D × D, eine boolesche Mengenalgebra – ein mathematisches Konstrukt, wel­ ches unter mengentheoretischen Operationen Schnitt, Vereinigung und Komplement­ bildung abgeschlossen ist. Typischerweise sind betrachtete Domänen unendlich, die Anzahl der möglichen Relationen damit auch. Eine endliche und somit in Computern repräsentierbare Mengenalgebra ergibt sich auch für endliche Mengen an Relationen, wenn diese die JEPD-Eigenschaft erfüllen. Die Eigenschaft besagt, dass die Menge al­ ler Relationen vollständig (exhaustiv) ist und sich jedes Paar von Objekten durch ge­ nau eine Relation beschreiben lässt. Definition 4.1.1 JEPD. Eine Menge von Relationen R1 , . . . , R n über einer Domäne D, R i ⊂ D × D, 1 ≤ i ≤ n erfüllt die Eigenschaft JEPD (engl. jointly exhaustive and pairwise disjoint), wenn gilt: 1. R1 ∪ ⋅ ⋅ ⋅ ∪ R n = D × D (exhaustiv), 2. (R i ∩ R j ≠ 0) → i = j (paarweise disjunkt). In der qualitativen Modellierung werden ausschließlich Relationssysteme betrachtet, die der JEPD-Eigenschaft genügen.⁴ Relationssysteme, die der JEPD-Eigenschaft ge­ nügen, werden auch Partitionsschemata (engl. weak partition scheme) genannt [38; 82], da sie das kartesische Produkt der Domäne mit sich selbst partitionieren (Abbil­ dung 4.11). Die durch die Partitionsschemata erzeugte Mengenalgebra lässt sich sym­ bolisch repräsentieren. Definition 4.1.2. Sei R1 , . . . , R n eine Menge von zweistelligen Relationen über D, die die JEPD-Eigenschaft aufweisen. Ferner seien r1 , r2 , . . . , r n eine Menge von Symbo­ len. Als qualitative Relation bezeichnet man Elemente der Potenzmenge 2B , B = {r1 , . . . , r n }, die Semantik einer qualitativen Relation r ∈ 2B ist durch eine Inter­ pretationsfunktion I definiert: rI := ⋃ R k . r k ∈r

Beispiel 4.1.1. Die Menge der Relationen {} über den reellen Zahlen erfüllt die JEPD-Eigenschaft. Unter Verwendung der Symbole ≺, ≃, ≻ mit ≺I :=≡≠ repräsentiert. In der Literatur wird oftmals auf eine syntaktische Differenzierung von Symbolen und den Relationen, die sie repräsentieren, verzichtet. In den nachfolgenden Abschnitten werden wir deshalb auch nur von qualitativen Relationen sprechen und meinen damit sowohl die Menge an Symbolen als auch die dadurch repräsentierte Relation. Grundlegende Eigenschaften der betrachteten Domäne lassen sich durch alge­ braische Eigenschaften der qualitativen Relationen beschreiben, formal wird dazu ei­ ne relationale Algebra [88] auf Basis der Komposition von Relationen ∘ und des Konver­ sen −1 definiert [38; 82]. Diese werden in der Literatur als qualitative Kalküle bezeich­ net. Zunächst sei darauf hingewiesen, dass sich mengentheoretische Operationen ∪, ∩ sowie Komplementbildung C auf qualitativen Relationen wie üblich durchführen las­ sen und dies der Verknüpfung der Relationen entspricht. Beispiel 4.1.2. Sei r = {≃, ≻} und s = {≺, ≃}, so ergibt sich (r ∩ s)I ≡ {≃}I sowie gleicher­ maßen rI ∩ sI ≡≤ ∩ ≥≡=. Ausgehend von den üblichen mathematischen Definitionen für die Komposition und das Konverse über zweistelligen Relationen, R ∘ S := {(a, c) | ∃b.[(a, b) ∈ R ∧ (b, c) ∈ S]} , R

−1

:= {(b, a) | (a, b) ∈ R} ,

(4.3) (4.4)

werden entsprechende symbolische Operationen für qualitative Relationen über {r1 , . . . , r n } anhand deren Interpretation I definiert: s ˛ t := {r i ∈ B | 1 ≤ i ≤ n, rIi ∩ (sI ∘ tI ) ≠ 0} , ⌣

s := {r i ∈ B | 1 ≤ i ≤

n, rIi

I −1

∩ (s )

≠ 0} .

(4.5) (4.6)

Diese symbolischen Operationen sind Approximationen der mathematischen Opera­ tionen und weichen von diesen unter Umständen ab. Man spricht deswegen von der schwachen Komposition bzw. allgemein von schwachen Operationen. Die Abweichung ist notwendig, um sicherzustellen, dass die Algebra der qualitativen Operationen un­ ter den Operationen abgeschlossen ist. Dass Abgeschlossenheit nicht automatisch si­ chergestellt ist, zeigt ein einfaches Beispiel: Betrachte die zeitlichen Relationen auf dem Zeitstrahl, der nur aus diskreten Zeitpunkten 0, 1, 2, . . . besteht. Die Kom­ position < ∘ < berechnet sich anders als beim kontinuierlichen Zeitstrahl nicht als 1 | _ -> (fib (n - 1)) + (fib (n - 2)) Abb. 5.15: Implementierung der Fibonacci-Folge in OCaml

5.9 Erweiterungen | 183

licherweise auf die Paramodulation [64] und Superposition [2] zurückgegriffen. Dies hat den Vorteil, dass eine hohe Performanz erreicht werden kann. Jedoch muss dafür die Formel, welche die Eigenschaften repräsentiert, in disjunktiver Normalform vor­ liegen, was – wie bereits angemerkt – einen Verlust von Struktur bedeutet. Für matrixbasierte Kalküle existieren bislang keine Spezialisierungen auf das Schließen über Gleichheiten. Dennoch haben automatische Beweissysteme wie leanCoP die Möglichkeit, Gleichheiten zu behandeln [53]. Dies wird dadurch er­ reicht, dass die Theorie der Gleichheiten explizit zu der Wissensbasis hinzugefügt wird. Dabei werden die Axiome der Theorie – Reflexivität, Transitivität, Symmetrie und funktionale Substitutivität – als logische Formeln repräsentiert und bei der Be­ weissuche mitgenutzt. Eine andere Möglichkeit, Gleichheiten zu behandeln, ist die Einbindung in die Unifikation, auch E-Unifikation [76] genannt. Hierbei wird geprüft, ob zwei Terme unter Berücksichtigung von gegebenen Gleichheiten unifizierbar sind. Dieser Ansatz hat jedoch zwei Nachteile. Einerseits wird die Unifikation durch in den Gleichheiten potenziell vorhandene Variablen unentscheidbar. Andererseits gibt es nicht notwendigerweise einen allgemeinsten Unifikator. Der Verlust der Entscheidbarkeit ist hierbei besonders signifikant. Eine Lösung für dieses Problem bieten Entscheidungsprozeduren für Gleichheiten wie z. B. der Kon­ gruenzhüllenalgorithmus [50]. Dieser kann entscheiden, ob zwei Terme unter Berück­ sichtigung einer Menge von Gleichheiten ineinander überführt werden können, und ist dabei mit einer Komplexität von O(n log n ) sehr schnell. Die Entscheidbarkeit wird dadurch erreicht, dass die Gleichheiten ground, also frei von Variablen, sein müssen. Dies mag eine gravierende Einschränkung sein. In der Praxis hat sich jedoch gezeigt, dass viele Gleichheiten diese Einschränkungen erfüllen. Die Behandlung von Arithmetik ist eine weitaus komplexere Problematik, da es hierfür keine analogen Verfahren zu der Superposition oder Paramodulation gibt. Da­ her muss die Arithmetik sowohl bei resolutionsbasierten als auch matrixbasierten Be­ weisern anders behandelt werden. Hinzu kommt, dass viele arithmetische Theorien wie z. B. die Peano-Arithmetik unentscheidbar sind [33]. Daher beschränkt sich die Behandlung von Arithmetik üblicherweise auf entscheidbare Fragmente wie die Pres­ burger-Arithmetik [61], induktionsfreie Arithmetik oder lineare (Un-)Gleichungen mit Integerarithmetik. Entsprechend existieren spezialisierte Entscheidungsprozeduren, wie der Sup-Inf-Algorithmus [14; 74], die Arith-Prozedur [16] und der Omega-Test [63]. Diese Prozeduren lassen sich mit relativ geringem Aufwand in die Unifikation einbin­ den und der Kalkül um Theoriebehandlung erweitern. Dieser Ansatz wurde beispiels­ weise bei leanCoP-Ω [59] erfolgreich durchgeführt. Ein anderer – vor allem im resolutionsbasierten Schließen üblicher – Ansatz ist die Nutzung von sog. Theory- oder SMT-Solvern, wenn in logischen Formeln arithme­ tische Ausdrücke auftreten. Diese Solver bauen auf verschiedenen Verfahren auf, bei­ spielsweise auf einer Erweiterung des DPLL-Verfahrens um Theorien (DPLL+T) [30], und unterstützen verschiedene Theorien und Entscheidungsprozeduren, z. B. für Arrays, Arithmetik und Bit-Vektoren. Bekannte Beispiele solcher Solver sind z3 [49],

184 | 5 Automatische Inferenz

CVC4 [3] und Alt-Ergo [15]. Die meisten SMT-Solver haben jedoch den Nachteil, dass sie nur auf Formeln in Normalform arbeiten und keine Unterstützung für quantifizierte Formeln bieten.

5.10 Schlussbetrachtungen Das Ziel dieses Kapitels war, einige wichtige Methoden des automatischen Schließens vorzustellen. Dabei lag der Fokus auf dem Verdichtungsprinzip, also dem schrittwei­ sen Entfernen von Redundanz aus der Beweisführung zugunsten einer effizienten Ver­ arbeitung, die trotz hoher Performanz einen Zusammenhang zu einer für Menschen verständlichen Beweisführung erkennen lässt. Offensichtlich konnten in diesem Ka­ pitel nur die grundsätzlichen Ideen und Konzepte erläutert werden. Einige Themen wie Resolution, instanzbasierte Verfahren, das DPLL-Verfahren für die Aussagenlo­ gik, Modelchecker, SAT- und SMT-Solver sowie interaktive Beweisassistenten für um­ fangreiche Logiken wurden überhaupt nicht behandelt. Hierzu gibt es jedoch eine Reihe von Übersichtsartikeln in Handbüchern [4; 9; 10; 11; 12; 35; 66] und einschlä­ gigen Lehrbüchern [8; 13; 28; 70]. Aktuelle Entwicklungen kann man in den Konfe­ renzen CADE, IJCAR, ITP, LPAR, Tableaux, CAV, SAT, AITP und JELIA verfolgen oder in Zeitschriften wie z. B. dem Journal of Automated Reasoning, Journal of Symbolic Computation, Journal of Applied Logic, Annals of Pure and Applied Logic, Journal of Symbolic Logic, Journal of Logic and Computation oder auch in allgemeinen KI-Zeit­ schriften und Proceedings von KI-Konferenzen nachlesen.

Literaturverzeichnis [1]

ACL2 home page. http://www.cs.utexas.edu/users/moore/acl2.

[2]

Bachmair, L. und Ganzinger, H. Rewrite-based equational theorem proving with selection and simplification. Journal of Logic and Computation, 4(3):217–247, 1994.

[3]

Barrett, C., Conway, C. L., Deters, M., Hadarean, L., Jovanovi’c, D., King, T., Reynolds, A. und Tinelli, C. CVC4. In Gopalakrishnan, G. und Qadeer, S. (Hrsg.), CAV ’11, Band 6806 von LNCS, S. 171–177. Springer, 2011.

[4]

Barwise, J. Handbook of mathematical logic. North-Holland, 1977.

[5]

Beth, E. W. Semantic entailment and formal derivability. Mededelingen der Koninklijke Neder­ landse Akademie van Wetenschappen, 18(13):309–342, 1955.

[6]

Bibel, W. On matrices with connections. Journal of the ACM, 28:633–645, 1981.

[7]

Bibel, W. Automated Theorem Proving. Vieweg Verlag, 1987.

[8]

Bibel, W. Deduktion – Automatisierung der Logik. R. Oldenbourg, 1992.

[9]

Bibel, W. und Schmitt, P. (Hrsg.). Automated Deduction – A Basis for Applications Vol I: Founda­ tions – Calculi and Methods. Applied Logic Series 8. Kluwer, 1998.

[10] Bibel, W. und Schmitt, P. (Hrsg.). Automated Deduction – A Basis for Applications Vol II: Sys­ tems and Implementation Techniques. Applied Logic Series 9. Kluwer, 1998.

Literaturverzeichnis

| 185

[11] Bibel, W. und Schmitt, P. (Hrsg.). Automated Deduction – A Basis for Applications Vol III: Appli­ cations. Applied Logic Series 10. Kluwer, 1998. [12] Biere, A., Heule, M., van Maaren, H. und Walsh, T. Handbook of Satisability. IOS Press, 2009. [13] Bläsius, K. und Bürckert, H.-J. Deduktionssysteme. Oldenburg, 1987. [14] Bledsoe, W. A new method for proving certain Presburger formulas. In 4th IJCAI, S. 15–21, 1975. [15] Bobot, F., Conchon, S., Contejean, É., Iguernelala, M., Lescuyer, S. und Mebsout, A. The AltErgo automated theorem prover. http://alt-ergo.lri.fr/, 2008. [16] Chan, T. A decision procedure for checking PL/CV arithmetic inferences. In Introduction to the PL/CV2 Programming Logic, Band 135 von LNCS, S. 227–264. Springer, 1982. [17] CompCert home page. http://compcert.inria.fr/. [18] Constable, R. L. The semantics of evidence. Technical Report, TR 85-684, Cornell University. Department of Computer Science, 1985. [19] Coq home page. http://coq.inria.fr. [20] Davis, M., Logemann, G. und Loveland, D. A machine program for theorem proving. Communi­ cations of the ACM, 5(7):394–397, 1962. [21] Davis, M. und Putnam, H. A computing procedure for quantification theory. Journal of the ACM, 7:201–215, 1960. [22] DeepSpec home page. http://deepspec.org. [23] Dynamic window manager. https://dwm.suckless.org/patches/fibonacci/. [24] E prover home page. http://www.eprover.org. [25] EQP home page. https://www.cs.unm.edu/~mccune/eqp. [26] Escalada-Imaz, G. und Ghallab, M. A practically efficient and almost linear unification algo­ rithm. Artificial Intelligence, 36(3):249–263, 1988. [27] Fisher, K., Launchbury, J. und Richards, R. The HACMS program: using formal methods to elimi­ nate exploitable bugs. Philos Trans A Math Phys Eng Sci, 375(20150401), 2017. [28] Fitting, M. C. First Order Logic and Automated Theorem Proving. Springer, 1990. [29] Galmiche, D. Connection methods in linear logic and proof nets construction. Theoretical Com­ puter Science, 232(2):231–272, 2000. [30] Ganzinger, H., Hagen, G., Nieuwenhuis, R., Oliveras, A. und Tinelli, C. DPLL(t): Fast decision procedures. In Alur, R. und Peled, D. A. (Hrsg.), CAV ’04, S. 175–188. Springer, 2004. [31] Gentzen, G. Untersuchungen über das logische Schließen. Mathematische Zeitschrift, 39:176–210, 405–431, 1935. [32] Girard, J.-Y. Linear logic. Theoretical Computer Science, 50:1–102, 1987. [33] Gödel, K. Über formal unentscheidbare Sätze der Principia Mathematica und verwandter Syste­ me I. Monatshefte für Mathematik, 38(1):173–198, 1931. [34] Gonthier, G. Formal proof – the four-color theorem. Notices Amer. Math. Soc., 55(11):1382– 1393, 2008. [35] Harrison, J. Handbook of Practical Logic and Automated Reasoning. Cambridge University Press, 2009. [36] Hilbert, D. und Bernays, P. Grundlagen der Mathematik, Band 1. Springer, 1934. [37] HOL home page. http://www.cl.cam.ac.uk/Research/HVG/HOL. [38] Isabelle home page. http://www.cl.cam.ac.uk/Research/HVG/Isabelle. [39] Kreitz, C. und Mantel, H. A matrix characterization for Multiplicative Exponential Linear Logic. Journal of Automated Reasoning, 32(2):121–166, 2004. [40] Kreitz, C., Mantel, H., Otten, J. und Schmitt, S. Connection-based proof construction in linear logic. In McCune, W. (Hrsg.), CADE 14, Band 1249 von LNAI, S. 207–221. Springer, 1997. [41] Kreitz, C. und Otten, J. Connection-based theorem proving in classical & non-classical logics. Journal of Universal Computer Science, 5(3):88–112, 1999. [42] LeanCoP home page. http://www.leancop.de.

186 | 5 Automatische Inferenz

[43] LeanTaP home page. https://formal.iti.kit.edu/beckert/leantap. [44] Letz, R., Schumann, J., Bayerl, S. und Bibel, W. Setheo: A high-performance theorem prover. Journal of Automated Reasoning, 8:183–212, 1992. [45] Liu, X., Kreitz, C., van Renesse, R., Hickey, J., Hayden, M., Birman, K. und Constable, R. L. Buil­ ding reliable, high-performance communication systems from components. SOSP’99, Operat­ ing Systems Review, 33:80–92, 1999. [46] Mantel, H. und Otten, J. linTAP: A tableau prover for linear logic. In Murray, N. (Hrsg.), TA­ BLEAUX-99, Band 1617 von LNAI, S. 217–231. Springer, 1999. [47] Martelli, A. und Montanari, U. An efficient unification algorithm. ACM Transactions on Pro­ gramming Languages and Systems, 4:258–282, 1982. [48] McCune, W. Solution of the Robbins problem. Journal of Automated Reasoning, 19:263–276, 1997. [49] de Moura, L. und Bjørner, N. Z3: An efficient SMT solver. In TACAS 2008, Band 4963 von LNCS, S. 337–340. Springer, 2008. [50] Nelson, G. und Oppen, D. C. Fast decision procedures based on congruence closure. Journal of the ACM, 27(2):356–364, April 1980. [51] Nuprl home page. http://www.nuprl.org. [52] Otten, J. leanCoP 2.0 and ileancop 1.2: High performance lean theorem proving in classical and intuitionistic logic. In Armando, A., Baumgartner, P. und Dowek, G. (Hrsg.), IJCAR 2008, Band 5195 von LNAI, S. 283–291. Springer, 2008. [53] Otten, J. Restricting backtracking in connection calculi. AI Communications, 23(2-3):159–182, 2010. [54] Otten, J. A non-clausal connection calculus. In Brünnler, K. und Metcalfe, G. (Hrsg.), TABLEAUX 2011, Band 6793 von LNAI, S. 226–241. Springer, 2011. [55] Otten, J. MleanCoP: A connection prover for first-order modal logic. In Demri, S., Kapur, D. und Weidenbach, C. (Hrsg.), IJCAR 2014, Band 8562 von LNAI, S. 269–276. Springer, 2014. [56] Otten, J. nanoCoP: A non-clausal connection prover. In Olivetti, N. und Tiwari, A. (Hrsg.), IJCAR 2016, Band 9706 von LNAI, S. 300–312. Springer, 2016. [57] Otten, J. und Bibel, W. leanCoP: Lean connection-based theorem proving. Journal of Symbolic Computation, 36:139–161, 2003. [58] Otten, J. und Kreitz, C. T-string-unification: Unifying prefixes in non-classical proof methods. In Moscato, U. (Hrsg.), TABLEAUX-96, Band 1071 von LNAI, S. 244–260. Springer, 1996. [59] Otten, J., Trölenberg, H. und Raths, T. leanCoP-Ω 0.1. In 5th IJCAR – ATP System Competition – CASC-J5, 2010. [60] Otter home page. https://www.cs.unm.edu/~mccune/otter. [61] Presburger, M. Über die Vollständigkeit eines gewissen Systems der Arithmetik ganzer Zahlen, in welchem die Addition als einzige Operation hervortritt. In Comptes Rendus du l congrès de Mathématiciens des Pays Slaves, Warszawa, S. 92–101, 1929. [62] Prover9 home page. https://www.cs.unm.edu/~mccune/mace4. [63] Pugh, W. The Omega test: a fast and practical integer programming algorithm for dependence analysis. In Supercomputing, S. 4–13, 1991. [64] Robinson, G. und Wos, L. Paramodulation and theorem-proving in first-order theories with equality. In Meltzer, B. und Michie, D. (Hrsg.), Machine Intelligence 4, Kapitel 8, S. 135–150. Edinburgh University Press, 1969. [65] Robinson, J. A. A machine-oriented logic based on the resolution principle. Journal of the ACM, 12(1):23–41, January 1965. [66] Robinson, J. A. und Voronkov, A. Handbook of Automated Reasoning. Elsevier/MIT Press, 2001.

Literaturverzeichnis

| 187

[67] Schiper, N., Rahli, V., Renesse, R. V., Bickford, M. und Constable, R. L. ShadowDB: A replicated database on a synthesized consensus core. In Eighth Workshop on Hot Topics in System De­ pendability, 2012. [68] Schmitt, S. Proof Reconstruction in Classical and Non-classical Logics. PhD thesis, Technische Universität Darmstadt, 1999. [69] Schmitt, S., Lorigo, L., Kreitz, C. und Nogin, A. JProver: Integrating connection-based theorem proving into interactive proof assistants. In Gore, R., Leitsch, A. und Nipkow, T. (Hrsg.), IJCAR 2001, Band 2083 von LNAI, S. 421–426. Springer, 2001. [70] Schöning, U. Logik für Informatiker. Spektrum, 2000. [71] Schulz, S. System Description: E 1.8. In McMillan, K., Middeldorp, A. und Voronkov, A. (Hrsg.), LPAR 19, Band 8312 von LNCS. Springer, 2013. [72] seL4 home page. https://sel4.systems. [73] Setheo home page. http://www2.tcs.ifi.lmu.de/~letz/TU/setheo/. [74] Shostak, R. E. On the SUP-INF method for proving Presburger formulas. Journal of the ACM, 24(4):529–543, October 1977. [75] Smith, D., Parra, E. und Westfold, S. Synthesis of high performance transportation schedulers. Technical Report, KES.U.95.1, Kestrel Institute, 1995. [76] Snyder, W. E-Unification, S. 49–60. Birkhäuser, 1991. [77] Spass home page. http://www.spass-prover.org. [78] Vampire home page. https://vprover.github.io/. [79] Voronkov, A. Algorithms, datastructures, and other issues in efficient automated deduction. In Gore, R., Leitsch, A. und Nipkow, T. (Hrsg.), IJCAR 2001, Band 2083 von LNAI, S. 13–28. Sprin­ ger, 2001. [80] Wallen, L. Automated deduction in nonclassical logics. MIT Press, 1990.

6 Nichtmonotones Schließen Gerhard Brewka Das Wissen intelligenter Agenten ist häufig unvollständig und beruht auf Zusammen­ hängen, die zwar typischerweise, aber nicht ausnahmslos gelten. Das Auftreten von Ausnahmen macht es erforderlich, zu nichtmonotonen Schlussverfahren überzuge­ hen, bei denen die Konklusionen nicht mit der Menge der Prämissen wachsen müs­ sen. In diesem Kapitel wird zunächst die Rolle des nichtmonotonen Schließens für die Künstliche Intelligenz erörtert. Nach der Darstellung einiger einfacher Formen der Nichtmonotonie, wie sie in verschiedenen verbreiteten Systemen vorkommt, stellt Ab­ schnitt 6.2 einige der wichtigsten existierenden nichtmonotonen Logiken dar: Reiters Default-Logik, Moores Autoepistemische Logik und McCarthys Circumscription. Ab­ schnitt 6.3 beschreibt dann ausführlich einen Ansatz, der Default-Schließen auf in­ konsistenztolerantes Schließen zurückführt. Dabei werden bevorzugte maximal kon­ sistente Teilmengen der Prämissen berücksichtigt. Es wird gezeigt, wie durch eine ge­ eignete Definition der bevorzugten Teilmengen Prioritäten zwischen Default-Regeln auf einfache Weise ausgedrückt werden können. Abschnitt 6.4 geht auf den Zusam­ menhang zwischen nichtmonotonen Logiken und Logikprogrammierung ein und dis­ kutiert die Antwortmengenprogrammierung, einen neueren Ansatz zum Problemlö­ sen. Der folgende Abschnitt 6.5 bietet eine kurze Einführung in das Gebiet der forma­ len Argumentation. Das Kapitel schließt mit einem kurzen Ausblick in Abschnitt 6.6.

6.1 Einführung Unser empirisches Wissen über die Welt ist stets unvollständig, und sehr häufig lassen sich aus ihm nicht alle Fakten ableiten, die wir benötigen, um darauf Entscheidun­ gen, Planungen und Aktionen zu gründen. Trotz solcher Lücken in unserem Wissen sind wir natürlich gezwungen zu handeln. Vielfach verwenden wir deshalb Regeln mit Ausnahmen, um das fehlende Wissen zu ergänzen. Solche Regeln drücken aus, was typischerweise der Fall ist, und können dazu benutzt werden, plausible Konklusionen abzuleiten, sofern keine der Konklusion widersprechende Information vorliegt. Jeder intelligente Agent muss in der Lage sein, solche Regeln – im KI-Deutsch werden sie auch Default-Regeln genannt – sinnvoll zu handhaben. Eine zweite für uns wichtige Fähigkeit ist der Umgang mit inkonsistenter Informa­ tion. Es kommt ständig vor, dass sich die uns vorliegende Information widerspricht, z. B. weil sie aus unterschiedlichen Quellen stammt. Natürlich dürfen wir uns dadurch nicht paralysieren lassen. Wir müssen auf sinnvolle Weise mit der inkonsistenten In­ formation umgehen. Für beide Probleme bietet die klassische Prädikatenlogik für sich genommen kei­ ne Lösung: Im Falle inkonsistenter Prämissen liefert die Prädikatenlogik die Menge https://doi.org/10.1515/9783110659948-006

190 | 6 Nichtmonotones Schließen

aller Formeln als Theoreme. Das ist sicher nicht das, was wir wollen, denn wer auf widersprüchliche Information stößt, wird sicher nicht anfangen, auf einmal alle be­ liebigen Sätze für wahr zu halten. Auch die Behandlung von Regeln mit Ausnahmen lässt sich in der klassischen Logik nicht adäquat modellieren. Natürlich können wir eine Regel wie Vögel fliegen typischerweise folgendermaßen darstellen: ∀x.Vogel(x) ∧ ¬Ausnahme(x) ⇒ Fliegt(x) , ∀x.Ausnahme(x) ⇔ Pinguin(x) ∨ Strauß(x) ∨ ¬HatFl¨ ugel(x) . . . Diese Darstellung erfordert aber eine vollständige Auflistung aller möglichen Ausnah­ men, eine für sich genommen unmögliche Aufgabe, denn auch das Wissen um Aus­ nahmen ist natürlich so gut wie immer unvollständig. Aber selbst wenn eine solche vollständige Liste verfügbar wäre, wäre die Darstellung immer noch inadäquat: Um für einen bestimmten Vogel, sagen wir Tweety, abzuleiten, dass er fliegt, ist es not­ wendig zu beweisen, dass kein Ausnahmefall vorliegt, d. h., dass Tweety kein Pinguin ist, kein Strauß, dass er Flügel hat usw. Das aber wollen wir gerade nicht: Wir wollen Tweety fliegt auch ableiten können, wenn nicht gezeigt werden kann, dass Tweety eine Ausnahme ist, nicht nur dann, wenn gezeigt werden kann, dass er keine Ausnahme ist. Worin ist diese Schwierigkeit begründet? Die klassische Logik besitzt folgende Monotonieeigenschaft: Für alle Mengen von Prämissen A und Formeln p, q gilt A ⊢ q impliziert A ∪ {p} ⊢ q , d. h., zusätzliche Information kann nie alte Konklusionen ungültig machen (⊢ be­ zeichnet die klassische Ableitbarkeitsrelation). Wie wir im obigen Beispiel gesehen haben, wollen wir eine Default-Regel dazu benutzen, um eine plausible Konklusion abzuleiten, sofern nichts auf einen Ausnahmefall hindeutet. Wenn wir später zusätzli­ che Information erhalten, die besagt, dass entgegen unseren Erwartungen doch eine Ausnahme vorliegt, dann muss diese Konklusion zurückgenommen werden. Jedes Schließen, das auf Regeln mit Ausnahmen basiert, muss deshalb in diesem Sinne nichtmonoton sein. Dasselbe gilt konsequenterweise auch für eine Logik, die solches Schließen formalisiert. Uns geht es hier vor allem um Default-Schließen. Es gibt aber andere Formen nichtmonotonen Schließens, die wenigstens erwähnt werden sollen. Wie gesagt er­ lauben Default-Regeln die Ableitung plausibler Konklusionen aus unvollständigem Wissen, sofern keine widersprüchliche Information vorliegt. Eine ganz andere Form nichtmonotonen Schließens ist das autoepistemische Schließen. Dabei wird Wissen über das eigene Wissen (autoepistemisches Wissen) zur Ableitung korrekter Schlüsse verwendet. Das Standardbeispiel lautet: Ich kenne alle meine Brüder. ( = Wenn x mein Bruder ist, so weiß ich das.)

6.1 Einführung |

191

Ich habe keine Information, dass Peter mein Bruder ist. Also ist Peter nicht mein Bruder.

Die Nichtmonotonie entsteht in diesem Fall deshalb, weil die Bedeutung von Aussa­ gen über das eigene Wissen kontextabhängig ist: Wenn wir in unserem Beispiel zu­ sätzliche Information erhalten, die besagt, dass Peter doch mein Bruder ist, so wissen wir, dass die erste Prämisse falsch war, als sie zur Ableitung von Peter ist nicht mein Bruder verwendet wurde. Aber das heißt nicht, dass diese Prämisse nun aufgegeben werden muss. Die Prämisse bezieht sich auf das jeweils aktuelle Wissen, und es ist durchaus sinnvoll anzunehmen, dass sie bezogen auf das jetzt erweiterte Wissen zu­ trifft. Eine genauere Analyse des autoepistemischen Schließens findet sich in [53]. Auch das Schließen auf der Basis inkonsistenter Information (inkonsistenztole­ rantes Schließen) ist nichtmonoton. Betrachten wir die inkonsistente Prämissenmen­ ge {p, ¬p, q, r, s} . Wie würde ein intelligenter Agent mit solcher Information umgehen? Er würde sicher­ lich nicht alle verfügbare Information als gleichermaßen wertlos ansehen. Eine Mög­ lichkeit wäre es, die maximal konsistenten Teilmengen der Prämissen zu betrachten und als ableitbar anzusehen, was aus all diesen Teilmengen abgeleitet werden kann. In unserem Beispiel hätte das den Effekt, dass p und ¬p ‚eliminiert‘ würden und nur die anderen Prämissen für Ableitungen verwendet werden könnten. Natürlich kann dabei das Zufügen von neuer Information, etwa ¬q, weitere Prämissen unwirksam machen. Damit ist auch diese Form von Schließen nichtmonoton. Wir werden in Ab­ schnitt 6.3 noch einmal ausführlicher auf inkonsistenztolerantes Schließen zurück­ kommen. Bevor wir uns einigen wichtigen Formalisierungen zuwenden, wollen wir noch einige Beispiele diskutieren, die die Relevanz nichtmonotonen Schließens für die KI zeigen. Historisch gesehen wurden die Arbeiten auf diesem Gebiet vor allem motiviert durch das berühmte Frame-Problem: Wie lässt sich adäquat repräsentieren, dass die meisten Objekte sich nicht ändern, wenn ein Ereignis eintritt? Das Problem trat vor al­ lem im Zusammenhang mit dem Situationskalkül deutlich zutage. Der Situationskal­ kül wurde von McCarthy und Hayes entwickelt [49; 52], um in einem logischen Rah­ men das Schließen über Aktionen und Ereignisse in der Zeit zu modellieren. Damit die Effekte von Ereignissen dargestellt werden können, werden Fakten mit den Situa­ tionen indiziert, in denen sie gelten, etwa:¹ Holds(In(Fred, Kitchen), Sit105) , Holds(Color(Kitchen, Red), Sit105) .

1 In diesen und den folgenden Beispielen beginnen Konstanten mit großen Buchstaben, Variablen mit kleinen.

192 | 6 Nichtmonotones Schließen

Ereignisse produzieren neue Situationen, etwa: Sit106 = Result(Go(Fred, Bathroom), Sit105) . Weitere Axiome beschreiben, wie Ereignisse die Welt verändern: ∀x, y, s.Holds(In(x, y), Result(Go(x, y), s)) . Das Problem ist nun z. B. zu zeigen, welche Farbe die Küche in Sit106 hat. Um ableiten zu können, dass sie immer noch rot ist, brauchen wir folgendes Axiom: ∀x, y, v, w, s.Holds(Color(x, y), s) ⇒ Holds(Color(x, y), Result(Go(v, w), s)) . Solche Frame-Axiome sind für jedes Paar bestehend aus einem Ereignis und einem durch dieses Ereignis nicht veränderten Faktum nötig. Das macht den Ansatz für die Praxis völlig unbrauchbar. Eine mögliche Lösung dieses Problems wäre die Einfüh­ rung eines Persistenz-Defaults, das informell etwa so lauten könnte: Ereignisse verändern Eigenschaften normalerweise nicht. Mit einem solchen Default, so die Grundidee, ist nur noch die Beschreibung der tat­ sächlichen Effekte von Ereignissen erforderlich. Explizite Frame-Axiome erübrigen sich. Ihre Konklusionen liefert das Persistenz-Default. Mittlerweile hat sich allerdings herausgestellt, dass eine einfache Repräsentati­ on dieses Defaults in einer der inzwischen entwickelten nichtmonotonen Logiken oft nicht zu den erwarteten Resultaten führt. Eine Analyse der dabei auftretenden Proble­ me und eine Darstellung einiger Lösungsversuche finden sich in [32]. Ein verwandtes Problem ist das Qualifikationsproblem: Wie lässt sich adäquat reprä­ sentieren, dass Aktionen fehlschlagen können? Wenn man z. B. den Autoschlüssel im Zündschloss dreht, so ist der erwartete Effekt, dass der Motor anspringt. Aber, jeder kennt das, es gibt Ausnahmesituationen, in denen dieser Effekt nicht eintritt: Der Tank kann ausgelaufen sein, die Batterie leer, die Zündkerzen defekt, der Motor ausgebaut, usw. Wieder ist die Liste der möglichen Ausnahmen beliebig verlängerbar. Keiner von uns wird wohl jedesmal nachsehen, ob der Motor noch da ist, bevor er zu starten ver­ sucht. Unsere Handlungen basieren auf der Erwartung, dass sich die Dinge wie üblich verhalten. Wieder ist es eine natürliche Idee, Defaults zu verwenden, um die erwarte­ ten Effekte von Ereignissen formal zu beschreiben. Es gibt zahlreiche weitere Gebiete, in denen Nichtmonotonie eine wichtige Rol­ le spielt. Bei der Diagnose etwa können Defaults verwendet werden, um das normale Verhalten von Teilen eines Gerätes zu beschreiben. Fügt man zu dieser Beschreibung des normalen Verhaltens die Beschreibung des tatsächlich beobachteten Verhaltens hinzu, so geben die nicht angewendeten Defaults Auskunft darüber, welche Bauteile

6.1 Einführung | 193

defekt sein können. Beim Sprachverstehen verwenden wir ständig Defaults, etwa um Mehrdeutigkeiten zu beheben. Beim Bilderkennen werden Defaults benutzt, um aus Teilszenen vollständige Bilder zu erzeugen. Selbst das Gesetz ist nichtmonoton, wie folgende Regeln zeigen, die in dieser oder ähnlicher Form tatsächlich in Gesetzestex­ ten zu finden sind [31]: Verträge sind gültig. Verträge mit Minderjährigen sind ungültig. Verträge mit Minderjährigen, die im Beisein eines Vormundes geschlossen werden, sind gültig.

Es ist leicht zu sehen, dass in all diesen Fällen zusätzliche Information zur Rücknahme von Schlüssen führen kann. Nichtmonotone Systeme haben eine recht lange Tradition in der KI. Schon früh wur­ den etwa Frame-Systeme verwendet, wie sie in fast allen Expertensystemwerkzeugen zu finden sind. Diese Systeme ermöglichen die Beschreibung von Klassenhierarchien und typischen Eigenschaften von Instanzen dieser Klassen. Frames beschreiben Klas­ sen, Slots repräsentieren Attribute der Instanzen dieser Klassen und ihre typischen Werte. Die grundlegende Idee ist die, dass im Falle von Widersprüchen die spezifischs­ te Information vorgezogen wird. Betrachten wir folgendes Beispiel (die hier für Frameund Instanzdefinitionen verwendete Sprache stammt aus dem in der GMD entwickel­ ten BABYLON-System [17] und dürfte selbsterklärend sein): (defframe auto (slots (sitze 5) (zylinder 4) (raeder 4))) (defframe sportwagen (supers auto) (slots (sitze 2) (preis hoch))) (definstance speedy of sportwagen) Aus diesen Definitionen lässt sich ableiten, dass speedy zwei Sitze und vier Zylinder hat. Der aus der Definition von auto stammende Wert fünf für sitze wird nicht berück­ sichtigt, da auto eine Oberklasse von sportwagen ist, wie es durch die entsprechende supers-Spezifikation festgelegt wurde. Wir erweitern nun die zweite Definition folgen­ dermaßen: (defframe sportwagen (supers auto)

194 | 6 Nichtmonotones Schließen

(slots

(sitze 2) (preis hoch) (zylinder 6)))

Jetzt wird für zylinder der Wert sechs abgeleitet, d. h., zusätzliche Information hat zur Revision einer früheren Ableitung geführt. Ein anderes bekanntes nichtmonotones System ist Prolog mit seiner Behandlung der Negation (negation as failure). Dabei wird not A als gültig betrachtet, wenn A nicht abgeleitet werden kann. Betrachten wir wieder unser altes Tweety-Beispiel:² Fliegt(X) :- Vogel(X), not Abnormal(X). Abnormal(X) :- Pinguin(X). Vogel(Tweety).

Das Prolog-Ziel Fliegt(Tweety)? liefert SUCCESS, da not Abnormal(Tweety) abgelei­ tet werden kann. Fügen wir jedoch die Prämisse Pinguin(Tweety).

hinzu, so kann Fliegt(Tweety) nicht mehr abgeleitet werden. Auch hier also ein Fall von Nichtmonotonie. Die vor allem aus dem Bereich der deduktiven Datenbanken bekannte Closed World Assumption (CWA) ist in engem Zusammenhang hierzu zu sehen. Ähnlich wie in Pro­ log geht man davon aus, dass nur positive Information explizit gespeichert werden muss. Das Fehlen einer (atomaren) Information wird als Falschheit dieser Information gedeutet. Wenn etwa in einer Datenbank über Flugverbindungen keine Direktverbin­ dung zwischen Bonn und London enthalten ist, so wird das so interpretiert, dass es eben keine solche Verbindung gibt. Formal lässt sich die CWA folgendermaßen präzi­ sieren: Definition 6.1.1. Sei T eine Menge von Formeln. p ist ableitbar aus T unter der CWA genau dann wenn T ∪ ASS(T) ⊢ p , wobei ASS(T) := {¬q | q ist atomar, und es gilt T ⊢ ̸ q}. Wie diese drei Beispiele zeigen, spielen nichtmonotone Systeme schon lange eine wichtige Rolle in der KI und, allgemeiner, in der Informatik. Allerdings sind die For­ men der Nichtmonotonie, die wir hier vorgestellt haben, äußerst beschränkt und lassen sich nicht einfach verallgemeinern. So führt etwa die CWA zu Inkonsistenz,

2 Abweichend von unserer üblichen Notation verwendet Prolog Großbuchstaben für Variablen.

6.2 Formalisierungen nichtmonotonen Schließens | 195

wenn Disjunktionen in den Prämissen zugelassen werden. Seit Ende der 1980-Jahre hat sich das nichtmonotone Schließen als eigenständiges Forschungsgebiet der KI etabliert. Vorrangiges Ziel war zunächst, geeignete Formalisierungen zu finden, die mindestens so ausdrucksstark sind wie die klassische Logik. Einige wichtige Ergeb­ nisse dieser Bemühungen werden in den folgenden Abschnitten dargestellt. Aktuelle Forschungsarbeiten beschäftigen sich nur in geringem Maße mit der Ent­ wicklung neuer nichtmonotoner Logiken – hier sind wohl die grundlegenden Ideen ausgearbeitet und die Möglichkeiten ausgereizt. Das Gebiet lebt aber weiter in min­ destens zwei derzeit äußerst aktiven Richtungen. Die Antwortmengenprogrammierung kombiniert Ideen aus dem nichtmonotonen Schließen, der Logikprogrammierung und dem Constraint Solving zu einem erfolgreichen deklarativen Paradigma des Pro­ blemlösens. Nicht zuletzt die Verfügbarkeit höchst effizienter Solver macht diesen Ansatz auch für industrielle Anwendungen attraktiv. Ein weiterer Schwerpunkt ak­ tueller Arbeiten ist die formale Argumentation. Hier versucht man die Art und Weise nachzubilden, wie wir durch Konstruktion und Auswahl von Argumenten für und gegen bestimmte Optionen zu Entscheidungen und Überzeugungen kommen. Beiden genannten Themen ist ein Abschnitt in diesem Kapitel gewidmet.

6.2 Formalisierungen nichtmonotonen Schließens Bevor wir in diesem Abschnitt einige der wichtigsten nichtmonotonen Logiken dar­ stellen, wollen wir kurz ein grundlegendes Problem diskutieren, das jede Formalisie­ rung technisch schwierig macht: das Problem sich widersprechender Defaults. Hier das Standardbeispiel: Quäker sind Pazifisten. Republikaner sind keine Pazifisten. Nixon ist Quäker und Republikaner.

Ist Nixon Pazifist oder nicht? Es gibt zwei Defaults, die jeweils benutzt werden kön­ nen, um sich widersprechende Konklusionen abzuleiten. Die Defaults sind für sich genommen völlig korrekt, sie können aber natürlich nicht beide gleichzeitig verwen­ det werden. Es scheint in diesem Fall unterschiedliche Mengen von Überzeugungen zu geben, die durch die Defaults gleichermaßen gestützt werden. Wie wir sehen werden, tragen einige Ansätze dem dadurch Rechnung, dass sie verschiedene Formelmengen, sog. Extensionen, generieren, in denen jeweils eine maximale Menge von Defaults an­ gewendet wurde. Damit stellt sich natürlich die Frage, was eigentlich die ableitbaren Formeln sind. Es gibt zwei Möglichkeiten: Einer skeptischen Sichtweise entspricht es, nur das zu glauben, was in allen Extensionen gilt. Diese Sichtweise ist, wie wir sehen werden, implizit in McCarthys Zirkumskription. Reiter dagegen vertritt die Sichtwei­ se, dass jede der erzeugten Extensionen für sich genommen als akzeptable Menge von Überzeugungen eines Agenten aufgefasst werden kann.

196 | 6 Nichtmonotones Schließen

Zu den wichtigsten Ansätzen der Formalisierung nichtmonotonen Schließens gehö­ ren: – Die Default-Logik (Reiter). Nichtklassische Inferenzregeln werden verwendet, um Defaults darzustellen. Die Extensionen werden als Fixpunkte eines Operators de­ finiert. Der Operator garantiert, dass in einer Extension möglichst viele Defaults angewendet wurden. – Der modale Ansatz (McDermott und Doyle, Moore). Hier drückt ein Modalopera­ tor explizit aus, ob etwas geglaubt wird oder konsistent ist. Wiederum wird ein Fixpunktoperator verwendet, um die Extensionen zu definieren. – Zirkumskription (McCarthy, Lifschitz). Hier wird Folgerbarkeit nicht, wie üblich, als Gültigkeit in allen, sondern als Gültigkeit in bestimmten, bevorzugten Model­ len der Prämissen definiert. Syntaktisch werden die „uninteressanten“ Modelle durch Hinzufügen eines Formelschemas bzw. einer Formel zweiter Stufe elimi­ niert. – Konditionale Ansätze (Delgrande, Kraus/Lehmann/Magidor, Boutilier). Sie ver­ wenden ein Konditional →, also einen nicht wahrheitsfunktionalen Junktor, um Defaults in der logischen Sprache zu repräsentieren. Eine Formel q folgt nichtmo­ noton aus einer Formel p, wenn das Konditional p → q in dem entsprechenden Ansatz ableitbar ist. Wir werden einige dieser Ansätze im Folgenden näher erläutern. Dabei werden wir die Default-Logik ausführlich beschreiben. Die Darstellung der autoepistemischen Logik sowie der Zirkumskription beschränkt sich auf die wichtigsten Grundideen. Eine Dar­ stellung der konditionalen Ansätze würde den Rahmen dieses Kapitels sprengen. Als Einstieg hierzu empfehlen wir dem Leser [7; 18; 34].

6.2.1 Default-Logik In der Default-Logik (DL) [62] werden Default-Regeln als eine Art von nicht klassischen Inferenzregeln repräsentiert. Eine Default-Theorie ist ein Paar (D, W), wobei W, eine Menge von klassischen logischen Formeln erster Stufe, das sichere Wissen repräsen­ tiert. D ist eine Menge von Defaults der Form A : B1 , . . . , B n , C wobei A, B i und C klassische Formeln sind (als alternative Notation wird häufig auch A : B1 , . . . , B n /C verwendet). Diese Default-Regel ist intuitiv in folgendem Sinne zu lesen: Wenn A ableitbar ist und für alle i (1 ≤ i ≤ n), ¬B i nicht abgeleitet werden kann, dann leite C ab. A heißt Vorbedingung, B i Konsistenzannahme und C Konsequenz des Defaults. Wir werden im Folgenden offene Defaults, d. h. Defaults mit freien Variablen, als Schemata interpretieren, die alle ihre Grundinstanzen repräsentieren.

6.2 Formalisierungen nichtmonotonen Schließens |

197

Die Frage ist nun: Gegeben sei eine Default-Theorie (D, W), was sind die durch sie induzierten akzeptablen Überzeugungsmengen, die Extensionen genannt werden? Es gibt einige Eigenschaften, die eine solche Menge S erfüllen sollte: 1. Sie sollte das sichere Wissen W enthalten. 2. Sie sollte im Sinne der klassischen Logik abgeschlossen sein. 3. Alle „anwendbaren“ Defaults sollten angewendet worden sein, wobei Anwend­ barkeit in Bezug auf S selbst definiert werden muss. 4. Sie sollte keine Formel enthalten, die sich nicht aus W zusammen mit den Konse­ quenzen „anwendbarer“ Defaults in D herleiten lässt. Die ersten drei Eigenschaften lassen sich direkt formal aufschreiben, etwa in Form der folgenden Definition³: Definition 6.2.1. Sei (D, W) eine Default-Theorie. S ist bezüglich (D, W) abgeschlossen genau dann, wenn 1. W ⊆ S, 2. Th(S) = S, 3. falls A : B1 , . . . , B n /C ∈ D, A ∈ S, ¬B i ∈ ̸ S (1 ≤ i ≤ n), dann C ∈ S. Allerdings trägt die Abgeschlossenheit einer Menge von Formeln der vierten ge­ wünschten Eigenschaft noch nicht Rechnung. Eine in der Mathematik und Informatik übliche Art, unerwünschte Elemente aus Mengen auszuschließen, ist die Forderung nach Minimalität von Mengen. Es liegt also nahe, Extensionen als kleinste Mengen zu definieren, die die obige Definition erfüllen. Leider hilft das in unserem Fall nicht weiter. Betrachten wir die simple DefaultTheorie ({true : b/a}, 0). Zwar erfüllt, wie gewünscht, die Menge S1 = Th({a}) unsere obige Definition, aber leider auch die Menge S2 = Th({¬b}). Es ist leicht zu sehen, dass die drei Eigenschaften von Definition 6.2.1 gelten, außerdem gibt es keine ech­ te Teilmenge von S2 , die diese Bedingungen erfüllt, d. h., S2 ist auch minimal. Das zeigt, dass wir unsere vierte gewünschte Bedingung auf diesem Weg nicht erreichen können. Reiter verwendet deshalb einen Trick. Er testet einen Kandidaten, also eine Menge von Formeln S, auf folgende Weise: S wird in eine Menge Γ(S) überführt. Γ(S) ist die kleinste Menge, die die drei ersten Eigenschaften aus unserer obigen Aufzählung er­ füllt, wobei jedoch die Konsistenzbedingungen einer Default-Regel bezüglich S (und nicht Γ(S)) geprüft werden. S hat den Test bestanden, ist also Extension, wenn es sich bei diesem Test reproduziert, wenn also Γ(S) = S. Es ist sofort zu sehen, dass nur sol­ che Mengen diesen Test bestehen, die bezüglich (D, W) abgeschlossen sind. Aber auch Eigenschaft 4 muss erfüllt sein: Wenn ein Kandidat Formeln enthält, die nicht aus W oder durch Anwendung von Defaults hergeleitet werden können, so werden diese bei

3 Für eine Menge von Formeln S bezeichnet Th(S) die Menge der logischen Konsequenzen von S.

198 | 6 Nichtmonotones Schließen

dem Test nicht reproduziert, und der falsche Kandidat scheidet aus. In unserem Bei­ spiel etwa ist Γ(S2 ) = Th(0), d. h., wir erhalten die Menge aller Tautologien. Damit ist S2 keine Extension, da z. B. ¬b ∈ S2 aber ¬b ∈ ̸ Γ(S2 ). Hier nun die endgültige Fassung von Reiters Definition der Extensionen: Definition 6.2.2. Sei (D, W) eine Default-Theorie, S eine Menge von Formeln. Wir defi­ nieren einen Operator Γ, sodass Γ(S) die kleinste Menge ist, für die gilt: 1. W ⊆ Γ(S), 2. Th(Γ(S)) = Γ(S), 3. falls A : B1 , . . . , B n /C ∈ D, A ∈ Γ(S), ¬B i ∈ ̸ S (1 ≤ i ≤ n), dann C ∈ S. E ist eine Extension von (D, W) genau dann, wenn E Fixpunkt von Γ ist, d. h., wenn gilt Γ(E) = E. Reiter hat eine äquivalente, quasiinduktive Charakterisierung der Extensionen gege­ ben. Diese Version wird häufig in Beweisen benutzt und macht sehr deutlich, in wel­ chem Sinne Formeln in den Prämissen gegründet sein müssen. Sei E eine Menge von Formeln. Wir definieren für eine gegebene Default-Theorie (D, W) eine Folge von For­ melmengen wie folgt: E0 = W , und für i ≥ 0 E i+1 = Th(E i ) ∪ {C | A : B1 , . . . , B n /C ∈ D, A ∈ E i , ¬B i ∈ ̸ E} Reiter hat gezeigt, dass E eine Extension von (D, W) ist, genau dann, wenn E = ⋃∞ i=0 E i . Das Vorkommen von E in der Definition von E i+1 macht diese Definition nicht kon­ struktiv. Die Tabelle 6.1 stellt einige einfache Beispiele dar. Das letzte Beispiel in der Tabelle zeigt, wie der Konsistenztest in einem Default verwendet werden kann, um Prioritäten zwischen Defaults auszudrücken: Pinguine fliegen normalerweise nicht erhält dadurch Vorrang vor Vögel fliegen normalerweise, dass letztere Regel nur dann anwendbar ist, wenn nicht bekannt ist, dass es sich um einen Pinguin handelt. Tab. 6.1: Einige einfache Beispiele für Defaults D

W

Fixpunkte(e)

Bird(x) : Flies(x) Flies(x)

Bird(Tw)

Th(W ∪ {Flies(Tw)})

Bird(x) : Flies(x) Flies(x)

Bird(Tw) Peng(Tw) ∀x.Peng(x) ⇒ ¬Flies(x)

Th(W)

Bird(x) : Flies(x) Flies(x) Peng(x) : ¬Flies(x) ¬Flies(x)

Bird(Tw)

Th(W ∪ {Flies(Tw)})

Peng(Tw)

Th(W ∪ {¬Flies(Tw)})

Bird(x) : Flies(x)∧¬Peng(x) Flies(x) Peng(x) : ¬Flies(x) ¬Flies(x)

Bird(Tw)

Th(W ∪ {¬Flies(Tw)})

Peng(Tw)

6.2 Formalisierungen nichtmonotonen Schließens

| 199

Reiters Default-Logik ist heute sicher eine der prominentesten nichtmonotonen Logiken. Dafür gibt es zwei Gründe. Erstens ist – trotz der etwas trickreichen tech­ nischen Definition der Extensionen – die der Default-Logik zugrunde liegende Idee einfach und intuitiv: Verwende Inferenzregeln mit einem zusätzlichen Konsistenztest für die Darstellung von Defaults. Zweitens hat sich herausgestellt, dass die DefaultLogik in bestimmter Hinsicht expressiver ist als manch konkurrierender Ansatz, etwa Zirkumskription. Diese zusätzliche Ausdrucksmächtigkeit ist nötig, um z. B. die Se­ mantik für logisches Programmieren erfassen zu können. Durch die Verwendung von Inferenzregeln lassen sich vor allem Probleme mit der Kontraposition von Defaults vermeiden. In der klassischen Logik ist eine Impli­ kation A ⇒ B äquivalent zu ihrer Kontraposition ¬B ⇒ ¬A. Im Zusammenhang mit Defaults ist Kontraposition manchmal unerwünscht. Zum Beispiel ist es sicher rich­ tig, dass Informatiker normalerweise wenig über Nichtmonotonie wissen. Daraus folgt aber nicht, dass jemand, der viel über Nichtmonotonie weiß, normalerweise kein In­ formatiker ist. Durch die Verwendung von Inferenzregeln zur Darstellung von Defaults lassen sich solche unerwünschten Effekte vermeiden. Allerdings hat die Verwendung von Inferenzregeln im Sinne von Reiter auch ihre Nachteile. Zunächst kann es vorkommen, dass es gar keine Extension gibt. Man be­ trachte etwa die Theorie ({true: ¬A/A}, {}) . Keine Menge von Formeln, die A nicht enthält, ist eine Extension, da die Default-Regel nicht angewendet wurde. Aber auch keine Menge S, die A enthält, kann eine Extension sein: Wenn S die Formel A enthält, dann wird dadurch bei der Konstruktion von Γ(S) die Default-Regel unanwendbar. Damit kann die Formel A nicht mehr in Γ(S) enthalten sein und S ist kein Fixpunkt. Es gibt auch Situationen, in denen intuitiv erwartete Resultate nicht erzielt wer­ den, wie folgendes Beispiel zeigt (da Defaults und Fakten syntaktisch unterschieden werden können, lassen wir in diesem und den folgenden Beispielen D und W impli­ zit): 1) Italiener:Trinkt_Wein/Trinkt_Wein , 2) Franzose:Trinkt_Wein/Trinkt_Wein , 3) Italiener ∨ Franzose .

Man würde erwarten, aus dieser Default-Theorie Trinkt_Wein ableiten zu können, denn, unabhängig davon, ob die betreffende Person Italiener oder Franzose ist, sollte eine der Default-Regeln anwendbar sein. In der Default-Logik jedoch kann ein Default nur dann angewendet werden, wenn seine Vorbedingung bereits abgeleitet wurde. Default-Logik ist deshalb nicht in der Lage, Fallunterscheidungen adäquat zu behan­ deln. Angeregt durch Arbeiten von Gabbay [25], Makinson [43] und anderen [34] ist es in jüngerer Zeit üblich geworden, dieses und ähnliche Probleme in Form von meta­

200 | 6 Nichtmonotones Schließen

theoretischen Eigenschaften nichtmonotoner Inferenzrelationen zu formulieren. Die hier relevante Eigenschaft wird üblicherweise OR genannt. |∼ bezeichne eine beliebi­ ge (nichtmonotone) Inferenzrelation, d. h. eine Relation mit einer Menge von Formeln auf der linken und einer Formel auf der rechten Seite. OR lässt sich folgendermaßen formulieren: OR : Wenn X ∪ {y} |∼ a und X ∪ {z} |∼ a dann X ∪ {y ∨ z} |∼ a . Es stellt sich hier natürlich die Frage, was die der Default-Logik entsprechende Infe­ renzrelation ist. Um solch eine Relation geeignet zu definieren, wird üblicherweise die Menge von Defaults D festgehalten. Mit anderen Worten, jede Menge D erzeugt ihre ei­ gene Inferenzrelation ⊢D , die auf folgende Weise definiert werden kann: Definition 6.2.3. Sei D eine Menge von reiterschen Defaults, W eine Menge von Formeln erster Ordnung und p eine Formel. Wir definieren W ⊢D p genau dann, wenn p in allen Extensionen von (D, W) enthalten ist. Unser Weinbeispiel zeigt, dass ⊢D die Eigenschaft OR verletzt. Es ist zu bemerken, dass auf Fallunterscheidung basierende Schlüsse möglich sind, wenn wir unsere Defaults in folgender Form repräsentieren: true:Italiener ⇒ Trinkt_Wein/Italiener ⇒ Trinkt_Wein . Dadurch entstehen aber wiederum Probleme mit der Kontraposition, denn nun kann ¬Italiener von ¬Trinkt_Wein abgeleitet werden. Eine bessere Darstellung ist des­ halb: true:Trinkt_Wein/Italiener ⇒ Trinkt_Wein . Jetzt können wir die Default-Regel nicht mehr benutzen, um ¬Italiener abzuleiten, falls ¬Trinkt_Wein gegeben ist. Einige mehr implizite Konsequenzen der Kontraposi­ tion lassen sich dadurch aber immer noch nicht vermeiden. Wenn z. B. ¬Trinkt_Wein ∨ ¬Trinkt_Bier gegeben ist, so können wir das Default anwenden und seine Konsequenz benutzen, um ¬Italiener∨¬Trinkt_Bier abzuleiten. Das ist nicht möglich, wenn die ursprüng­ liche Default-Regel mit Vorbedingung Italiener verwendet wird. Im Weinbeispiel waren die Konklusionen, die man erhält, zu schwach. Es gibt auch Fälle, in denen die Default-Logik zu starke Ableitungen liefert. Folgendes Bei­ spiel stammt von D. Poole [58] 1) true:Usable(x) ∧ ¬Broken(x)/Usable(x) , 2) Broken(Left_Arm) ∨ Broken(RightArm) .

Die einzige Extension enthält Usable(Left_Arm) ∧ Usable(Right_Arm) ,

6.2 Formalisierungen nichtmonotonen Schließens

| 201

obwohl wir wissen, dass einer der Arme gebrochen ist. Reiters Definition der Exten­ sionen garantiert nur, dass jede einzelne Konsistenzbedingung eines angewendeten Defaults mit der generierten Extension konsistent ist. Die Gesamtmenge aller Konsis­ tenzbedingungen aller angewendeten Defaults muss nicht notwendigerweise mit der Extension konsistent sein. Deshalb erhält man in unserem Beispiel die unerwünschte Ableitung. Makinson hat gezeigt [43], dass ⊢D eine weitere wichtige Eigenschaft nichtmono­ toner Inferenzrelationen nicht erfüllt, die Kumulativität. Kumulativität besagt, infor­ mell, dass die Hinzunahme eines Theorems zu einer Prämissenmenge die Menge der ableitbaren Formeln nicht verändern soll. Formal: Wenn X |∼ a dann X ∪ {a} |∼ b genau dann, wenn X |∼ b . Diese Eigenschaft scheint wesentlich für jede Inferenzrelation zu sein, wenn man In­ ferenz als Explizitmachen dessen versteht, was implizit in den Prämissen steckt. Denn warum sollte, wenn a implizit in X ist, das Hinzufügen von a zu X irgendeine Auswir­ kung haben (außer natürlich, dass man beim nächsten Mal nicht mehr so lange nach dem Beweis suchen muss). Leider erfüllt die Default-Logik, genauer ⊢D , die Kumulativitätseigenschaft nicht, wie Makinsons Gegenbeispiel zeigt. Betrachten wir folgende Menge D: 1) true:p/p , 2) p ∨ q:¬p/¬p .

Für W = 0 gibt es genau eine Extension, die p und damit p ∨ q enthält. Es gilt also 0 ⊢D p ∨ q und 0 ⊢D p. Wenn jedoch p ∨ q als Prämisse in W verwendet wird, dann entsteht eine zweite Extension, die ¬p enthält. Damit ist p nicht mehr in allen Extensionen enthalten, d. h. {p ∨ q} ⊢D̸ p. Diese Schwierigkeiten haben zu einer Reihe von Modifikationen der Default-Logik ge­ führt, von denen wir hier nur einige kurz erwähnen können. Lukaszewicz [42] hat ei­ ne Version definiert, die auf einem zweistelligen Fixpunktoperator basiert. Das zweite Argument wird benutzt, um Konsistenzbedingungen der angewendeten Defaults mit­ zuführen. Ein Default wird nur angewendet, wenn seine Konsistenzbedingung nicht diejenige eines anderen angewendeten Defaults verletzt. Dadurch wird die Existenz von Extensionen garantiert, und die Default-Logik wird semimonoton, d. h., durch die Hinzunahme weiterer Defaults können neue Extensionen entstehen, existierende Ex­ tensionen werden jedoch nicht zerstört (sie können allerdings größer werden). Das poolesche Beispiel (broken arms) lässt sich aber immer noch nicht adäquat behan­ deln. In [10] wird CDL, eine kumulative Version der Default-Logik, vorgestellt. Die Ba­ siselemente dieser Logik sind Assertionen der Form (p, Q), wobei p eine Formel ist

202 | 6 Nichtmonotones Schließen

und Q die Menge der Konsistenzbedingungen, die man benötigt, um p abzuleiten. In CDL muss die Gesamtmenge der Konsistenzbedingungen aller angewendeten Defaults einer Extension konsistent sein. Damit lässt sich das poolesche Beispiel wie von ihm intendiert behandeln. Schaub und Delgrande haben eine Variante der Default-Logik eingeführt, bei der die Konsistenzbedingungen der angewendeten Defaults als Kontext mitgeführt wer­ den. Defaults werden nur dann angewendet, wenn ihre Konsistenzbedingungen in Bezug auf den gesamten Kontext (und nicht nur die ableitbaren Formeln) erfüllt sind. Auch hier führt das poolesche Beispiel zu den erwarteten Resultaten. Diese und wei­ tere Varianten der Default-Logik sind in [19] beschrieben. Anstatt Reiters Logik zu modifizieren, kann man natürlich auch untersuchen, ob es Spezialfälle gibt, in denen bestimmte Probleme gar nicht erst auftreten. Dabei wird meist die Form der zulässigen Defaults eingeschränkt. In uneingeschränkten DefaultTheorien kann ein Default sogar dann anwendbar sein, wenn seine Konsequenz falsch ist. Um das zu vermeiden, können wir fordern, dass die Konsequenz eines jeden De­ faults von seiner Konsistenzbedingung impliziert wird (wir nehmen hier an, dass es nur eine Konsistenzbedingung gibt). Solche Defaults heißen seminormal und können in folgender Form notiert werden: A:B ∧ C/C . Die Beschränkung auf seminormale Defaults hat keine großen Auswirkungen auf die Ausdrucksfähigkeit, der Nutzen von nicht seminormalen Defaults ist sowieso eher fraglich. Andererseits gewinnt man durch diese Einschränkung auch nicht allzu viel: Existenz von Extensionen, OR und Kumulativität sind immer noch nicht erfüllt [20], selbst wenn alle Defaults keine Vorbedingung haben, also von folgender Form sind: true:B ∧ C/C . Eine interessante Klasse von Defaults, die einige wünschenswerte Eigenschaften be­ sitzt, ist die Klasse der normalen Defaults. Sie haben folgende Form: A:B/B . Reiter hat gezeigt [62], dass normale Default-Theorien immer Extensionen besitzen. Allerdings ist die Ausdrucksmächtigkeit solcher Theorien nicht immer ausreichend. In Tabelle 6.1 haben wir bereits ein Beispiel dafür gesehen, wie man durch die ge­ eignete Wahl von Konsistenzbedingungen Prioritäten in die Defaults hineincodieren kann. Hierzu waren allerdings seminormale Defaults erforderlich. Prioritäten spielen eine wichtige Rolle in praktischen Anwendungen, denn durch sie lässt sich die Zahl der Extensionen reduzieren, siehe [10] für eine ausführlichere Diskussion und weitere Beispiele.

6.2 Formalisierungen nichtmonotonen Schließens |

203

Normale Default-Theorien erfüllen immer noch nicht OR und Kumulativität. Diese beiden Eigenschaften gelten aber bei einer weiteren Einschränkung, nämlich dann, wenn nur normale Defaults ohne Vorbedingung verwendet werden [20]. Diese Ein­ schränkung ist allerdings erheblich, und das Resultat unterstreicht sicherlich die Be­ deutung der oben erwähnten Modifikationen der Default-Logik.

6.2.2 Autoepistemische Logik Moores autoepistemische Logik (AEL) [53] ist das derzeit sicher prominenteste Beispiel für den modalen Ansatz. Moore geht es um die Modellierung eines rationalen Agen­ ten, der in der Lage ist, über seine eigenen Überzeugungen zu reflektieren, und der dabei über vollständige introspektive Fähigkeiten verfügt, d. h., er weiß genau, was er weiß und was er nicht weiß. Zu diesem Zweck wird ein modaler Operator L eingeführt. Lp steht für es wird geglaubt, dass p. Die bekannte Vogelregel wird folgendermaßen repräsentiert: Vogel(x) ∧ ¬L¬Fliegt(x) ⇒ Fliegt(x) . Es stellt sich nun die Frage, was die Mengen von Überzeugungen sind, die ein ratio­ naler Agent auf der Basis einer gegebenen Menge von Prämissen annehmen sollte. Moore definiert diese Überzeugungsmengen, bei ihm heißen sie Expansionen einer Menge von Prämissen A, folgendermaßen: Definition 6.2.4. T ist eine Expansion von A genau dann, wenn T = {p | A ∪ Bel(T) ∪ Disbel(T) ⊢ p} , wobei Bel(T) = {Lq | q ∈ T}, und Disbel(T) = {¬Lq | q ∈ ̸ T}. Expansionen sind also Mengen von Formeln, die deduktiv abgeschlossen sind und Lp enthalten genau dann, wenn p enthalten ist, und ¬Lp genau dann, wenn p nicht enthalten ist. Die Theorie Vogel(Tweety) ∧ ¬L¬Fliegt(Tweety) ⇒ Fliegt(Tweety) , Vogel(Tweety) etwa besitzt genau eine Expansion. Da ¬Fliegt(Tweety) auch bei Hinzunahme einer beliebigen konsistenten Menge von Formeln der Form Lq oder ¬Lq nicht abgeleitet werden kann, muss ¬L¬Fliegt(Tweety) in der Expansion enthalten sein, und damit auch Fliegt(Tweety). Im allgemeinen Fall kann es auch mehrere Expansionen geben. Das ist insbeson­ dere dann der Fall, wenn sich, wie im Nixon-Beispiel, unterschiedliche Regeln gegen­ seitig widersprechen.

204 | 6 Nichtmonotones Schließen

Es konnte inzwischen gezeigt werden, dass AEL und Reiters Default-Logik in sehr enger Beziehung zueinander stehen [33; 45]. Konolige verwendet die folgende Über­ setzung von Defaults in autoepistemische Formeln: A:B1 , . . . , B n /C wird zu LA ∧ ¬L¬B1 ∧ ⋅ ⋅ ⋅ ∧ ¬L¬B n ⇒ C . Da andererseits jede AEL-Formel in eine AEL-Implikation obiger Art transformiert wer­ den kann, kann man diese Übersetzung auch in umgekehrter Richtung, also von AEL zu Default-Logik, vornehmen. Konolige hat gezeigt, dass bei Verwendung dieser Übersetzung die Extensionen einer Default-Theorie genau dem objektiven Teil, d. h. dem Teil ohne Vorkommen des Modaloperators L, einer bestimmten Klasse von AEL-Expansionen entsprechen. Die AEL-Expansionen, für die es keine entsprechenden Default-Logik-Extensionen gibt, entstehen deshalb, weil in AEL Formeln zirkuläre Begründungen haben können. Der Wert dieser Expansionen ist deshalb auch recht fraglich. Die AEL-Theorie {Lp ⇒ p}, z. B., hat zwei Expansionen, von denen eine Lp und p enthält. Die entsprechende De­ fault-Theorie dagegen besitzt nur eine Extension, in der p nicht enthalten ist. Es sind auch nichtmonotone Systeme vorgeschlagen worden, die zwei unabhängi­ ge Modaloperatoren verwenden [38; 41]. Die Logik MKNF von Lifschitz etwa verwendet einen epistemischen Operator K und einen Operator not für negation as failure (mi­ nimal knowledge with negation as failure, MKNF). In diesem System ist es möglich, zu unterscheiden zwischen Anfragen der Form „Gibt es eine Klasse, die John unterrich­ tet?“, formal: ∃x.unterrichtet(John, x) und der Anfrage „Gibt es eine (bekannte) Klasse, von der man weiß, dass John sie unterrichtet“: ∃x.Kunterrichtet(John, x) . Diese Unterscheidung ist wichtig für Datenbanken, die disjunktive Information ent­ halten, und erweiterte (disjunktive) logische Programme mit echter Negation. Ein weiterer interessanter modaler Ansatz wurde von Levesque vorgeschlagen [37] und von Lakemeyer weitergeführt [35]. Levesque definiert eine monotone Modallogik, die zusätzlich zu L den Modaloperator O enthält. Op steht für „p ist alles, was gewusst wird.“. Die grundlegende Idee ist die Folgende: Um zu bestimmen, ob beispielsweise „Tweety fliegt“ aus „Vögel fliegen typischerweise“ und „Tweety ist ein Vogel“ abgelei­ tet werden kann, muss überprüft werden, ob folgende Formel in der Logik gültig ist: O[(Vogel(Tw) ∧ ¬L¬Fliegt(Tw) ⇒ Fliegt(Tw)) ∧ Vogel(Tw)] ⇒ LFliegt(Tw) . In diesem Ansatz wird die Nichtmonotonie sozusagen vollständig in den Bereich des Operators O geschoben: Op ⇒ Lq kann gültig sein, O(p ∧ r) ⇒ Lq jedoch ungül­ tig. Es stellt sich heraus, dass O eine intuitive Semantik besitzt, die auf dem Konzept möglicher Welten (possible worlds) basiert. Die AEL-Extensionen einer Formel p ent­ sprechen genau den Interpretationen, die Op erfüllen.

6.2 Formalisierungen nichtmonotonen Schließens | 205

6.2.3 Zirkumskription Zirkumskription ist eine Technik, die es uns erlaubt, die Extension bestimmter aus­ gewählter Prädikate zu minimieren. Die Grundidee ist die Folgende: Es wird eine Prä­ ferenzrelation auf den Modellen einer Prämissenmenge definiert. Diese Präferenzre­ lation bevorzugt Modelle, in denen die ausgewählten Prädikate eine möglichst kleine Extension besitzen. Folgerbarkeit wird dann nicht, wie üblich, als Gültigkeit in allen Modellen definiert, sondern als Gültigkeit in den bezüglich dieser Präferenzrelation besten (minimalen) Modellen. Syntaktisch lässt sich diese semantische Idee auf folgende Weise umsetzen: Die nichtmonotonen Theoreme einer (endlichen) Prämissenmenge T werden definiert als die monotonen Theoreme von T plus gewissen zusätzlichen Formeln. Bei den zusätz­ lichen Formeln handelt es sich in der einfachsten Form der Zirkumskription um alle Instanzen eines bestimmten Formelschemas, bei anderen Varianten um eine Formel zweiter Stufe. Diese Formeln dienen dazu, all die Modelle von T zu „eliminieren“, in denen die Extension des zu minimierenden Prädikates nicht minimal ist. Eine beträchtliche Anzahl von Varianten der Zirkumskription sind definiert wor­ den. Wir werden uns hier auf die einfachste Form, die Prädikatenzirkumskription, be­ schränken [50; 51]. Sie ist folgendermaßen definiert: Definition 6.2.5. Sei T die Konjunktion einer endlichen Menge von logischen Formeln, die das Prädikatensymbol P enthalten. T(φ) entstehe aus T durch Ersetzen jedes Vor­ kommens von P durch den Parameter φ. Die Prädikatenzirkumskription von P in T ist das Schema T(φ) ∧ (∀x.φ(x) ⇒ P(x)) ⇒ (∀x.P(x) ⇒ φ(x)) . x steht hier für einen Variablenvektor entsprechend der Stelligkeit von P. Das Schema besagt intuitiv Folgendes: Wenn φ ein Prädikat ist, das alle Eigenschaften erfüllt, die in T für P festgelegt sind, so kann φ nicht für weniger Objekte gelten als P. Mit ande­ ren Worten: P ist das kleinste Prädikat, das die in T für P festgelegten Eigenschaften besitzt. Alle Instanzen dieses Schemas können zusammen mit den ursprünglichen Prä­ missen für Ableitungen benutzt werden. Für φ werden dabei Prädikatsausdrücke ent­ sprechender Stelligkeit substituiert, das sind Lambda-Ausdrücke der Form λx1 , . . . , x n .F, wobei F eine offene Formel ist und die x i Variablen. Für diese Variablen wer­ den bei der Substitution in F die jeweiligen Argumente von φ eingesetzt. Hier ist ein einfaches Beispiel [50]: T = Block(A) ∧ Block(B) ∧ Block(C) . Prädikatenzirkumskription von Block in T ergibt das Schema: φ(A) ∧ φ(B) ∧ φ(C) ∧ (∀x.φ(x) ⇒ Block(x)) ⇒ (∀x.Block(x) ⇒ φ(x)) .

206 | 6 Nichtmonotones Schließen Substitution von λx.(x = A∨x = B∨x = C) für φ und Anwendung auf die jeweiligen Argumente ergibt: (A = A ∨ A = B ∨ A = C) ∧ (B = A ∨ B = B ∨ B = C) ∧ (C = A ∨ C = B ∨ C = C) ∧ (∀x.(x = A ∨ x = B ∨ x = C) ⇒ Block(x)) ⇒ (∀x.Block(x) ⇒ (x = A ∨ x = B ∨ x = C)) . Die Vorbedingung dieser Implikation ist wahr in T, und wir können ableiten, dass A, B und C die einzigen existierenden Blöcke sind. Es ist nicht schwer zu sehen, wie das Schema sich verändert, wenn die ursprüngliche Menge von Prämissen sich ändert (wenn wir etwa Block(D) hinzufügen). Dadurch wird eine andere Substitution erfor­ derlich, um die Vorbedingung der Implikation wahr zu machen und damit eine expli­ zite Definition von Block abzuleiten. Auf diese Weise entsteht die Nichtmonotonie der Zirkumskription. Die Präferenzrelation