456 16 35MB
German Pages 976 Year 2020
Günther Görz, Ute Schmid, Tanya Braun (Hrsg.) Handbuch der Künstlichen Intelligenz 6. Auflage
Weitere empfehlenswerte Titel Security Awareness. Grundlagen, Maßnahmen und Programme für die Informationssicherheit Stefan Beißel, 2019 ISBN 978-3-11-066825-4, e-ISBN 978-3-11-066826-1 IT-Sicherheit, 10. Auflage Konzepte – Verfahren – Protokolle Claudia Eckert, 2018 ISBN 978-3-11-055158-7, e-ISBN 978-3-11-056390-0
Quantum Machine Learning Siddhartha Bhattacharyya, Indrajit Pan, Ashish Mani, Sourav De, Elizabeth Behrman, Susanta Chakraborti (Hrsg.), 2020 ISBN 978-3-11-067064-6, e-ISBN 978-3-11-067070-7
Personalized Human-Computer Interaction Mirjam Augstein, Eelco Herder, Wolfgang Wörndl (Hrsg.), 2019 ISBN 978-3-11-055247-8, e-ISBN 978-3-11-055248-5
Fuzzy Machine Learning. Advanced Approaches to Solve Optimization Problems Arindam Chaudhuri, 2020 ISBN 978-3-11-060358-3, e-ISBN 978-3-11-060546-4
Handbuch der Künstlichen Intelligenz | Herausgegeben von Günther Görz, Ute Schmid, Tanya Braun 6. Auflage
Herausgeber Prof. Dr.-Ing. Günther Görz Friedrich-Alexander-Universität Erlangen-Nürnberg Department Informatik Arbeitsgruppe Digital Humanities Konrad-Zuse-Str. 3–5 91052 Erlangen [email protected] Prof. Dr. Ute Schmid Universität Bamberg Fakultät Wirtschaftsinformatik und Angewandte Informatik An der Weberei 5 96045 Bamberg [email protected] Dr. Tanya Braun Universität zu Lübeck Institut für Informationssysteme Ratzeburger Allee 160 23562 Lübeck braun@ifis.uni-luebeck.de
ISBN 978-3-11-065984-9 e-ISBN (PDF) 978-3-11-065994-8 e-ISBN (EPUB) 978-3-11-065995-5 Library of Congress Control Number: 2020950016 Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.dnb.de abrufbar. © 2021 Walter de Gruyter GmbH, Berlin/Boston Umschlaggestaltung: imaginima / iStock / Getty Images Plus Satz: le-tex publishing services GmbH, Leipzig Druck und Bindung: CPI books GmbH, Leck www.degruyter.com
Vorwort Die vorliegende Ausgabe des „Handbuchs der Künstlichen Intelligenz“ ist die sechs te, wesentlich überarbeitete und erweiterte Auflage eines Werks, das zuerst 1993 als „Einführung in die Künstliche Intelligenz“¹ erschienen war. Mit diesem Handbuch wird eine repräsentative Übersicht über die wissen schaftliche Disziplin der „Künstlichen Intelligenz“ (KI) vorgelegt, deren Autoren ausschließlich dem deutschsprachigen Raum entstammen. Dass der Diskurs über die KI inzwischen in der Mitte der Gesellschaft angekommen ist, nicht zuletzt auf grund enormer Fortschritte im Maschinellen Lernen – die dazu geführt haben, dass KI oft uninformierterweise mit Maschinellem Lernen gleichgesetzt wird –, ist anhand der vielen Medienbeiträge der letzten Jahre, insbesondere auch durch bemerkens werte Neuerscheinungen auf dem Buchmarkt, offensichtlich. So stellt sich nicht nur angesichts der vergangenen sechs Jahre seit dem Erscheinen der fünften Auflage die Frage, welche Anforderungen an eine Neuauflage angesichts der Fortschritte in der Wissenschaft und der Veränderungen im wissenschaftsorganisatorischen, techni schen und wirtschaftlichen Umfeld zu richten seien. So lag es nahe, dass es nicht nur um eine Aktualisierung der Beiträge aus der letzten Auflage gehen konnte, son dern vielmehr um eine in mehrfacher Hinsicht thematisch ergänzte und abgerundete Neufassung. Hierbei verdanken wir wichtige Impulse der neuen Mitherausgeberin Tanya Braun, die an die Stelle von Josef Schneeberger trat; er musste aufgrund vielfältiger Belastungen seine Mitarbeit bedauerlicherweise einstellen. Nach wie vor trägt die Fachgruppe 1 „Künstliche Intelligenz“ der Gesellschaft für Informatik (GI) e. V. die Herausgabe dieses Werks mit. Der Verlag de Gruyter, Berlin (früher Oldenbourg-Verlag, München), hat die gesamten Vorbereitungsarbeiten konstruktiv begleitet, wofür ihm ein herzlicher Dank gebührt. Das Vorwort zur ersten Auflage charakterisierte das Werk folgendermaßen: „Seine Herausgeber und Autoren haben sich das Ziel gesetzt, damit eine weithin als schmerzlich empfundene Lücke auf dem Lehrbuchsektor zu schließen. (. . . ) Dass ein solches Lehrbuch ein dringendes Desiderat ist, ist unbestritten, denn zum einen ist die KI inzwischen an vielen unserer Universitäten – zumeist als Teil gebiet der Informatik – vertreten, andererseits decken die zum Teil hervorragen den Lehrbücher aus dem angelsächsischen Sprachraum das Gebiet nicht in allen Aspekten umfassend ab. Angesichts des raschen Fortschritts der Forschung las sen manche dieser Werke in ihrer Aktualität Wünsche offen. Zudem hat die KI in Deutschland und Europa durchaus eigenständige Sichtweisen und Ansätze ent wickelt, die auch den vorliegenden Band geprägt haben.“
1 Ursprünglich im Addison-Wesley Verlag, Bonn. https://doi.org/10.1515/9783110659948-201
VI | Vorwort
Dieses Buch verdankt sein Entstehen einer Serie von Frühjahrsschulen zum Thema Künstliche Intelligenz (KIFS), die seit 1982 jährlich – von einer Ausnahme abgese hen – bis 1996 von der Fachgruppe „Künstliche Intelligenz“ der Gesellschaft für Infor matik (GI) e. V. durchgeführt wurden. Ziel der Frühjahrsschulen war es, in der Form von Kursen, die jeweils in etwa einer zweistündigen Vorlesung entsprachen, eine breit angelegte moderne Einführung in das Fach sowie einen Überblick über aktuelle For schungsgebiete zu bieten. Zu einigen der Frühjahrsschulen wurden Tagungsbände vorgelegt, die die dort gehaltenen Kurse dokumentieren.² Durch den Ausbau der KI an den deutschen Universitäten und Fachhochschulen hatte die Nachfrage nach der zen tralen Bildungsaufgabe, die die KIFS erfüllt hatte, spürbar nachgelassen. Ihre Nach folge hat seitdem ein von mehreren wissenschaftlichen Gesellschaften am selben Ort durchgeführtes „Interdisziplinäres Kolleg Kognitionswissenschaft“ angetreten. Die Erfahrung mit den ersten Auflagen zeigte, dass viele der Kapitel in der Lehre eingesetzt wurden, sei es als Hauptreferenz oder als ergänzende Lektüre, selten aber das Werk in seiner Gesamtheit als Lehrbuch. Dies lag zum einen an seinem Umfang, zum anderen aber auch an der Vielfalt der eher einführenden und vertiefenden Kapi tel, die es doch von der Geschlossenheit eines klassischen Lehrbuchs unterscheidet, das von einem einzigen Autor oder einem kleinen Autorenteam verfasst wurde. Zudem wurde vielfach angeregt, die thematische Breite des Werks zu vergrößern. Die Her ausgeber hoffen, mit der Überarbeitung und der Weiterentwicklung in Richtung eines „Handbuchs“ dem veränderten Anforderungsprofil weitestgehend gerecht zu werden. Für alle Beiträge dieses Werks war maßgeblich, dass sie eine straffe und quali tativ hochstehende Darstellung des jeweiligen Themengebiets geben und Hinweise auf notwendige und sinnvolle Vertiefungsmöglichkeiten, u. a. auch in der Form einer Auswahlbibliografie, bieten. Es ist offensichtlich, dass bei einem angestrebten Um fang von ca. 50 Seiten pro Beitrag nicht alles, was thematisch wichtig ist, behandelt werden kann. Gegenüber der letzten Auflage sind folgende Änderungen erwähnenswert: Das Handbuch ist in drei Teile gegliedert, Grundlagen, Methoden und Anwendun gen, in die die Kapitel neu eingeordnet wurden. Komplett neu sind die Kapitel „Assis tenzsysteme“ und „Ethische Fragen der Künstlichen Intelligenz“. Wieder aufgenom men sind die Kapitel „Bildverarbeitung“ (früher Bildverstehen – ein Überblick) sowie „Wissen über Raum und Zeit“, die neue Autorenteams komplett überarbeitet haben. Eine größere Veränderung hat sich im Themengebiet des Maschinellen Lernens erge ben. Aus den zwei Kapiteln „Neuronale Netze“ sowie „Maschinelles Lernen und Data Mining“ sind die drei Kapitel „Grundlagen des Maschinellen Lernens“, „Tiefe Neu ronale Netze“ sowie „Vertrauenswürdiges, transparentes und robustes Maschinelles
2 Dassel 1984: IFB Nr. 93, Dassel 1985: IFB Nr. 159, Günne 1987: IFB Nr. 202, Günne 1989: IFB Nr. 203. Erschienen in der Reihe Informatik-Fachberichte (IFB) im Springer-Verlag, Berlin: Teisendorf 1982: IFB Nr. 59.
Vorwort
|
VII
Lernen“ geworden, die von einem neuen Autorenteam neu aufbereitet wurden. Die restlichen Kapitel wurden überarbeitet. Darüber hinaus haben sich bei einigen Kapi teln Veränderungen in der Zusammensetzung der Autorengruppe ergeben. Die Kapitel „Fallbasiertes Schließen“ und „Planen“ sind von neuen Autorenteams übernommen worden. Leider hat sich bei einem so umfangreichen Projekt auch ergeben, dass zwei geplante Kapitel, „Kognitive Robotik“ sowie „Geschichte der KI in Deutschland“, nicht ihren Weg in das Handbuch gefunden haben. Wir danken ganz herzlich allen Autorinnen und Autoren, dass sie so engagiert an dieser nicht einfachen Aufgabe mitgewirkt haben. Neben den hohen qualitativen Anforderungen dieses ambitionierten Buchprojekts stellten die vielen notwendigen inhaltlichen Absprachen bis hin zu einer einheitlichen Layoutgestaltung und die – im großen und ganzen vorbildlich eingehaltene – terminliche Disziplin eine nicht all tägliche Herausforderung dar. Zur Qualitätssicherung wurde eine Referierungsprozedur durchgeführt: Jeder Bei trag wurde von externen Referenten und anderen Buchmitarbeitern gelesen und die kritischen Anmerkungen wurden den Autoren zur endgültigen Überarbeitung zuge sandt. Wir danken unseren Kolleginnen und Kollegen für die externe Begutachtung, die alle namentlich im Abschnitt 21.4 aufgeführt sind. Erlangen-Nürnberg, Lübeck und Bamberg, im Juli 2020
Günther Görz Tanya Braun Ute Schmid
Inhalt Vorwort | V 1 Einleitung | 1 Literaturverzeichnis | 23 2 Wissensrepräsentation und -verarbeitung | 27 2.1 Einleitung und Motivation | 27 2.1.1 Wissen – wozu? | 27 2.1.2 Wissensformen | 29 2.1.3 Repräsentation | 31 2.1.4 Wissensverarbeitung = Schlussfolgern | 33 2.2 Deklarative Wissensrepräsentation | 35 2.2.1 Wissensbasierte Systeme | 35 2.2.2 Die Rolle der Logik | 36 2.2.3 Schlussfolgerungstypen | 37 2.3 Ein Beispiel: Beschreibungslogiken | 38 2.3.1 Der Formalismus | 39 2.3.2 Semantik | 41 2.3.3 Inferenzdienste | 42 2.3.4 Inferenzalgorithmen | 43 2.3.5 Berechenbarkeitseigenschaften | 48 2.3.6 Jenseits von ALC | 51 2.4 Zusammenfassung und Ausblick | 52 Literaturverzeichnis | 53 3 3.1 3.1.1 3.1.2 3.2 3.2.1 3.2.2 3.2.3 3.2.4 3.3 3.3.1 3.3.2 3.4 3.4.1
Suche | 57 Problemlösen als Suche | 57 Zustandsräume | 57 Suchgraphen | 59 Pfadsuche | 63 Generisches Verfahren | 63 Uninformierte Suche | 69 Informierte Suche | 75 Zusammenfassung | 82 Optimierung | 83 Bergsteigerverfahren | 85 Evolutionäre Algorithmen | 87 Modellierung von Problemräumen | 90 Zustände und Operatoren | 91
X | Inhalt
3.4.2 Zielfunktionen | 93 3.4.3 Interaktion | 97 Literaturverzeichnis | 98 Wissen über Raum und Zeit | 101 Prinzipielle Ansätze der Repräsentation und des Schlussfolgerns | 106 4.1.1 Axiomatisierung in klassischer Logik | 108 4.1.2 Temporale Logiken | 109 4.1.3 Räumliche Logiken | 111 4.1.4 Qualitative Modellierung und constraint-basiertes Schließen | 111 4.2 Zeit und Situationen | 117 4.2.1 Zeit als lineare Abfolge | 118 4.2.2 Zeit als verzweigende Struktur | 120 4.3 Raum | 120 4.3.1 Integriert raumzeitliche Ansätze | 123 4.3.2 Anwendungsbereich: ontologiebasierter Datenzugriff auf räumliche und temporale Daten | 126 4.4 Zusammenfassung | 133 Literaturverzeichnis | 134 4 4.1
5 5.1 5.2 5.2.1 5.2.2 5.2.3 5.2.4 5.3 5.4 5.5 5.6 5.7 5.8 5.8.1 5.8.2 5.8.3 5.8.4 5.9 5.9.1 5.9.2 5.9.3
Automatische Inferenz | 143 Einführung | 143 Entwurf automatischer Inferenzsysteme | 146 Logik | 146 Kalküle | 147 Beweisprozeduren | 149 Implementierung | 150 Prädikatenlogik erster Stufe | 150 Analytische Sequenzenkalküle (Refinement Logik) | 154 Analytische Tableaus | 157 Matrixbeweise | 160 Konnektionskalkül | 165 Effiziente Beweissuche | 171 Unifikation | 172 Normalformtransformationen | 173 Reduktionen | 173 Implementierungsaspekte | 174 Erweiterungen | 175 Konstruktive Logik | 176 Modallogiken | 179 Lineare Logik | 181
Inhalt | XI
5.9.4 Logik höherer Stufe | 181 5.9.5 Einbindung von Theorien | 182 5.10 Schlussbetrachtungen | 184 Literaturverzeichnis | 184 6 Nichtmonotones Schließen | 189 6.1 Einführung | 189 6.2 Formalisierungen nichtmonotonen Schließens | 195 6.2.1 Default-Logik | 196 6.2.2 Autoepistemische Logik | 203 6.2.3 Zirkumskription | 205 6.3 Default-Schließen als Behandlung von Inkonsistenz | 207 6.3.1 Ein Rahmen für nichtmonotone Systeme | 207 6.3.2 Pooles System | 209 6.3.3 Zuverlässigkeitsstufen | 211 6.4 Nichtmonotonie und Logikprogrammierung | 214 6.4.1 Stabile Modelle | 214 6.4.2 Wohlfundierte Semantik | 216 6.4.3 Antwortmengenprogrammierung | 218 6.5 Argumentation | 220 6.6 Ausblick | 223 Literaturverzeichnis | 224 Kognition | 227 Einführung in die Kognitionsforschung | 227 Ziele und Highlights des interdisziplinären Feldes Kognitionswissenschaft | 229 7.2 Methodenkanon der Kognitionsforschung | 231 7.2.1 Beiträge formaler Wissenschaften zur Untersuchung menschlicher Kognition | 231 7.2.2 Experimentelle und neurowissenschaftliche Methoden | 232 7.2.3 Kognitive Modellierung | 236 7.3 Zentrale Elemente menschlicher Kognition | 242 7.3.1 Wahrnehmung und Aufmerksamkeit | 242 7.3.2 Mentale Repräsentation und Gedächtnis | 243 7.3.3 Lernen | 245 7.3.4 Denken und Problemlösen | 247 7.3.5 Urteilen, Entscheidung und Bewusstsein | 259 7.3.6 Kognition in der Interaktion | 262 7.4 Ausblick mit zentralen Challenges im Bereich Kognition | 266 Literaturverzeichnis | 267
7 7.1 7.1.1
XII | Inhalt
8 Unsicheres, impräzises und unscharfes Wissen | 279 8.1 Einleitung | 280 8.1.1 Wissen | 280 8.1.2 Impräzision, Unsicherheit und Unschärfe | 280 8.1.3 Schlussfolgern | 282 8.2 Unsicheres Wissen | 285 8.2.1 Wahrscheinlichkeit | 285 8.2.2 Probabilistische Schlussfolgerungsnetze | 291 8.2.3 Wissensrevision | 317 8.2.4 Erschließen kausaler Beziehungen | 320 8.3 Unscharfes Wissen | 327 8.3.1 Fuzzy-Mengen | 328 8.3.2 Fuzzy-Regelsysteme | 332 8.3.3 Unsicheres unscharfes Wissen | 337 Literaturverzeichnis | 339 9 9.1 9.1.1 9.1.2 9.2 9.2.1 9.2.2 9.2.3 9.2.4 9.2.5 9.2.6 9.2.7 9.3 9.3.1 9.3.2 9.3.3 9.3.4 9.3.5 9.3.6 9.3.7 9.3.8 9.4 9.4.1 9.4.2 9.4.3
Fallbasiertes Schließen | 343 Grundprinzip des fallbasierten Schließens | 344 CBR-Zyklus | 345 Wissenscontainer | 347 Fallrepräsentation | 348 Struktur von Fällen | 349 Grundlegende Ansätze zur Fallrepräsentation | 349 Attribut-Wert Repräsentation | 350 Objektorientierte Repräsentation | 351 Graphbasierte Repräsentation | 352 Fallrepräsentation für die Planung | 353 Weiterführende Aspekte | 353 Ähnlichkeit im fallbasierten Schließen | 354 Bedeutung der Ähnlichkeit | 354 Formalisierung und Modellierung von Ähnlichkeitsmaßen | 355 Traditionelle Ähnlichkeitsmaße | 356 Lokal-Global-Prinzip | 357 Ähnlichkeitsmaße für die objektorientierte Repräsentation | 359 Ähnlichkeitsmaße für graphbasierte Repräsentation | 359 Ähnlichkeitsmaße für die fallbasierte Planung | 360 Weiterführende Aspekte | 360 Retrieval | 361 Sequenzielles Retrieval | 361 Zweistufiges Retrieval | 362 Indexorientiertes Retrieval | 362
Inhalt |
9.5 Adaption | 366 9.5.1 Adaptionsansätze | 367 9.5.2 Repräsentationsformen für Adaptionswissen | 368 9.5.3 Adaptionsprozess | 370 9.6 Lernen und Wartung | 370 9.6.1 Lernen von Fällen | 371 9.6.2 Lernen von Ähnlichkeitswissen | 372 9.6.3 Lernen von Adaptionswissen | 373 9.6.4 Transferlernen | 374 9.6.5 Wartung von CBR-Systemen | 374 9.7 Anwendungsgebiete | 375 9.7.1 Diagnose technischer Systeme | 376 9.7.2 Planung | 377 9.7.3 Prozessorientierte Informationssysteme | 379 9.7.4 Computerspiele | 381 9.8 CBR-Tools und Frameworks | 382 9.8.1 myCBR – Rapid Prototyping von CBR-Anwendungen | 382 9.8.2 ProCAKE – Process-Oriented Case-Based Knowledge Engine | 383 9.8.3 COLIBRI | 383 9.8.4 IAS – Empolis Information Access System | 384 9.9 Aktuelle Aspekte | 385 9.9.1 Erklärfähigkeit von CBR-Systemen (XAI) | 385 9.9.2 CBR und Deep Learning | 385 9.9.3 CBR und Agenten | 386 9.10 Schlussbemerkung | 386 Literaturverzeichnis | 387 10 Planen | 395 10.1 Überblick | 395 10.1.1 Sprachmächtigkeit | 397 10.1.2 Unsicherheit | 399 10.1.3 Domänenspezifisches Wissen | 401 10.1.4 Andere Erweiterungen | 402 10.2 Klassisches Planen | 403 10.3 Zustandsraumsuche | 405 10.3.1 Heuristische Suche | 406 10.3.2 Heuristiken | 408 10.3.3 Pruning | 412 10.4 Symbolische Suche | 414 10.5 SAT-Planen | 417 Literaturverzeichnis | 420
XIII
XIV | Inhalt
11 Grundlagen des Maschinellen Lernens | 429 11.1 Wozu braucht man Maschinelles Lernen? | 429 11.1.1 Der Begriff des Maschinellen Lernens | 429 11.1.2 Unterschiedliche Lernaufgaben | 430 11.1.3 Die Prozesssicht des Maschinellen Lernens | 432 11.2 Ablauf des Maschinellen Lernens am Beispiel der logistischen Regression | 434 11.2.1 Trainings- und Testmenge | 435 11.2.2 Das Modell der logistischen Regression | 436 11.2.3 Die Verlustfunktion: Maximum Likelihood | 437 11.2.4 Einige Verlustfunktionen | 439 11.2.5 Optimierung durch Gradientenabstieg | 440 11.2.6 Stochastischer Gradientenabstieg | 441 11.2.7 Evaluation des Modells | 442 11.2.8 Bayessche Modelle | 444 11.3 Einführung in neuronale Netze | 445 11.3.1 Beispiel: Lineare Separierbarkeit | 448 11.3.2 Konnektionistischer Ansatz | 449 11.3.3 Backpropagation | 452 11.3.4 Numerische Stabilität und Konvergenz | 455 11.3.5 Regularisierung | 456 11.3.6 Netzwerktypen und Lernprobleme | 460 11.4 Lernen von Regeln und logischen Zusammenhängen | 461 11.4.1 Entscheidungsbäume | 462 11.4.2 Random Forest | 465 11.4.3 Gradient-Boosted Tree | 467 11.4.4 Markov-Logik-Netze | 469 11.5 Klassiker des Maschinellen Lernens | 475 11.5.1 Lineare Diskriminanzanalyse (LDA) | 476 11.5.2 Stützvektormaschinen (SVM) | 480 11.5.3 L2 Stützvektormaschinen und ein besonders einfacher Trainingsalgorithmus | 484 11.5.4 Der Kerntrick und nicht lineare Stützvektormaschinen | 486 11.5.5 Stützvektormaschinen sind flache neuronal Netze | 488 11.5.6 Weiterentwicklungen der Kernelmethoden | 489 11.6 Verbesserung der Modelle und des Trainingsprozesses | 489 11.6.1 Initialisierung der Parameter | 489 11.6.2 k-fach Kreuzvalidierung | 490 11.6.3 Optimierungsverfahren für maschinelle Lernverfahren | 490 11.6.4 Konvergenz des Gradientenabstiegs | 493 11.6.5 Optimierung und Parallelisierung | 493 11.6.6 Optimierung der Hyperparameter | 494
Inhalt | XV
11.6.7 Auswertung der Modellunsicherheit | 496 11.6.8 Lernstrategien | 499 11.7 Infrastruktur und Toolboxen | 499 11.7.1 Toolboxen für das Maschinelle Lernen | 499 11.7.2 Toolboxen für tiefe neuronale Netze | 501 Literaturverzeichnis | 503 12 Tiefe neuronale Netze | 509 12.1 Welche Vorteile haben tiefe neuronale Netze | 509 12.2 Historische Entwicklung tiefer neuronaler Netze | 511 12.3 Faltungsnetzwerke | 512 12.3.1 Faltungsschichten als dichte Merkmalsdetektoren | 514 12.3.2 Konstruktion von Faltungsnetzwerken | 516 12.3.3 Lernen in tiefen Faltungsnetzwerken | 519 12.4 Die Analyse von Sequenzen: rekurrente neuronale Netze | 521 12.4.1 Die Berechnung von Embeddings | 521 12.4.2 Rekurrente neuronale Netze (RNN) | 524 12.4.3 Training des RNN | 526 12.4.4 Explodierende und verschwindende Gradienten | 527 12.4.5 Long Short-Term Memory | 528 12.4.6 RNN mit mehreren Ebenen | 529 12.4.7 Erzeugung von Text mit einem RNN-Sprachmodell | 531 12.4.8 Übersetzung durch Sequenz-nach-Sequenz-Modelle | 532 12.4.9 Die Verbesserung von Übersetzungen durch Attention | 534 12.4.10 Attention-basierte Transformer übertreffen RNN | 536 12.4.11 Transferlernen mit BERT | 540 12.4.12 Generierung von Texten mit GPT2 | 541 12.5 Generative neuronale Modelle | 542 12.5.1 Tiefe Boltzmann-Maschine | 543 12.5.2 Variante Autoencoder | 546 12.5.3 Kontradiktorische Netzwerke | 548 12.6 Bestärkungslernen | 549 12.6.1 Markov-Entscheidungsprozesse | 550 12.6.2 Infinite-Horizon-Modell und Bellman-Gleichungen | 552 12.6.3 Value Iteration und Policy Iteration | 554 12.6.4 Von Monte-Carlo-Simulationen zu Temporal-Difference (TD) Learning | 555 12.6.5 Q-Learning | 559 12.6.6 Allgemeine Anmerkungen zum Bestärkungslernen | 562 12.6.7 Bestärkungslernen und neuronale Netze | 562 12.7 Anwendungsbereiche tiefer neuronaler Netze | 563 Literaturverzeichnis | 566
XVI | Inhalt
13
Vertrauenswürdiges, transparentes und robustes Maschinelles Lernen | 571 13.1 Erklärbarkeit und Interpretierbarkeit | 571 13.1.1 Der Begriff der Interpretierbarkeit | 573 13.1.2 Transparentes Maschinelles Lernen | 574 13.1.3 Beurteilung von Interpretierbarkeit | 580 13.2 Robustheit, Sicherheit und Verlässlichkeit | 582 13.2.1 Der Einfluss von Ausreißern und Messfehlern | 583 13.2.2 Gezielte Konstruktion von falsch klassifizierten Beispielen | 587 13.2.3 Zusammenfassung | 590 13.3 Diskussion und abschließende Bemerkungen | 590 13.3.1 Können tiefe neuronale Netze mit vielen Parametern zuverlässig trainiert werden? | 591 13.3.2 Welche Merkmale werden von tiefen neuronalen Netzen verwendet? | 592 13.3.3 Müssen tiefe neuronale Netze jedesmal alles neu lernen? | 593 13.3.4 Können künstliche neuronale Netze Weltwissen erwerben? | 594 13.3.5 Wie kann man vertrauenswürdige, transparente und robuste KNN sicherstellen? | 594 Literaturverzeichnis | 595 14 Sprachverarbeitung | 601 14.1 Sprache und sprachliche Beschreibungsebenen | 601 14.2 Sprache und Künstliche Intelligenz | 605 14.3 Anwendungen der Sprachtechnologie | 611 14.3.1 Werkzeuge für die zwischenmenschliche Kommunikation | 611 14.3.2 Werkzeuge für die Produktion von Texten und audiovisuellen Medien | 613 14.3.3 Werkzeuge für das Informationsmanagement | 613 14.3.4 Mensch-Maschine-Kommunikation | 615 14.4 Architekturen für die Sprachverarbeitung | 616 14.4.1 Modularisierung | 616 14.4.2 Trainierbare Architekturen | 620 14.4.3 Inkrementelle Verarbeitung | 621 14.4.4 Multimodale Kommunikation | 622 14.5 Sprachliche Strukturen und ihre Beschreibung | 623 14.6 Modelle und Verfahren der Sprachverarbeitung | 629 14.6.1 Sprachmodelle | 629 14.6.2 Transformation von Symbolsequenzen | 634 14.6.3 Repräsentationslernen | 643 14.6.4 Strukturanalyse | 647 14.7 Ausblick | 659 Literaturverzeichnis | 663
Inhalt | XVII
15 Bildanalyse | 673 15.1 Einführung | 673 15.2 Lokale Bildanalyse | 674 15.2.1 Entrauschung | 674 15.2.2 Algorithmische Steigerung der Bild- und Videoauflösung | 676 15.2.3 Style-Transfer | 677 15.2.4 Tiefenschätzung | 679 15.2.5 Bildsegmentierung und Objekterkennung | 682 15.3 Globale Bildanalyse | 690 15.3.1 Bildbasierte Suche | 690 15.3.2 Objektidentifikation | 697 15.3.3 Klassifikation | 697 15.3.4 Bildbeschriftung | 698 15.3.5 Beantwortung visueller Fragen (VQA) | 702 Literaturverzeichnis | 704 16 Constraints | 713 16.1 Einführung | 713 16.2 Finite-Domain-Constraints | 715 16.2.1 Constraint-Satisfaction-Probleme | 715 16.2.2 Lokale und globale Konsistenz | 718 16.2.3 Suchtechniken | 722 16.2.4 Globale Constraints | 725 16.3 Constraint-basierte Programmierung | 731 16.3.1 Constraint-basierte Sprachen | 732 16.3.2 Constraint-Bibliotheken | 735 16.3.3 Parallele Constraint-Programmierung | 736 16.4 Anwendungsbeispiele | 737 16.4.1 Auftragsoptimierung | 737 16.4.2 Der Icosoku | 738 16.4.3 Ein Schichtplanungsproblem | 741 16.4.4 Verbesserung der Modelle durch Reformulierung | 745 16.5 Soft-Constraints | 746 16.6 Temporale Constraints | 749 16.7 Zusammenfassung | 750 Literaturverzeichnis | 751 17 Multiagentensysteme | 755 17.1 Was ist ein Multiagentensystem? | 755 17.1.1 Was charakterisiert ein Multiagentensystem? | 756 17.1.2 Ein Beispiel | 759 17.1.3 Welche Fragen sind wichtig bei der Entwicklung? | 760 17.2 Einfache Agenten und Schwarmintelligenz | 762
XVIII | Inhalt
17.3 Deliberative Agenten, klassische verteilte KI | 764 17.3.1 Individuelle Ziele versus soziale Ziele? | 765 17.3.2 Planen und Koordinieren | 766 17.3.3 Anwendungsbeispiele | 767 17.4 Rationale Agenten und verteilte Entscheidungsfindung | 767 17.4.1 Idee des rationalen Agenten | 768 17.4.2 Computational Social Choice | 769 17.4.3 Auktionen | 770 17.4.4 Bildung von Koalitionen | 772 17.5 Verhandelnde Agenten | 773 17.6 Lernende Agenten und Multiagentenlernen | 774 17.7 Multiagentensimulation | 774 17.8 Bemerkungen und weiterführende Literatur | 776 Literaturverzeichnis | 777 18 Semantic Web | 783 18.1 Einleitung | 783 18.2 Architektur des Semantic Web | 785 18.3 Verteilte semantische Graphdaten im Web | 790 18.3.1 Verknüpfte Graphdaten auf dem Web | 790 18.3.2 Anfragen auf Graphdaten mit SPARQL | 791 18.3.3 Anfragen auf verknüpfte, verteilte Graphdaten | 794 18.4 Wissensrepräsentation und -integration | 795 18.4.1 Analyse des einführenden Beispiels | 796 18.4.2 Verschiedene Arten von Ontologien | 797 18.4.3 Verteiltes Netzwerk von Ontologien im Web | 799 18.5 Inferenz im Web | 801 18.5.1 Transformation von Daten | 801 18.5.2 Schlussfolgerungen über Daten | 802 18.6 Identität und Verknüpfung von Objekten und Begriffen | 803 18.7 Herkunft und Vertrauenswürdigkeit von Daten | 805 18.8 Anwendungen des Semantic Web | 806 18.8.1 Vokabulare und Schemas | 807 18.8.2 Semantische Suche | 808 18.8.3 Knowledge Graphs und Wikidata | 809 18.8.4 Zugriff auf soziale Netzwerke | 810 18.9 Bedeutung für die Praxis | 810 18.10 Zusammenfassung | 812 Literaturverzeichnis | 812 19 Universelle Spielprogramme | 817 19.1 Spielregeln beschreiben: Wissensrepräsentation | 818 19.1.1 Spielzustände und Züge | 818
Inhalt
| XIX
19.1.2 Spielregeln | 819 19.1.3 GDL: Zusammenfassung | 823 19.1.4 Kommunikationsprotokoll für GDL | 823 19.2 Spielregeln verstehen: Inferenz | 824 19.2.1 Unifikation/Grundinstanziierung | 826 19.2.2 Ableitungen | 827 19.2.3 Regeln mit Negation | 828 19.2.4 Regeln mit Disjunktion | 829 19.3 Spielbaumsuche | 829 19.3.1 Minimax-Verfahren | 829 19.3.2 Optimierungen | 832 19.3.3 Gegenspielermodelle | 833 19.4 Stochastische Baumsuche | 834 19.4.1 MCT-Suche | 834 19.4.2 UCT-Bonus | 836 19.4.3 Optimierungen | 836 19.4.4 Grenzen | 837 19.5 Heuristische Suche | 838 19.5.1 Mobilitätsheuristik | 839 19.5.2 Zielheuristiken | 840 19.5.3 Optimierungen | 843 19.6 Wissen | 844 19.6.1 Domänenanalyse | 844 19.6.2 Regelstrukturanalyse | 846 19.7 Lernen | 849 19.8 Erweiterung: Spiele mit unvollständiger Information | 851 19.8.1 GDL-II | 851 19.8.2 Hypothetische Spielstellungen | 854 19.9 Weiterführende Literatur | 856 Literaturverzeichnis | 857 20 Assistenzsysteme | 859 20.1 Einordnung des Gebiets in die Künstliche Intelligenz | 859 20.2 Assistenzbedarf in Beispielen | 862 20.2.1 Anwendungsbeispiel 1: Interaktion mit einem Küchenhelfer | 863 20.2.2 Warum viele Dialogmodelle für Assistenz zu einfach sind . . . | 868 20.2.3 Anwendungsbeispiel 2: Interaktive Bedienungsanleitung | 869 20.3 Eine Definition für Assistenzsysteme | 872 20.3.1 Der Bedarf als zentrales Konzept | 872 20.3.2 Companion-Technologie: Eine Realisierung der Definition von Assistenzsystemen | 873 20.3.3 Problemlöse- und State-Tracking-Kompetenzen von Assistenzsystemen | 875
XX | Inhalt
Wissensrepräsentation für Assistenzsysteme | 878 Linguistisches Wissen | 878 Wissen über Tasks | 879 Wissen über die Domäne | 880 Wissen über Nutzer, Interaktion und Kooperation | 883 Assistenz per Design | 884 Strukturierung von Software hinsichtlich ihrer Funktionalität – Ausführungsmodelle | 885 20.5.2 Interaktionsmodelle für Assistenzsysteme | 887 20.5.3 Proaktivität in Assistenzverläufen | 889 20.6 Kooperationsmodelle für Assistenzsysteme | 890 20.7 Assistenz durch KI-Algorithmen | 893 20.7.1 Planung | 894 20.7.2 Erstellen von Diagnosen | 895 20.7.3 Probabilistische Inferenz des Nutzerstatus | 895 20.7.4 Ermitteln optimaler Strategien | 897 20.7.5 Deep Learning mit explizitem Wissen als Lösung? | 897 20.8 Wahrnehmung der Umgebung durch Sensorik | 898 20.9 Herausforderungen | 899 20.9.1 Intentionserkennung | 899 20.9.2 Sprachverstehen in Assistenzkontexten | 900 20.9.3 Nicht modelliertes Handeln | 901 Literaturverzeichnis | 902
20.4 20.4.1 20.4.2 20.4.3 20.4.4 20.5 20.5.1
21 Ethische Fragen der Künstlichen Intelligenz | 907 21.1 Begriffliche Klärung | 907 21.2 Ethische Grundfragen | 910 21.2.1 Ethik als wissenschaftliche Disziplin und transakademisches Unternehmen | 910 21.2.2 Autonomie | 913 21.2.3 Verantwortungslücke und Intransparenz | 916 21.2.4 Werthaltigkeit verwendeter Daten, Diskriminierung und Bias | 918 21.2.5 Ethik der Interaktion | 919 21.3 Ansätze einer ethischen und rechtlichen Regulierung | 920 21.3.1 Maschinen- und Roboterethik: Die Realisierung moralischer Maschinen | 920 21.3.2 Roboterrechte/Personenstatus von KI | 922 21.3.3 Künstliche Intelligenz für militärische Anwendungen | 927 21.4 Ausblick | 929 Literaturverzeichnis | 931 Beteiligte | 935 Stichwortverzeichnis | 941
1 Einleitung Günther Görz, Tanya Braun und Ute Schmid Das Forschungsgebiet „Künstliche Intelligenz“ (KI) hat seit seiner Entstehung in der Mitte des letzten Jahrhunderts nichts von seiner Faszination verloren. Gerade in jüngs ter Zeit spielt es eine prominente Rolle im gesellschaftlichen Diskurs. Worum geht es dabei? Mit dem Begriff KI wird oft assoziiert, durch Computer, Netzwerke und Roboter mentale Prozesse sowie Verhaltensweisen zu simulieren, die denen von Menschen entsprechen. Unter den zahlreichen Charakterisierungen der Disziplin, die von ihren Fachvertretern angegeben wurden, sei beispielhaft die von Patrick Winston [78] formulierte genannt, die die Bestimmung des Gegenstands der KI in folgender Weise präzisiert: „Künstliche Intelligenz ist die Erforschung von Rechenverfahren, die es ermöglichen, wahrzu nehmen, zu schlussfolgern und zu handeln.“
Das heißt, „Künstliche Intelligenz“ ist eine wissenschaftliche Disziplin, die das Ziel verfolgt, menschliche Wahrnehmungs- und Verstandesleistungen¹ zu operationalisie ren und durch Artefakte, kunstvoll gestaltete technische – insbesondere informations verarbeitende – Systeme verfügbar zu machen. Beflügelt durch die jüngste Renaissance des Maschinellen Lernens, die durch immense gespeicherte Datenmengen unterschiedlichster Provenienz, immer größe re Arbeitsspeicher, Prozessorkapazitäten und schnelle Vernetzung möglich wurde, werden weltweit milliardenschwere Investitions- und Förderprogramme für KI auf den Weg gebracht. Mit kontinuierlich verbesserten Verfahren, deren Wurzeln einige Jahrzehnte zurückliegen, unterstützen selbstlernende Programme die medizinische Diagnostik. Sie helfen in der Automobil- und Luftfahrtindustrie beim Aufspüren von Materialproblemen und in der Finanzindustrie bei Investitionsentscheidungen und Kreditvergabe. Ohne sie sind Onlinemarketing, automatisch fahrende Autos und Op timierungen in der Logistik kaum vorstellbar, um nur einige Anwendungsfelder zu nennen. Offensichtlich können Verfahren aus allen Teilgebieten der KI zur Lösung gesellschaftlich relevanter komplexer Probleme beitragen, doch nimmt zugleich die Sensibilität für ihre gesellschaftliche Einbettung und damit verbunden für mögliche Gefahren in bestimmten Anwendungsbereichen zu. Dies betrifft auf der persönlichen Ebene Einschätzungen und Prognosen von gesundheitlichen und anderen Risiken, von Leistungsprofilen oder gar, wie in China, des sozialen Wohlverhaltens. Insbe sondere thematisiert werden Befürchtungen der gesellschaftlichen Kontrolle nicht nur durch staatliche Instanzen, sondern durch privatwirtschaftlich organisierte in
1 Mit Kant wollen wir unter „Verstand“ das Vermögen der Regeln verstehen, im Unterschied zur Ver nunft als Vermögen der Prinzipien. https://doi.org/10.1515/9783110659948-001
2 | 1 Einleitung
ternationale Konzerne, die sich jeder Kontrolle entziehen. Zum ersten Mal in der Ge schichte steht KI auf der politischen Agenda: Ihre Erfolge wecken Erwartungen nicht nur gigantischer Rationalisierungsgewinne, sondern auch in Verschiebungen globa ler Herrschaftsverhältnisse. Die meisten Staaten haben schon KI-Strategien veröffent licht, wobei man sich mit Recht fragen mag, woher alle die einschlägig qualifizierten Fachkräfte kommen sollen, die zu deren Umsetzung erforderlich sind. Ingenieurwissenschaftliche Leistungen, wie der Bau von Flugzeugen, begeistern viele Menschen. Die Idee der Erschaffung einer „Künstlichen Intelligenz“ trifft dage gen auf gespaltene Gefühle. Dass Menschen versuchen, Menschenähnliches zu er schaffen, kann man vermessen finden – oder aber ein faszinierendes Unterfangen, das bereits früh in Geschichten wie denen von Golem oder Frankenstein beschrieben wurde. Daher werden in der Philosophie und auch von KI-Forschern selbst immer wie der ethische und erkenntnistheoretische Fragen aufgeworfen (Kapitel 21). Viele dieser Probleme haben ihre Wurzeln in – undiszipliniert gebrauchten – anthropomorphen Redeweisen². Dadurch liegen kategoriale Fehler und daraus folgende Fehleinschät zungen nahe, nämlich, dass es zwischen Computern und Menschen keine kategoriale Differenz gäbe, sodass „Softwaresysteme, die menschliches Verhalten, Urteilen und Entscheiden nachahmen, auch menschliche Eigenschaften aufweisen“ [54, S. 203]. In der Realität der KI-Forschung ist KI zunächst etwas viel Nüchterneres: Ihr Ziel ist es, Computerprogramme für Problembereiche zu entwickeln, die bislang nur von Menschen lösbar sind. Allerdings besteht gerade wegen der gesellschaftlichen Aus wirkungen der KI schon seit langem die Forderung nach einer Integration der Wir kungsforschung im Sinne einer „kritischen technischen Praxis“ [1], deren Umsetzung jedoch bis heute sehr zu wünschen übrig lässt. Künstliche Intelligenz ist als Teil der Informatik eine Ingenieurwissenschaft und als Teil der Kognitionswissenschaft auch eine Erkenntniswissenschaft. Entsprechend kommen zwei Zielsetzungen zum Tragen: – Konstruktion „intelligenter“ Systeme, die bestimmte menschliche Wahrnehmungsund Verstandesleistungen maschinell verfügbar und praktisch nutzbar machen und – kognitive Modellierung, d. h. Simulation kognitiver Prozesse durch Informations verarbeitungsmodelle (Kapitel 7). Eine weitere Orientierung der KI ist formalwissenschaftlich und überlappt stark mit der theoretischen Informatik. Hier werden allgemeine Beschränkungen für KI-Algo rithmen analysiert und insbesondere Fragen der Komplexität, Berechenbarkeit und Lernbarkeit von Problemen bearbeitet. Durch diese Aufgabenstellung hat KI-Forschung einen stark interdisziplinären Charakter: Bezüge zur Philosophie ergeben sich aus grundsätzlichen Fragen über die Natur menschlichen Fühlens, Denkens und Handelns; Bezüge zur Linguistik ergeben
2 Zum kritischen Gebrauch von kognitiven Metaphern, siehe insbesondere Gutmann et al. [28].
1 Einleitung
| 3
sich aus menschlichen Leistungen bei Sprachverstehen und Sprachproduktion. Psy chologie und Neurowissenschaften liefern wesentliche Grundlagen zur Umsetzung von Repräsentations- und Informationsverarbeitungsmechanismen, wie sie bei Men schen beobachtet werden [3; 22; 71]. In der ingenieurwissenschaftlich orientierten KI liefern Erkenntnisse aus empiri schen Disziplinen, die sich mit mentalen Leistungen des Menschen beschäftigen, häu fig Anregungen für die Entwicklung neuer Methoden und Algorithmen. Dabei wird ge nutzt, was erfolgreich scheint – es besteht kein Anspruch, dass die entwickelten intel ligenten Systeme nach ähnlichen Informationsverarbeitungsprinzipien funktionieren wie der Mensch. Künstliche Intelligenz ist hier Psychonik, analog zur Bionik – der auf biologischen Vorbildern basierenden Entwicklung von Maschinen und Materialien. Als Teil der Kognitionswissenschaft liefert die KI aber auch die Möglichkeit, mit den formalen und algorithmischen Methoden der Informatik kognitive Theorien in ablauffähige Modelle umzusetzen. Die kognitiv orientierte KI hat damit den Anspruch, ge nerative Theorien menschlicher Informationsverarbeitungsprozesse zu entwickeln – also Theorien, die aufgrund von Berechnungen Verhalten erzeugen [61; 72]. In beiden Zweigen der KI ist algorithmische Modellierung ein – wenn nicht das – zentrale Thema, wie auch in der Informatik generell.³ Zunächst betraf es in symboli schen, logikbasierten Ansätzen die theoretisch fundierte Konstruktion formaler On tologien und adäquater Verarbeitungsmodelle (Kapitel 2, 4 bis 6, 8, 9, 14, 16 und 18). Mit den im letzten Jahrzehnt erzielten Erfolgen subsymbolischer Ansätze im Maschi nellen Lernen (Kapitel 11 bis 15) stellt sich die Frage in erweiterter Form: Die zum Trai ning benutzten Datenkorpora sind in der Regel geprägt durch die gesellschaftlichen Verhältnisse, aus denen sie stammen, und vermitteln implizit bestimmte Werte bzw. Wertesysteme (Kapitel 21), die sich dann in den von ihnen erzeugten Klassifikationen und Entscheidungsvorschlägen widerspiegeln. Damit kommt die Frage nach normativ konstruierten und kontrollierten Trainingskorpora in den Blick; zahlreiche Beispiele unerwünschter Klassifikationen von der Bilderkennung bis zur Einschätzung der be ruflichen Eignung sind hinlänglich bekannt. Daher sind in den meisten Fällen nicht nur bloße Ergebnisse, sondern Erklärungen⁴ erwünscht – und sollten es sein. Plausi ble Begründungen sind – zumindest nach dem gegenwärtigen Verständnis von wis senschaftlicher Rationalität – nicht ohne Verwendung symbolischer Regeln oder Con straints (Kapitel 2, 5 und 16) möglich, sodass die von der kognitionswissenschaftlich orientierten Richtung der KI schon immer thematisierten hybriden Systemarchitektu ren [41] nach wie vor aktuell sind. Interessanterweise ist gerade das US-amerikanische Militär der größte Investor in „Explainable AI“.⁵
3 s. Wedekind et al. [77], Görz [25]. 4 siehe „Erklärung“ und weitere wissenschaftstheoretische Grundbegriffe in der Enzyklopädie Phi losophie und Wissenschaftstheorie (EPW) [45]. 5 https://www.darpa.mil/program/explainable-artificial-intelligence (30.03.2020).
4 | 1 Einleitung
Im Folgenden wird das Forschungsgebiet KI nach verschiedenen Aspekten cha rakterisiert: der Begriff „Künstliche Intelligenz“, die historische Entwicklung des For schungsgebiets, grundsätzliche Herangehensweisen, Teilbereiche und Anwendungs gebiete der KI.
Zum Begriff „Künstliche Intelligenz“ Die Bezeichnung „Künstliche Intelligenz“ ist historisch zu verstehen: Zunächst im Englischen als „Artificial Intelligence“ geprägt, ist sie als wörtliche Übersetzung nicht sinngemäß und gibt Anlass zu dem Missverständnis, sie würde eine Definition von „Intelligenz“ liefern. Da die KI eine relativ junge Disziplin ist, zeichnet sich ihre Grund lagendiskussion zudem durch eine metaphernreiche und aufgrund ihres Gegenstands auch stark anthropomorphe Sprache aus.⁶ „Künstliche Intelligenz“ ist ein synthetischer Begriff, der – aufgrund seines sug gestiven Potenzials – viele Missverständnisse und falsche Erwartungen verursacht hat. Sein Ursprung lässt sich auf das Jahr 1956 zurückverfolgen, ein Jahr, das in vieler lei Hinsicht bedeutsam war. Zum Beispiel erschien in diesem Jahr das Buch „Automata Studies“ mit einer Reihe heute berühmter Artikel im Gebiet der Kybernetik [65]. Eben falls in diesem Jahr erhielten Bardeen, Shockley und Brattain den Nobelpreis für die Erfindung des Transistors. Noam Chomsky war im Begriff, sein berühmtes Buch über syntaktische Strukturen zu veröffentlichen, das einen neuen Weg für eine theoreti sche Betrachtung der Sprache eröffnete [16]. Vielleicht wäre es besser gewesen, wenn sich die von Donald Michie – auch als Titel einer Buchreihe – geprägte und in unseren Augen auch klarere Bezeichnung „Machine Intelligence“ durchgesetzt hätte. Die Bezeichnung „Artificial Intelligence“ wurde von John McCarthy als Thema ei ner Konferenz geprägt, die im Sommer 1956 am Dartmouth College stattfand und an der eine Reihe renommierter Wissenschaftler teilnahmen (u. a. Marvin Minsky, Na thaniel Rochester, Claude Shannon, Allan Newell und Herbert Simon). Dieses Treffen wird allgemein als Gründungsereignis der KI gewertet. Im Förderungsantrag an die Rockefeller-Stiftung wurde ausgeführt [42, S. 93]: „Wir schlagen eine zweimonatige Untersuchung der Künstlichen Intelligenz durch zehn Personen vor, die während des Sommers 1956 am Dartmouth College in Hanover, New Hampshire, durch geführt werden soll. Die Untersuchung soll auf Grund der Annahme vorgehen, dass jeder Aspekt des Lernens oder jeder anderen Eigenschaft der Intelligenz im Prinzip so genau beschrieben wer den kann, dass er mit einer Maschine simuliert werden kann.“
6 Einen lesenswerten allgemeinen Überblick über die KI aus angelsächsischer Perspektive mit einem Schwerpunkt auf methodischen Fragen bietet der Artikel „Artificial Intelligence“ in der Stanford En cyclopedia of Philosophy [10].
1 Einleitung
|
5
Es geht, so McCarthy später, um die „Untersuchung der Struktur der Information und der Struktur von Problemlösungsprozessen, unabhängig von Anwendungen und un abhängig von ihrer Realisierung“. Newell sagte dazu: „Eine wesentliche Bedingung für intelligentes Handeln hinreichender Allgemeinheit ist die Fähigkeit zur Erzeugung und Manipulation von Symbolstrukturen. Zur Realisierung symbolischer Strukturen sind sowohl die Instanz eines diskreten kombinatorischen Systems (lexikalische und syntaktische Aspekte), als auch die Zugriffsmöglichkeiten zu beliebigen zugeordneten Daten und Prozessen (Aspekte der Bezeichnung, Referenz und Bedeutung) erforder lich.“ Als Instrument der Forschung sollte der Universalrechner dienen, wie Minsky be gründete: „. . . weil Theorien von mentalen Prozessen zu komplex geworden waren und sich zu schnell entwickelt hatten, als dass sie durch gewöhnliche Maschinerie realisiert werden konnten. Einige der Prozesse, die wir untersuchen wollen, nehmen substantielle Änderungen in ihrer eigenen Organisation vor. Die Flexibilität von Com puterprogrammen erlaubt Experimente, die nahezu unmöglich in ‚analogen mecha nischen Vorrichtungen‘ wären“. Im September 1956 fand am Massachusetts Institute of Technology eine zweite wichtige Konferenz statt, das „Symposium on Information Theory“. So, wie die KI ih ren Ursprung auf die Dartmouth Conference zurückführt, kann dieses Symposium als Grundsteinlegung der Kognitionswissenschaft gelten [23]. Unter den Teilnehmern bei der Konferenzen waren Allen Newell und Herbert Simon. Zusammen mit John Shaw hatten sie gerade die Arbeiten an ihrem „Logic Theorist“ abgeschlossen, einem Pro gramm, das mathematische Sätze aus Whiteheads und Russells „Principia Mathema tica“ beweisen konnte. Dieses Programm verkörperte schon, was später der Informa tionsverarbeitungsansatz des Modellierens genannt wurde. Der Grundgedanke dieses Ansatzes ist, dass Theorien des bewussten menschlichen Handelns auf der Basis von Informationsverarbeitungssystemen formuliert werden, also Systemen, die aus Spei chern, Prozessoren und Steuerstrukturen bestehen und auf Datenstrukturen arbeiten. Auch nichtsymbolverarbeitende Ansätze der KI haben eine vergleichbar lan ge Geschichte: Erste Arbeiten zu künstlichen neuronalen Netzen (KNN) entstanden in den 1940er-Jahren. An prominenter Stelle ist die einflussreiche Publikation von McCulloch und Pitts [43] zu nennen, die dann alsbald durch Hebb, Rosenblatt u. a. zu einer Grundlage für lernende Systeme ausgebaut wurde. Aus der Frühzeit der KI ist an dieser Stelle unbedingt auf Alan Turing hinzuweisen – einer der Pioniere, der üblicherweise eher der symbolverarbeitenden KI zugeordnet wird. Wie erst viele Jahre nach seinem Tod bekannt wurde, hatte er sich auch mit künstlichen neuronalen Net zen befasst.⁷ Somit kann man in Turing auch eine Integrationsfigur der beiden Haupt strömungen der KI, der symbolischen und der nichtsymbolischen, sehen. Aufgrund
7 [18], insbesondere auch zum Zusammenhang mit McCulloch-Pitts-Netzwerken; allgemein siehe auch [75].
6 | 1 Einleitung
gewaltiger technischer Fortschritte und enormer Ressourcen ist die nichtsymbolische KI im letzten Jahrzehnt zum dominanten Zweig der KI geworden und wird oft sogar – oberflächlicherweise – mit KI insgesamt identifiziert. An dieser Stelle müssen wir uns doch auch einer grundsätzlicheren Auseinan dersetzung mit dem Begriff der Intelligenz stellen. „Intelligenz ist die allgemeine Fä higkeit eines Individuums, sein Denken bewusst auf neue Forderungen einzustellen; sie ist allgemeine geistige Anpassungsfähigkeit an neue Aufgaben und Bedingungen des Lebens.“ Diese noch recht unpräzise Bestimmung durch den Psychologen Wil liam Stern aus dem Jahre 1912 hat eine Vielzahl von Versuchen nach sich gezogen, eine zusammenhängende Intelligenztheorie zu erstellen, deren keiner dem komple xen Sachverhalt auch nur annähernd gerecht werden konnte [33]. Heute besteht weit gehend Konsens darüber, dass Intelligenz zu verstehen ist als Erkenntnisvermögen, als Urteilsfähigkeit, als das Erfassen von Möglichkeiten, aber auch als das Vermögen, Zusammenhänge zu begreifen und Einsichten zu gewinnen [17]. Sicherlich wird Intelligenz in besonderer Weise deutlich bei der Fähigkeit, Proble me zu lösen. Die Art, die Effizienz und die Geschwindigkeit, mit der sich der Mensch bei der Problemlösung an die Umwelt anpasst (Adaptation) oder die Umwelt an sich angleicht (Assimilation), ist ein wichtiges Merkmal von Intelligenz. Dabei äußert sich Intelligenz durchaus nicht nur in abstrakten gedanklichen Leistungen wie logischem Denken, Rechnen oder Gedächtnis und insbesondere in der Fähigkeit zur Reflexion, sondern wird ebenso offenkundig beim Umgang mit Wörtern und Sprachregeln oder beim Erkennen von Gegenständen und Situationsverläufen. Neben der konvergenten Fähigkeit, eine Vielzahl von Informationen zu kombinieren, um dadurch Lösungen zu finden, spielt bei der Problemlösung aber auch die Kreativität eine wichtige Rolle, insbesondere auch das Vermögen, außerhalb der aktuellen Informationen liegende Lösungsmöglichkeiten einzubeziehen. Andererseits ist gerade die Fähigkeit zur Be grenzung der Suche nach Lösungen bei hartnäckigen Problemen eine typische Leis tung der Intelligenz [6; 34]. Und all dies, so müssen wir an dieser Stelle fragen, soll Gegenstand einer Künst lichen Intelligenz sein? Kurz gesagt: Nein, denn schon wenn wir Intelligenz beurtei len oder gar messen wollen, bedarf es einer Operationalisierung, wodurch wir einen Übergang vom personalen Handeln zum schematischen, nichtpersonalen Operieren vollziehen. Das, was operationalisierbar ist, lässt sich grundsätzlich auch mit forma len Systemen darstellen und auf einem Computer berechnen. Vieles aber, was das menschliche Denken kennzeichnet und was wir mit intentionalen Termini wie Krea tivität oder Bewusstsein benennen, entzieht sich weitgehend einer Operationalisie rung.⁸ Dies wird jedoch angezweifelt von Vertretern der sog. „starken KI-These“, die besagt, dass Bewusstseinsprozesse nichts anderes als Berechnungsprozesse sind, die
8 Sebastian Thrun, u. a. früherer Direktor des Stanford A. I. Lab, in einem Interview in der ZEIT No. 16, 08.04.2020: „Letztlich geht es um Mustererkennung, darum, dass Technik in der Lage ist, Regeln zu
1 Einleitung
|
7
also Intelligenz und Kognition auf bloße Informationsverarbeitung reduziert. Ein sol cher Nachweis konnte aber bisher nicht erbracht werden – die Behauptung, es sei im Prinzip der Fall, kann den Nachweis nicht ersetzen.⁹ Hingegen wird kaum bestritten, dass Intelligenz auch Informationsverarbeitung ist – dies entspricht der „schwachen KI-These“. So, wie wir Intelligenz erst im sozialen Handlungszusammenhang zuschreiben, ja sie sich eigentlich erst darin konstituiert, können wir dann allerdings auch da von sprechen, dass es – in einem eingeschränkten Sinn – Intelligenz in der MenschMaschine-Interaktion, in der Wechselwirkung, gibt, als „Intelligenz für uns“. Es be steht gar keine Notwendigkeit, einem technischen System, das uns als Medium bei Problemlösungen unterstützt, Intelligenz per se zuzuschreiben – die Intelligenz ma nifestiert sich in der Interaktion.
Die Entwicklung der KI In der Folge der o. g. Tagungen im Jahr 1956 wurden an verschiedenen universitären und außeruniversitären Einrichtungen einschlägige Forschungsprojekte ins Leben ge rufen. Die Prognosen waren zunächst optimistisch, ja geradezu enthusiastisch: Die KI sollte wesentliche Probleme der Psychologie, Linguistik, Mathematik, Ingenieurwis senschaften und des Managements lösen. Fehlschläge blieben nicht aus: So erwies sich das Projekt der automatischen Sprachübersetzung, dessen Lösung man in greif barer Nähe sah, als enorm unterschätzte Aufgabe. Erst in den 1990er-Jahren wurde es – allerdings mit größerer Bescheidenheit – wieder in Angriff genommen. In der Entwicklung der Künstlichen Intelligenz im letzten Jahrhundert kann man mehrere Phasen unterscheiden: Die Gründungsphase Ende der 1950er-Jahre, gekenn zeichnet durch erste Ansätze zur symbolischen, nichtnumerischen Informationsver arbeitung, beschäftigte sich mit der Lösung einfacher Puzzles, dem Beweisen von Sät zen der Logik und Geometrie, symbolischen mathematischen Operationen, wie unbe stimmter Integration, und Spielen wie Dame und Schach. Das Gewicht lag darauf, die grundsätzliche technische Machbarkeit zu zeigen. Wesentliches Forschungsziel war – im Sinne der kognitiven KI – grundsätzliche Prinzipien menschlichen intelligenten Verhaltens maschinell umzusetzen. In dieser ersten Phase – oft durch die Bezeich nung „Power-Based Approach“ charakterisiert, erwartete man sehr viel von allgemei nen Problemlösungsverfahren, deren begrenzte Tragweite allerdings bald erkennbar wurde.
erkennen und anzuwenden. Intelligenz dagegen umfasst viel mehr, auch Emotionen, Kreativität, Mei nungsfreiheit, Autonomie. Das alles kann ein Computer nicht.“ 9 Die Vertreter des Digitalen Humanismus weisen bei einer derartigen Identifikation u.E. zu Recht auf einen kategorialen Fehler hin [54].
8 | 1 Einleitung
Die zweite Entwicklungsphase der KI ist gekennzeichnet durch die Einrichtung von Forschungsgruppen an führenden amerikanischen Universitäten, die begannen, zentrale Fragestellungen der Künstlichen Intelligenz systematisch zu bearbeiten, z. B. Sprachverarbeitung, automatisches Problemlösen und visuelle Szenenanalyse. In dieser Phase begann die massive Förderung durch die „Advanced Research Projects Agency“ (ARPA) des US-amerikanischen Verteidigungsministeriums. In den 1970er-Jahren begann eine dritte Phase in der Entwicklung der KI, in der u. a. der Entwurf integrierter Robotersysteme und „expertenhaft problemlösen der Systeme“ im Mittelpunkt stand. Letztere machten Gebrauch von umfangreichen codierten Wissensbeständen über bestimmte Gebiete, zunächst in Anwendungen wie symbolische Integration oder Massenspektrometrie. Im Gegensatz zum „PowerBased Approach“ trat die Verwendung formalisierten Problemlösungswissens und spezieller Verarbeitungstechniken in den Vordergrund, was durch die Bezeichnung „Knowledge-Based Approach“ charakterisiert wird. Durch diese Schwerpunktsetzung wurden große Fortschritte bei Techniken der Wissensrepräsentation und in der Sys temarchitektur, besonders im Hinblick auf Kontrollmechanismen, erzielt. Im weiteren Verlauf wurde erhebliches Gewicht auf komplexe Anwendungen gelegt: Erkennung kontinuierlich gesprochener Sprache, Analyse und Synthese in der Chemie, medizi nische Diagnostik und Therapie, Prospektion in der Mineralogie, Konfiguration und Fehleranalyse technischer Systeme. Zu dieser Zeit waren auch in Europa, vor allem in Großbritannien und Deutschland, KI-Forschungsgruppen an verschiedenen Univer sitäten entstanden und Förderprogramme installiert. Das Gebiet wurde umfassend mathematisiert und das Konzept der Wissensverarbeitung präzisiert. Gegen Mitte der 1980er-Jahre folgte der AI Winter. Die stark auf wissensbasierte Systeme ausgerichteten Entwicklungen stießen an Grenzen, und in der Konsequenz wurden auf Symbolverarbeitung basierende Ansätze, die bis dahin die KI-Forschung dominierten, zunehmend kritisch gesehen. Es begann die vierte Phase der KI, in der subsymbolische Ansätze, insbesondere künstliche neuronale Netze, als Alternative zur symbolverarbeitenden KI ins Zentrum rückten. In den 1990er-Jahren wurden neue Themen wie Situiertheit, Verteiltheit und Mul tiagentensysteme sowie Maschinelles Lernen aufgegriffen. Es ist ein deutlicher Trend zu integrierten Ansätzen zu beobachten und eine entsprechende Erweiterung der Be griffe „Wissensverarbeitung“ und „intelligentes System“ auf die neuen Themen. An wendungen und Anwendungsperspektiven (in vielen Fällen mit dem Boom des Inter nets verbunden) beeinflussen die aktuellen Forschungsarbeiten in einem sehr hohen Maß. Zudem wurde der Bedarf deutlich, heterogene Wissensquellen in übergreifen den Anwendungen zusammenzuführen und vorhandene Wissensbestände kurzfristig auf konkrete Einsatzzwecke zuschneiden zu können. Bis etwa 2012 hat sich die KI-Forschung methodisch und technologisch deutlich weiterentwickelt – wie etwa durch den Erfolg von IBMs Frage-Antwort System Wat son belegt [21], das 2011 in der Quizshow Jeopardy gegen die bis dahin erfolgreichsten
1 Einleitung
| 9
Menschen gewann. Jedoch wurde in dieser Zeit KI unter anderem Namen betrieben.¹⁰ Der Begriff „Künstliche Intelligenz“ wurde als „verbrannt“ erachtet und stattdessen wurden Bezeichnungen wie intelligente Systeme, kognitive Systeme oder intelligente Agenten verwendet. Dies änderte sich schlagartig mit dem Big Bang of Deep Learning, der insbesonde re durch die Erfolge bei der Objekterkennung mit deep convolutional neural networks (CNNs) ausgelöst wurde [36]. Durch Fortschritte in der Hardware – vor allem durch Nutzung von GPUs – wurde es möglich, mit enorm großen Datenmengen deutlich komplexere neuronale Netze zu trainieren als zuvor. Gleichzeitig erlauben die neuen Netzarchitekturen, dass Maschinelles Lernen nun direkt auf Rohdaten angewendet werden kann und keine Vorverarbeitung zur Extrak tion vordefinierter Merkmale mehr notwendig ist. Bereits länger vorhandene Ansätze konnten nunmehr erfolgreich auf komplexe Probleme angewendet werden. So wur de die von Hochreiter und Schmidhuber bereits 1997 vorgeschlagene rekurrente Netz werkarchitektur Long Short-Term Memory (LSTM) [32] mit GoogleTranslate erfolgreich für die maschinelle Übersetzung eingesetzt. Das bereits seit den 1990ern für Planungs probleme und Spiele eingesetzte „Reinforcement Learning“ [73] ermöglichte es, dass mit AlphaGo erstmalig ein Computerprogramm gegen den menschlichen Großmeister in Go gewinnen konnte [66]. Im Jahr 2019 wurden Yoshua Bengio, Geoffrey Hinton und Yann LeCun mit dem Turing Award ausgezeichnet und damit für ihre konzeptionellen und technologischen Arbeiten geehrt [37], die tiefen neuronalen Netzen zu ihrem großen Erfolg verholfen und damit auch dem Forschungsgebiet KI neue Beachtung gebracht haben. In der Öffentlichkeit wurde KI zunächst fast ausschließlich als Synonym für tiefe neuronale Netze verstanden. Inzwischen wird jedoch zunehmend deutlich, dass KIForschung ein breites Spektrum an Themenfeldern und Methoden adressiert. Für viele Anwendungsbereiche wird deutlich, dass die Anforderungen von tiefen Netzen an die notwendige Menge und Qualität von Daten kaum erfüllbar sind [62].¹¹ Entsprechend steigt das Interesse an weniger datenintensiven Ansätzen [67] sowie an der Kombina tion von Maschinellem Lernen und wissensbasierten Inferenzmethoden [19; 27]. Aktuell ist die KI-Forschung geprägt durch ein neues Interesse an Kognitionsfor schung (Human-Level AI), durch einen starken Fokus auf probabilistischen Ansätzen und Maschinellem Lernen und durch zahlreiche technische Fortschritte im algorith mischen Bereich sowie die Erschließung neuer Anwendungsbereiche wie Digital (bzw. Computational) Humanities.
10 Markoff, John (14 October 2005): Behind Artificial Intelligence, a Squadron of Bright Real People. The New York Times. 11 So wird u. a. versucht, durch die Organisation eines massiven Einsatzes menschlicher Arbeitskraft geeignete Datenmengen aufzubereiten und annotieren zu lassen; siehe z. B. “Amazon Mechanical Turk“, https://www.mturk.com/ (30.03.2020).
10 | 1 Einleitung
Was die kurz- und mittelfristige Entwicklung der Forschung und Entwicklung in der KI bestimmen wird, ist schwer abzuschätzen. Die in jüngster Zeit genannten pri vaten und öffentlichen Investitionsvolumina lassen jedoch erwarten, dass vor allem verschiedene Formen des Maschinellen Lernens im Vordergrund stehen werden. Den noch gibt es einige Fragen, ohne deren Lösung keine entscheidenden Fortschritte er reicht werden können. Dies ist zum einen das Problem des Kontexts in offenen Wel ten. Alle Verfahren der KI, symbolische und nichtsymbolische, sind letztlich eng, d. h. auf begrenzte Anwendungsbereiche, fokussiert. Darin können sie, gerade auch ler nende Systeme, sehr erfolgreich sein (Kapitel 11 und 12). Allerdings haben solche Er folgsmeldungen zu Fehleinschätzungen ihrer Leistungsfähigkeit beigetragen. Gerade Spiele waren von Anfang an ein beliebtes Testfeld der KI wegen ihrer präzisen Regeln, einfachen Erfolgsbewertungen und Optimierungsmöglichkeiten. Wird jedoch der Be reich durch das Eintreten „unerwarteter“ Ereignisse überschritten, wird Robustheit zum entscheidenden Problem (Kapitel 13; eine Analyse und einige Lösungsansätze hierfür präsentiert u. a. auch Dietterich [20]). In Regelfällen mag man mit reinen Funk tionsmodellen zufrieden sein, doch spätestens beim ersten Ausnahmefall wird nach Erklärungsmodellen gefragt. Damit zusammenhängend ist ein weiterer Aspekt der of fenen Welten die Notwendigkeit, Alltagswissen (common sense) einzubeziehen. Da zu gehört nicht nur die Fähigkeit, zu einem gewissen Grad Abstraktionen zu leisten und Kausalitäten maschinell nachzuvollziehen, sondern auch das zu approximieren, was Menschen in besonderer Weise auszeichnet, nämlich Handlungen zu verstehen und zu erklären. Erklärung durch Angabe von Gründen, nachvollziehbare Argumen tationen und Schlüsse wurde bereits als aktuelles Forschungsthema erwähnt, und es erscheint plausibel, dass dies nur mithilfe kognitiver Modelle und damit, technisch gesprochen, hybrider Systemarchitekturen zu erreichen ist [44].¹² Ohne eine derarti ge Modellbildung ist schon die Unterscheidung zwischen schlichter Korrelation und Kausalität schlechterdings nicht möglich – was beim aktuellen Stand der Technik der Fall ist. Trivialerweise kann von Kausalität als theoretischem Begriff nur gesprochen werden, wenn man über eine geeignete Theorie verfügt: „. . . die Welt, erkenntnistheo retisch betrachtet, [ist uns] nicht unmittelbar gegeben. . . – wir sehen sie (wie schon bei Kant nachzulesen) durch unsere Unterscheidungen, durch unsere Erfahrungen, durch unsere Theorien. . . “¹³ Mit Entwicklungsperspektiven der KI und ihren gesellschaftlichen Wirkungen be fassen sich seit einigen Jahren etliche breit angelegte Initiativen und daraus hervor gegangene Studien. An prominenter Stelle auf nationaler Ebene sind hier zu nen nen die Studie „Unsere gemeinsame digitale Zukunft“ des Wissenschaftlichen Beirats der Bundesregierung Globale Umweltveränderungen¹⁴ und auf europäischer Seite die
12 An dieser Stelle sei explizit auf die detaillierte Diskussion bei Marcus und Davis [41] hingewiesen. 13 Mittelstraß [46, S. 290]. 14 https://www.wbgu.de/de/ und https://www.wbgu.de/de/publikationen/publikation/unseregemeinsame-digitale-zukunft (30.03.2020).
1 Einleitung
|
11
„Vision“ von CLAIRE, der Confederation of Laboratories for Artificial Intelligence Re search in Europe.¹⁵ Als besonders bemerkenswert dürfen in diesem Zusammenhang auch jüngste Entwicklungen in den USA gelten, vor allem das „AI Now Institute“ der New York University¹⁶ und AI100, die „One Hundred Year Study on Artificial Intelli gence“¹⁷ am „Stanford Institute for Human-Centered Artificial Intelligence“¹⁸. Eine kri tische Perspektive auf den sozialen, kulturellen und politischen Kontext der KI nimmt das AI Now Institute ein, das eine Reihe von Publikationen vorgelegt hat, die den Kern themen des Instituts – Freiheit und Rechte, Arbeitswelt, Inklusion, Sicherheit und Governance – gewidmet sind, zuletzt den AI Now Report 2019.¹⁹ Noch breiter angelegt ist die AI100-Initiative, die sich in mehreren Berichten mit dem Fortschritt der KI, ih rem Einsatz und Transformationspotenzial im Hinblick auf Forschung, Bildung und Politik in verschiedenen Bereichen der Wirtschaft und Gesellschaft befasst.²⁰ Diese ist mittlerweile angesiedelt am Stanford Institute for Human-Centered AI, das seine Zielsetzung auf der o. g. Website folgendermaßen beschreibt: „Artificial Intelligence has the potential to help us realize our shared dream of a better future for all of hu manity. At Stanford HAI, our vision is led by our commitment to studying, guiding and developing human-centered AI technologies and applications.“ Der ebenfalls dort be heimatete „2019 AI Index Report“²¹, für den weltweit einschlägige Daten erhoben und ausgewertet wurden, soll als Basis für fundierte und informierte Diskurse über den Stand der KI dienen.
Paradigmen der KI Symbolische Repräsentation – die Wissensebene In allen Entwicklungsphasen der KI wurde mit jeweils verschiedenen Ansätzen das Ziel verfolgt, Prinzipien der Informationsverarbeitung zu erforschen und zwar da durch, dass 1. strikte Formalisierungen versucht und 2. exemplarische Realisierungen durch Implementation vorgenommen werden. Dabei galt zentrale Aufmerksamkeit der Repräsentation und Verarbeitung von Sym bolen als wichtige Basis interner Prozesse, von denen man annimmt, dass sie rationa 15 https://claire-ai.org/ (30.03.2020). 16 https://ainowinstitute.org/ (30.03.2020). 17 https://ai100.stanford.edu/ (30.03.2020). 18 https://hai.stanford.edu/ (30.03.2020). 19 https://ainowinstitute.org/AI_Now_2019_Report.pdf (30.03.2020). 20 Zuletzt „Artificial Intelligence and Life in 2030“, 2016, https://ai100.stanford.edu/sites/g/files/ sbiybj9861/f/ai100report10032016fnl_singles.pdf (30.03.2020). 21 https://hai.stanford.edu/research/ai-index-2019 (30.03.2020).
12 | 1 Einleitung
les Denken konstituieren. In der Arbeit an ihrem „Logic Theorist“ hatten Simon und Newell erste Eindrücke von den Möglichkeiten des Computers zur Verarbeitung nicht numerischer Symbole erlangt. Symbole wurden dabei als bezeichnende Objekte ver standen, die den Zugriff auf Bedeutungen – Benennungen und Beschreibungen – er möglichen. Die symbolische Ebene, repräsentiert in den frühen Arbeiten von Newell, Shaw und Simon [52] wie auch 1956 von Bruner, Goodnow und Austin [13], ermöglicht die Betrachtung von Plänen, Prozeduren und Strategien; sie stützt sich ebenfalls auf Vorstellungen regelgeleiteter generativer Systeme [16]. Der wichtigste Aspekt ist hierbei, dass sich geistige Fähigkeiten des Menschen auf der symbolischen Ebene unabhängig von der Betrachtung neuronaler Architekturen und Prozesse untersuchen lassen.²² Gegenstand der „symbolischen KI“ sind folglich nicht das Gehirn und Prozesse des Abrufs von Gedächtnisinhalten, sondern vielmehr die Bedeutung, die sich einem Prozess aufgrund symbolischer Beschreibungen zuord nen lässt. Unbestreitbar hatten die Arbeiten von Newell und Simon in der Präzisie rung des Informationsverarbeitungsparadigmas einen entscheidenden forschungs orientierenden Einfluss, der zur Ausformung der symbolischen KI führte. Die The se, Intelligenzphänomene allein auf der Basis von Symbolverarbeitung untersuchen zu können, ist mittlerweile durch den Einfluss der Kognitions- und der Neurowissen schaften relativiert worden; es zeigte sich, dass zur Erklärung bestimmter Phänome ne – insbesondere der Wahrnehmung – der Einbezug der physikalischen Basis, auf der Intelligenz realisiert ist, zu weiteren Erkenntnissen führt. Allerdings ist damit der Ansatz der symbolischen KI nicht obsolet, sondern eher sinnvoll ergänzt und zum Teil integriert worden. Ein zentrales Paradigma der symbolischen KI wurde mit der Beschreibung des intelligenten Agenten (general intelligent agent) [53] formuliert. Auf einer abstrakten Ebene betrachten die Autoren den Gedächtnisbesitz des Individuums und seine Fä higkeit, beim Handeln in der Welt darauf aufzubauen, als funktionale Qualität, die sie mit Wissen bezeichnen. Der intelligente Agent verfügt über Sensoren, zur Wahr nehmung von Information aus seiner Umgebung, und über Aktuatoren, mit denen er die äußere Welt beeinflussen kann. Spezifisch für diese Auffassung ist, dass der Agent zu einem internen „Probehandeln“ fähig ist: Bevor er in der Welt handelt und sie da durch möglicherweise irreversibel verändert, manipuliert er eine interne Repräsenta tion der Außenwelt, um den Effekt alternativer, ihm zur Verfügung stehender Metho den abzuwägen. Diese sind ihm in einem internen Methodenspeicher verfügbar, und ihre Exploration wird durch ebenfalls intern verfügbares Weltwissen geleitet. Die Fragen, mit denen sich vor allem Newell in den frühen 1980er-Jahren befasste, waren die folgenden [51]: – Wie kann Wissen charakterisiert werden?
22 Diese These ist allerdings nicht unumstritten; vor allem von Forschern auf dem Gebiet der künst lichen neuronalen Netze wurde versucht, sie zu relativieren.
1 Einleitung
– –
| 13
Wie steht eine solche Charakterisierung in Beziehung zur Repräsentation? Was genau zeichnet ein System aus, wenn es über „Wissen“ verfügt?
Die Hypothese einer Wissensebene (Knowledge Level Hypothesis) wurde von Newell in seinem Hauptvortrag auf der ersten National Conference on Artificial Intelligence in Stanford 1980 [51] unterbreitet. In ihr wird eine besondere Systemebene postuliert, über die Ebene der Programmsymbole (und die Ebenen von Registertransfer, logi schem und elektronischem Schaltkreis und physikalischem Gerät) hinausgehend, die durch Wissen als das Medium charakterisiert ist. Repräsentationen existieren auf der Symbolebene als Datenstrukturen und Prozesse, die einen Wissensbestand auf der Wissensebene realisieren. Die Verbindung zwischen Wissen und intelligentem Verhal ten wird durch das Rationalitätsprinzip beschrieben, welches besagt: Wenn ein Agent Wissen darüber hat, dass eine seiner möglichen Aktionen zu einem seiner Ziele bei trägt, dann wird der Agent diese Aktion wählen. In dieser Perspektive spielt Wissen die Rolle der Spezifikation dessen, wozu eine Symbolstruktur in der Lage sein soll. Wichtiger noch wird mit dieser Konzeption Wissen als eine Kompetenz betrachtet – als ein Potenzial, Aktionen zu generieren (zu handeln) – und mithin als eine abstrakte Qualität, die an eine symbolische Repräsentation gebunden sein muss, um einsatzfä hig zu sein. Newell und Simon postulieren, dass ein dafür geeignetes physikalisches Symbolsystem zur Ausstattung eines jeden intelligenten Agenten gehört [50; 53]. Eine zentrale Feststellung in Newells o. g. Ansatz besagt, dass Logik ein funda mentales Werkzeug für Analysen auf der Wissensebene ist und dass Implementatio nen von Logikformalismen als Repräsentationsmittel für Wissen dienen können. Der Wissensebenenansatz in der KI ist damit ein Versuch der Mathematisierung bestimm ter Aspekte der Intelligenz – unabhängig von Betrachtungen ihrer Realisierung auf Symbolebene; dies betrifft vor allem die Aspekte des rationalen Handelns und des lo gischen Schlussfolgerns beim Problemlösen. Dementsprechend werden Logikforma lismen vielfach in der KI benutzt, um eine explizite Menge von Überzeugungen (für wahr gehaltene Aussagen, engl. beliefs) eines rationalen Agenten zu beschreiben. Ei ne solche Menge von Überzeugungen, ausgedrückt in einer Repräsentationssprache, wird typischerweise als Wissensbasis bezeichnet. Diese logikorientierte Auffassung der Wissensebene hat zur Klärung zahlreicher Debatten, die bis Ende der 1970er-Jahre um den Begriff der internen Repräsentation ge führt wurden, beigetragen [7]. Formalismen für die Wissensrepräsentation sind mitt lerweile sehr weitgehend und grundsätzlich untersucht worden. Zentrale Gesichts punkte sind hier u. a. die Ausdrucksfähigkeit und die Komplexität von Repräsentatio nen, aber auch ihre quantorenlogische Rekonstruktion bzw. Spezifikation (Kapitel 2). Ein standardisiertes Vorgehen bei der Wissens- und Domänenmodellierung hat sich als ausgesprochen schwierig erwiesen. Deshalb stellte sich immer stärker die Fra ge nach einer Wiederverwendbarkeit schon existierender Wissensbasen bzw. nach ei ner Aggregation großer Wissensbasen aus bibliotheksmäßig gesammelten oder inkre mentell entwickelten Teilen (Knowledge Sharing [49]). Typischerweise ist bei wissens
14 | 1 Einleitung
basierten Systemen der Gegenstandsbereich ein eng umrissenes Spezialgebiet z. B. aus den Natur- oder Kulturwissenschaften, in dem ein hohes Potenzial an spezifischer Problemlösefähigkeit in einem weitgehend vorab festgelegten Verwendungsrahmen verlangt wird. Bei der Entwicklung von Systemen, die zur semantischen Verarbeitung von natürlicher Sprache fähig sind, geht es dagegen zentral um die Identifikation und Modellierung intersubjektivierbarer Bestände an Welt- oder Hintergrundwissen. Die Modellierung von Alltagswissen, d. h. von allgemeinen Kenntnissen und Fertigkeiten, erhält einen wesentlich höheren Stellenwert. Richten sich die systematischen Ansätze bei traditionellen wissensbasierten Sys temen vornehmlich auf Strukturen und Typentaxonomien von Problemlösungsauf gaben („Problemlöseontologien“), so stellt die systematische Untersuchung formal repräsentierbarer kognitiver Modelle menschlicher Weltwahrnehmung eher noch grö ßere Anforderungen²³. Schnell zeigen sich Grenzen, wo Alltagswissen und Alltagser fahrung in einer offenen Welt entscheidend zum Tragen kommen. Menschliches Pro blemlösen zeichnet sich dadurch aus, dass das dabei verwendete Wissen zumeist vage und unvollständig ist. Die Qualität menschlicher Problemlöser zeigt sich gerade dar in, dass und wie sie unerwartete Effekte und Ausnahmesituationen aufgrund ihrer Berufserfahrung bewältigen können, dass sie aus Erfahrung lernen, ihr Wissen al so ständig erweitern, und dass sie aus allgemeinem Wissen nicht nur nach festen Schlussregeln, sondern auch durch Analogie und mit Intuition Folgerungen gewin nen. Es geht nicht nur darum, generische Problemlöseaufgaben zu betrachten, son dern auch, das Fakten- und Relationengefüge diverser Domänen wie auch Strukturen von Wissensmodellen des Menschen zu erschließen – z. B. durch gestaffelte generi sche und bereichsbezogene formale „Ontologien“. Derartige Ansätze sind in jüngerer Zeit durch den Versuch, heterogene Informationsbestände im Internet semantisch zu erschließen, erheblich beflügelt worden. Dies führte zu signifikanten Fortschritten bei logikbasierten Repräsentationssprachen, insbesondere den sog. Beschreibungslogi ken, und effizienten Inferenzmaschinen hierfür.²⁴
Nicht symbolische Ansätze und Maschinelles Lernen Bereits 1949, als die ersten Digitalrechner ihren Siegeszug angetreten hatten, wurde von D. O. Hebb die Grundlage für ein Verarbeitungsmodell formuliert, das eher in der Tradition des Analogrechnens steht [30]. Er postulierte, dass eine Menge von (forma len) Neuronen dadurch lernen könnte, dass bei gleichzeitiger Aktivierung zweier Neu ronen die Stärke ihrer Verbindung vergrößert würde. F. Rosenblatt griff diese Idee auf und arbeitete sie zu einer Alternative zum Konzept der KI in symbolverarbeitenden Maschinen aus: 23 Frühe Beispiele in diesem Paradigma waren LILOG [35] und das nach wie vor aktive CYC [38]. 24 Web Ontology Language (OWL) für das Semantic Web (Kapitel 18) [31].
1 Einleitung
| 15
„Viele der Modelle, die diskutiert wurden, beschäftigen sich mit der Frage, welche logische Struk tur ein System besitzen muss, um eine Eigenschaft X darzustellen. . . Ein alternativer Weg, auf diese Frage zu schauen, ist folgender: Was für ein System kann die Eigenschaft X (im Sinne einer Evolution) hervorbringen? Ich glaube, wir können in einer Zahl von interessanten Fällen zeigen, dass die zweite Frage gelöst werden kann, ohne die Antwort zur ersten zu kennen.“ [58]
1956, im selben Jahr, als Newell und Simons Programm einfache Puzzles lösen und Sätze der Aussagenlogik beweisen konnte, war Rosenblatt bereits in der Lage, ein künstliches neuronales Netzwerk, das Perzeptron, lernen zu lassen, gewisse Arten ähnlicher Muster zu klassifizieren und unähnliche auszusondern. Er sah darin eine gewisse Überlegenheit seines subsymbolischen Ansatzes und stellte fest: „Als Konzept, so scheint es, hat das Perzeptron ohne Zweifel Durchführbarkeit und Prinzip nicht menschlicher Systeme begründet, die menschliche kognitive Funktionen darstellen können. . . Die Zukunft der Informationsverarbeitungssysteme, die mit statistischen eher als logischen Prin zipien arbeiten, scheint deutlich erkennbar.“ [58]
Zunächst jedoch gewann der symbolische Ansatz in der KI die Oberhand, was nicht zuletzt darin begründet war, dass Rosenblatts Perzeptron gewisse einfache logische Aufgaben nicht lösen konnte – eine Beschränkung, die aber ohne Weiteres überwun den werden kann. So erfuhr Rosenblatt seit dem Ende der 1980er-Jahre eine Rehabili tation, und das Arbeitsgebiet der neuronalen Netze bzw. des „Konnektionismus“ hat sich rapide zu einem umfangreichen Teilgebiet der KI entwickelt. Der Informatiker Bernd Mahr hat diese Konzeption treffend charakterisiert, sodass wir hier auf seine Darstellung zurückgreifen [40]: „Für die Erzeugung künstlicher Intelligenz wird ein Maschinenmodell zugrundegelegt, das Ar beitsweise und Struktur des Neuronengeflechts im Gehirn imitiert. Den Neuronenkernen mit ih ren Dendriten und deren Verknüpfung über Synapsen entsprechen ‚processor‘-Knoten, die über Verbindungen miteinander gekoppelt sind. . . . Die Idee des Lernens durch die Stärkung der Ver bindung, die auch schon Rosenblatts Perzeptron zugrundelag, findet sich hier in der Fähigkeit wieder, dass die Gewichte der Verbindungen sich ändern können und dass so nicht nur das Pat tern der Verbindungen wechselt, sondern auch das Verhalten des gesamten Systems. . . . Das ‚Wissen‘, das in einem System steckt, erscheint dann als Pattern der Verbindungsgewichte. . . . Künstliche neuronale Netze geben als Computerarchitektur die Manipulation bedeutungstragen der Symbole auf . . . Sie stellen ‚Wissen‘ . . . nicht als aus einzelnen Wissensbestandteilen zusam mengesetztes Ganzes dar.“
Als Vorteile künstlicher neuronaler Netze gelten ihre Eigenschaften der verteilten Re präsentation, der Darstellung und Verarbeitung von Unschärfe, der hochgradig paral lelen und verteilten Aktion und der daraus resultierenden Geschwindigkeit und hohen Fehlertoleranz. Überdies wird mit den Modellierungsansätzen der neuronalen Netze auch ein wichtiges Bindeglied zu den Neurowissenschaften und damit eine Erweite rung des Erkenntnisfortschritts verfügbar.
16 | 1 Einleitung
Im ersten Jahrzehnt des 21. Jahrhunderts wurden in der Forschung im Bereich des Maschinellen Lernens die neuronalen Netze weitgehend von statistischen Ansätzen verdrängt. Das Interesse an statistischen Methoden begann durch den großen Erfolg von Support Vector Machines im Bereich der automatischen Klassifikation [64]. Zudem wurden klassische probabilistische Ansätze wie bayessche Netzwerke – im Grunde genommen ein hybrider Ansatz – weiterentwickelt (z. B. durch Kombination mit Lo gikkonstrukten [8; 55; 57]) und erfolgreich sowohl in der kognitiven Modellierung [74] als auch im Maschinellen Lernen [5] eingesetzt. Mit den Erfolgen des Deep Learning (Kapitel 12) wendete sich das Blatt aber dann im zweiten Jahrzehnt [63]. Die neuen, tiefen Architekturen brachten große Erfolge in vielen Anwendungsbereichen von der Objekterkennung mit CNNs über die maschinelle Übersetzung mit rekurrenten Netzen wie LSTMs bis zu Reinforcement Learning [73] für komplexe Spiele wie Go [24; 66]. Zu nehmend wird jedoch erkannt, dass für viele praktische Anwendungsbereiche nicht genügend Daten in genügend hoher Qualität bereitgestellt werden können, damit sol che rein datengetriebenen Ansätze erfolgreich eingesetzt werden können [62]. Insbe sondere in sicherheitskritischen Bereichen wie automatischem Fahren oder medizi nischer Diagnose wird gefordert, dass Entscheidungen von Blackbox-Ansätzen – ins besondere mit tiefen Netzen gelernten Klassifikatoren – durch Erklärungskomponen ten transparent und nachvollziehbar gemacht werden müssen [41; 44; 48; 59]. Seit 2019 werden zunehmend Stimmen laut, dass erklärbare, adaptive Verfahren entwi ckelt werden müssen und dies die „Dritte Welle der KI“ sein wird.²⁵
Verteilung und Situiertheit Unter „Agenten“ werden heute vielfach hardware- oder auch softwarebasierte Syste me („Softwareagenten“) verstanden, die als mehr oder weniger unabhängige Einhei ten innerhalb größerer Systeme agieren. Solche Systeme werden bereits in vielen Dis ziplinen betrachtet, nicht nur in der KI, sondern als Modellierungsmittel z. B. auch in der Biologie, den Wirtschafts- und den Sozialwissenschaften. Der Einsatz von Agen tentechniken interessiert uns in der KI besonders im Hinblick auf Systeme, die in einer dynamischen, sich verändernden Umgebung eingesetzt werden und in größerem Um fang Anteile von Lösungen eigenständig erarbeiten können. Ähnlich wie der allgemei nere Begriff „Objekt“ befindet sich der Begriff des „Agenten“ stark in der Diskussion; in der Literatur lässt sich deswegen kaum eine allgemein akzeptierte Definition fin den. Nach Russell und Norvig kann alles als Agent angesehen werden, was seine Um gebung über Sensoren aufnimmt (Perzepte) und in der Umgebung Handlungen über
25 Die „drei Wellen der KI“ werden kurz als Describe, Learn und Explain bezeichnet. Zunächst wa ren wissensbasierte Ansätze im Fokus, danach statistisches Lernen, und nun soll die Entwicklung von adaptiven, interaktiven Ansätzen im Mittelpunkt stehen (https://artificialintelligence-news.com/ 2018/09/28/darpa-third-wave-artificial-intelligence/ (30.03.2020).
1 Einleitung
| 17
Aktuatoren ausführt (Aktionen) [60]. Dadurch können Agenten auf ihre Umgebung Einfluss nehmen und ihren Zustand sowie zukünftige Perzepte beeinflussen. Konkre ter ist damit ein Gesamtsystem bezeichnet, das Fähigkeiten der Wahrnehmung, Hand lung und Kommunikation miteinander verbindet und, bezogen auf eine zu erfüllende Aufgabe, situationsangemessen ein- und umsetzen kann. Dabei zeichnen sich unter schiedlich stark gefasste Agentenbegriffe ab [79; 80]. In einem schwachen Sinne ist ein Agent ein System mit Eigenschaften der Autonomie (selbst gesteuertes Handeln ohne direkte Außenkontrolle), sozialen Fähigkeiten (Kommunikation und Kooperation mit anderen Agenten), Reaktivität (Verhalten in Erwiderung äußerer Stimuli) und Proak tivität (zielorientiertes Verhalten und Übernahme der Initiative). In der KI werden zu meist stärkere Annahmen gemacht; hier kann ein Agent zusätzlich über „mentalisti sche“ Eigenschaften verfügen, die mit Begriffen wie Wissen, Überzeugung, Intention, Verpflichtung und zuweilen auch Emotion charakterisiert werden. Eines der grundsätzlichen Probleme in bisherigen Intelligenzmodellen der KI wie auch in vielen technischen Anwendungen liegt allerdings darin, dass das benötigte Weltwissen kaum jemals vollständig verfügbar bzw. modellierbar ist. Dies beruht auf der kontextuellen Variabilität und der Vielzahl von Situationen, mit denen ein intel ligenter Agent konfrontiert sein wird. Deshalb geht die Forschungsrichtung der „si tuierten KI“ von der Erkenntnis aus, dass die Handlungsfähigkeit eines intelligenten Agenten entscheidend von seiner Verankerung in der aktuellen Situation abhängt [12]. Situiertheit bezieht sich auf die Fähigkeit eines intelligenten Systems, die aktuelle Si tuation – durch Wahrnehmung seiner Umgebung oder durch Kommunikation mit ko operierenden Partnern – in weitestgehendem Maße als Informationsquelle auszunut zen, um auch Situationen bewältigen zu können, für die kein komplettes Weltmodell vorliegt [39]. Diese Ansätze haben entscheidenden Einfluss auf die Entwicklung ei ner kognitiven Robotik gehabt, aber auch auf Techniken für Softwareagenten, die zur Erfüllung ihrer Aufgaben durch Situierung in der digitalen Umwelt zusätzliche Infor mationen beschaffen können. Häufig wird einem Agenten einprogrammiert, rational vorzugehen, d. h., das Richtige zu tun – auf der Grundlage dessen, was man weiß, was eben nicht Perfekti on oder Allwissenheit bedeutet, sondern beinhaltet, die vermuteten Konsequenzen des Handelns zu berücksichtigen und Aktionen auszuführen, die einen Agenten dem gesetzten Ziel näherbringen. Während in der klassischen Sichtweise das Ziel häufig vom Designer vorgegeben ist, hat sich in den letzten Jahren vermehrt gezeigt, dass dieses Vorgehen zu kurz gedacht ist. Ein Ziel an sich zu formulieren ist schwierig genug, mögliche Konsequenzen sind allerdings noch schwieriger absehbar. Von da her ist immer häufiger der Mensch als expliziter Bestandteil der Umgebung in die Modellierung aufgenommen worden [15; 59], wobei die Zielsetzung des Menschen nicht näher bekannt ist. Das Ziel liegt dabei zwischen beweisbar nutzbringender KI (provably beneficial AI, [59]) oder interpretierbarem Verhalten und Erklärbarkeit [15], was langfristig erlauben sollte, das Verhalten von Agenten einer ethischen Grundlinie folgend und inhärent nachvollziehbar zu machen.
18 | 1 Einleitung
Verkörperung (Embodiment) Ein weiterer Paradigmenwechsel in der KI betrifft die wissenschaftliche Untersuchung verkörperter künstlicher Agenten in den Gebieten „künstliches Leben“ (Artificial Life), „humanoide Roboter“ und „virtuelle Menschen“. Hiermit verbindet sich eine Abkehr vom strengen Funktionalismus, in dem angenommen wird, dass kognitive Vorgänge prinzipiell unabhängig von ihrem Substrat untersucht werden können. Die Anwen dungsforschung hat diesen Wechsel mit Richtungen wie perzeptiven oder anthropo morphen Mensch-Maschine-Schnittstellen und Interface-Agenten aufgegriffen. Die se Vorhaben werden dadurch komplementiert, dass neuartige Interface-Technologien verfügbar werden, wie Kraft- und Positionssensoren, Miniaturkameras, berührungs empfindliche und immersive Displays der virtuellen Realität. Erste Hardwareplattfor men für humanoide Roboter sind kommerziell verfügbar und stellen eine Basis für physische Assistenzsysteme in der häuslichen oder öffentlichen Umgebung bereit. Mit synthetischen Agenten, die komplexe Kommunikationsfähigkeiten des Menschen ap proximieren, steht eine Revolution der heute bekannten Mensch-Technik-Schnittstel len bevor. Dies hat zu neuen Forschungsrichtungen geführt, die unter Metaphern wie „ver haltensbasierte KI“, „situierte KI“, „verkörperte KI“ etc. bekannt wurden. In diesen neuen Richtungen wird die Interaktion von Agent und Umgebung anstelle körperloser und rein mentaler Problemlösung als Kern von Kognition und intelligentem Verhalten gesehen (z. B. [2; 12; 56]). Ihr Ziel ist es, künstliche Agenten zu bauen, die mit ihren Um gebungen interagieren und sich daran adaptieren, auch solchen, die ihnen (und ihren menschlichen Entwerfern) vorher großenteils unbekannt sind. Durch ihre Verkörpe rung sind solche Agenten kontinuierlich an die aktuelle Umweltsituation gekoppelt (d. h. situiert). Forscher in der verkörperten KI und verhaltensbasierten Robotik sind der Überzeugung, dass Verkörperung und Situiertheit auch die Hauptmerkmale na türlicher intelligenter Agenten sind und dass beides eine Basis dafür bieten könnte, das Problem zu lösen, wie Symbole in sensorischen Repräsentationen gegründet sind (symbol grounding [29]). Eine weitere Folge war die Entwicklung neuer Typen von Modellen. In der Bioro botik verwendet man Roboter, um spezifische Verhaltensphänomene zu modellieren, die an Lebewesen beobachtet werden [76]. Die Modelle zielen hier im allgemeinen auf die neuroethologische (oder in einigen Fällen neurophysiologische) Erklärungs ebene. Vor allem aber sind sie empirisch insofern, als künstliche neuronale Netzwer ke in Robotermodellen implementiert werden, die unter analogen Bedingungen wie die Lebewesen getestet und den gleichen Evaluationsmethoden unterzogen werden können wie die Untersuchung von Lebewesen in der Realwelt, z. B. in der Navigati on (z. B. [47]). Des Weiteren verwendet man Roboter zur Modellierung, um zu illus trieren, wie Verhaltensmuster, die auf wichtige Fähigkeiten natürlicher intelligenter Agenten abheben (z. B. „Lernen“, „Imitieren“ oder „Kategorisieren“) implementiert werden können. In solchen Modellen ist es weniger das Ziel, Daten zu reproduzie
1 Einleitung
| 19
ren, die in einer kontrollierten Umgebung erhoben wurden, sondern stattdessen ein detailliertes Verständnis von kognitiven Fähigkeiten in einem situierten und verkör perten Kontext zu erhalten (z. B. [11]). Mit ausdrucksfähigen Gesichtern, Gliedmaßen und Händen von Robotern richten sich die Vorhaben auf die Simulation menschen ähnlicher Fähigkeiten wie Aufmerksamkeit und emotionalem Ausdruck (z. B. [9]), Imi tationen des Greifens (z. B. [70]) und die Entwicklung von Vorformen sprachlichen Ausdrucks („Proto-Sprache“, [4]). Ein weiteres Thema in der verkörperten KI ist die empirische Untersuchung der Evolution sprachlicher Interaktion durch Modellierungsansätze, die sowohl simulier te wie robotische Agenten betreffen [68]. Hier wird argumentiert [69], dass Roboter zumindest mit basalen Kommunikationsfähigkeiten auszustatten sind, um von ein fachen Anforderungen wie Hindernisvermeidung und Navigation zu Agenten zu ge langen, von denen sich sagen ließe, sie simulierten „Kognition“. Diese Fähigkeiten müssen bottom-up von den Agenten selbst entwickelt werden, und die kommunizier baren Bezeichnungen wie auch die Kommunikationsmittel müssen in der sensomo torischen Erfahrung der Agenten ankern. In solcher Weise könnten sich Roboter zu experimentellen Untersuchungen der Entstehung von Sprache und Bedeutung her anziehen lassen. Untersuchungen der Kommunikation in vorstrukturierten simulierten Umgebun gen werden in der Forschung über sog. „virtuelle Menschen“ (virtual humans [26]) und „verkörperte konversationale Agenten“ (embodied conversational agents [14]) unter nommen. Hierbei geht es um künstliche Agenten, die menschenähnlich aussehen und agieren und in virtueller Realität mit Menschen Gespräche führen oder aufgabenbe zogen kooperieren. Ausgestattet mit einer synthetischen Stimme, verbalen Konversa tionsfähigkeiten, visuellen und mitunter auch taktilen Sensoren sollen sie ihren vir tuellen Körper einsetzen, um paralinguistische Qualitäten wie Gestik und emotionale Gesichtsausdrücke mit Sprachausgaben zu synchronisieren. Der Bau solcher Syste me ist ein multidisziplinäres Vorhaben, das traditionelle KI und das volle Spektrum der Forschung über natürliche Sprache mit einer Vielzahl von Anforderungen zusam menführt, die von der Computeranimation über Multimodalität bis hin zu sozialwis senschaftlichen Themen reichen. Der Anspruch dieser Forschung ist es, den Reichtum und die Dynamik menschlichen Kommunikationsverhaltens einzufangen, und poten zielle Anwendungen zu erproben.
Teilbereiche und Anwendungsgebiete der Künstlichen Intelligenz Mit den folgenden Kapiteln wird versucht, die etablierten Grundlagen- und Anwen dungsbereiche der KI so weit wie möglich abzudecken. Zur Frage einer systematischen Anordnung der verschiedenen Teildisziplinen der KI gibt es durchaus unterschiedli che Auffassungen. Daher wurde lediglich eine grobe Einteilung in drei große Gruppen vorgenommen, wobei der erste Teil die grundlegenden Theorien und Methoden, der
20 | 1 Einleitung
zweite Teil die darauf aufbauenden und weiterführenden Theorien und Methoden und der dritte Teil die Anwendungen umfasst. – Die Wissensrepräsentation befasst sich mit der Darstellung von Objekten, Ereig nissen und Verläufen und von Performanz- und Metawissen durch formale, im Allgemeinen logikbasierte Systeme. – Heuristische Suchverfahren und Problemlösemethoden, die dem Zweck dienen, in hochkomplexen Suchräumen mit möglichst geringem Aufwand kostengünstige Lösungswege zu finden, sind in fast allen Teilgebieten der KI von großer Bedeu tung. – Ein wichtiger Grund für eine eigene Darstellung des Wissens über Raum und Zeit liegt darin, dass es eine ausgezeichnete Rolle in sehr vielen Anwendungen der KI spielt. – Methoden der Inferenz sind grundlegend, um Folgerungen aus gegebenen Wis sensrepräsentationen automatisch zu extrahieren. Sie realisieren deduktives Schließen in der Maschine. Entsprechende Methoden werden u. a. zur Herstel lung und Überprüfung mathematischer Beweise sowie zur Analyse (Verifikation) und Synthese von Programmen angewandt. – Um aus normalerweise unvollständigem Wissen dennoch Fakten ableiten zu kön nen, die für Entscheidungen, Handlungen und Pläne erforderlich sind, werden z. B. Regeln mit Ausnahmen verwendet. Nichtmonotones Schließen behandelt all gemein den Umgang mit Verfahren, die fehlendes Wissen ergänzen. – Die Betrachtung der Kognition als Informationsverarbeitung liefert Grundlagen für eine Fülle von Methoden der KI, die sich schon immer dadurch auszeichnete, nicht nur technische Lösungen zu erarbeiten, sondern diese zur Informationsver arbeitung in Organismen und besonders beim Menschen in Bezug zu setzen. – Gerade in alltäglichen Situationen wie auch in der Praxis technischer Anwendun gen stoßen die Idealisierungen einer strikten logischen Formalisierung an Gren zen. Hier können neue Methoden zum Umgang mit unsicherem und vagem Wissen weiterhelfen. – Fallbasiertes Schließen, modellbasierte Systeme und qualitative Modellierung ge hören zum zentralen Methodeninventar wissensbasierter Systeme, deren haupt sächliche Einsatzgebiete in der Lösung komplexer Planungs-, Konfigurations- und Diagnoseprobleme liegen. – Gerade auf dem Gebiet der Planung wurden bahnbrechende Fortschritte erzielt, die zu effizienten Algorithmen für komplexe Planungsaufgaben und die dynami sche Planrevision führten. – Verfahren des Maschinellen Lernens sind die Grundlage von Programmsystemen, die aus „Erfahrung“ lernen, also neues Tatsachen- und Regelwissen gewinnen oder Priorisierungen adaptieren können. Sie sind u. a. auch für die Entdeckung zweckbestimmt relevanter Beziehungen in großen Datenmengen (Data Mining) von großer Bedeutung.
1 Einleitung
–
–
–
–
–
–
–
–
| 21
Die in den letzten Jahren vielbeachteten Ansätze der tiefen neuronalen Netze zeichnen sich dadurch aus, dass sie über eine komplexe interne Struktur an Zwi schenschichten verfügen. So wird es möglich, sehr komplexe Abbildungen zu approximieren, bei denen direkt aus Rohdaten Entscheidungen getroffen werden können. Für verschiedene Anwendungsbereiche wie Objekterkennung, Sprach verarbeitung, Spiele oder Repräsentationslernen existieren verschiedene Archi tekturen. Aktuell werden Ansätze für vertrauenswürdiges, transparentes und robustes Ma schinelles Lernen entwickelt, um die häufig intransparenten Entscheidungen von neuronalen Netzen und anderen gelernten Modellen überprüfbar und nachvoll ziehbar zu machen. Hier werden zum einen regelbasierte Ansätze eingesetzt, um interpretierbare Surrogat-Modelle zu erzeugen, zum anderen werden Ex-postErklärungen generiert, um zu verdeutlichen, wie eine Entscheidung für eine spezifische Instanz zustande kommt. Verfahren zur Verarbeitung der natürlichen Sprache richten sich darauf, Einsicht in den „Mechanismus“ der Sprache – ihren Aufbau, ihre Verarbeitung und ihre Ver wendung – zu gewinnen und diese für die Mensch-Maschine-Interaktion nutzbar zu machen. Beim Bildverstehen geht es um Aufgaben der Wahrnehmung, um Merkmale aus optischen Daten zu gewinnen und daraus Interpretationen von stehenden und bewegten Bildern zu erzeugen. Zahlreiche Aufgaben der KI können durch Systeme von Constraints modelliert und gelöst werden, sodass man hier mit Recht von einer Querschnittsmethodik der KI sprechen kann. Softwareagenten sind softwarebasierte, autonome, intelligente Systeme, die ins besondere im Umfeld des Internets eine Vielzahl von Aufgaben lösen – als ein fachstes Beispiel sei hier nur das gezielte Sammeln und Filtern von Daten ge nannt. Komplexe Aufgaben werden typischerweise durch die Kooperation meh rerer Agenten bearbeitet. Im World Wide Web, das heute einen breiten Raum in unserem beruflichen und Alltagsleben eingenommen hat, werden unstrukturierte Informationen und in formelles Wissen in Form von Hypertext dargestellt. Ziel des Semantic Web ist es, mittels Verfahren der Wissensrepräsentation Informationen strukturiert und Wis sen formal im Web verteilt bereitzustellen, sodass daraus mithilfe automatisierter Schlussfolgerungen Antworten abgeleitet werden können. In der Anfangsphase der KI nahm die Beschäftigung mit Spielen breiten Raum ein, dienten sie doch als Vehikel zur Erforschung von Heuristiken und der Ent wicklung von Strategien. Mit dem neuen Forschungsgebiet der universellen Spiele wird eine Abstraktionsebene betreten mit dem Ziel, Computerprogramme zu ent werfen, die selbstständig lernen, Spiele zu spielen, und die damit eine weit höhere und allgemeinere Intelligenz als spezielle Spielprogramme zeigen.
22 | 1 Einleitung
–
–
Von intelligenten Maschinen wird erwartet, dass sie die Umgebung wahrnehmen, zielorientierte Handlungen planen und die dabei auftretenden Entscheidungen treffen können, wie dies Menschen auch tun würden. Assistenzsysteme sollen den Nutzer in seinem Handeln dadurch unterstützen, dass sie die Kontrolle und Steue rung der technischen Einrichtungen übernehmen, ohne dass der Nutzer explizit angeben muss, wie dies im Detail zu geschehen hat, um einen bestimmten Zweck zu erreichen. Mit der Entwicklung von Methoden der KI und ihres Einsatzes sind vielfältige ethische Fragen verbunden, die nicht nur für Forschung und Entwicklung der KI im engeren Sinne, sondern für die gesamte Gesellschaft relevant sind. Ihre sys tematische Darstellung und Diskussion ist eine wesentliche Voraussetzung für verantwortungsvolles Handeln in Forschung, Lehre und den praktischen Einsatz der KI.
Aus der Grundlagenforschung ging eine Reihe zunächst eher prototypischer Anwen dungssysteme hervor, viele ihrer Ergebnisse sind aber heute bereits Teil in der Praxis genutzter Anwendungen geworden. Die Vorteile der KI-Technologie sind im Wesentli chen von zweierlei Art: Zum einen hat sie neue Anwendungen eröffnet, wie z. B. im maschinellen Sprach- oder Bildverstehen, in der Robotik und mit Expertensystemen. Zum anderen aber ermöglicht sie auch bessere Lösungen für alte Anwendungen; hier zu gehören vor allem die maschinelle Unterstützung von Planen, Entscheiden und Klassifizieren sowie die Verwaltung, Erschließung und Auswertung großer Wissens bestände und schließlich die Simulation und die Steuerung technischer Anlagen. Ab etwa 1990 schien sich zunächst im Gebiet KI ein Paradigmenwechsel abzu zeichnen – von einer globalen Betrachtung intelligenten Verhaltens hin zu einer Sicht von einfacheren, interagierenden Systemen mit unterschiedlichen Repräsentationen oder auch gar keiner Repräsentation –, vertreten durch die Arbeiten zu Multiagen tensystemen, verteilter KI und neuronalen Netzwerken. Diese Ansätze bringen eine Erweiterung auf die Untersuchung „situierter“ Systeme ein, welche durch Senso ren und Aktuatoren in ständigem Austausch mit ihrer Umgebung stehen, um etwa auch während einer Problemlösung Situationsdaten aufzunehmen und auszuwerten. Doch wurden auch herkömmliche wissensbasierte Sichtweisen weiterentwickelt, so dass die heutige Situation eher durch das Eindringen wissensbasierter Methoden in vielfältige anspruchsvolle Anwendungssysteme gekennzeichnet ist. Manche Forde rungen nach einer feinkörnigen und umfassenden formalen Modellierung komple xer Anwendungsbereiche ließen sich nicht so einfach einlösen, wie man zunächst geglaubt hatte; vor allem aus Komplexitätsgründen müssen immer wieder Verein fachungen vorgenommen und Kompromisse zwischen formaler Ausdruckskraft und praktischer Beherrschbarkeit geschlossen werden. So bietet sich heute insgesamt ein Bild der KI, das durch eine Koexistenz unterschiedlicher Herangehensweisen, me thodischer Ansätze und Lösungswege gekennzeichnet ist und damit aber auch eine beachtenswerte Bereicherung erfahren hat.
Literaturverzeichnis
|
23
Bislang hat also kein einzelner Ansatz eine Perspektive geboten, mit der sich al le Aspekte intelligenten Verhaltens reproduzieren oder erklären ließen, wie es auf der Dartmouth-Konferenz als Programm formuliert wurde. Vor vielen Jahren hat der Scien tific American²⁶ Minsky mit dem treffenden Satz zitiert: „The mind is a tractor-trailor, rolling on many wheels, but AI workers keep designing unicycles.“ Erscheinen nach wie vor noch viele Fragen als grundsätzlich ungelöst, so gibt es doch Evidenz dafür, dass gerade die Integration verschiedener Ansätze weitergehende Perspektiven für die Grundlagenforschung und Anwendungsentwicklung eröffnet. Danksagung: Die Autoren danken Clemens Beckstein für eine Reihe hilfreicher Hin weise. An der Einleitung zu früheren Auflagen war Ipke Wachsmuth als Koautor be teiligt.
Literaturverzeichnis [1]
Agre, P. E. Computation and human experience. Cambridge University Press, Cambridge etc., 1997. [2] Arkin, R. C. Behavior-Based Robotics. MIT Press, Cambridge, MA, 1998. [3] Bermúdez, J. L. Cognitive science: An introduction to the science of the mind. Cambridge Uni versity Press, Cambridge, 2010. [4] Billard, A. Imitation: a means to enhance learning of a synthetic proto-language in an autono mous robot. In Dautenhahn, K. und Nehaniv, C. L. (Hrsg.), Imitation in Animals and Artifacts, S. 281–311. MIT Press, Cambridge, MA, 2002. [5] Bishop, C. M. Pattern recognition and machine learning. Springer, Berlin, 2006. [6] Boden, M. The creative mind: myths and mechanisms. Routledge, London, 2004. [7] Brachman, R. J. On the Epistemological Status of Semantic Networks. In Findler, N. V. (Hrsg.), Associative Networks: Representation and Use of Knowledge by Computers, S. 3–50. Academic Press, New York, 1979. [8] Braun, T. und Möller, R. Parameterised Queries and Lifted Query Answering. In IJCAI-18 Pro ceedings of the 27th International Joint Conference on Artificial Intelligence, S. 4980–4986. IJCAI Organization, 2018. [9] Breazeal, C. und Scassellati, B. A context-dependent attention system for a social robot. In Proc. Sixteenth International Joint Conference on Artificial Intelligence (IJCAI-99), S. 1146–1151, Stockholm, Sweden, 1999. [10] Bringsjord, S. und Govindarajulu, N. S. Artificial Intelligence. In Zalta, E. N. (Hrsg.), The Stan ford Encyclopedia of Philosophy. Metaphysics Research Lab, Stanford University, Winter 2019, 2019. [11] Brooks, R., Breazeal, C., Marjanovic, M., Scassellati, B. und Williamson, M. The Cog project: Building a humanoid robot. In Nehaniv, C. (Hrsg.), Computation for Metaphors, Analogy, and Agents, Nr. 1562 in LNAI, S. 52–87. Springer, New York, 1998. [12] Brooks, R. A. Intelligence without representation. Artificial Intelligence, 47:139–160, 1991.
26 Scientific American, Nov. 1993, Profiles: „Marvin L. Minsky – The Mastermind of Artificial Intelli gence“, S. 14–15.
24 | 1 Einleitung
[13] Bruner, J. S., Goodnow, J. J. und Austin, G. A. A Study of Thinking. Wiley, New York, 1956. [14] Cassell, J., Sullivan, J., Prevost, S. und Churchill, E. (Hrsg.). Embodied Conversational Agents. MIT Press, Cambridge, MA, 2000. [15] Chakraborti, T., Sreedharan, S. und Kambhampati, S. The Emerging Landscape of Explainable Automated Planning & Decision Making. In Proceedings of the 29th International Joint Confer ence on Artificial Intelligence, S. 1–8, 2020. [16] Chomsky, N. Syntactic Structures. Mouton, The Hague, 1957. [17] Cianciolo, A. T. und Sternberg, R. J. Intelligence: A brief history. Blackwell Publishing, Malden, MA, 2004. [18] Copeland, B. J. und Proudfoot, D. On Alan Turing’s Anticipation of Connectionism. Synthese, 108(3):361–377, 1996. [19] Cropper, A., Dumancic, S. und Muggleton, S. Turning 30: New Ideas in Inductive Logic Pro gramming. In International Joint Conferences on Artifical Intelligence (IJCAI), 2020. [20] Dietterich, T. G. Steps Toward Robust Artificial Intelligence. AI Magazine, 38(3):3–24, 2017. [21] Ferrucci, D., Brown, E., Chu-Carroll, J., Fan, J., Gondek, D., Kalyanpur, A. A., Lally, A., Mur dock, J. W., Nyberg, E., Prager, J. et al. Building Watson: An overview of the DeepQA project. AI magazine, 31(3):59–79, 2010. [22] Frankish, K. und Ramsey, W. (Hrsg.). The Cambridge Handbook of Cognitive Science. Cam bridge University Press, Cambridge, 2012. [23] Gardner, H. The Mind’s New Science — A History of the Cognitive Revolution. Basic Books, New York, 1985. [24] Goodfellow, I., Bengio, Y. und Courville, A. Deep learning. MIT press, 2016. [25] Görz, G. Some Remarks on Modelling from a Computer Science Perspective. HSR Historical So cial Research, Special Issue: Models and Modelling between Digital and Humanities – A Mul tidisciplinary Perspective. Ciula, Arianna and Eide, Oyvind and Marras, Cristina and Sahle, Patrick (Eds.), HSR Supplement(31):163–169, 2018. [26] Gratch, J., Rickel, J., André, E., Badler, N., Cassell, J. und Petajan, E. Creating Interactive Virtual Humans: Some Assembly Required. IEEE Intelligent Systems, 2:2–11, July/August 2002. [27] Gulwani, S., Hernández-Orallo, J., Kitzelmann, E., Muggleton, S. H., Schmid, U. und Zorn, B. Inductive programming meets the real world. Communications of the ACM, 58(11):90–99, 2015. [28] Gutmann, M. und Rathgeber, B. Kognitive Metaphern. In Bölker, M., Gutmann, M. und Hes se, W. (Hrsg.), Information und Menschenbild, S. 115–137. Springer, Heidelberg, 2010. [29] Harnad, S. The symbol grounding problem. Physica D, 42:335–346, 1990. [30] Hebb, D. O. The Organization of Behavior. Wiley, New York, 1949. [31] Hitzler, P., Krötzsch, M. und Rudolph, S. Foundations of Semantic Web Technologies. Chapman & Hall/CRC Press, Boca Raton, 2009. [32] Hochreiter, S. und Schmidhuber, J. Long short-term memory. Neural computation, 9(8):1735–1780, 1997. [33] Irrgang, B. und Klawitter, J. Künstliche Intelligenz – Technologischer Traum oder gesellschaft liches Trauma. In Irrgang, B. und Klawitter, J. (Hrsg.), Künstliche Intelligenz, S. 7–54. Hirzel, Edition Universitas, Stuttgart, 1990. [34] Kaplan, C. und Simon, H. In search of insight. Cognitive Psychology, 22:374–419, 1990. [35] Klose, G., Lange, E. und Pirlein, T. Ontologie und Axiomatik von LILOG. Springer (IFB 307), Ber lin, 1992. [36] Krizhevsky, A., Sutskever, I. und Hinton, G. E. Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems, S. 1097–1105, 2012. [37] LeCun, Y., Bengio, Y. und Hinton, G. Deep learning. nature, 521(7553):436–444, 2015. [38] Lenat, D. B. und Guha, R. V. Building Large Knowledge-Based Systems — Representation and Inference in the Cyc Project. Addison-Wesley, Reading, MA, 1990.
Literaturverzeichnis
|
25
[39] Lobin, H. Situiertheit. Künstliche Intelligenz (Rubrik KI-Lexikon), 1:63, 1993. [40] Mahr, B. Chaos-Connection. Einwände eines Informatikers. Kursbuch, 98:83–99, 1989. [41] Marcus, G. und Davis, E. Rebooting AI. Building Artificial Intelligence We Can Trust. Pantheon Books, New York, 2019. [42] McCorduck, P. Machines Who Think. Freeman, San Francisco, 1979. [43] McCulloch, W. S. und Pitts, W. A Logical Calculus of the Ideas Immanent in Nervous Activity. Bulletin of Mathematical Biophysics, 5:115–133, 1943. [44] Miller, T. Explanation in artificial intelligence: Insights from the social sciences. Artificial Intel ligence, 267:1–38, 2019. [45] Mittelstrass, J. (Hrsg.). Enzyklopädie Philosophie und Wissenschaftstheorie, 8 Bde. J. B. Metz ler, Stuttgart and Weimar, 2. Aufl., 2005–2018. [46] Mittelstrass, J. (Hrsg.). Leibniz und Kant. Erkenntnistheoretische Studien. de Gruyter, Berlin/ Boston, 2010. [47] Möller, R., Lambrinos, D., Roggendorf, T., Pfeifer, R. und Wehner, R. Insect Strategies of Visual Homing in Mobile Robots. In Consi, T. R. und Webb, B. (Hrsg.), Biorobotics — Methods and Applications, S. 37–66. AAAI Press, Menlo Park, 2001. [48] Muggleton, S. H., Schmid, U., Zeller, C., Tamaddoni-Nezhad, A. und Besold, T. Ultra-strong Machine Learning: Comprehensibility of programs learned with ILP. Machine Learning, 107(7):1119–1140, 2018. [49] Neches, R., Fikes, R., Finin, T., Gruber, T., Patil, R., Senator, T. und Swartout, W. Enabling Tech nology for Knowledge Sharing. AI Magazine, 12(3):37–56, 1991. [50] Newell, A. Physical Symbol Systems. Cognitive Science, 4:135–183, 1980. [51] Newell, A. The Knowledge Level. AI Magazine, 2(2):1–20, 1981. [52] Newell, A., Shaw, J. C. und Simon, H. A. Chess playing programs and the problem of complexity. IBM Journal of Research and Development, 2(4), 1958. [53] Newell, A. und Simon, H. A. Human Problem Solving. Prentice-Hall, Englewood Cliffs, N. J., 1972. [54] Nida-Rümelin, J. und Weidenfeld, N. Digitaler Humanismus. Eine Ethik für das Zeitalter der Künstlichen Intelligenz. Piper, München, 2018. [55] Niepert, M. und Van den Broeck, G. Tractability through Exchangeability: A New Perspective on Efficient Probabilistic Inference. In AAAI-14 Proceedings of the 28th AAAI Conference on Artificial Intelligence, S. 2467–2475. AAAI Press, 2014. [56] Pfeifer, R. und Scheier, C. Understanding Intelligence. MIT Press, Cambridge, MA, 1999. [57] Poole, D. First-order Probabilistic Inference. In IJCAI-03 Proceedings of the 18th International Joint Conference on Artificial Intelligence, S. 985–991. IJCAI Organization, 2003. [58] Rosenblatt, F. Strategic Approaches to the Study of Brain Models. In von Foerster, H. (Hrsg.), Principles of Self-Organization, S. 387. Pergamon Press, Elmsford, N. Y., 1962. [59] Russell, S. Human compatible: Artificial intelligence and the problem of control. Penguin, New York, 2019. [60] Russell, S. und Norvig, P. Artificial Intelligence – A Modern Approach. Prentice-Hall, Englewood Cliffs, N. J., 2010. [61] Schmid, U. Cognition and AI. KI – Zeitschrift für Künstliche Intelligenz, 22(1):5–7, 2008. [62] Schmid, U. und Finzel, B. Mutual Explanations for Cooperative Decision Making in Medicine. KI – Zeitschrift für Künstliche Intelligenz, 34(2):1–7, 2020. [63] Schmidhuber, J. Deep learning in neural networks: An overview. Neural Networks, 61:85–117, Jan 2015. [64] Schölkopf, B. und Smola, A. J. Learning with Kernels: Support Vector Machines, Regularization, Optimization and Beyond. MIT Press, Cambridge, MA, 2002.
26 | 1 Einleitung
[65] Shannon, C. E. und McCarthy, J. Automata Studies. Princeton University Press, Princeton, NJ, 1956. [66] Silver, D., Schrittwieser, J., Simonyan, K., Antonoglou, I., Huang, A., Guez, A., Hubert, T., Baker, L., Lai, M., Bolton, A. et al. Mastering the game of Go without human knowledge. Na ture, 550(7676):354–359, 2017. [67] Snell, J., Swersky, K. und Zemel, R. Prototypical networks for few-shot learning. In Advances in neural information processing systems, S. 4077–4087, 2017. [68] Steels, L. The Puzzle of Language Evolution. Kognitionswissenschaft, 8:143–150, 2000. [69] Steels, L. und Vogt, P. Grounding Adaptive Language Games in Robotic Agents. In Hus bands, C. und Harvey, I. (Hrsg.), Proceedings of the Fourth European Conference on Artificial Life (ECAL-97), S. 474–482, Cambridge, MA, 1997. MIT Press. [70] Steil, J., Röthling, F., Haschke, R. und Ritter, H. Situated Robot Learning for Multi-Modal In struction and Imitation of Grasping. Robotics and Autonomous Systems (Special Issue on Imi tation Learning), 47:129–141, 2004. [71] Strube, G. (Hrsg.). Wörterbuch der Kognitionswissenschaft. Klett-Cotta, Stuttgart, 1996. [72] Strube, G. Generative theories in cognitive psychology. Theory & Psychology, 10:117–125, 2000. [73] Sutton, R. S., Barto, A. G. et al. Introduction to reinforcement learning, Band 135. MIT press Cambridge, 1998. [74] Tenenbaum, J., Griffiths, T. und Kemp, C. Theory-based Bayesian models of inductive learning and reasoning. Trends in Cognitive Sciences, 10(7):309–318, 2006. [75] Teuscher, C. Alan Turing: Life and Legacy of a Great Thinker. Springer, Berlin and Heidelberg, 2004. [76] Webb, B. Can Robots Make Good Models of Biological Behaviour? The Behavioral and Brain Sciences, 24(6):1033–1050, 2001. [77] Wedekind, H., Görz, G., Inhetveen, R. und Kötter, R. Modellierung, Simulation, Visualisierung: Zu aktuellen Aufgaben der Informatik. Informatik-Spektrum, 21(5):265–272, 1998. [78] Winston, P. H. Artificial Intelligence. Addison-Wesley, Reading, MA, 3. Aufl., 1992. [79] Wooldridge, M. Introduction to Multiagent Systems. Wiley, New York, 2002. [80] Wooldridge, M. und Jennings, N. R. Agent Theories, Architectures, and Languages: A Survey. In Wooldridge, M. und Jennings, N. R. (Hrsg.), Intelligent Agents: Theories, Architectures, and Languages, Nr. 890 in LNAI, S. 1–21. Springer, Berlin, 1995.
2 Wissensrepräsentation und -verarbeitung Bernhard Nebel und Stefan Wölfl
2.1 Einleitung und Motivation Wissensrepräsentation und -verarbeitung (engl. knowledge representation and reason ing) ist eines der Kerngebiete der Künstlichen Intelligenz. In diesem Kapitel wollen wir einige der grundlegenden Annahmen dieses Gebiets präsentieren und Techniken so wie Methoden der Wissensrepräsentation skizzieren.
2.1.1 Wissen – wozu? Wir leben in einer Wissensgesellschaft. Diese Aussage wird häufig angeführt, um die Bedeutung von Wissen für die moderne Gesellschaft hervorzuheben. Etwas konkre ter besagt die Aussage, dass „Wissen“ eine essenzielle Ressource für die sozialen wie ökonomischen Prozesse in hoch entwickelten Gesellschaften darstellt. Wenn in die sem Zusammenhang von Wissen die Rede ist, so in einem weiten Sinne des Wortes: „Wissen“ meint hier nicht nur reines Faktenwissen, sondern subsumiert eine ganze Bandbreite von wissensbasierten Kontexten, etwa wissenschaftliche und industrielle Forschung, Technologien und Verfahrenstechniken, Bildung und Lernkompetenzen. Die Bedeutung von Wissen wird auch daran deutlich, dass Wissensinhalte heute in einem weltumspannenden Informationsnetzwerk, dem World Wide Web (WWW), je derzeit Millionen von Nutzern, Web-Diensten und künstlichen Agenten zur Verfügung stehen. Ein eindrucksvolles Beispiel stellt die Online-Enzyklopädie Wikipedia dar, die allein in ihrer deutschsprachigen Ausgabe mehr als fünf Millionen Einträge (Stand März 2020) umfasst und täglich um etwa 700 neue Artikel anwächst [45]. Aus Sicht der Informatik und speziell der Künstlichen Intelligenz stellt sich da her die Frage, wie diese Wissensinhalte so repräsentiert werden können, dass aus der großen Zahl an Informationsressourcen und -quellen neue Wissensinhalte extrahiert, aggregiert und schließlich wieder anderen Nutzern zur Verfügung gestellt werden kön nen. Kurz gesagt: Man benötigt Technologien zur Repräsentation und Verarbeitung von Wissen. Der technologische Aspekt ist hierbei wichtig: Wie wir in diesem Kapi tel sehen werden, beeinflusst die Wahl der Repräsentation (oder wie wir später sagen werden, der Repräsentationsformalismus) entscheidend, wie leicht oder wie schwierig sich bestimmte Problemstellungen bei der Wissensverarbeitung lösen lassen. Damit hängt die Güte eines Repräsentationsformalismus auch davon ab, welche Art von Pro blemen in einer gegebenen Anwendung gelöst werden soll. Im englischen Sprachge brauch hat sich daher auch der Term knowledge engineering eingebürgert, der diesen technologischen Aspekt des Forschungsgebiets Wissensrepräsentation und -verarbei tung unterstreicht. https://doi.org/10.1515/9783110659948-002
28 | 2 Wissensrepräsentation und -verarbeitung
Neben der Frage, wie wir Wissensinhalte repräsentieren können, sind in der prak tischen Anwendung natürlich auch Probleme der Verwaltung, der Vorhaltung und Si cherung von Wissensinhalten (engl. knowledge management) von Bedeutung, auch wenn wir dieses Thema im Rahmen dieses einführenden Kapitels nicht vertiefen kön nen. Eine typische Fragestellung des Wissensmanagements ergibt sich z. B. daraus, dass viele Wissensinhalte auch zukünftigen Generationen (von Menschen und Tech nologien) zur Verfügung stehen sollen. Dies stellt insofern ein Problem dar, als Wis sensinhalte, wie sie etwa im WWW zur Verfügung stehen, „kurzlebig“ sind, d. h., es ist absehbar, dass diese Inhalte aktualisiert werden (und damit die alten Inhalte nicht mehr zugänglich sind), dass Web-Ressourcen durch andere ersetzt werden, dass die Art der Wissensrepräsentation sich verändert etc. Wir haben diesen Abschnitt etwas provozierend mit der Frage „Wissen – wozu?“ überschrieben. Im Grunde versteht sich eine Antwort auf diese Frage von selbst. Wis sen benötigen wir nicht nur, um etwa neue Informationen oder Ereignisse zu ver stehen und zu bewerten, sondern auch, wenn wir uns in einer gegebenen Situati on entscheiden müssen, wie wir handeln sollen (und wollen). Je informierter unsere Entscheidungen sind, desto wahrscheinlicher werden wir in der Regel unsere Ziele verwirklichen können. Offensichtlich spielen hierbei ganz verschiedene Formen von Wissen eine Rolle, z. B. Wissen, das uns hilft, die gegebene Situation einzuschätzen, Wissen über die Alternativen, die man gerade hat, und Wissen darüber, mit welchen Handlungen gesteckte Ziele erreicht werden können. Damit dieses (Hintergrund-) Wis sen, also z. B. faktisches Wissen, kausales Wissen, Wissen über Normen und Gesetze, aber bei Entscheidungen einfließen kann, ist es notwendig, dieses Wissen zu verar beiten. Was folgt etwa aus unserem generellen Hintergrundwissen für die spezielle Situation, in der wir eine Entscheidung zu treffen haben? Wie können wir neue Erfah rungen auf der Basis unserer Wissensannahmen erklären? Wie integrieren wir neues Wissen in unsere bestehenden Annahmen? Und, ist all das, was wir zu wissen glau ben, denn überhaupt miteinander konsistent? Solche und ähnliche Fragen sind typische Problemstellungen, die auf dem Ge biet der Wissensrepräsentation und Wissensverarbeitung betrachtet werden. Wie wir im Weiteren ferner sehen werden, lassen sich viele dieser Probleme einer Lösung zu führen, indem man spezielle Inferenzmethoden entwickelt, mit denen sich neue Wis sensinhalte aus bestehenden Wissensannahmen generieren oder herleiten lassen. In diesem Sinne sind Themen der Wissensrepräsentation und Wissensverarbeitung ty pischerweise eng mit Theorien des Schlussfolgerns und somit mit formalen Logiksys temen verknüpft. Man mag sich in Zeiten, in denen die prominenteste KI-Methode Maschinelles Ler nen (Kapitel 11) ist, fragen, ob denn eine Beschäftigung mit dem Thema Wissensre präsentation überhaupt noch interessant ist. Speziell, da ja oft auch sog. End-to-End Learning [29] propagiert wird, bei dem ein System eine Fertigkeit erwirbt, ohne dass es an irgendeiner Stelle notwendig ist, explizit Wissen zu repräsentieren. Ohne jetzt schon auf eine Antwort einzugehen, wollen wir hier nur auf den eingeladenen Vortrag
2.1 Einleitung und Motivation
| 29
Learning World Models: the Next Step Towards AI von LeCun, auf der international KIKonferenz IJCAI-2018 verweisen, in dem LeCun, einer der Väter des Deep Learnings, durchaus die Wichtigkeit von explizitem Wissen hervorhebt. Wir werden am Ende des Kapitels diese Fragestellung noch einmal aufgreifen.
2.1.2 Wissensformen Wir haben bisher etwas vage von Wissen und Wissensinhalten gesprochen, ohne ei ne genaue Definition dieser Begriffe anzugeben. Was aber ist überhaupt Wissen? Um diese Frage zu beantworten, ist es sinnvoll, den Wissensbegriff zu klassifizieren, d. h. rein begrifflich, terminologisch, verschiedene Arten von Wissen zu unterscheiden. Ein erstes Unterscheidungsmerkmal betrifft den Gegenstand des Wissens, also die Art des Wissensinhalts (dessen, was gewusst wird). Von einem deskriptiven Wissen (oder auch propositionalem Wissen) spricht man, wenn der Gegenstand des Wissens eine Proposition oder ein Sachverhalt ist. Sprachlich drücken wir deskriptives Wissen in der Form „X weiß, dass P“ oder auch in der Form „X weiß, ob P“ aus, wo X der Wis sensträger und P eine Proposition ist.¹ Wenn man nun sagt, dass eine Person weiß, dass eine Proposition P wahr ist, so wird man dieser Person zunächst einmal zuspre chen, dass sie davon überzeugt ist, dass P der Fall ist. Im gewöhnlichen Sinne des Wortes wird man ferner davon ausgehen, dass die Person sich in dieser Überzeugung nicht irrt, d. h., dass P auch tatsächlich der Fall ist, die Proposition P also wahr ist.² Vom deskriptiven Wissen ist das prozedurale Wissen zu unterscheiden. Eine Per son kann z. B. wissen, dass sich eine Festplatte in Partitionen aufteilen lässt, ohne zu wissen, wie sich die Festplatte in Partitionen aufteilen lässt. Ein Informatikstudent im Grundstudium mag vielleicht das Pumping Lemma für reguläre Sprachen kennen, aber nicht imstande sein, dieses Lemma auch anzuwenden, um für eine gegebene for male Sprache zu zeigen, dass sie nicht regulär ist. Umgekehrt kann eine Person wis sen, wie man im Prinzip prüft, ob eine gegebene Zahl eine Primzahl ist, auch wenn sie
1 Tatsächlich lässt sich „wissen, ob“ auf „wissen, dass“ zurückführen. Dass ein Agent X weiß, ob P der Fall ist, heißt ja nicht anderes als, dass X weiß, dass P der Fall ist, oder weiß, dass P nicht der Fall ist. 2 Zur Frage, ob diese Gleichsetzung „Wissen = wahre Überzeugung“ eine sinnvolle Explikation des Wissensbegriffs ist, gibt es in der philosophischen Literatur eine ausführliche Diskussion. Manche Ar gumente lassen diese Gleichsetzung als zu eng erscheinen. So ist es durchaus sinnvoll zu sagen, dass ein Student weiß, dass die Lichtgeschwindigkeit 299.792.458 m/s beträgt, obgleich diese Aussage ei nen empirischen Sachverhalt darstellt und sich somit als falsch herausstellen kann (zumindest dann, wenn man die Aussage nicht als eine Folgerung aus einer Definition der Maßeinheit Meter mittels der Lichtgeschwindigkeit ansieht). Andere Argumente weisen dagegen die Definition von Wissen als wah re Überzeugung als zu weit aus. Hintergrund ist hier, dass man Überzeugungen, die eine Person nur zufälligerweise hat, für die die Person also z. B. keine Begründung hat, nicht als Wissen auszeichnen möchte [21; 28].
30 | 2 Wissensrepräsentation und -verarbeitung
nicht weiß, dass die Zahl 2311 eine Primzahl ist. Im Gegensatz zum propositionalen Wissen basiert prozedurales Wissen also auf Fertigkeiten und Kompetenzen, die man erlernt und eingeübt hat. Beide bisher besprochenen Wissensformen lassen sich nun jeweils weiter unter scheiden in einerseits explizites und andererseits implizites Wissen. Von einem expli ziten Wissen spricht man dann, wenn der Wissensinhalt in einer sprachlich fixierten Form vorliegt und damit insbesondere auch kommuniziert werden kann. Andernfalls spricht man von implizitem Wissen. Im Falle deskriptiven Wissens ist die Unterscheidung „explizit“ vs. „implizit“ ganz offensichtlich. Eine Person, die explizit weiß, dass die Summe der Innenwinkel in einem beliebigen Dreieck 180° beträgt, muss nicht auch explizit wissen, dass jeder Innenwinkel in einem gleichseitigen Dreieck gerade 60° beträgt. Sie weiß vielleicht nicht, dass die gleichseitigen Dreiecke gerade die gleichwinkligen Dreiecke sind und dass deshalb alle Winkel gleich sein müssen. Aber sie mag in der Lage sein, sich das herzuleiten. D. h. sie weiß diesen Sachverhalt, dass jeder Innenwinkel 60° beträgt, nicht explizit sondern nur implizit. Prozedurales Wissen ist häufig, aber nicht immer, implizit. Selbst langjährigen Autofahrern wird es z. B. schwer fallen, explizit zu erläutern, wie man ein Auto fährt; einer Fahrschullehrerin dagegen sollte dies möglich sein, d. h., sie sollte in der Lage sein, Subroutinen des Autofahrens zu erklären, also sprachlich zu vermitteln. Typi sche Beispiele für explizites, prozedurales Wissen begegnen uns in Gebrauchsanwei sungen oder in Kochrezepten. Wenn der Wissensträger nicht nur eine einzelne Person, sondern eine Gruppe von Personen (oder künstlichen Agenten) ist, so lassen sich ferner eine Reihe von beson deren Wissensbegriffen unterscheiden. Typische Beispiele sind die Begriffe verteiltes und gemeinsames Wissen. Verteiltes Wissen ist eine spezielle Form des impliziten Wis sens. Man kann z. B. sagen, dass eine Gruppe eine Proposition weiß, wenn diese Pro position aus der Gesamtheit dessen folgt, was die einzelnen Mitglieder der Gruppe wissen. Wenn also eine Person weiß, dass Erde, Merkur, Venus, Mars, Jupiter, Saturn, Uranus und Neptun Planeten in unserem Sonnensystem sind, aber unsicher ist, ob Pluto ein Planet ist, eine andere aber Person weiß, dass unser Sonnensystem acht Planten hat, diese aber nicht aufzählen kann, so weiß die Gruppe dieser beiden Per sonen (im Sinne der Begriffs verteilten Wissens), dass unser Sonnensystem genau aus den genannten Planten besteht, obwohl keine der beiden Personen dies (explizit oder implizit) weiß. Von einem gemeinsamen Wissen in einer Gruppe spricht man dagegen dann, wenn jeder in der Gruppe diesen Sachverhalt weiß und darüber hinaus auch weiß, dass alle anderen in der Gruppe den Sachverhalt wissen.³
3 Die logische Analyse des gewöhnlichen Wissensbegriffs wie auch der Begriffe verteiltes und gemein sames Wissen ist Gegenstand der epistemischen/doxastischen Logik [12].
2.1 Einleitung und Motivation
| 31
Der Bereich des deskriptiven Wissens lässt sich nun nochmals weiter unterglie dern, wenn man berücksichtigt, von welcher Art die gewussten Sachverhalte sind. Die einfachste Art von Propositionen sind solche, die einem Objekt eine bestimmte Eigen schaft zusprechen („Dieser Ball ist rot.“) oder aber ausdrücken, dass mehrere Objekte in einer bestimmten Relation zueinander stehen („Dieser Ball ist kleiner als jener.“). Bezieht sich Wissen auf solche Sachverhalte, so sprechen wir von faktischem Wissen (oder kurz: Faktenwissen). Neben Faktenwissen unterscheidet man häufig terminolo gisches und konditionales/kausales Wissen. Terminologisches Wissen (oder auch be griffliches Wissen) ist dadurch charakterisiert, dass die Wahrheit des gewussten Sach verhalts allein davon abhängt, wie bestimmte Begriffe in einer Sprache, besser in einer Sprachgemeinschaft (z. B. einer Expertengruppe), verwendet werden. Beispiele hier für sind etwa „Junggesellen sind unverheiratet“, „Pinguine sind Vögel“, „Pilze sind weder Pflanzen noch Tiere“. Von konditionalem Wissen [32] spricht man dann, wenn der Wissensinhalt eine Wenn-dann-Beziehung zum Gegenstand hat, also Sachverhalte, die sich ausdrücken lassen durch Aussagen wie z. B. „Wenn die Komponente X des Systems S ausfällt, so fällt das System S selbst ebenfalls aus.“, oder „Wäre die Komponente X des Systems S nicht ausgefallen, so wäre auch das System S nicht ausgefallen.“ Unter kausalem Wis sen versteht man Wissen, das sich auf kausale Zusammenhänge [39] bezieht, deren Bestehen also von der Gültigkeit kausaler Beziehungen abhängt und die sich daher durch Aussagen ausdrücken lassen, in denen von Ursachen, Wirkungen, kausalen Korrelationen oder Abhängigkeiten die Rede ist. Oftmals sind kausale Sachverhalte eine spezielle Form konditionaler Sachverhalte, etwa in „Übergewicht begünstigt Blut hochdruck“ oder „Der Ausfall der Komponente X könnte eine Ursache für den Ausfall des Systems S sein.“ Damit ist die Liste der verschiedenen Wissenstypen (aufgeschlüs selt nach der Art der gewussten Sachverhalte) aber bei Weitem nicht abgeschlossen: Es gibt temporales Wissen [13], räumliches Wissen [1], normatives Wissen [16], mora lisches Wissen, ästhetisches Wissen, Wissen über Präferenzen usw.
2.1.3 Repräsentation Damit ein künstlicher Agent oder ein wissensbasiertes System Wissen verarbeiten kann, muss dieses Wissen zunächst in irgendeiner Form repräsentiert sein. Ein künst licher Agent, der Skat spielt, muss die grundlegenden Spielregeln des Skats „beherr schen“ und auch über geeignete Funktionen verfügen, die die gegebene Spielsituation bewerten und es somit dem Spieler erlauben, vernünftige (erfolgswahrscheinliche) Aktionen auszuführen (etwa beim Reizen oder beim Ausspielen einer Karte). Tatsäch lich wird ein Skatspieler Wissen über das Skatspiel oftmals nur implizit repräsentieren (z. B. in der Implementierung der Spielregeln oder der Bewertungsfunktion). Während ein künstlicher Skatagent aber einfach nur gut Skat spielen soll, werden an Assistenz systeme, wie z. B. Apple’s Siri, ganz andere Anforderungen gestellt. Solche Systeme
32 | 2 Wissensrepräsentation und -verarbeitung
sollen u. a. Anfragen beantworten können, wobei aus den im System explizit oder implizit repräsentierten Informationen „neues“, explizites Wissen generiert wird. Die Idee wissensbasierter Systeme (wie etwa Assistenzsystemen) ist nun, solche An fragen unter Benutzung eines Korpus von explizit repräsentierten Wissensinhalten, einer sog. Wissensbasis, zu verarbeiten. Eine explizite Repräsentation, wie sie in einer Wissensbasis verwendet wird, kann man am Beispiel einer thematischen Karte verstehen, die einen bestimmten geogra fischen Aspekt, z. B. die durchschnittlichen Tagestemperaturen aufgeschlüsselt nach Regionen, abbildet. Eine solche thematische Karte stellt eine Repräsentation dar: Re gionen werden durch zweidimensionale Flächen repräsentiert, Einfärbungen dieser Regionen repräsentieren die durchschnittlichen Tagestemperaturen (entsprechend einer fest gewählten Klassifikation von Temperaturwerten). Wie dieses einfache Beispiel bereits zeigt, geht es bei einer Repräsentation um die Darstellung eines bestimmten Weltausschnittes, d. h., eine Repräsentation beruht auf einer Auswahl von Objekten und einer Auswahl von zu repräsentierenden Aspek ten. Wenn wir also eine bestimmte Domäne D von Entitäten repräsentieren wollen, so müssen wir zunächst auch angeben, welche der auf D gegebenen Eigenschaften, Rela tionen und Operationen von Interesse sind und daher repräsentiert werden sollen. Ist eine solche Menge F von zu repräsentierenden Relationen (aus Einfachheitserwägun gen beschränken wir uns hier auf Relationen) identifiziert, so benötigen wir für eine Repräsentation eine Menge von Repräsentanten und für jede Relation F aus F eine Re präsentation dieser Relation, die auf der Menge der Repräsentanten definiert ist. Will man z. B. die Elternbeziehungen („ist Mutter von“ und „ist Vater von“) in einer Mäuse population repräsentieren, so kann man analog zu einer Ahnentafel einen gerichteten Graphen angeben, der eine solche Repräsentation liefert: Die Knoten des Graphen re präsentierten die Mäuse; eine gerichtete Kante zwischen zwei Mäusen repräsentiert die Elternbeziehung und um „Mutter-“ und „Vater-“ Maus unterscheiden zu können, versehen wir die gerichteten Kanten noch mit jeweils unterschiedlichen Farben oder versehen sie mit einer Beschriftung „Mutter“ oder „Vater“ wie in Abbildung 2.1. Auch wenn wir bei dieser graphentheoretischen Repräsentation gerichtete (und gefärbte) Kanten verwendet haben, um eine bestimmte Relation zu repräsentieren, so ist doch klar, dass die Kanten wieder eine Relation definieren, nun nicht zwischen Mäusen, sondern zwischen den Knoten des Graphen, die die Mäuse aus unserer Po pulation repräsentieren. Wir können daher unter einer Repräsentation einer Domäne (D, {F i }i∈I ) eine Struktur (S, {F i }i∈I , R) verstehen, wobei S eine Menge von Repräsen tanten, F i eine zur Relation F i assoziierte Relation auf S und R ⊆ D × S eine Reprä sentationsrelation zwischen Domänenentitäten und Repräsentanten ist. An diese Re präsentationsstruktur wird man sinnvollerweise weitere Forderungen stellen: (a) Ein Element der Domäne wird durch höchstens einen Repräsentanten repräsentiert, ver schiedene Domänenentitäten haben verschiedene Repräsentanten und jeder Reprä sentant repräsentiert auch etwas; (b) wann immer Domänenentitäten x1 , . . . , x n ∈ D Repräsentanten besitzen und in einer der Eigenschaften aus F i ∈ F zueinander ste
2.1 Einleitung und Motivation
m0
Vater Mutter
Vater
m3
m6 Mutter
Vater
m1
| 33
Vater Mutter
m4
Mutter
m7
Mutter Vater
m2
Vater
m5
Mutter
m8
m9
Abb. 2.1: Mäuseahnentafel
hen, so sollen die Repräsentanten in der dazu assoziierten Relation F i zueinander stehen und umgekehrt (Entsprechendes gelte für Funktionen). In obigem Beispiel hatten wir eine graphentheoretische Repräsentation betrach tet. Eine solche Repräsentation hat Vorteile: Sie ist nicht nur einfach, sondern erlaubt es unmittelbar, graphentheoretische Algorithmen zu verwenden, um z. B. die Men ge aller Vorfahren einer Maus in der Population bestimmen zu können. Sie hat aber auch Nachteile. So verliert man die Einfachheit der Darstellung sofort, wenn z. B. nicht nur zweistellige Relationen, sondern höherstellige Relationen dargestellt werden sol len. Ferner ist man oftmals nicht nur an der Repräsentation einer spezifischen Si tuation, sondern allgemeiner an einem Repräsentationsschema interessiert, das sich einfach auf unterschiedliche Kontexte anwenden lässt. Daher liegt es nahe, anstel le graphentheoretischer Repräsentationen symbolische Repräsentationen zu betrach ten, bei denen Domänenentitäten und die Relationen zwischen ihnen durch Symbole repräsentiert werden. Eine besondere Form der symbolischen Repräsentation, näm lich die Repräsentation mittels logischer Formalismen, werden wir im Abschnitt 2.2 besprechen.
2.1.4 Wissensverarbeitung = Schlussfolgern Wenn wir von Wissensrepräsentation reden, dann geht es natürlich auch immer dar um, dieses Wissen zu nutzen, um bestimmte Aufgaben zu lösen. Das kann die Beant wortung einer Frage sein, wie z. B. welche Bücher Hector Levesque geschrieben hat, was ein Junggeselle ist oder welche Krankheit ich habe, wenn mir die Nase läuft und ich Gliederschmerzen habe. Die erste Frage betrifft faktisches Wissen und lässt sich leicht beantworten, wenn man eine Datenbank hat, die alle Bücher zusammen mit
34 | 2 Wissensrepräsentation und -verarbeitung
ihren Autoren enthält. Die zweite Frage betrifft offensichtlich terminologisches Wis sen und es geht hier darum, in einem geeigneten Lexikon die Definition des Begriffs nachzuschlagen. Die dritte Frage betrifft kausales Wissen über den Zusammenhang von Symptomen und Krankheiten. In all den genannten Fällen mag die Antwort der Frage direkt bereits in der Wis sensbasis repräsentiert sein und es geht nur darum, diese Antwort zu finden. Generell ist es aber nicht praktikabel, Antworten auf alle möglichen Fragen explizit zu reprä sentieren. Stattdessen setzt man Schlussfolgerungsprozeduren ein, um auch in Fällen, in denen die Wissensbasis keine explizite Antwort enthält, die Fragen beantworten zu können. Wollen wir beispielsweise wissen, ob Hans im Wissensrepräsentationskurs einen Freund trifft, so können wir aus der Tatsache, dass Peter ein Freund von Hans ist und Peter ebenfalls den Wissensrepräsentationskurs besucht, die Schlussfolgerung zie hen, dass man die Frage positiv beantworten kann. Um solche Schlussfolgerungen durchzuführen, ist es hilfreich, wenn das Wissen in einer Art und Weise repräsentiert ist, die es erlaubt, durch rein syntaktische Ma nipulationen der für die Repräsentation verwandten Symbole, solche Schlussfolge rungen zu erhalten. Ähnlich wie in der Arithmetik, wo wir die arithmetischen Ver knüpfungen auf mechanisch auszuführende Operationen reduzieren, die einfach auf dem Computer ausgeführt werden können, wollen wir Operationen auf repräsentier ten Wissensinhalten ausführen können. Wie wir sehen werden, ist die formale Logik ein mächtiges Hilfsmittel, um uns an dieser Stelle weiterzuhelfen. Die Beantwortung von Fragen ist natürlich nur eine mögliche Nutzung von reprä sentiertem Wissen. Jede andere Aufgabe, wie z. B. die Navigation eines Roboters durch einen Raum, die Planung einer Vorgehensweise zur Produktion eines Artefakts, das Verstehen gesprochener Sprache oder auch die Fehlerdiagnose von technischen Ge räten benutzt in irgendeiner Art repräsentiertes Wissen auf die eine oder andere Art. Oft wird dabei nur explizit repräsentiertes, faktisches Wissen genutzt. Zum Beispiel wird man bei der Roboternavigation Wissen über die gegebene Umgebung nutzen, für das keine weitere Verarbeitungsschritte erforderlich sind. Wird aber auch implizit repräsentiertes Wissen benötigt, das durch Schlussfol gerungsprozesse generiert werden soll, so müssen diese ggf. angestoßen werden. In diesem Kontext betrachtet man ein Wissensrepräsentationssystem oft als abstrakte Datenstruktur, mit der man nur mittels Operationen wie tell und ask kommuniziert. Man teilt dem System in einer geeigneten formalen Sprache per tell-Operationen neue Wissensinhalte mit und fragt per ask-Operation an, ob Wissensinhalte in der Wissens basis implizit oder explizit repräsentiert sind. Zusätzlich kann natürlich eine Operati on wie forget wünschenswert sein, um falsches oder nicht mehr gültiges Wissen aus einer Wissensbasis zu entfernen. Wir werden diese Operation, die in den Bereich der sog. Wissensrevision führt, allerdings im Weiteren nicht betrachten.
2.2 Deklarative Wissensrepräsentation
| 35
2.2 Deklarative Wissensrepräsentation Wie bereits bemerkt, kann Wissen implizit oder explizit sein. Innerhalb von KI-Syste men ist es ebenfalls so, dass Wissen entweder implizit beim Schreiben des Program mes mit eingeflossen ist oder dass es explizit unabhängig vom Programm repräsentiert wurde und auch unabhängig von dem speziellen Programm eine Bedeutung hat. In diesem Zusammenhang spricht man dann von deklarativer Wissensrepräsentation.
2.2.1 Wissensbasierte Systeme Von einem wissensbasierten System spricht man, wenn das für die Funktion des Sys tems notwendige Wissens explizit und unabhängig von dem System in einer sog. Wis sensbasis erfasst wurde. Damit erhält man zum einen die Möglichkeit, das Wissen auch unabhängig vom System zu inspizieren, zu verifizieren und zu modifizieren. Zum anderen wird es möglich, das repräsentierte Wissen auch in anderen Kontexten ein zusetzen. Um diese Ideen zu illustrieren, wollen wir ein kleines Beispiel betrachten. In Ab bildung 2.2 sehen wir ein kleines Prolog-Programm, das in der Lage ist, für einige der Mitglieder der Zähringer, eines im 11. und 12. Jahrhundert in Süddeutschland und in der Schweiz bedeutenden Fürstengeschlechts, die jeweiligen Eltern zu benennen. printE(ludwig_i) :- !, write("karl_friedrich und caroline_luise"). printE(karl_ludwig) :- !, write("karl_friedrich und caroline_luise"). printE(karl) :- !, write("karl_ludwig und amalie"). printE(alexander) :- !, write("karl und stephanie"). printE(X) :write("Keine Ahnung, wer die Eltern sind!"). Abb. 2.2: Stammbaum der Zähringer als Prolog-Programm
Während dieses kleine Programm seine Funktion erfüllt, kann man es nur in einem sehr eingeschränkten Sinne als wissensbasiertes System bezeichnen. Das Programm in Abbildung 2.3 erfüllt diese Bedingung sicherlich viel besser. Hier wird das Wissen über die Familienbeziehungen nicht in das Programm hin eincodiert, sondern als gesonderte Wissensbasis repräsentiert. Das heißt, man kann diesen Teil unabhängig betrachten, verstehen und modifizieren. Man kann diese Wis sensbasis auch unabhängig von dem Programm verwenden, um z. B. andere Famili enzusammenhänge aufzuspüren.
36 | 2 Wissensrepräsentation und -verarbeitung printE(X) :mutter(X,MX), vater(X,VX), !, write(VX), write(" und "), write(MX). printE(X) :write("Keine Ahnung, wer die Eltern sind!"). mutter(ludwig_i,caroline_luise). mutter(karl_ludwig,caroline_luise). mutter(karl,amalie). mutter(alexander,stephanie). vater(ludwig_i,karl_friedrich). vater(karl_ludwig,karl_friedrich). vater(karl,karl_ludwig). vater(alexander,karl). Abb. 2.3: Eltern von Mitgliedern der Zähringer, wissensbasiert erschlossen
Insgesamt sollte klar sein, dass es erhebliche Vorteile bringt, das Wissen auszu faktorisieren und separat zu behandeln. Aber natürlich muss man dafür auch einen Preis zahlen. Ein wesentlicher Preis ist, dass man dem explizit in einer Wissensbasis repräsentierten Wissen ja eine Bedeutung zuordnen möchte, die unabhängig von dem Programm ist, das auf der Wissensbasis operiert. Und hier stellt sich die Frage, welche Methode dafür am angemessensten ist. Hat man allerdings diesen Schritt getan, wird es für alle Beteiligten einfacher, über das repräsentierte Wissen zu kommunizieren, da man für die Bedeutung ja nicht mehr auf die Funktion referieren muss, die das Wissen in dem Programm spielt.
2.2.2 Die Rolle der Logik Die formale Logik bietet Werkzeuge, um das o. g. Problem, symbolischen Ausdrücken eine Bedeutung zuzuordnen, zu lösen. Aus diesem Grund spielt die formale Logik auch eine zentrale Rolle innerhalb der Forschung zur Wissensrepräsentation. Dabei gibt die formale Logik nicht nur Methoden vor, wie man symbolische Ausdrücke inter pretieren kann, sondern parallel dazu stellt sie auch Methoden bereit, durch syntak tische Manipulationen implizite Aussagen zu erschließen, die sich zwangsläufig aus den gegeben symbolischen Ausdrücken ergeben. Dabei ist es eigentlich nicht richtig, von der formalen Logik zu sprechen. Es gibt Standardlogiken, wie die Aussagenlogik und die Prädikatenlogik 1. Stufe (Kapitel 5). Diese werden auch gerne eingesetzt, wenn es um die Formalisierung bestimmter Wis sensbereiche geht. Daneben gibt es aber unzählige Varianten, wie intuitionistische Logiken, mehrwertige Logiken, Modallogiken, Relevanzlogiken, dynamische Logiken, Logiken höherer Stufe usw. All diesen ist gemeinsam, dass sie den Begriff der logi schen Folgerbarkeit definieren. Das heißt, es wird festgelegt, was aus einer Menge von
2.2 Deklarative Wissensrepräsentation
| 37
Prämissen notwendigerweise folgt. Daneben gibt es aber auch Logiken, sog. nicht mo notone Logiken, die darauf abzielen, den Begriff der plausiblen Folgerbarkeit formal zu erfassen (Kapitel 6). Man könnte jetzt meinen, dass diese Logiken direkt für die Repräsentation von Wissen eingesetzt werden. Dies ist allerdings nicht notwendigerweise der Fall. Statt dessen wird oft eine formale Sprache – ein Wissensrepräsentationsformalismus – für einen bestimmten Zweck entworfen, der nicht einer existierenden Logik entspricht. Um die Bedeutung der in einem Formalismus erlaubten symbolischen Ausdrücke – die Semantik eines Formalismus – zu spezifizieren und um Schlussfolgerungsproze duren zu entwerfen, werden dann aber logische Methoden eingesetzt. Eine Frage, die sich dabei ergibt, ist dann, warum man nicht so etwas wie einen universellen Wissensrepräsentationsformalismus entwirft, der in der Lage ist, alle For men menschlichen Wissens zu erfassen. Der wesentliche Grund dafür, nicht in solch eine Richtung zu gehen, ist, dass mit der Ausdruckskraft einer Logik auch die erfor derlichen Berechnungsressourcen wachsen. So ist es bereits für die Prädikatenlogik unentscheidbar, ob eine gegebene Aussage aus einer Menge von Prämissen logisch folgt. Allerdings kann man für jede prädikatenlogisch wahre Aussage einen Beweis finden. Für Logiken höherer Stufe gilt aber selbst dies nicht mehr, d. h., es gibt wahre Aussagen, die nicht bewiesen werden können. Da es bei der Wissensrepräsentation auch immer um die Verarbeitung geht, be schränkt man sich in diesem Kontext deshalb zumeist auf Formalismen, deren Aus druckskraft geringer als die der Prädikatenlogik 1. Stufe ist, um eben logische Schluss folgerungen effektiv berechnen zu können.
2.2.3 Schlussfolgerungstypen Die formale Logik erlaubt uns, die logisch zwingenden Schlüsse, die sog. deduktiven Schlüsse präzise zu fassen und tatsächlich auch operational auf dem Rechner umzu setzen. Aus einer gegebenen Menge von Prämissen die logisch zwingenden Konse quenzen zu berechnen, ist aber nicht die einzige Art, Schlüsse zu ziehen. Wie schon erwähnt, ist man oft auch an Schlüssen interessiert, die nur plausi bel, aber nicht logisch zwingend sind. Man spricht dann oft auch von anfechtbaren Schlussweisen (engl. defeasible reasoning), d. h., wir schließen etwas aus einer Menge von Prämissen, sind aber bereit diesen Schluss zurückzunehmen, wenn neue, weitere Annahmen dies erfordern. Solche Schlussweisen sind offensichtlich nicht monoton in dem Sinne, dass hier die Menge der Konsequenzen nicht unbedingt mit der Menge der Prämissen wächst. Oft macht man dabei Annahmen, die zwar in der Regel typischer weise stimmen, aber in Einzelfällen auch falsch sein können (engl. default reasoning). Wenn man beispielsweise erfährt, dass jemand einen Vogel besitzt, so wird man plau siblerweise schließen, dass dieser Vogel auch fliegen kann. Erfährt man dann zusätz lich, dass es sich um einen Strauß handelt, dann muss man diesen Schluss revidieren.
38 | 2 Wissensrepräsentation und -verarbeitung
Neben diesen annahmebasierten Schlussweisen existieren abduktive Schlüsse, bei denen man von Beobachtungen auf wahrscheinliche Ursachen schließt. Dies ist im mer dann der Fall, wenn man Diagnosen erstellt oder, wie Sherlock Holmes, versucht Verbrechen aufzuklären. Dabei beobachtet man Symptome, wie z. B. eine laufende Nase oder ein langes blondes Jahr auf der Jacke, und schließt dann, dass dafür ein Schnupfen bzw. die Begegnung mit einer blonden Person verantwortlich ist. Charak teristisch für diese Art von Schlüssen ist, dass man versucht, unter den vielen logisch möglichen Erklärungen die plausibelste zu finden. Daneben gibt es dann noch induktive Schlüsse, bei denen man von vielen Beob achtungen auf Gesetzmäßigkeiten schließt. Man zieht z. B. aus der Beobachtung, dass alle bisher erhaltenen E-Mails, in denen bestimmte Wörter enthalten sind, uninter essant waren, die Schlussfolgerung, dass zukünftige E-Mails, in denen solche Wörter enthalten sind, ebenfalls uninteressant sein werden. Diese Art des Schließens, die eng dazu verwandt ist, wie auch wir Menschen aus unseren Erfahrungen lernen, ist vom Blickwinkel der Künstlichen Intelligenz Gegenstand des Gebiets des Maschinellen Ler nens, und wir verweisen daher an dieser Stelle auf Kapitel 11. Neben dem Erschließen neuer Aussagen hat man oft noch ganz andere Ziele im Blick. Wenn man eine Menge von als wahr angenommen Prämissen gegeben hat, so beschränken diese die möglichen Situationen in der beschriebenen Welt. Oft ist man dann einfach an einer solchen möglichen Situation interessiert. Dies bezeichnet man dann als Modellkonstruktion. Solche Schlüsse spielen z. B. bei Konfigurations- und Planungsaufgaben eine große Rolle (Kapitel 10).
2.3 Ein Beispiel: Beschreibungslogiken Als Beispiel eines Repräsentationsformalismus wollen wir im Folgenden eine Sprache vorstellen, in der sich terminologisches Wissen repräsentieren lässt. Dieser Formalis mus gehört zur Familie der sog. Beschreibungslogiken [5]. Die grundlegende Idee die ser Logiken ist es, eine mit einer präzisen Semantik versehene Sprache zur Verfügung zu stellen, um Beziehungen zwischen Begriffen darzustellen.⁴ Mithilfe dieser Forma lismen können wir so z. B. Familienbeziehungen (wie sie etwa in Abbildung 2.3 in der Beschreibung der Familie der Zähringer vorkamen) definieren und diese Beziehun gen wiederum nutzen, um Verhältnisse zwischen den realen Familienmitgliedern der Zähringer (oder irgendeiner anderen Familie) zu beschreiben. Beschreibungslogiken sind insbesondere daher von Interesse, weil sie die formale Basis für die sog. Ontologiesprachen bilden, wie sie für das Semantic Web (Kapitel 18)
4 Beschreibungslogiken wurden gelegentlich auch als terminologische Logiken bezeichnet und sind eng verwandt zu den Formalismen der KL-ONE Familie [43], die wiederum aus den sog. Frame-basier ten Sprachen [35] hervorgegangen sind.
2.3 Ein Beispiel: Beschreibungslogiken |
39
genutzt werden. Beispiele für solche Ontologiesprachen sind die vom W3C-Konsor tium spezifizierten Sprachfamilien OWL und OWL 2.
2.3.1 Der Formalismus Unsere Repräsentationssprache enthält Begriffssymbole, die mit B bezeichnet werden und Objekte beschreiben, sowie Rollensymbole, die mit R bezeichnet werden und Be ziehungen zwischen jeweils zwei Objekten beschreiben. Zudem gibt es verschiedene Operatoren, mit denen wir Rollen und Begriffe kombinieren können, um neue Begriffs ausdrücke (im Folgenden mit C bezeichnet) zu gewinnen. Die Repräsentationssprache hat, formuliert in einer (abstrakten) BNF-Notation, folgende Gestalt: C
→
⊤
|
B
Begriffssymbole
|
C ⊓ C
Begriffskonjunktion
|
C ⊔ C
Begriffsdisjunktion
|
¬C
Begriffsnegation
|
∀R : C
Werterestriktion
|
∃R : C
existenzielle Restriktion
universelles Konzept
Die spezielle Sprache, die wir hier betrachten, trägt den Namen ALC (Attributive Lan guage with Complements) [42]. Die Begriffskonjunktion bezeichnet einen Begriff, der die Bedingungen beider Begriffe enthält. Beispielsweise bezeichnet die Begriffskon junktion (Mann ⊓ Elternteil) den Begriff Vater. Ebenso verhält es sich mit der Begriffs disjunktion und -negation. Die Werterestriktion bezeichnet Begriffe, bei denen die Rol lenfüller der angegebenen Rolle R die Restriktionen des gegebenen Begriffs C erfüllen. So bezeichnet der Begriffsausdruck (∀hatKind : Mann) den Begriff „jemand, der nur männliche Kinder hat“. Schließlich können mithilfe der Existenzrestriktion Begriffe beschrieben werden, bei denen es mindestens einen Rollenfüller gibt, der zu einem bestimmten Begriff gehört. Nehmen wir an, dass unser Vokabular die Begriffssymbole männlich, weiblich, Mensch, erwachsen und das Rollensymbol hatKind enthält. Dann können wir z. B. fol gende Begriffsausdrücke bilden: Männlich ⊓ Mensch ⊓ Erwachsen Mensch ⊓ ∃hatKind : ⊤ Die erste Zeile beschreibt den Begriff der menschlichen, männlichen Erwachsenen, oder einfach Mann. In der zweiten Zeile wird ein Mensch beschrieben, der mindestens ein Kind hat, also ein Elternteil. Um diese neu definierten Begriffe auch tatsächlich mit
40 | 2 Wissensrepräsentation und -verarbeitung
einem Symbol verknüpfen zu können, gibt es die Operatoren „⊑“ und „≐“, die für eine „partielle Definition“ bzw. „vollständige Definition“ stehen und genauer besagen, dass ein Begriff B von einem anderen Begriff C subsumiert wird (B ⊑ C) oder aber gleich zu C ist (B ≐ C). Zum Beispiel könnten wir folgende Begriffe einführen: Frau ⊑ Mensch ⊓ weiblich Mann ⊑ Mensch ⊓ männlich Elternteil ≐ Mensch ⊓ ∃hatKind : ⊤ Vater ≐ Mann ⊓ Elternteil Großelternteil ≐ Mensch ⊓ ∃hatKind : Elternteil Großmutter ≐ Frau ⊓ Großelternteil Diese nun eingeführten Begriffe, die die Terminologie unserer Anwendungsdomä ne bilden, können wir jetzt aufgrund ihrer Definitionen in einer Spezialisierungshier archie, auch Subsumptionshierarchie genannt, anordnen. Beispielsweise ist der Be griff Großmutter eine Spezialisierung von Elternteil. Um über konkrete Objekte zu reden, erweitern wir unsere Repräsentationsspra che um Mittel zur Beschreibung von Objekten. Wir schreiben o ∈ C, wenn das Ob jekt o zum Begriff C gehört. Also z. B. s ∈ Mensch, falls s ein Mensch ist. ⟨x, y⟩ ∈ R schreiben wir, wenn das Objekt y ein Rollenfüller für die Rolle R des Objektes x ist. ⟨s, st⟩ ∈ hatKind bedeutet z. B., dass das Objekt st das Kind von s ist. Dies erlaubt uns also, nicht nur terminologisches Wissen, sondern auch einfaches Faktenwissen zu repräsentieren. Im Kontext von Beschreibungslogiken bezeichnet man den termi nologischen Teil einer Wissensbasis meist als TBox und den Teil, in dem Faktenwissen (engl. assertions) spezifiziert wird, als ABox. Betrachten wir an dieser Stelle nochmals das Beispiel der Zähringer-Familie aus Abschnitt 2.2.1, so können wir das im dort angegebenen Prolog-Programm (Abbil dung 2.2) repräsentierte Wissen in unserem Formalismus nun wie folgt wiederge ben: caroline_luise ∈ Frau amalie ∈ Frau ⟨caroline_luise, ludwig_i⟩ ∈ hatKind ⟨caroline_luise, karl_ludwig⟩ ∈ hatKind ⟨amalie, karl⟩ ∈ hatKind ... Natürlich könnte man an dieser Stelle die Frage stellen, was wir durch die Einführung unseres Formalismus gegenüber einer Wissensrepräsentation mittels eines PrologProgramms gewonnen haben. Im Grunde könnten wir mittels Prolog-Programmen bei weitem mehr Wissen repräsentieren: Wir könnten in Prolog ja z. B. Begriffe defi
2.3 Ein Beispiel: Beschreibungslogiken | 41
nieren wie „Mutter von mindestens drei Kindern“, die wir in unserem Formalismus nicht definieren können. Die wesentliche Idee hierbei ist nun, dass die Beschränkung der Ausdruckskraft eines Formalismus es ermöglicht, Anfragen an eine Wissensbasis effizienter zu beantworten, als dies für eine in einem Prolog-Programm spezifizierte Wissensbasis möglich wäre. Auf diesen entscheidenden Gesichtspunkt kommen wir nochmals in Abschnitt 2.3.5 zu sprechen.
2.3.2 Semantik Ein wesentlicher Schwachpunkt von frühen Repräsentationsformalismen ist es, dass die Bedeutung dieser Formalismen nur intuitiv und/oder durch das Systemverhalten gegeben ist. Beispielsweise kritisierte Woods [46], dass es keine Semantik der semanti schen Netze gäbe. Dies führte dazu, dass relativ viele (meist fruchtlose) Debatten über die Ausdrucksfähigkeit von Formalismen geführt wurden. Schlimmer noch, es war auch nicht klar, was denn nun tatsächlich mithilfe eines Repräsentationsformalismus repräsentiert werden kann. Eine Lösung dieses Problems ist es, eine formale Semantik anzugeben. Dabei gibt es natürlich erst einmal beliebige Möglichkeiten. Als Standardwerkzeug dafür haben sich jedoch logische Methoden bewährt. Wir haben damit also die Situation, dass zwar Logik selbst nicht als Repräsentationsformalismus benutzt wird, dass die verschiede nen Repräsentationsformalismen aber jeweils eine logische Semantik besitzen. Damit ist es möglich, – die Bedeutung von Repräsentationsformalismen zu kommunizieren, – die intendierte Semantik mit der formalen Spezifikation zu vergleichen [22], – die Ausdrucksfähigkeit von Repräsentationsformalismen zu bestimmen [2; 36], – die Berechenbarkeitseigenschaften von Repräsentationsformalismen zu bestim men [10; 31; 34], – Inferenzalgorithmen zu entwickeln und deren Korrektheit und Vollständigkeit zu beweisen [25; 42]. In unserem Fall könnten wir die Semantik unseres kleinen Repräsentationsformalis mus durch eine direkte Übersetzung in die Prädikatenlogik erster Stufe angeben. Je des Begriffssymbol B entspräche einem einstelligen Prädikat B(x). Jedes Rollensym bol R entspräche einem zweistelligem Prädikat R(x, y) und ein komplexer Begriffsaus druck C entspricht einer Formel C(x) mit einer freien Variablen x. Alternativ wollen wir die Semantik direkt mithilfe mengentheoretischer Ausdrü cke angeben. Wesentlicher Teil einer solchen mengentheoretischen Semantik ist eine Interpretation I bestehend aus einer Interpretationsfunktion ⋅I und einer nicht leeren Grundmenge U. Die Interpretationsfunktion weist jedem Begriffssymbol B eine Teil menge B I ⊆ U, jedem Rollensymbol R eine zweistellige Relation R I ⊆ U × U und jedem Symbol für Individuen a ein Element a I ∈ U zu. Komplexen Begriffsausdrücken kön
42 | 2 Wissensrepräsentation und -verarbeitung
nen wir nun induktiv ebenfalls eine Extension wie folgt zuordnen: ⊤ I := U (C ⊓ C )I := C I ∩ CI (C ⊔ C )I := C I ∪ CI (¬C)I := U \ C I (∀R : C)I := {x ∈ U : für jedes y ∈ U mit (x, y) ∈ R I gilt: y ∈ C I } (∃R : C)I := {x ∈ U : es gibt ein y ∈ U mit (x, y) ∈ R I und y ∈ C I } Eine Interpretation I erfüllt nun eine Formel der Gestalt B ⊑ C, falls B I ⊆ C I , eine For mel der Gestalt B ≐ C, falls B I = C I , eine Formel der Gestalt a ∈ C, falls a I ∈ C I , und eine Formel der Gestalt ⟨a, b⟩ ∈ R, falls (a I , b I ) ∈ R M . Man sagt, dass I ein Modell einer Menge Σ solcher Formeln ist, falls I jede einzelne der Formeln aus Σ erfüllt. Ei ne Menge von Formeln heißt erfüllbar, falls sie ein Modell hat. Schließlich definieren wir auch den Folgerungsbegriff: Eine Formel φ folgt aus einer Menge Σ von Formeln (symbol. Σ φ), falls jedes Modell von Σ auch φ erfüllt. Alternativ zu einer Semantik, die alle Terme der Sprache in mengentheoretische Ausdrücke übersetzt, sind auch andere Möglichkeiten denkbar. Beispielsweise könn ten wir die Repräsentationssprache in (ein Fragment) der Prädikatenlogik überset zen, wie oben skizziert. Daneben eignen sich aber auch andere Logiken. Insbesonde re Modallogiken [14] sind dabei gute Kandidaten. Tatsächlich kann man viele termi nologische Sprachen als notationelle Varianten von bestimmten Multimodallogiken auffassen [41].
2.3.3 Inferenzdienste Mit der im letzten Abschnitt definierten Semantik können wir nun eine Reihe von Pro blemstellungen genauer spezifizieren, die sich ergeben, wenn eine Wissensbasis in unserem Beispielformalismus vorliegt. Hat man algorithmische Lösungen für diese Problemstellungen gefunden, so kann ein Tool, das diese Algorithmen implementiert, Inferenzdienste anbieten, die es dem Anwender erlauben, Anfragen an eine Wissens basis zu beantworten. Ein Anwender, der eine Wissensbasis in unserem Beschreibungsformalismus spe zifiziert, könnte z. B. daran interessiert sein zu prüfen, ob die von ihm entworfene Ter minologie insofern sinnvoll ist, dass alle definierten Begriffe konsistent, d. h. erfüll bar, sind. Gerade bei großen Terminologien kann es passieren, dass man solche nicht erfüllbaren Konzepte spezifiziert. Schreiben wir T für den terminologischen Teil der Wissensbasis und ⊥ als eine Abkürzung für den Begriffsausdruck ¬⊤, so kann man dieses Problem in symbolischer Form durch die Frage „T B ⊑ ⊥?“ beschreiben.
2.3 Ein Beispiel: Beschreibungslogiken | 43
Denn offensichtlich gilt T ̸ B ⊑ ⊥ genau dann, wenn es ein Modell M von T (also eine Interpretation aller Begriffssymbole) gibt, derart dass B M keine Teilmenge der leeren Menge, also B M selbst nicht leer ist. Weitere Inferenzdienste, die die Terminologie betreffen, ergeben sich daraus, dass man z. B. überprüfen möchte, ob ein Begriff C (genauer: ein durch C ausgedrückter Begriff) von einem anderen Begriff C subsumiert wird (T C ⊑ C ) oder ob C und C gar den gleichen Begriff ausdrücken (T C ≐ C ). Man kann des Weiteren auch die Anfrage stellen, ob die gesamte Wissensbasis, also Terminologie T und das in der Wissensbasis spezifizierte Faktenwissen A konsis tent ist, ob es also ein Modell gibt, das alle Formeln aus der Menge T∪A zugleich erfüllt (man sagt dann auch, dass A mit T konsistent ist). Diese Fragestellung ist natürlich nur dann interessant, wenn überhaupt Faktenwissen vorhanden ist, denn in unserem Formalismus hat eine TBox stets ein Modell (wenn vielleicht auch nur eines, in dem einzelne Begriffsextensionen leer sind). In Bezug auf das früher angegebene Beispiel der Zähringer-Familie lässt sich natürlich einfach feststellen, dass die faktische Be schreibung der Familienverhältnisse der Zähringer mit den allgemeinen Definitionen von Familienkonzepten konsistent ist. Einer der wichtigsten Inferenzdienste ist es zu prüfen, ob ein in der Wissensbasis spezifiziertes Objekt a Instanz eines Begriffs C ist. An dieser Stelle wollen wir dar auf hinweisen, dass für die meisten Wissensbasen eine Antwort auf diese Frage nicht eindeutig ist, d. h., Wissensbasen können verschiedene Modelle besitzen, solche, in denen a ∈ C gilt, und solche, in denen a ∈ C nicht gilt. Meist stellt man die Frage da her in der Form, ob a Instanz des Konzepts C sein muss, d. h., dass aus Terminologie plus Faktenwissen logisch folgt, dass a Instanz von C ist (T ∪ A C(a)). Entsprechen des muss man berücksichtigen, wenn man zu einem gegebenen Begriff C alle in der Wissensbasis spezifizierten Objekte ausgeben will, die Instanz von C sein müssen.
2.3.4 Inferenzalgorithmen Eine Repräsentationssprache gibt uns die Ausdrucksmittel, um das Wissen einer An wendungsdomäne zu beschreiben. Die mit der Sprache assoziierte Semantik verrät uns, welche formale Bedeutung ein gegebener Repräsentationsausdruck hat und wie die Dienste eines Repräsentationssystems zu interpretieren sind. Was uns jetzt noch fehlt, ist die Mechanisierung, die Algorithmisierung, der Dienste eines Repräsenta tionssystems. Wie muss ein Algorithmus aussehen, der bei gegebener Wissensbasis entscheidet, ob ein bestimmter Begriff konsistent ist? Wie muss ein Algorithmus aus sehen, der für einen Begriff alle in der Wissensbasis spezifizierten Instanzen des Be griffs ausgibt? Wie sieht ein Algorithmus aus, der eine Spezialisierungshierarchie ei ner Menge von Begriffen berechnet? Und angenommen, wir haben auf alle diese Fra gen Antworten gefunden, wie können wir zeigen, dass die Algorithmen tatsächlich die in sie gesetzten Erwartungen erfüllen?
44 | 2 Wissensrepräsentation und -verarbeitung
Wir wollen mit der letzten Frage beginnen. Angenommen, wir haben einen Ent scheidungsalgorithmus (ein Algorithmus, der „ja“ oder „nein“ ausgibt) spezifiziert, von dem wir glauben, dass er entscheidet, ob ein beliebiges Objekt a zum Begriff C gehört. Dann müssen wir beweisen, dass – immer, wenn der Algorithmus eine positive Antwort gibt, tatsächlich a ∈ C gilt, – immer, wenn a ∈ C gilt, der Algorithmus eine positive Antwort gibt und – der Algorithmus immer (bei jeder erlaubten Eingabe) terminiert. Die erste Bedingung bezeichnet man als Korrektheit, die zweite als Vollständigkeit des Algorithmus – wie bei logischen Kalkülen (Abschnitt 2.3.2). Die dritte Bedingung ist eine notwendige Bedingung dafür, dass es sich überhaupt um einen Algorithmus han delt. Wird die dritte Bedingung nicht erfüllt, sprechen wir von einer Prozedur. Aller dings kann es vorkommen, dass nicht alle drei Bedingungen zusammen erfüllt wer den können. Schlussfolgerung in der Prädikatenlogik erster Stufe ist beispielsweise unentscheidbar, d. h., dass man keinen korrekten und vollständigen Algorithmus an geben kann, der entscheidet, ob eine Aussage aus einer anderen folgt. Man kann al lerdings vollständige und korrekte Prozeduren für dieses Problem angeben, z. B. Re solution (Kapitel 5), die aber eben nicht immer terminieren. Offensichtlich können wir diese Eigenschaften nur dann untersuchen, wenn wir die Semantik des Repräsentationsformalismus formal angegeben haben. Außerdem ist es offensichtlich, dass wir einen Beweis nur dann führen können, wenn der Al gorithmus kompakt genug ist, sodass ein Beweis der Korrektheit und Vollständigkeit auch tatsächlich möglich ist. Aus diesem Grund wählt man eine möglichst abstrakte Form bei der Angabe des Algorithmus. Wir wollen beispielhaft für den oben angegebenen Repräsentationsformalismus einen abstrakten Algorithmus angeben, der Subsumption zwischen zwei Begriffen ent scheidet, d. h., der bestimmt, ob innerhalb einer gegebenen Terminologie T ein Be griff C spezieller als ein anderer Begriff C ist, symbolisch T C ⊑ C . Obwohl dies ja nur einer der Dienste ist, für die wir uns interessieren, ist die Aufgabenstellung doch so beschaffen, dass dieser Algorithmus verallgemeinert werden kann, um auch die anderen Dienste zu realisieren. Als ersten Schritt zur Berechnung der Subsumptionsrelation in einer Terminolo gie T geben wir jetzt ein einfaches Verfahren an, um bei der Subsumptionsbestim mung von der Terminologie zu abstrahieren. Dazu formen wir die Terminologie T in eine andere Terminologie T ∗ um, in der der ⊑-Operator nicht mehr vorkommt. Zu die sem Zweck führen wir für jedes partiell definierte Begriffssymbol ein neues Begriffs symbol ein, das auf der rechten Seite der Definition konjunktiv hinzugenommen wird, also z. B.: Frau ≐ Mensch ⊓ Weiblich ⊓ Frau∗ Mann ≐ Mensch ⊓ Männlich ⊓ Mann∗
2.3 Ein Beispiel: Beschreibungslogiken |
45
Die neuen Symbole Mann∗ , Frau∗ , . . . bleiben innerhalb der Terminologie undefi niert. Wie man sich leicht klar macht, ändert man durch diesen Übergang von T nach T ∗ nichts an der Bedeutung der ursprünglichen Begriffssymbole. Insbesondere bleibt die Subsumptionsbeziehung zwischen Begriffsausdrücken, die nur Symbole der ur sprünglichen Terminologie verwenden, von dieser Transformation unberührt. Wenn wir jetzt einen Begriffsausdruck C gegeben haben, so wollen wir mit E(C) seine Expansion bezüglich der Terminologie T ∗ bezeichnen, wobei mit Expansion die Ersetzung von Begriffssymbolen durch ihre Definition gemeint ist, die so lange durch geführt wird, bis nur noch undefinierte Begriffssymbole auftauchen. Beispielsweise ist E(Großmutter): Mensch ⊓ Weiblich ⊓ Frau∗ ⊓ Mensch ⊓ ∃hatKind : (Mensch ⊓ ∃hatKind : ⊤) . Die Funktion E(⋅) ist natürlich nur dann wohldefiniert, wenn 1. jedes Begriffssymbol höchstens einmal auf der linken Seite einer Definition auf taucht und 2. die Terminologie keine Zyklen enthält (d. h., man kann die Formeln in der Termi nologie so anordnen, dass auf der rechten Seite einer Definition nur Begriffssym bole vorkommen, die undefiniert sind oder aber in der Anordnung vorher definiert wurden). Wollen wir jetzt berechnen, ob T C ⊑ C gilt, so können wir stattdessen auch be rechnen, ob E(C) von E(C ) in der leeren Terminologie subsumiert wird, symbolisch 0 E(C) ⊑ E(C ). Damit können wir uns jetzt darauf konzentrieren, einen Algorith mus für die Bestimmung der Relation ⊑ in der leeren Terminologie zu entwerfen. Eine erste Idee für solch einen Algorithmus könnte sein, die beiden Ausdrücke E(C) und E(C ) strukturell miteinander zu vergleichen. Dies ist auch tatsächlich ei ne Möglichkeit, wie Levesque und Brachman [31] gezeigt haben. Sie haben für ei ne Teilmenge des oben angegebenen Formalismus einen vollständigen und korrek ten Subsumptionsalgorithmus angeben, der auf strukturellem Vergleich basiert. Aller dings stellt sich heraus, dass die Verallgemeinerung dieses Vorgehens für mächtigere Formalismen, wie z. B. für den hier betrachteten Formalismus, aus mehreren Gründen nicht gangbar ist. Wir wollen hier einen anderen Weg gehen, der an die Constraint-Lösungsmetho de von Schmidt-Schauß und Smolka [42] angelehnt ist. Dazu machen wir uns zuerst klar, dass man Subsumption zwischen zwei Begriffsausdrücken auf Inkonsistenz ei nes Begriffsausdruck reduzieren kann, wobei ein Begriffsausdruck inkonsistent oder auch leer genannt wird, wenn man damit keine Objekte beschreiben kann, oder for mal, wenn C I = 0 für jede Interpretation I ist. Nun gilt folgende Äquivalenz: C ⊑ C genau dann, wennC ⊓ ¬C inkonsistent.
46 | 2 Wissensrepräsentation und -verarbeitung
Wenn wir also einen Algorithmus für Subsumption gefunden haben, können wir auch Inkonsistenz von Begriffsausdrücken entscheiden und umgekehrt.⁵ Da Algorithmen für Inkonsistenz einfacher zu entwickeln und verifizieren sind, werden wir uns darauf konzentrieren, genau so einen Algorithmus zu entwickeln. Die Idee dahinter ist relativ simpel. Man versucht auf allen möglichen Wegen ein Modell zu konstruieren, in dem der testende Begriffsausdruck eine Instanz hat. Gelingt dies, ist der Begriffsausdruck konsistent. Gelingt dies nicht – und haben wir tatsächlich alle Möglichkeiten für die Konstruktion eines solchen Modells ausgeschöpft – dann ist der Begriffsausdruck in konsistent. Um den Algorithmus möglichst einfach zu halten, werden wir den Begriffsaus druck vorher in eine Normalform, die sog. Negationsnormalform, überführen, in der der Negationsoperator nur direkt vor Begriffssymbolen steht. Ein beliebiger Begriffs ausdruck kann in seine Negationsnormalform überführt werden, indem man folgende Äquivalenzen ausnutzt: ¬(C ⊓ C ) ≡ ¬C ⊔ ¬C , ¬(C ⊔ C ) ≡ ¬C ⊓ ¬C , ¬(¬C) ≡ C , ¬(∀R : C) ≡ ∃R : ¬C , ¬(∃R : C) ≡ ∀R : ¬C . Um zu bestimmen, ob ein Ausdruck in Negationsnormalform inkonsistent ist, führen wir jetzt den Begriff eines Constraints ein. Ein Constraint ist entweder ein Ausdruck der Art (x : C) oder ein Ausdruck der Form (x R y) mit der intuitiven Bedeutung, dass das Objekt x zum Begriff C gehört bzw. dass die beiden Objekte x und y in der R-Bezie hung zueinander stehen. Eine Menge von Constraints wird Constraint-System genannt und im Folgenden mit C bezeichnet. Für einen gegebenen Begriffsausdruck C nennen wir das System {(x : C)} ein jungfräuliches Constraint-System und die Variable x wird Wurzelvariable genannt. Ein Constraint-System heißt erfüllbar, wenn der existenzielle Abschluss über die Konjunktion aller Constraints eine erfüllbare Formel ist. Ansons ten nennt man es unerfüllbar. Wir geben jetzt eine Menge von Transformationsregeln an, die die Erfüllbarkeitseigenschaft invariant lassen und entweder ein Objekt kon struieren, das alle Constraints erfüllt, oder zeigen, dass dies nicht möglich ist [24]. 1. C∪{x : (C⊓C )} →⊓ C∪{x : (C⊓C ), x : C, x : C }, falls nicht schon {x : C, x : C } ⊆ C. 2. C∪{x : (∃R : C)} →∃ C∪{x : (∃R : C), xRy, y : C}, falls es nicht schon eine Variable z gibt, sodass {x R z, z : C} ⊆ C (hierbei sei y eine neue Variable, die nicht in C vorkommt). 3. C∪{x : (∀R : C), x R y} →∀ C∪{x : (∀R : C), x R y, y : C}, falls nicht schon (y : C) ∈ C.
5 Voraussetzung dafür ist, dass wir Begriffskonjunktion und -negation in unserer Sprache zur Verfü gung haben.
2.3 Ein Beispiel: Beschreibungslogiken | 47
Es sollte klar sein, dass ein Constraint-System C nach der Anwendung einer der obigen Regeln genau dann erfüllbar ist, wenn das System vorher erfüllbar war. Was uns jetzt noch fehlt, ist eine Regel für die Begriffsdisjunktion. Im Gegensatz zu den anderen drei Regeln muss diese jedoch nicht deterministisch sein. Um zu prü fen, ob x : (C ⊔ C ) erfüllbar ist, müssen wir zeigen, dass x : C oder x : C erfüllbar ist. Die entsprechende Regel lautet daher: {C ∪ {x : (C ⊔ C ), x : C} oder 4. C ∪ {x : (C ⊔ C )} →⊔ { {C ∪ {x : (C ⊔ C ), x : C } , falls nicht schon (x : C) ∈ C oder (x : C ) ∈ C. Falls ein Constraint-System erfüllbar ist, dann muss wenigstens eine der beiden Mög lichkeiten der Regel →⊔ zu einem erfüllbaren Constraint-System führen. Umgekehrt, falls ein Constraint-System unerfüllbar ist, wird das System nach der Anwendung von →⊔ unerfüllbar sein, egal welche Möglichkeit wir gewählt haben. Wenden wir diese vier Regeln auf ein jungfräuliches Constraint-System solange an, bis keine Regel mehr anwendbar ist, erhalten wir ein vollständiges Constraint-Sys tem, und ob ein vollständiges Constraint-System erfüllbar ist, kann man sehr einfach feststellen. Ein Paar von Constraints der Art (x : B), (x : ¬B), wobei B ein Begriffssym bol ist, wollen wir elementaren Widerspruch nennen. Offensichtlich ist ein ConstraintSystem nicht erfüllbar, falls es einen elementaren Widerspruch enthält. Gibt es keinen elementaren Widerspruch, dann können wir das vollständige Constraint-System be nutzen, um ein Modell aufzubauen, in dem die Wurzelvariable ein Objekt bezeichnet, das zu dem ursprünglichen Begriffsausdruck gehört. Mit den obigen Aussagen folgt daraus, dass der Begriffsausdruck C inkonsistent ist, genau dann, wenn jede mögliche Vervollständigung des jungfräulichen Con straint-Systems {x : C} einen elementaren Widerspruch enthält. Wir wollen die Vorgehensweise an einem kleinen Beispiel illustrieren. Wir wollen den Ausdruck (∃R : (B1 ⊔ B2 )) ⊓ (∀R : ¬B1 ) auf Erfüllbarkeit testen. Das heißt, wir kon struieren zuerst das jungfräuliche Constraint-System mit einem einzigen Constraint: C0 = {x : ((∃R : (B1 ⊔ B2 )) ⊓ (∀R : ¬B1 ))} . der Regel (1) können wir die Begriffskonjunktion zerlegen: C1 = C0 ∪ {x : (∃R : (B1 ⊔ B2 )), x : (∀R : ¬B1 )} . Mithilfe der Regel (2) können wir jetzt einen Rollenfüller für y für die R-Rolle einfüh ren: C2 = C1 ∪ {xRy, y : (B1 ⊔ B2 )} . Mithilfe der Regel (3) können wir die Werterestriktion auf den neuen Rollenfüller an wenden: C3 = C2 ∪ {y : ¬B1 } .
48 | 2 Wissensrepräsentation und -verarbeitung
Jetzt können wir schließlich die nicht deterministische Regel (4) anwenden, die uns entweder C4 = C3 ∪ {y : B1 } oder C4 = C3 ∪ {y : B2 } liefert. Beide Constraint-Syste me sind vollständig, da keine weiteren Regeln anwendbar sind. C4 enthält allerdings den elementaren Widerspruch {y : B1 , y : ¬B1 } und ist also unerfüllbar, während C4 einen solchen Widerspruch nicht enthält. Da es also mindestens eine mögliche Ver vollständigung gibt, die keinen Widerspruch enthält, ist der Begriffsausdruck nicht inkonsistent. Man kann einfach aus C4 ein Modell für unseren ursprünglichen Be griffsausdruck konstruieren. Obwohl dieses Verfahren erst einmal nicht wie ein Algorithmus aussieht, kann man sich leicht klarmachen, dass es tatsächlich immer terminiert und damit ein Ent scheidungsverfahren ist. Die wesentliche Idee bei einem Terminierungsbeweis für das oben angegebene Verfahren ist, dass die Transformationsregeln komplexe Ausdrü cke in einfachere Ausdrücke zerlegen. Die nicht deterministische Komponente kann man leicht beseitigen, indem man jeweils beide Möglichkeiten der Disjunktionsregel durchspielt. Natürlich wird man bei einer konkreten Implementierung nicht unbe dingt ein Constraint-System und Regelanwendungen benutzen, um den Inkonsistenz test zu realisieren, da dieses nicht sehr effizient ist. Stattdessen wird man vermutlich andere Möglichkeiten, wie z. B. den rekursiven Abstieg über die Struktur des Begriffs ausdrucks, benutzen. Für die Verifikation des Verfahrens ist die obige abstrakte Form eines Algorithmus jedoch ideal. Am Schluss dieses Abschnitts wollen wir noch einmal die Entwicklung unseres Inferenzalgorithmus zusammenzufassen. Wir waren ausgegangen von der Frage, wie wir T C ⊑ C bestimmen können. Dieses Problem haben wir reduziert auf die Be rechnung von 0 E(C) ⊑ E(C ) – auf den Subsumptionstest von Begriffsausdrücken in der leeren Terminologie. Subsumption in der leeren Terminologie haben wir auf den Test der Inkonsistenz der Negationsnormalform von E(C) ⊓ ¬E(C ) reduziert, was wie derum auf die Unerfüllbarkeit von Constraint-Systemen reduziert wurde. Das letzte Problem wurde schließlich gelöst, indem wir eine Menge von vier Transformationsre geln angegeben haben, die angewendet auf ein jungfräuliches Constraint-System ent weder immer zu einem elementaren Widerspruch führen und damit die Inkonsistenz beweisen, oder aber zu einem vollständigen Constraint-System ohne elementaren Wi derspruch, das es uns erlaubt, ein Modell zu konstruieren, das den ursprünglichen Konzeptausdruck erfüllt.
2.3.5 Berechenbarkeitseigenschaften Man kann sich an dieser Stelle fragen, was denn nun besonderes an unserem Reprä sentationsformalismus ist. Offensichtlich ist es doch möglich, ihn vollständig in die Prädikatenlogik einzubetten. Da wir wissen, wie vollständige und korrekte Dedukti onsverfahren für Prädikatenlogik aussehen, könnte man jetzt hergehen und solche Verfahren anwenden, statt sich den Kopf über spezielle Inferenzalgorithmen zu zer
2.3 Ein Beispiel: Beschreibungslogiken |
49
brechen. Tatsächlich geht ein solches Argument jedoch am Kern der Sache vorbei. Um ein Beispiel aus der Bereich der Theoretischen Informatik zu geben, würde man ja auch die Untersuchung der Eigenschaften von kontextfreien Sprachen und die Ent wicklung von Parsingalgorithmen für spezielle kontextfreie Sprachen nicht mit dem Argument abtun, dass es sich hierbei nur um Spezialfälle von kontextsensitiven Spra chen handelt. Was uns an dieser Stelle interessiert, ist also die spezielle Struktur von Reprä sentationsformalismen, die unter Umständen effizientere Verfahren zulässt als allge meine Beweisverfahren für die Prädikatenlogik erster Stufe. Unter Umständen sind diese Verfahren so beschaffen, dass wir gewisse Garantien für die Inferenzverfahren abgeben können, z. B., dass wir für jede Eingabe nach endlicher Zeit eine Antwort be kommen oder sogar schon nach einer Zeit, die durch eine Funktion in der Länge der Eingabe begrenzt ist. Als Beispiel können wir hier unseren Repräsentationsformalismus betrachten, der offensichtlich die Eigenschaft hat, dass Subsumption entscheidbar ist, da wir ja ein Entscheidungsverfahren angeben können. Das heißt, wir haben gegenüber der Prädikatenlogik tatsächlich etwas gewonnen – auf dem Gebiet der Berechenbarkeits eigenschaften. Allerdings haben wir natürlich auch etwas von der Ausdrucksfähig keit der Prädikatenlogik eingebüßt. Solche Betrachtungen gehören zu einer der wich tigsten Aufgaben der Wissensrepräsentation, nämlich den richtigen Kompromiss zwi schen Ausdrucksfähigkeit und Berechenbarkeitseigenschaften zu finden [31]. Hierbei ist zu beachten, dass die spezielle syntaktische Struktur der Repräsen tationssprache nur eine relativ untergeordnete Rolle spielt. Würden wir statt der li nearen Form unseres Repräsentationsformalismus eine grafische Form wählen, die an semantischen Netzen orientiert ist, so mag man einen Vorteil bei der Präsentation des Wissens und einen heuristischen Vorteil beim Nachdenken über repräsentiertes Wissen und Inferenzverfahren zur Verarbeitung des Wissens haben. Solange aber die Ausdrucksfähigkeit von Formalismen gleich ist, d. h. salopp gesprochen, dass alles, was wir in dem einen Formalismus ausdrücken können, mit ungefähr dem gleichem Aufwand auch in dem anderen Formalismus ausdrückbar ist – ein Punkt, den man mithilfe der formalen Semantik überprüfen kann [2] –, solange werden auch Inferenz verfahren ungefähr den gleichen Aufwand benötigen. Nun ist die Unterscheidung in entscheidbare und unentscheidbare Probleme aber sehr grob und meist nicht sehr aussagekräftig. Viele im Prinzip entscheidbare Proble me können nichtsdestoweniger sehr kompliziert sein – so kompliziert, dass ein Algo rithmus mehr Laufzeit benötigt, als die zu erwartende Lebensdauer der Erde beträgt (auch wenn wir von sehr viel schnelleren Computern ausgehen). Wenn wir z. B. Brett spiele wie Schach oder Go betrachten, so ist das Problem den besten Zug zu finden im Prinzip entscheidbar, da es nur endlich viele Brettkonfigurationen gibt und somit auch nur endlich viele Spielverläufe. Die Anzahl der möglichen Brettkonfigurationen ist aber so groß, dass diese prinzipielle Entscheidbarkeit keine Relevanz für die Praxis besitzt.
50 | 2 Wissensrepräsentation und -verarbeitung
Eine feinere Unterteilung zur Beurteilung der Berechenbarkeitseigenschaften bie tet die Komplexitätstheorie [17; 38]. Man unterteilt hierbei die Menge aller Probleme in solche, für die Algorithmen existieren, deren Laufzeit in allen Fällen durch eine polynomiale Funktion in der Länge der Eingabe nach oben abgeschätzt werden kön nen und solche, bei denen keine Algorithmen mit dieser Eigenschaft existieren. Die ersteren werden als handhabbare Probleme bezeichnet. Der Grund für diese Art der Unterteilung liegt darin, dass man bei handhabbaren Problemen in der Regel davon ausgehen kann, dass auch relativ große Probleme noch in vernünftiger Zeit gelöst wer den können, insbesondere, wenn der Grad des Polynoms niedrig ist (≤ 3). Bei nicht handhabbaren Problemen steigt die notwendige Rechenzeit jedoch meist so schnell, dass nur relativ kleine Eingaben in vernünftiger Zeit bearbeitet werden können. Natürlich wäre es wünschenswert, dass die Inferenzprobleme von Repräsentati onsformalismen handhabbar sind, dass man also Inferenzalgorithmen angeben kann, die ein polynomiales Laufzeitverhalten haben. Levesque und Brachman [31] gehen sogar so weit, dass sie fordern, jeder Repräsentationsformalismus müsse diese Eigen schaft haben. Dies schränkt jedoch die Ausdrucksfähigkeit und/oder die Art der mög lichen Dienste sehr radikal ein, sodass diese Forderung meist nicht eingehalten wer den kann [11]. Wir wollen an dieser Stelle wieder unsere Repräsentationssprache und die Berech nung der Subsumptionsrelation als Beispiel heranziehen. Wenn wir den Constraint-Lö sungsalgorithmus, der im letzten Abschnitt entwickelt wurde, analysieren, so stellen wir fest, dass er einige Stellen enthält, die dazu führen, dass im schlechtesten Fall die Laufzeit exponentiell mit der Größe der Eingabe wächst. Natürlich stellt sich sofort die Frage, ob man es nicht besser machen könnte – ob das Subsumptionsproblem hand habbar ist und wir lediglich einen schlechten Algorithmus entworfen haben. Wenn man jetzt den Inferenzalgorithmus noch einmal betrachtet, stellt man fest, dass er selbst auf einer nicht deterministischen Maschine⁶ unter Umständen mehr als polynomial viel Zeit verbraucht. Das Zusammenspiel der →∃ - und der →∀ -Regel kann dazu führen, dass exponentiell viele Variablen eingeführt werden. Man kann in der Tat zeigen, dass das Subsumptionsproblem in unserem Formalismus zu den schwie rigsten Problemen einer Klasse von Problemen gehört, die dadurch beschrieben wer den kann, dass der Speicherplatzbedarf höchstens polynomial mit der Eingabegröße wächst (die Laufzeit aber nicht beschränkt ist) [42]. Diese Klasse heißt PSPACE und umfasst die bekanntere Klasse NP, in der alle Probleme liegen, die in polynomialer Laufzeit auf nicht deterministischen Maschinen entschieden werden können. Von die ser Klasse nimmt man an, dass ihre schwierigsten Probleme nicht in polynomialer Zeit entscheidbar sind.
6 Eine nicht deterministische Maschine kann man sich als einen normalen Computer vorstellen, der an bestimmten Punkten nicht deterministisch eine Entscheidung fällt. Man definiert dann, dass ein Problem von einer solchen Maschine gelöst wird, falls es eine Folge von solchen nicht deterministi schen Entscheidungen gibt, die zu einer Lösung führen.
2.3 Ein Beispiel: Beschreibungslogiken |
51
Diese sehr präzise Charakterisierung der Komplexität des Subsumptionsproblems macht zweierlei deutlich. Erstens wissen wir jetzt, dass wir tatsächlich keinen im Prin zip besseren Algorithmus als den oben angegebenen finden können.⁷ Zweitens ist jetzt klar, dass wir nicht damit rechnen können, dass wir ein Repräsentationssystem bauen können, das unter allen Umständen eine korrekte Antwort in vernünftiger Zeit liefert.
2.3.6 Jenseits von ALC Neben diesem im Detail beleuchteten Formalismus ALC kann man nun eine Vielzahl von Varianten betrachten. So gibt es einerseits deutlich ausdrucksstärkere Formalis men, z. B. solche, die noch weitere Konstruktoren für Begriffsausdrücke erlauben (z. B. Konstruktoren, die die Anzahl von Rollenfüllern abschätzen). Ferner kann man Be schreibungslogiken betrachten, in denen es möglich ist, die formalen Eigenschaften von Rollen genauer festzulegen, z. B. dass eine Rolle transitiv ist. Diese Konstruktoren und noch ein paar mehr sind beispielsweise in der Beschreibungslogik SHOIN enthal ten, die die formale Grundlage der Web-Ontologiesprache OWL-DL darstellt [27]. Die Weiterentwicklung dieser Sprache hat zu OWL 2 geführt [37], die auf der noch mächti geren Beschreibungslogik SHROIQ basiert [26]. SHROIQ lässt insbesondere Rollenin klusionsaxiome in begrenzter Weise zu, die im Allgemeinen zur Unentscheidbarkeit führen können. Während die bisher erwähnten Erweiterungen immer die Eigenschaft hatten, dass man ein Fragment der Prädikatenlogik erster Stufe erhielt, gibt es auch Konstruktoren (wie etwa der transitive Abschlusskonstruktor), die bewirken, dass sich der resultie rende Formalismus nicht mehr in die Prädikatenlogik erster Stufe einbetten lässt. Neben diesen ausdrucksstarken Formalismen sind auch Formalismen von prak tischem Interesse, die deutlich ausdrucksschwächer als die oben erwähnten ALC-Va rianten sind. Es zeigt sich z. B., dass (oftmals sehr große) medizinische Wissensbasen wie etwa SNOMED (Systematized Nomenclature of Medicine) mit sehr eingeschränkten Begriffskonstruktoren auskommen [44]. Insbesondere ist die Werterestriktion ∀R : C nicht erforderlich. Damit kann man dann den größten Teil der SNOMED-Wissensba sis mithilfe der Beschreibungslogik EL++ beschreiben, für die effiziente Schlussfolge rungsverfahren zur Verfügung stehen [4]. Dies heißt, dass man ausdrucksschwache Formalismen verwenden kann, um solches Wissen zu repräsentieren, aber effiziente Verfahren zur Verfügung hat, um Anfragen an solche Wissensbasen zu beantworten. Neben der Entwicklung neuer Schlussverfahren für weitere Beschreibungslogiken spielen auch Kombinationen mit anderen Wissensrepräsentationsformalismen eine wichtige Rolle. Beispiele dafür sind die Kombination von Beschreibungslogiken mit probabilistischen Formalismen [6], mit temporalen Wissensrepräsentationsformalis 7 Besser in dem Sinne, dass man mit polynomialer Laufzeit auskommt. Es kann durchaus sein, dass ein anderer Algorithmus in allen (oder fast allen) Fällen polynomial besser als der angegebene ist.
52 | 2 Wissensrepräsentation und -verarbeitung
men [3], und die Kombination mit Planungsformalismen [8]. Schließlich sind auch Knowledge-Engineering-Werkzeuge wie der Ontologieeditor Protégé [33] ein wichtiges Forschungsthema.
2.4 Zusammenfassung und Ausblick In diesem Kapitel haben wir einige Kernfragestellungen auf dem Gebiet der Wissensre präsentation und Wissensverarbeitung kennengelernt. Nach einem kleinen Streifzug durch verschiedene Spielarten des Wissens konnten wir uns zunächst davon über zeugen, dass es sinnvoll ist, in wissensbasierten Systemen das zu repräsentierende Wissen von den wissensverarbeitenden Prozeduren separiert zu halten. Ferner wur de die grundlegende Rolle der Logik für die Wissensrepräsentation beleuchtet. So er laubt es die Verwendung von logischen Methoden, Repräsentationsformalismen ei ne exakte Semantik zu geben: Dies ist eine wesentliche Grundvoraussetzung dafür, verschiedene Repräsentationsformalismen hinsichtlich ihrer Ausdrucksstärke zu ver gleichen und (sofern möglich) Übersetzungen zwischen diesen Formalismen anzu geben. Exemplarisch haben wir dann einen Repräsentationsformalismus vorgestellt, in dem sich terminologisches wie auch Faktenwissen repräsentieren lässt. Diesen For malismus, die Beschreibungslogik ALC, kann man als ein Fragment der Prädikatenlo gik erster Stufe verstehen, das im Vergleich zu dieser Logik aber deutlich ausdrucks schwächer ist. Wir konnten uns davon überzeugen, dass die Beschränkung der Aus drucksstärke jedoch in einem entscheidenden Vorteil mündet, wenn es darum geht, Inferenzanfragen an eine Wissensbasis zu beantworten, die nur die Ausdrucksmit tel dieses Formalismus verwendet. Neben diesem im Detail beleuchteten Formalis mus haben wir kurz alternative Formalismen vorgestellt, die deutlich ausdrucksstär ker oder aber erheblich ausdrucksschwächer sind, dafür aber bessere Berechnungs eigenschaften für wichtige Inferenzdienste aufweisen. Beschreibungslogiken stellen ein prominentes, aber beileibe nicht das einzige Pa radigma auf dem Gebiet der Wissensrepräsentation dar. Für die Repräsentation von regelbasiertem (also z. B. konditionalem oder kausalem) Wissen gibt es eine ganze Reihe von weiteren Formalismustypen. Um z. B. regelbasiertes Wissen als DefaultAnnahmen zu repräsentieren, bietet es sich an, diese im Rahmen der Antwortmen genprogrammierung (answer set programing) [18; 20] darzustellen. Für die Repräsen tation temporalen oder räumlichen Wissens bieten sich Constraint-basierte Formalis men an, um Inferenzen bezüglich den qualitativen Beziehungen zwischen zeitlichen oder räumlichen Entitäten zu ziehen [40]. Insgesamt konnte dieses Kapitel natürlich nur einen oberflächlichen Einstieg in das Gebiet der Wissensrepräsentation geben. Speziell wurden die Gebiete, die in an deren Teilen dieses Buches angesprochen werden, ausgelassen. Wer Interesse an dem Gebiet gefunden hat und sich weiter informieren möchte, dem seien die Lehrbücher
Literaturverzeichnis
| 53
von Brachman und Levesque [9] sowie Beierle und Kern-Isberner [7] empfohlen. Aktu elle Forschungsergebnisse findet man z. B. in den Proceedings der zweijährlich statt findenden International Conference on Knowledge Representation and Reasoning (KR). Aber auch die bedeutenden internationalen KI-Konferenzen IJCAI, AAAI und ECAI ha ben jeweils große Sektionen zum Thema Wissensrepräsentation. Zudem findet man interessante Beiträge auf diesem Gebiet in den wissenschaftlichen Zeitschriften Arti ficial Intelligence und Journal of Artificial Intelligence Research. Wie schon zu Beginn des Kapitels angemerkt, kann man sich natürlich die Fra ge stellen, ob Wissensrepräsentation durch Maschinelles Lernen nicht überflüssig ge macht wird. Kann man heute nicht alles lernen, statt es mühsam händisch explizit zu repräsentieren? Darauf gibt es mehrere Antworten. Zum Ersten ist oft das Wissen bereits explizit vorhanden, z. B. in Form von Web-Ontologien wie YAGO2 [23], die die Wordnet-Datenbasis mit Wikipedia und der Geonames-Datenbasis verknüpft. An sol chen Stellen macht es keinen Sinn, dieses Wissen erlernen zu wollen. Hinzu kommt, dass diese Art von Wissen auch nicht so gut den aktuellen Methoden des Maschinellen Lernens zugänglich ist. Deep Learning ist extrem gut geeignet, Wahrnehmungsproble me oder auch Steuerungsprobleme zu lösen, resultiert aber in Blackbox-Lösungen, die nicht generell und wenig flexibel und transparent sind. Methoden, die explizites, re präsentiertes Wissen einsetzen, haben dagegen diese Nachteile nicht, leiden aber un ter dem Skalierungsproblem [19]. Die interessanten Fragestellungen, die sich heute ergeben, sind solche, die die Kombination von solchen Ansätzen betrachten, um ihre Vorteile zu kombinieren und die Nachteile zu eliminieren. Ein solche interessante Kombination von Methoden ergibt sich beispielsweise, wenn man über sehr großen Wissensbasen wie YAGO2 [23] oder auch Cyc [30] Theo rembeweiser einsetzen will, um plausible Interpretationen von natürlichsprachlichen Texten zu erhalten. Hier ist es erforderlich, sich vor der Anwendung des Theorembe weisers auf relevante Teile der Wissensbasis zu beschränken. Eine interessante Va riante zur Lösung dieses sog. Axiom-Selektions-Problems setzt auf sog. Word-Embed dings [15]. Diese sind die Darstellung von Worten als Vektoren, die es erlauben, Worte auf ihre semantische Ähnlichkeit hin zu charakterisieren. Gewonnen werden sie durch Maschinelles Lernen bzw. statistische Verfahren.
Literaturverzeichnis [1]
Aiello, M., Pratt-Hartmann, I. und van Benthem, J. (Hrsg.). Handbook of Spatial Logics. Sprin ger, Berlin, Heidelberg, New York, 2007.
[2]
Baader, F. A Formal Definition for Expressive Power of Knowledge Representation Languages. In Proceedings of the 9th European Conference on Artificial Intelligence (ECAI-90), Stockholm, Sweden, 1990. Pitman.
[3]
Baader, F., Borgwardt, S., Koopmann, P., Ozaki, A. und Thost, V. Metric Temporal Description Logics with Interval-Rigid Names. In Frontiers of Combining Systems - 11th International Sym posium, FroCoS 2017, Brasília, Brazil, September 27-29, 2017, Proceedings, S. 60–76, 2017.
54 | 2 Wissensrepräsentation und -verarbeitung
[4]
[5]
[6]
[7] [8]
[9] [10] [11]
[12] [13] [14]
[15]
[16] [17] [18] [19]
[20] [21] [22] [23] [24]
Baader, F., Brandt, S. und Lutz, C. Pushing the EL Envelope. In Proceedings of the Nineteenth International Joint Conference on Artificial Intelligence (IJCAI-05), S. 364–369. Professional Book Center, 2005. Baader, F., Calvanese, D., McGuinness, D. L., Nardi, D. und Patel-Schneider, P. F. (Hrsg.). The Description Logic Handbook: Theory, Implementation, and Applications. Cambridge University Press, 2003. Baader, F., Ecke, A., Kern-Isberner, G. und Wilhelm, M. The Complexity of the Consistency Problem in the Probabilistic Description Logic ALC ME . In Frontiers of Combining Systems – 12th International Symposium, FroCoS 2019, London, UK, September 4-6, 2019, Proceedings, S. 167–184, 2019. Beierle, C. und Kern-Isberner, G. Methoden wissensbasierter Systeme - Grundlagen, Algorith men, Anwendungen. Springer-Vieweg, 6. Aufl., 2019. Borgida, A., Toman, D. und Weddell, G. E. On Special Description Logics for Processes and Plans. In Proceedings of the 32nd International Workshop on Description Logics, Oslo, Norway, June 18-21, 2019, 2019. Brachman, R. J. und Levesque, H. J. Knowledge Representation and Reasoning. Elsevier, 2004. Calì, A., Gottlob, G. und Lukasiewicz, T. A general Datalog-based framework for tractable query answering over ontologies. Journal of Web Semantics, 14:57–83, July 2012. Doyle, J. und Patil, R. S. Two Theses of Knowledge Representation: Language Restrictions, Taxonomic Classification, and the Utility of Representation Services. Artificial Intelligence, 48(3):261–298, April 1991. Fagin, R., Halpern, J. Y., Moses, Y. und Vardi, M. Y. Reasoning About Knowledge. .MIT Press, 1995 Fisher, M., Gabbay, D. M. und Vila, L. (Hrsg.). Handbook of Temporal Reasoning in Artificial Intelligence, Band 1 von Foundations of Artificial Intelligence. Elsevier, 2005. Fitting, M. C. Basic Modal Logic. In Gabbay, D. M., Hogger, C. J. und Robinson, J. A. (Hrsg.), Handbook of Logic in Artificial Intelligence and Logic Programming – Vol. 1: Logical Founda tions, S. 365–448. Oxford University Press, Oxford, UK, 1993. Furbach, U., Krämer, T. und Schon, C. Names Are Not Just Sound and Smoke: Word Embeddings for Axiom Selection. In Automated Deduction - CADE-27 - 27th International Conference on Automated Deduction, S. 250–268, 2019. Gabbay, D., Horty, J., Parent, X., van der Meyden, R. und van der Torre, L. (Hrsg.). Handbook of Deontic Logic and Normative Systems. College Publications, 2013. Garey, M. R. und Johnson, D. S. Computers and Intractability—A Guide to the Theory of NP-Com pleteness. Freeman, San Francisco, CA, 1979. Gebser, M., Kaminski, R., Kaufmann, B. und Schaub, T. Answer Set Solving in Practice. Synthesis Lectures on Artificial Intelligence and Machine Learning. Morgan & Claypool Publishers, 2012. Geffner, H. Model-free, Model-based, and General Intelligence. In Proceedings of the TwentySeventh International Joint Conference on Artificial Intelligence, (IJCAI-2018), July 13-19, 2018, Stockholm, Sweden, S. 10–17, 2018. Gelfond, M. Answer sets. In van Harmelen, F., Lifschitz, V. und Porter, B. (Hrsg.), Handbook of Knowledge Representation, S. 285–316. Elsevier, 2008. Gettier, E. Is Justified True Belief Knowledge? Analysis, 23:121–123, 1963. Hanks, S. und McDermott, D. Nonmonotonic Logic and Temporal Projection. Artificial Intelli gence, 33(3):379–412, November 1987. Hoffart, J., Suchanek, F. M., Berberich, K. und Weikum, G. YAGO2: A spatially and temporally enhanced knowledge base from Wikipedia. Artif. Intell., 194:28–61, 2013. Hollunder, B., Nutt, W. und Schmidt-Schauß, M. Subsumption Algorithms for Concept De scription Languages. In Proceedings of the 9th European Conference on Artificial Intelligence (ECAI-90), S. 348–353, Stockholm, Sweden, 1990. Pitman.
Literaturverzeichnis
|
55
[25] Horrocks, I. Using an Expressive Description Logic: FaCT or Fiction? In Principles of Know ledge Representation and Reasoning: Proceedings of the 6th International Conference (KR-98), S. 636–647, 1998. [26] Horrocks, I., Kutz, O. und Sattler, U. The Even More Irresistible SROIQ. In Proceedings, Tenth In ternational Conference on Principles of Knowledge Representation and Reasoning, Lake District of the United Kingdom, June 2-5, 2006, S. 57–67. AAAI Press, 2006. [27] Horrocks, I., Patel-Schneider, P. F. und van Harmelen, F. From SHIQ and RDF to OWL: the making of a Web Ontology Language. Journal of Web Semantics, 1(1):7–26, 2003. [28] von Kutschera, F. Grundfragen der Erkenntnistheorie. Walter de Gruyter, Berlin, 1982. [29] LeCun, Y., Muller, U., Ben, J., Cosatto, E. und Flepp, B. Off-Road Obstacle Avoidance through End-to-End Learning. In Advances in Neural Information Processing Systems 18 [Neural Infor mation Processing Systems, (NIPS-2005), December 5-8, 2005, Vancouver, British Columbia, Canada], S. 739–746, 2005. [30] Lenat, D. B. CYC: A Large-Scale Investment in Knowledge Infrastructure. Commun. ACM, 38(11):32–38, 1995. [31] Levesque, H. J. und Brachman, R. J. Expressiveness and tractability in knowledge representa tion and reasoning. Computational Intelligence, 3:78–93, 1987. [32] Lewis, D. Counterfactuals. Harvard University Press, 1973. Reissued London, Blackwell 2001. [33] Musen, M. A. The protégé project: a look back and a look forward. AI Matters, 1(4):4–12, 2015. [34] Nebel, B. Artificial Intelligence: A Computational Perspective. In Brewka, G. (Hrsg.), Essentials in Knowledge Representation, Studies in Logic, Language and Information, S. 237–266. CSLI Publications, Stanford, CA, 1996. [35] Nebel, B. Frame-Based Systems. In Wilson, R. A. und Keil, F. (Hrsg.), MIT Encyclopedia of the Cognitive Sciences, S. 324–325. MIT Press, Cambridge, MA, 1999. [36] Nebel, B. On the Compilability and Expressive Power of Propositional Planning Formalisms. Journal of Artificial Intelligence Research, 12:271–315, 2000. [37] OWL Working Group. OWL 2 Web Ontology Language. http://www.w3.org/TR/owl2-overview/, 2009. [38] Papadimitriou, C. H. Computational Complexity. Addison Wesley, 1993. [39] Pearl, J. Causality: Models, Reasoning, Inference. Cambridge University Press, 2. Aufl., 2009. [40] Renz, J. und Nebel, B. Qualitative Spatial Reasoning Using Constraint Calculi. In Aiello, M., Pratt-Hartmann, I. und van Benthem, J. (Hrsg.), Handbook of Spatial Logics, S. 161–215. Sprin ger, 2007. [41] Schild, K. A Correspondence Theory for Terminological Logics: Preliminary Report. In Proceed ings of the 12th International Joint Conference on Artificial Intelligence (IJCAI-91), S. 466–471, Sydney, Australia, August 1991. Morgan Kaufmann. [42] Schmidt-Schauß, M. und Smolka, G. Attributive Concept Descriptions with Complements. Artifi cial Intelligence, 48:1–26, 1991. [43] Schmolze, J. G. und Woods, W. A. The KL-ONE Family. In Lehmann, F. (Hrsg.), Semantic Networks in Artificial Intelligence. Pergamon Press, 1992. [44] Schulz, S., Suntisrivaraporn, B., Baader, F. und Boekera, M. SNOMED reaching its ado lescence: Ontologists’ and logicians’ health check. International Journal of Medical Informa tics, 78(1):S86–S94, 2007. [45] Wikipedia Statistik, 2020. [Online; besucht 07. März 2020]. [46] Woods, W. A. What’s in a Link: Foundations for Semantic Networks. In Bobrow, D. G. und Col lins, A. M. (Hrsg.), Representation and Understanding: Studies in Cognitive Science, S. 35–82. Academic Press, New York, NY, 1975.
3 Suche Clemens Beckstein und Alexandra Kirsch Suche ist eine grundlegende Technik in fast allen Gebieten der Künstlichen Intelli genz. Mithilfe von Suchverfahren kann man eine große Menge unterschiedlicher Pro bleme mit einem einheitlichen Ansatz statt durch ein Ausprogrammieren von vielen Einzelfällen lösen. Egal ob Planen, Lernen oder Schlussfolgern – all diese KI-Techni ken sind Varianten von Suche. Dieses Kapitel zeigt, wie man Aufgaben als Suchproble me formuliert. Es stellt Algorithmen vor, die derart formulierte Probleme lösen. Prak tische Hinweise zur Modellierung von realen Anwendungen schließen das Kapitel ab.
3.1 Problemlösen als Suche Das Elegante an KI-Suche ist, dass mit einer recht überschaubaren Menge von Konzep ten eine riesige Menge von Aufgabenstellungen abgedeckt wird. Um diese Möglichkei ten nutzen zu können, muss man lernen, Aufgaben als Zustandsraumprobleme zu re präsentieren. Wir definieren zunächst Zustände und weitere Bestandteile einer Such aufgabe. Die Repräsentation von Zustandsräumen in Suchgraphen hilft dann bei der Entwicklung und dem Verständnis von Suchalgorithmen und beim Modellieren der Aufgabe.
3.1.1 Zustandsräume Bevor man ein Suchverfahren zur Lösung eines Problems einsetzen kann, muss die ses Problem in eine Form gebracht werden, die es einer Verarbeitung durch Suchver fahren zugänglich macht. Eine solche Form ist eine Zustandsraumrepräsentation des Problems. Definition 3.1.1. Zu einem Zustandsraum Z = (S, A) gehört 1. eine Menge S von (Problemlöse-)Zuständen, die den Fortschritt der Problemlösung zu ausgewählten Zeitpunkten darstellen und 2. eine Menge A = {a1 , . . . , a n } von Zustandsübergangsoperatoren a i : S → S (1 ≤ i ≤ n), die elementare Problemlöseschritte darstellen, also beschreiben, wie man von einem ausgewählten Problemlösezustand zu seinen unmittelbaren Nachfolgern gelangen kann. Zu ein und demselben Problem gibt es im Allgemeinen viele, sich zum Teil deutlich unterscheidende, Zustandsraumrepräsentationen. Welche von diesen Repräsentatio nen für das konkrete Problem die richtige ist, also das zu lösende Problem in all sei nen Facetten am besten modelliert, ist die zentrale erste Frage, die man beantworten https://doi.org/10.1515/9783110659948-003
58 | 3 Suche
muss, wenn man Probleme durch Suche lösen will. Nachdem wir das Grundprinzip von Suche genauer vorgestellt haben, kommen wir deshalb im Kapitel 3.4 noch ein mal grundsätzlich auf diese Frage zurück. Definition 3.1.2. Ein Zustandsraumproblem P = (S, A, s0 , S T ) für einen gegebenen Zu standsraum Z = (S, A) besteht dann 1. aus dem Zustandsraum Z selbst, 2. einem ausgezeichneten Startzustand s0 ∈ S, von dem aus die Problemlösung in Z starten kann und 3. einer Menge S T ⊂ S von Zielzuständen, in denen das Problem als in Z gelöst be trachtet wird. Die Menge der Zielzustände S T kann entweder explizit aufgelistet oder durch ein Ziel prädikat beschrieben werden, das einem Zustand s ∈ S genau dann den Wahrheits wert true zuweist, falls s ein Zielzustand ist. Beispiel 3.1.1 Schiebepuzzle mit acht Steinen (für eine mathematische Analyse, sie he [3]). Bei dieser Aufgabe sind acht horizontal und vertikal bewegliche Steine zusam men mit einem Leerraum in einer ebenen 3 × 3 Matrix angeordnet. Ein Stein, der zum Leerraum benachbart ist, kann auf die Stelle des Leerraums verschoben werden (dabei wandert der Leerraum an die alte Position des Steins). Die Aufgabe besteht darin, eine vorgegebene Ausgangskonfiguration (etwa die linke in der Abbildung 3.1) durch Steinbe wegungen der genannten Art in die Zielkonfiguration zu überführen, die auf der rechten Seite von Abbildung 3.1 gezeigt ist (Anordnung der Steine gemäß ihrer Nummerierung im Uhrzeigersinn, beginnend links oben mit Stein 1).
1 7 6
2 8
3 4 5
?
⇝
1 8 7
2 6
3 4 5
Abb. 3.1: Das Schiebepuzzle
Diese Aufgabe können wir wie folgt als Zustandsübergangsproblem beschreiben: – Zustände werden als Matrix bzw. geschachtelte Vektoren repräsentiert. Das leere Feld bezeichnen wir mit nil. – Startzustand: Der linke Zustand in Abbildung 3.1 wird codiert als [[1, 2, 3], [7, 8, 4], [6, nil, 5]]. – Zielzustände: In diesem Fall beinhaltet die Menge der Zielzustände nur einen Zu stand, in unserer Notation den Zielzustand {[[1, 2, 3], [8, nil, 4], [7, 6, 5]]}. – Operatoren: Die Operatoren lassen sich am leichtesten definieren, wenn man nicht Bewegungen von Steinen, sondern Verschiebungen des Leerraums betrachtet. Die möglichen Nachfolger einer Puzzlekonfiguration können dann alleine aufgrund der alten Position des Leerraums, ohne Berücksichtigung der Nummern der ihn umge benden Steine, ermittelt werden. Dadurch werden insbesondere die Fälle verein
3.1 Problemlösen als Suche |
59
facht, bei denen der Leerraum am Rand der Konfiguration liegt. In der linken Konfi guration kann der Leerraum nach rechts, links und oben verschoben werden: orechts ([[1, 2, 3], [7, 8, 4], [6, nil, 5]]) = [[1, 2, 3], [7, 8, 4], [6, 5, nil]] , olinks ([[1, 2, 3], [7, 8, 4], [6, nil, 5]]) = [[1, 2, 3], [7, 8, 4], [nil, 6, 5]] , ohoch ([[1, 2, 3], [7, 8, 4], [6, nil, 5]]) = [[1, 2, 3], [7, nil, 4], [6, 8, 5]] . Die Lösung eines so definierten Problems besteht nun darin, einen Pfad im Zustands raum zu finden, der den Startzustand s0 in einen Zielzustand aus S T transformiert. Definition 3.1.3. Eine Folge π = (a1 , . . . , a k ) von Operatoren a i ∈ A mit 1 ≤ i ≤ k ist eine Lösung des Zustandsraumproblems P = (S, A, s0 , S T ), wenn sie s0 in einen der Zielzustände t ∈ S T transformiert, falls es also eine Folge von Zuständen s i ∈ S mit 0 ≤ i ≤ k gibt, sodass: 1. a i (s i−1 ) = s i für 1 ≤ i ≤ k und 2. s k = t. Aufgabe der im Folgenden beschriebenen Suchverfahren ist es, solche Pfade unter einem möglichst geringen Einsatz von Ressourcen zu finden. Definition 3.1.4. Sei P = (S, A, s0 , S T ) ein Zustandsraumproblem. Ein Zustand z ∈ S heißt Sackgasse von P, wenn z zwar von s0 erreichbar, aber das Zustandsraumproblem P u = (S, A, z, S T ) unlösbar ist. Von einer Sackgasse aus kann also kein Ziel des Zustandsraums mehr erreicht wer den. Zu den Sackgassen zählen insbesondere die Blätter des Suchgraphen, also die Zustände ohne Nachfolger.
3.1.2 Suchgraphen Damit diese Suche auch durch einen Rechner durchgeführt werden kann, der ja kei ne Vorstellung von den konkreten Zuständen und Operatoren hat, relativ zu denen in der realen Welt das Problem gelöst werden soll, muss dieser Zustandsraum zunächst geeignet im Rechner dargestellt werden. Dazu liegt es nahe, den Zustandsraum im Rechner durch einen markierten Graphen zu repräsentieren, in dem die Knoten für Zu stände und gerichtete Kanten für Übergangsoperatoren des Zustandsraumes stehen: Definition 3.1.5. Sei G = (V, E) ein Graph und Z = (S, A) ein Zustandsraum. Eine Funktion ρ : V → S, die 1. jedem Knoten v ∈ V einen Zustand ρ(v) ∈ S und 2. jeder Kante (v1 , v2 ) ∈ E einen Operator a ∈ A mit a(ρ(v1 )) = ρ(v2 ) zuordnet, heißt dann eine, den Zustandsraum Z über den Graphen G repräsentierende Abbildung.
60 | 3 Suche
Bei dieser Repräsentation sind Knoten, die Start- bzw. Zielzustände repräsentieren, entsprechend als Start- bzw. Zielknoten zu kennzeichnen und die Kanten mit dem Na men des Operators zu annotieren, für den sie jeweils stehen. Definition 3.1.6. Sei P = (S, A, s0 , S T ) ein Zustandsraumproblem zum Zustandsraum Z = (S, A). G = (V, E, u 0 , V T , ρ) (oder kurz G = (V, E, u 0 , V T ), falls die repräsentierende Abbil dung ρ aus dem Kontext ersichtlich ist) heißt dann Suchgraph zu P, falls: 1. ρ eine, den Zustandsraum Z = (S, A) über den Graphen G = (V, E) repräsentierende Abbildung ist, 2. für den Startknoten u 0 gilt: ρ(u 0 ) = s0 und 3. für die Zielknoten gilt: ρ(V T ) = S T . Jeder Pfad von einem Startknoten zu einem der Zielknoten des Suchgraphen G reprä sentiert damit einen Lösungspfad im Zustandsraum Z, also eine Lösung des Problems.
s0
t2
t0
t1 Abb. 3.2: Repräsentation eines Zustandsraums als Graph. Der Startzustand s0 und die drei Zielzu stände t 0 , t 1 , t 2 sind entsprechend gekennzeichnet. In diesem Beispiel nehmen wir an, dass alle Operatoren umkehrbar sind. Deshalb sind die Kanten ohne Richtung dargestellt
In der programmiertechnischen Umsetzung des Suchgraphen wird man die repräsen tierende Abbildung ρ dadurch (implizit) festlegen, dass man die Knoten im repräsen tierenden Graphen G mit Datenstrukturen annotiert, die deren Inhalt codieren – also beschreiben, wie die von ihnen repräsentierten Zustände aussehen und charakteri sieren, unter welchen Bedingungen diese Zustände als Start- oder Zielzustände inter pretierbar sind. Auf der Grundlage dieser Annotationen kann man dann den Prozess praktisch realisieren, der Knotenexpansion genannt wird. 3.1.2.1 Knotenexpansion Es ist im Allgemeinen nicht ratsam, das Suchverfahren den kompletten Suchraum in einer Datenstruktur aufbauen zu lassen, bevor es mit der eigentlichen Suche beginnt. Selbst wenn der entsprechende Suchgraph endlich ist, wird er häufig sehr groß sein
3.1 Problemlösen als Suche |
61
und damit seine vollständige Erzeugung im Rechner die Problemlösung bereits vor der eigentlichen Suche unverhältnismäßig verteuern: Lösungen, falls sie existieren, er strecken sich ja im Allgemeinen nur über einen kleinen Teil dieses Graphen. Stattdes sen wird man das Suchverfahren beginnend mit dem Startknoten systematisch immer längere Kandidatenpfade durch den Suchgraphen G generieren lassen – bis dabei im sich so schrittweise entfaltenden Suchgraphen (hoffentlich) ein Lösungspfad gefun den wird. Die Rahmenbedingungen für diesen Entfaltungsprozess setzt der implizite Suchgraph zu G. Definition 3.1.7. Der implizite Suchgraph zum Suchgraphen G = (V, E, u 0 , V T ) ist fest gelegt durch 1. den Startknoten u 0 ∈ V, 2. ein Prädikat goal: V → 𝔹 = {true, false}, das für beliebige Knoten u ∈ V ent scheidet, ob u ∈ V T liegt, also ein Zielknoten ist, und 3. eine Prozedur expand: V → 2V , die für einen gegebenen Knoten u ∈ V dessen Nachfolgeknoten in G berechnet. Im Mittelpunkt dieser schrittweisen Entfaltung von G steht das Berechnen aller Mög lichkeiten, einen bereits generierten Kandidatenpfad (u 0 , . . . , u n = u) in G um ei ne Kante (u, u ) ∈ E zu einem neuen Kandidatenpfad (u 0 , . . . , u n , u ) zu verlängern. Diese Berechnung wird Expansion des Knotens u genannt. Bezeichnet Succ(u) = {v | (u, v) ∈ E} die Menge der direkten Nachfolger von u in G, entstehen dabei für jeden Kandidatenpfad, der in u endet, |Succ(u)| viele neue, um eins längere, Kandidaten pfade. Für eine programmiertechnische Umsetzung dieses Entfaltungsprozesses müssen das Prädikat goal und die Prozedur expand passend zur repräsentierenden Abbildung ρ des Suchraums implementiert werden. Das setzt voraus, dass die ρ implizit beschrei benden Datenstrukturen an den Knoten des Suchgraphen G reichhaltig genug sind, damit 1. das Prädikat goal anhand seiner Beschreibung entscheiden kann, ob ein gegebe ner Knoten ein Zielknoten ist und 2. die Prozedur expand alleine aus der Beschreibung eines Knotens v die Nachfolger von v in G generieren und passende Beschreibungen für alle diese Nachfolgekno ten errechnen kann. Eine wichtige Größe, die den Expansionsprozess beeinflusst, ist der Verzweigungs grad. Definition 3.1.8. Sei G = (V, E, u 0 , V T ) ein Suchgraph: – Der Ausgangsverzweigungsgrad out-degree(u) eines Knotens u ∈ V gibt an, wie viele direkte Nachfolger er in G besitzt, d. h. out-degree(u) = |{(u, v)|(u, v) ∈ E}|. – Der Eingangsverzweigungsgrad in-degree(v) eines Knotens v ∈ V gibt an, wie viele direkte Vorgänger er in G besitzt, d. h. in-degree(v) = |{(u, v)|(u, v) ∈ E}|.
62 | 3 Suche
Der Verzweigungsgrad ergibt sich also aus den Operatoren, die auf einen Zustand an wendbar sind bzw. den Operatoren, die einen Zustand erzeugen können. Zu einem gegebenen Suchgraphen G lassen sich damit neben seinem kleinsten und größten auch sein durchschnittlicher Eingangs- bzw. Ausgangsverzweigungsgrad definieren. Der durchschnittliche (Ausgangs-)Verzweigungsgrad b bestimmt maßgeb lich den Suchaufwand, weil die Anzahl von möglichen (Kandidaten-)Pfaden der Län ge l in G grob mit b l abgeschätzt werden kann. Beispiel 3.1.2. Beim Schiebepuzzle aus Beispiel 3.1.1 gibt es in jeder Konfiguration min destens zwei und höchstens vier Möglichkeiten, einen Stein zu verschieben. Unter der Annahme einer durchschnittlichen Anzahl von drei Nachfolgern pro Konfiguration und einer typischen Lösungsweglänge von 20 erhält man damit im schlimmsten Falle, also wenn man nicht verhindert, dass Knoten während der Suche eventuell wiederholt ex pandiert werden, eine Menge von Kandidatenpfaden mit insgesamt fast 3,5 Milliarden Knoten. 3.1.2.2 Problemvarianten Zustände, Operatoren und die dazugehörigen Graphen sind Grundelemente, die sich durch alle Techniken der Künstlichen Intelligenz ziehen. Operatoren werden oft auch als Aktionen bezeichnet, beispielsweise wenn es um Planung geht. Es gibt jedoch Un terschiede in den Aufgabenstellungen, die sich in Variationen der Problemdefinition und der Algorithmen widerspiegeln. Es gibt Aufgaben, bei denen der Startzustand aus der momentanen Situation der Welt hervorgeht und die Menge der Zielzustände recht gut definierbar ist. Die Naviga tion im Auto ist ein typisches Beispiel dafür: Man ist an einem bestimmten Ort und weiß, an welchen anderen Ort man fahren möchte; gesucht sind also Operatorfolgen, die den Startzustand in den Zielzustand überführen. Diese Art der Suche ist wichtig für KI-Planung (Kapitel 10) und bei Spielprogrammen (Kapitel 19). Bei anderen Aufgaben ist vor allem der Zielzustand an sich interessant. Wenn es z. B. darum geht, einen Belegungsplan für Hörsäle in einer Universität zu erstellen, interessiert der fertige Belegungsplan, nicht der Pfad durch den Zustandsgraphen, der zu diesem Plan geführt hat. Solche Aufgaben werden auch als Optimierungsprobleme bezeichnet. Sie bilden unter anderem die Grundlage für Constraint Solving (Kapitel 16) und Maschinelles Lernen (Kapitel 11). Wir erklären im Folgenden zunächst die Lösungsverfahren für Pfadsuchproble me, danach typische Verfahren für Optimierungsprobleme. Die Trennung ist jedoch nicht scharf. Die Grundlage einer Suche durch einen Zustandsgraphen ist bei allen gleich. Typischerweise wird jedoch ein Optimierungsverfahren den Pfad zur Lösung nicht mitführen bzw. zurückgeben. Möchte man also beim Optimieren auch die Schrit te zur Lösung haben, muss man entweder den Algorithmus entsprechend anpassen oder das Problem so formulieren, dass es als Pfadsuche lösbar ist.
3.2 Pfadsuche | 63
3.2 Pfadsuche 3.2.1 Generisches Verfahren Algorithmus 3.1 zeigt das Skelett eines Suchverfahrens, das wir im Folgenden auch als generisches Suchverfahren bezeichnen werden, weil es noch so allgemein gehalten ist, dass beliebige Suchverfahren durch Spezialisierung und Konkretisierung aus ihm gewonnen werden können.
Algorithmus 3.1: Generisches Verfahren zum Lösen von Suchproblemen Gegeben: der implizite Suchgraph zum Suchgraphen G = (V, E, u 0 , V T ) 1. Sei L die Liste der noch nicht überprüften Knoten aus V. Initial enthält sie nur den Startknoten u 0 : L ← {u 0 }. 2. Ist L leer, so melde einen Fehlschlag. 3. Andernfalls wähle den ersten Knoten v ∈ L und entferne v aus L: L ← L \ {v}. 4. Gilt v ∈ V T , so melde Erfolg und liefere den Pfad vom Startknoten u 0 zu v. 5. Andernfalls expandiere v und füge die daraus resultierenden Knoten expand(v) gemäß Suchstrategie in L ein: L ← insert(expand(v), L). Markiere dabei die neuen Knoten mit dem jeweils zugehörigen Wurzelpfad vom Startknoten. 6. Weiter mit Schritt 2!
Dieses Verfahren verwaltet in der Liste L die Knoten, d. h. Repräsentanten von Such raumzuständen. Bei diesen Knoten werden auch jeweils die (Wurzel-)Pfade vermerkt, auf denen sie ausgehend vom Startknoten u 0 von dem Suchverfahren erreicht wur den. Die Liste L enthält Knoten, die noch darauf hin zu explorieren sind, ob über sie ein Zielknoten erreichbar ist. Sie heißt daher auch open list oder Liste offener Knoten, wir bezeichnen sie im Folgenden als Agenda. Definition 3.2.1. Die Elemente der Agenda L sind zu jedem Zeitpunkt t während der Su che im Suchgraphen G = (V, E, u 0 , V T ) die Blätter v eines Baums mit der Wurzel u 0 , der durch die Gesamtheit der zu diesen Blättern bisher durch den Algorithmus 3.1 gespei cherten Pfade (u 0 , . . . , v) aus G definiert ist. Wir nennen diesen Baum im Folgenden den Suchbaum, wie er bis zum Zeitpunkt t vom Suchverfahren entfaltet wurde. Neue Knoten kommen auf die Agenda L durch Knotenexpansion, d. h. als Nachfolger von Knoten v ∈ V, die vorher aus L zur Expansion ausgewählt wurden: expand(v) ⊆ Succ(v) . Solange die Agenda L noch mindestens einen Knoten enthält, besteht noch eine Chan ce, dass ein Zielknoten gefunden wird. Wird sie jedoch leer, so bedeutet dies, dass
64 | 3 Suche
der von dem Verfahren prinzipiell explorierbare Teil des Suchgraphen vergeblich auf einen Zielknoten hin durchforstet wurde (jeder offene Knoten wurde bereits getestet, und es gibt keine Nachfolger mehr). Das Verfahren signalisiert dann einen Fehlschlag. Der bis zum Zeitpunkt t entfaltete Suchbaum ist also eine explizite Repräsentation des (um soweit bekannte Sackgassen bereinigten) Teils des impliziten Suchgraphen, der bis zu diesem Zeitpunkt bereits von der Suche exploriert wurde. Stellt man bei der Generierung dieses Suchbaums durch Identifizieren von Knoten mit den gleichen Beschreibungen (und damit zum selben Zustand) sicher, dass Knoten nicht in mehr fachen Kopien im Baum auftreten können (das ist z. B. geboten, wenn der Suchgraph Zyklen enthalten kann, dazu gleich mehr), so entsteht während der Suche anstelle eines Baums ein baumartiger (d. h. zyklenfreier) Graph, den wir hier aber trotzdem (et was salopp) als den soweit entfalteten Suchbaum bezeichnen werden. Beispiel 3.2.1 Missionare und Kannibalen [20]. Zwei Missionare und zwei Kannibalen müssen von einer Uferseite auf die andere gelangen. Dazu steht ihnen ein Ruderboot zur Verfügung, das maximal zwei Personen fasst. Wann immer aber die Kannibalen auf einer Uferseite in der Überzahl sind, müssen die Missionare um ihr Leben fürchten. Wie kann das Ruderboot so eingesetzt werden, dass alle vier Personen lebend auf die andere Uferseite gelangen? Abbildung 3.3 zeigt den baumartigen Suchgraph, der entsteht, wenn man bei sei ner Festlegung folgende vereinfachende, den sich entfaltenden Suchbaum kleinhalten de, Annahmen trifft: In den Knoten wird nur jeweils die Gemengelage auf einer der bei den Uferseiten (z. B. immer der linken) repräsentiert (da damit die jeweils andere Seite festliegt) und von den konkreten Missionaren bzw. Kannibalen abstrahiert (nur deren jeweilige Zahl ist für das Problem interessant). Außerdem wird ein Nachfolgezustand nur dann in die Agenda aufgenommen, wenn er nicht schon einmal vorher erzeugt wur de (andernfalls wäre die Terminierung der Suche gefährdet und der soweit entfaltete Suchbaum könnte beliebig groß werden) und auch nur dann, wenn er für die Missionare keine Bedrohung darstellt. Ein mit (xM, yC, B) markierter Knoten repräsentiert dabei den Zustand, in dem x Missionare und y Kannibalen auf der repräsentierten Uferseite versammelt sind und das Boot auf ihrer Seite haben, falls B nicht leer ist, und eine Kante zwischen zwei Knoten repräsentiert die Überfahrt, die aus dem von dem Startknoten der Kante repräsentierten Zustand den Zustand ihres Endknotens macht. 2M, 2K, B 0M, 2K 0M, 0K
2M, 0K
0M, 2K, B 1M, 1K, B
2M, 1K 0M, 1K
1M, 1K 2M, 1K, B Abb. 3.3: Missionare und Kannibalen
Knoten werden von dem skizzierten Suchverfahren erst beim Expandieren und nicht schon zum Zeitpunkt ihres Eintragens in die Agenda auf Zieleigenschaft geprüft. Dies
3.2 Pfadsuche | 65
vereinfacht die nachfolgenden Überlegungen zur Komplexität von Konkretisierungen des generischen Verfahrens. Die Art und Weise, wie die Wahl eines Knotens aus L in Schritt 3 und das Einfügen seiner Nachfolger in Schritt 5 des Suchverfahrens 3.1 vorgenommen wird, bestimmt die Suchstrategie, die die wesentlichen Eigenschaften dieser Konkretisierungen festlegt (mehr dazu im Abschnitt 3.2.1.3). Wird L als eine geordnete lineare Datenstruktur (eine Liste im programmier sprachlichen Sinne) repräsentiert, so kann man eine beliebige Auswahlstrategie dadurch erreichen, dass man Elemente grundsätzlich am vorderen Ende der Liste entnimmt und zusätzlich eine Prozedur insert festlegt, die bestimmt, an welcher Stelle neue Elemente in L eingeordnet werden. Dazu wertet diese Prozedur – wie schon das Prädikat goal und die Prozedur expand – die zu den Knoten im Suchgra phen gehörenden Beschreibungen der von ihnen repräsentierten Zustände aus. Die generische Suchprozedur wird damit also zu einem spezifischen Suchverfah ren einzig durch die konkrete Instanziierung der Prozedur insert in Schritt 5. Definition 3.2.2. Erfolgt die Einordnung eines Knotens in die Agenda L alleine aufgrund seiner Position im soweit entfalteten Suchbaum zum Suchgraphen G = (V, E, u 0 , V T ), also insbesondere unabhängig von seinem (über die bei ihm gespeicherte Zustandsbe schreibung codierten) Inhalt, so spricht man von uninformierter oder blinder Suche. Spielt dagegen bei der Auswahl auch der Inhalt des Knotens eine Rolle, so spricht man von informierter oder heuristischer Suche. Beiden Arten von Suche ist im Folgenden ein eigener Abschnitt gewidmet. 3.2.1.1 Vorwärts- vs. Rückwärtssuche Häufig sind Zielzustände nur implizit gegeben (beispielsweise beim Lösen eines Kreuzworträtsels), weshalb das geschilderte generische Suchverfahren den Suchraum auch vorwärts, beginnend bei den typischerweise explizit vorgegebenen Startknoten, exploriert, bis es über das Prädikat goal einen Knoten findet, der die Zieleigenschaft aufweist. Bei manchen Suchproblemen sind jedoch neben den Startzuständen auch die Zielzustände explizit vorgegeben oder mit einem – im Vergleich zur Lösung des Such problems – geringen Aufwand durch ein Programm aufzählbar. Wenn dann auch noch die den Suchraum definierenden Operatoren einfach invertierbar sind (was ganz und gar nicht selbstverständlich ist, wenn diese Operatoren nur prozedural gegeben sind), so kann man eine Rückwärtssuche durchführen. Definition 3.2.3. Ein Zustandsraumproblem P = (S, A, s0 , S T ) heißt reversibel, wenn es zu jedem Operator a ∈ A einen inversen Operator a−1 ∈ A gibt, für den also für alle s ∈ S gilt: a(a−1 (s)) = a−1 (a(s)) = s .
66 | 3 Suche
Beispiel 3.2.2. Beim Schiebepuzzle-Problem aus Beispiel 3.1.1 gibt es genau einen, ex plizit bekannten Zielzustand (der, bei dem die Steine, links oben, beginnend mit Stein 1, gemäß ihrer Nummerierung im Uhrzeigersinn angeordnet sind) und zu jeder Schiebe operation existiert eine eindeutige, sie kompensierende, inverse Schiebeoperation. Beispiel 3.2.3. Auch beim Missionare-und-Kannibalen-Problem aus Beispiel 3.2.1 sind der Vorwärts- und Rückwärtssuchraum identisch, da es sich um ein symmetrisches Pro blem handelt: Zu jedem Bootstransfer gibt es einen inversen Bootstransfer, und es macht keinen Unterschied, ob man die gesamte Gesellschaft sicher von einem Ufer zum ande ren oder umgekehrt bringen will. Für eine Rückwärtssuche exploriert man den Suchgraph, beginnend bei einem der Zielknoten, indem man zu einem vorgegebenen Knoten v ∈ V des Suchgraphen G = (V, E, u 0 , V T ) jeweils alle möglichen direkten Vorgänger pred(v) = {u | (u, v) ∈ E} ge neriert, bis man einen Startknoten antrifft. Man macht bei zielorientierter Suche also im Endeffekt eine reguläre (Vorwärts-)Suche in dem Suchraum, der aus dem ursprüng lichen Suchraum dadurch entsteht, dass man die Operatorkanten umdreht, die Rol le von Start- und Zielknoten miteinander vertauscht und Lösungspfade dieses neuen Suchproblems in umgekehrter Kantenreihenfolge als Lösungspfade des ursprüngli chen Suchproblems ausgibt. Haben die Knoten eines Unterraums des Suchraums typischerweise einen kleine ren Eingangs- als Ausgangsverzweigungsgrad, so verhält sich für diesen Unterraum die Rückwärtssuche besser als die Vorwärtssuche. Deshalb bieten sich auch Varianten der generischen Vorgehensweise an, bei denen nicht der ganze Suchraum ausschließ lich vorwärts oder rückwärts durchsucht wird, sondern – je nach seiner Gestalt – der eine Unterraum vorwärts und der andere rückwärts. So wird z. B. bei inselgesteuerter Suche zunächst eine „Insel“ (ein Knoten auf dem halben Weg vom Start- zum Ziel knoten) bestimmt und dann nach einem Lösungspfad gesucht, der über diese Insel läuft (dazu muss insbesondere der Wurzelpfad zur Insel bestimmt werden). Findet man keinen solchen Pfad, ist die potenzielle Insel also eine Sackgasse, so löst man das ursprüngliche Problem unter Ignorieren der Insel. 3.2.1.2 Redundante Pfade Eventuell repräsentieren unterschiedliche Knoten des Baumes, der von der Suchpro zedur entfaltet wird, ein und denselben Zustand im Suchraum, der nur auf verschie denen Wegen erreichbar ist. So lässt sich im Schiebepuzzle-Beispiel jede Teillösung des Problems durch entsprechende inverse Schiebeoperationen in die Ausgangssitu ation rücküberführen, d. h., jeder von der Ausgangssituation aus erreichbare Punkt des Suchraums zu diesem Problem kann auf beliebig vielen und beliebig langen We gen erreicht werden, die beim Startknoten beginnen. Führen zu einem Knoten im Suchgraphen unterschiedliche Wege, so kann das zur Folge haben, dass er vom Suchverfahren wiederholt zur Expansion auf die Agenda L
3.2 Pfadsuche | 67
gesetzt wird. Enthält der Suchgraph Zyklen, so kann dies je nach verwendeter Such strategie sogar die Terminierung der Suche verhindern: Das Verfahren wickelt dann einen Zyklus eventuell unendlich oft als unendlich langen Pfad im sich entfaltenden Suchbaum ab. Auf jeden Fall trägt jedoch ein Suchgraph, der nicht Baumgestalt hat, auch bei Abwesenheit von Zyklen die Gefahr in sich, dass das Suchverfahren Teile von ihm, wenn auch nicht unendlich oft, so doch unnötig wiederholt exploriert. Um dies zu verhindern, modifiziert man deshalb bei Suchgraphen G = (V, E, u o , V T ), die keine Bäume darstellen, das generische Suchverfahren so, dass es Nach folger eines Knotens v ∈ V nur dann zur Liste L der noch zu explorierenden Knoten hinzufügt, wenn nicht schon in L oder der Liste bereits geschlossener Knoten Knoten mit dem gleichen Inhalt enthalten sind. Die Liste C der bereits geschlossenen Knoten (engl. closed list) enthält all jene Knoten, die schon geprüft und aus L entfernt wur den¹, und man wählt expand(v) ⊆ Succ(v) − C . Selbst wenn dann vom Suchverfahren Knoten mehrfach erzeugt werden, werden so die entsprechenden Teilräume nicht erneut durchsucht. Abbildung 3.3 zeigt, welche drastische Reduktion des Suchgraphen diese Modifikation für das Missionare-undKannibalen-Problem 3.2.1 bewirken kann. Natürlich darf man nicht übersehen, dass das Verwalten der Liste C und die Re dundanztests mit den Listen der noch offenen (L) bzw. bereits geschlossenen Knoten (C) ebenfalls nicht zu unterschätzende Kosten verursachen: Das Suchverfahren muss dazu ständig die Liste C im Speicher halten und bei jedem Erzeugen eines Knotens jeweils sowohl die Liste L als auch die immer länger werdende Liste C daraufhin über prüfen, ob der fragliche Knoten bereits in ihr enthalten ist. 3.2.1.3 Generisches Suchverfahren Die Suchstrategie des generischen Suchverfahrens 3.1 prägt die wesentlichen Eigen schaften von Konkretisierungen des Verfahrens. Sie bestimmt, welcher Teil des Such graphen in welcher Reihenfolge exploriert wird. Definition 3.2.4. Eine für die generische Suche gemäß Algorithmus 3.1 vorgegebene Strategie ist vollständig (erschöpfend), wenn sie schließlich jeden Knoten des Suchgra phen expandiert, sofern nicht vorher schon ein Zielknoten gefunden wird. Ein vollständiges Suchverfahren findet garantiert eine Lösung, wenn es nur (mindes tens) eine Lösung gibt und der Suchraum endlich ist – sogar dann, wenn der zugehö rige Suchgraph Zyklen enthält, die zu unendlichen Wurzelpfaden in dem Suchbaum führen könnten, der von dem Verfahren entfaltet wird.
1 In der Fabel von Ariadne und Minotaurus spielt der Faden, mit dem sich Ariadne im Labyrinth zu rechtfindet, die Rolle der Liste der bereits geschlossenen Knoten.
68 | 3 Suche
Enthält der Suchraum mehr als eine Lösung, so ist es natürlich wünschenswert, eine möglichst gute Lösung zu finden. Dabei definiert das Verfahren, was als Güte einer Lösung anzusehen ist. Üblicherweise wird hier als Güte einer Lösung ein Maß für die Kosten verwendet, die für das Herstellen der Zielzustände aus dem jeweiligen Startzustand gemäß deren Lösungspfad benötigt werden. Dazu wird von den Opera toren häufig und auch im Folgenden angenommen, dass deren Ausführung mit im Allgemeinen operatorspezifischen, positiven Kosten verbunden ist. Definition 3.2.5. Ein gewichteter Zustandsraum Z = (S, A, w A ) ist ein Zustandsraum (S, A), ergänzt um eine Kostenfunktion w A : A → ℝ, die – einzelnen Operatoren a ∈ A die Kosten w A (a) und – Operatorpfaden a1 , . . . , a n im Zustandsraum S die Kosten ∑ni=1 w(a i ) zuordnet. Für Szenarien, bei denen die Kosten der einzelnen Operatoren für die Problemlösung irrelevant sind, setzt man der einheitlichen Repräsentation halber für alle Operato ren a ∈ A gleiche (Einheits-)Kosten (uniforme Kosten) an – typischerweise und ohne Beschränkung der Allgemeinheit mit w(a) = 1. Definition 3.2.6. Sei P = (S, A, s0 , S T , w A ) ein gewichtetes Zustandsraumproblem zum gewichteten Zustandsraum Z = (S, A, w A ). Der gewichtete Suchgraph G = (V, E, u 0 , V T , w E , ρ) (oder kurz G = (V, E, u 0 , V T , w E ), falls die repräsentierende Abbildung ρ aus dem Kontext ersichtlich ist) zu P ist dann der Suchgraph (V, E, u 0 , V T , ρ) zu P, ergänzt um die kanonische Erweiterung w E : E → ℝ von w A : A → ℝ mit: 1. w E ordnet Kanten (u, v) ∈ E das Gewicht w E (u, v) = w A (a) zu, falls es einen Ope rator a ∈ A gibt, mit a(ρ(u)) = ρ(v) und 2. die Kosten eines Pfades π = (v0 , . . . , v k ) in G sind w E (π) = ∑ki=1 w E (v i−1 , v i ). Unter der Annahme von Einheitskosten der Größe eins stimmt die Länge eines Pfades also mit seinen Kosten überein. Definition 3.2.7. Ein Pfad π = (v0 , . . . , v k ) im Suchgraphen G = (V, E, u 0 , V T , w E ) heißt optimal, wenn es keinen kostengünstigeren Pfad von v0 nach v k gibt. In diesem Fall notiert man seine Kosten w(π) als δ G (v0 , v k ) (kurz δ(v0 , v k ), falls G aus dem Kontext klar ist). Eine für G = (V, E, u 0 , V T , w E ) bestmögliche Lösung π∗ hat damit die Kosten w E (π∗ ) = minv∗ ∈V T δ(u 0 , v∗ ) . Definition 3.2.8. Ein Suchverfahren heißt optimal, wenn es immer eine bezüglich des jeweiligen Gütemaßes optimale Lösung findet, sofern es überhaupt eine Lösung gibt. Neben dem Aufwand für die Herstellung einer gefundenen Lösung in der realen Pro blemlösewelt ist natürlich auch der Aufwand für das eigentliche Finden der Lösung
3.2 Pfadsuche | 69
(Zielknoten und zugehöriger Wurzelpfad zu seiner Herstellung aus dem Startknoten) ein wichtiges Gütekriterium für ein Suchverfahren. Unterschiedliche Konkretisierun gen haben im Allgemeinen auch eine unterschiedliche algorithmische Komplexität, gehen also unterschiedlich mit den Ressourcen Zeit und Speicher um. Bei der nachfolgenden Diskussion konkreter Suchverfahren legen wir bei der Untersuchung ihrer algorithmischen Komplexität – sofern jeweils nicht ausdrück lich etwas anderes erwähnt wird – die folgenden einfachen Komplexitätsmaße zu grunde: – Unter dem Speicherbedarf Space(X), den das Suchverfahren X für ein konkretes Suchproblem hat, wird die maximale Anzahl von während der Suche gleichzeitig in der Agenda zu speichernden Knoten verstanden. – Der Zeitbedarf Time(X), den das Suchverfahren X für ein konkretes Suchproblem hat, gibt an, wie viele Knoten bei der Suche vom Suchverfahren auf ihre Zieleigen schaft hin untersucht werden. Wenn nicht anders vermerkt, nehmen wir bei den entsprechenden Komplexitätsbe trachtungen auch jeweils (stark) vereinfachend an, dass der Suchgraph ein uniformer Baum ist, d. h. einen konstanten Ausgangsverzweigungsgrad b und eine einheitliche Tiefe d aufweist, wobei der Wurzelknoten die Tiefe d = 0 haben soll. Außerdem unterstellen wir zunächst, dass der Suchgraph nur einen Lösungskno ten enthält, der mit gleicher Wahrscheinlichkeit an jeder Stelle in der Tiefe d des Such graphen liegt, und geben dann für die Suchverfahren, abhängig von der Lage der Lö sung, jeweils den günstigsten (engl. best case), mittleren (engl. average case) und un günstigsten (engl. worst case) Speicher- bzw. Zeitbedarf an.
3.2.2 Uninformierte Suche Wir betrachten zunächst uninformierte Suchverfahren. Gemäß Definition 3.2.2 sind dies Verfahren, deren Strategie zum Einfügen von Knoten in die Agenda nicht vom Inhalt der neuen Knoten bestimmt wird. 3.2.2.1 Breitensuche Bei der Breitensuche (engl. breadth first, BF) werden neue Knoten immer am Ende der Agenda eingefügt. Das Verhalten der Agenda entspricht damit einer Warteschlange. Daraus ergibt sich folgende Auswahlmaxime: Ein Knoten auf der Tiefe k im soweit entfalteten Suchbaum darf erst dann expandiert werden, wenn alle Knoten der Tiefe k − 1 bereits expandiert sind.
Das Suchverfahren durchforstet damit den Suchbaum Schicht für Schicht, eben in der Breite zuerst, von oben nach unten (Abbildung 3.4).
70 | 3 Suche
3
1
3
1
Zustand in Agenda
4
2
3 t0
s0 1
2
3
3
1
2
3
expandiert t2 in Lösungspfad
2
2
3
3 t1
si
Start-/Zielzustand Die Zahlen über den Zuständen bezeichnen den Abstand des Knotens vom Zielknoten im entfalteten Suchbaum. Operator expandiert Lösungspfad
Abb. 3.4: Breitensuche. Beim Einfügen mehrerer Knoten in die Agenda wurde im Beispiel folgende Reihenfolge gewählt: Knoten vom expandierten Knoten aus links oben, links unten, rechts unten, rechts oben. Die Breitensuche findet ausgehend vom Startzustand s0 einen optimalen Pfad der Länge 3 zum Zielzustand t 0
Die genannte Auswahlmaxime legt die Suchstrategie noch nicht eindeutig fest, da noch offengelassen ist, in welcher Reihenfolge die Nachfolger eines Knotens in die Agenda einzufügen sind, wenn ein Knoten mehr als einen Nachfolger besitzt. Die sich anschließenden Überlegungen haben aber unabhängig davon Gültigkeit. Wir hatten vereinfachend angenommen, dass der Suchgraph ein uniformer Baum ist und der (einzige) Zielknoten auf der Tiefe d dieses Baumes und damit auch des sich entfaltenden Suchbaums liegt. Nachdem von der Breitensuche alle Knoten auf der Tiefe k − 1 expandiert sein müssen, bevor der erste Knoten auf der Tiefe k getestet werden darf, enthält die Agenda L vor der ersten Überprüfung (und ggf. Expansion) eines Knotens der Tiefe k alle Knoten der Tiefe k. Damit ist der Speicherbedarf für die Breitensuche – unabhängig von der Lage der Lösung auf der Tiefe d des Suchbaums – immer Space(BF) = b d , also exponentiell in der Tiefe des Suchbaums! Ein Knoten wird von der Breitensuche erst untersucht, wenn er expandiert, nicht schon, wenn er in L gespeichert wird. Um auf die Tiefe d des Zielknotens zu gelangen, müssen also vorher alle Knoten auf den höheren Ebenen 0, . . . , d − 1 untersucht wer b d −1 k den. Von diesen gibt es (wieder aufgrund der Uniformitätsannahme) ∑d−1 k=0 b = b−1 . Bis der Zielknoten angetroffen wird, sind dann auf der Tiefe d des Suchbaums besten falls einer (nämlich der Zielknoten) und schlimmstenfalls alle b d Knoten der Tiefe d auf ihre Zieleigenschaft hin zu untersuchen (wenn der Zielknoten der letztuntersuch d +b−2 te Knoten der Tiefe d ist). Der günstigste Zeitbedarf ist demnach b b−1 = O(b d−1 ) und der ungünstigste
b d+1 −1 b−1
= O(b d ). Daraus resultiert ein mittlerer Zeitbedarf Time(BF) = O(b d )
3.2 Pfadsuche | 71
für die Breitensuche, der unter unseren vereinfachenden Annahmen – wie schon der Speicherbedarf der Breitensuche – exponentiell in der Tiefe d des Suchgraphen ist. Die o. g. Auswahlmaxime stellt sicher, dass die Breitensuche vollständig ist, also auf jeden Fall eine Lösung findet, wenn es überhaupt eine Lösung gibt. Im schlimms ten Fall muss dazu der ganze Suchgraph durchsucht und damit der Suchbaum voll entfaltet werden. Nachdem der Suchbaum aufgrund der Uniformitätsannahme von der Größe b d ist, entschuldigt dies in gewisser Weise das geschilderte kostspielige Zeitverhalten der Breitensuche als im Prinzip unvermeidlich. Ärgerlich ist dagegen, dass die Breitensuche im schlimmsten Fall Speicher in der Größe des gesamten (baumförmigen) Suchgraphen abzüglich des Teils auf der Tiefe d benötigt, um eine Lösung zu finden. Dafür garantiert aber die Auswahlmaxime dieses Verfahrens, dass von ggf. mehreren vorhandenen eine Lösung zuerst gefunden wird, die an höchster Stelle im Suchbaum liegt, also mit einer minimalen Anzahl von Ope ratoranwendungen aus dem Startzustand hergestellt werden kann. 3.2.2.2 Tiefensuche Im Gegensatz zur Breitensuche wird die Agenda bei der Tiefensuche (engl. depth-first, DF) wie ein Keller verwaltet: Neue Knoten werden am gleichen (vorderen) Ende der Agenda eingeordnet, an dem der jeweils als Nächstes zu überprüfende Knoten vom Suchverfahren entnommen wird. Die Auswahlmaxime zur Tiefensuche lautet also: Bevor im soweit entfalteten Suchbaum Geschwister eines Knotens expandiert werden dürfen, müssen erst alle Kinder und Kindeskinder dieses Knotens expandiert worden sein.
Das Suchverfahren durchforstet damit immer erst den kompletten Suchbaum unter dem zuletzt expandierten Knoten der Agenda, bevor es im Suchbaum wieder auf steigt – daher auch der Name Tiefensuche (Abbildung 3.5). Auch die Maxime zur Tiefensuche legt die Suchstrategie noch nicht vollständig fest, da – ähnlich wie bei der Breitensuche – noch zusätzlich spezifiziert werden muss, in welcher Reihenfolge jeweils die Kinder eines Knotens an der alten Stelle ihres El ternknotens in die Agenda einzufügen sind. Repräsentiert v den momentanen Suchzustand, ist also v der erste Knoten auf der Agenda, dann müssen – der Auswahlmaxime für Tiefensuche zur Folge – alle unex pandierten Geschwister von Knoten auf dem Wurzelpfad vom Startknoten zum Kno ten v in der Agenda gespeichert sein (sie werden ja erst beim Aufstieg expandiert). Nachdem wir vereinfachend angenommen hatten, dass der einzige Lösungsknoten auf der Tiefe d des (baumförmigen) Suchgraphen liegt und dass der Suchgraph einen konstanten Verzweigungsgrad b hat, ist der Speicherbedarf Space(DF) für die Tiefen suche – unabhängig von der Lage der Lösung – linear in d: Space(DF) = d(b − 1) + 1 = O(d) (dieser Speicher wird erstmals bei Expansion des ersten Knotens auf Tiefe d benötigt).
72 | 3 Suche
3
1
1
Zustand in Agenda
4
2 3/5 t0
expandiert t2 in Lösungspfad
s0 1
si
Start-/Zielzustand Die Zahlen über den Zuständen bezeichnen den Abstand des Knotens vom Zielknoten im entfalteten Suchbaum.
1
Operator t1
expandiert Lösungspfad
Abb. 3.5: Tiefensuche. Beim Einfügen mehrerer Knoten in die Agenda wurde im Beispiel wieder die folgende Reihenfolge gewählt: Knoten vom expandierten Knoten aus links oben, links unten, rechts unten, rechts oben. Bei dieser Strategie findet Tiefensuche einen nicht optimalen Pfad der Länge 5 vom Startknoten s0 zum Zielknoten t 0 . Der Zielknoten t 0 wurde auf Baumtiefe 3 zum ersten Mal in die Agenda gestellt, jedoch nicht expandiert. Deshalb hat die gefundene Lösung die Tiefe 5
Der mittlere Zeitbedarf für die Tiefensuche ist nicht ganz so leicht zu ermitteln – wir folgen hier der Analyse in [11]. Zur Veranschaulichung stellen wir uns den Such baum vor. Die Knoten in diesem Baum markieren wir jeweils mit dem Zeitpunkt, zu dem sie expandiert werden, wenn vorher nicht ein Zielknoten angetroffen wurde. Die Kinder (direkten Nachfolger) eines Knotens zeichnen wir von links nach rechts sor tiert in der Reihenfolge ihres jeweiligen Expansionsalters. Mit diesen Festlegungen werden die Knoten bei einer Tiefensuche in diesem Suchbaum also von links unten nach rechts oben traversiert. Das Resultat der Visualisierung ist für den Spezialfall b = 3 in Abbildung 3.6 (mit kleiner Änderung aus [11]) zu sehen. Wenn das Verfahren nach B Zeiteinheiten zum ersten Mal auf die Tiefe d des (baumförmigen) Suchgraphen vordringt und nach W Zeiteinheiten den Suchgraphen komplett durchsucht hat, so vergeht aufgrund unserer vereinfachenden Annahmen
Abb. 3.6: Zeitbedarf Tiefensuche
3.2 Pfadsuche | 73
mindestens die Zeit B = d + 1 = O(d) und höchstens die Zeit W = ∑dk=0 b k = b d+1 −1 d b−1 = O(b ) bis der Zielknoten gefunden ist. In der von uns gewählten Visuali sierung weisen außerdem je zwei Knoten auf der Tiefe d im (baumförmigen) Such graphen, die den gleichen Abstand zum linken bzw. rechten Rand der Knotenschicht auf dieser Tiefe haben, die gleiche Summe B + W in ihren Knotenmarkierungen auf (in der Abbildung 3.6 sind solche Paare jeweils durch eine horizontale Klammer verbunden). Die Tiefensuche hat damit also einen mittleren Zeitbedarf von Time(DF) =
b d /2 × (B + W) B + W = = O(b d ) . 2 bd
Wie bereits das Breitensuchverfahren weist also das Tiefensuchverfahren einen Zeit bedarf auf, der unter unseren vereinfachenden Annahmen exponentiell in der Lö sungstiefe d des Suchgraphen wächst. In Bezug auf das Zeitverhalten kann daher kei nem der beiden Verfahren von vornherein der Vorzug gegeben werden. Anders liegen die Verhältnisse jedoch bei dem von uns ermittelten Speicherbe darf. Eine Suchstrategie, die schnell zu Endzuständen (unter unseren vereinfachen den Annahmen Zustände auf der Tiefe d des baumförmigen Suchgraphen) vorstößt, ist speicherökonomisch, da allein die Endzustände für eine Verkleinerung der Agenda sorgen. Damit entscheidet also die Form des Suchgraphen, ob Breiten- oder Tiefensu che für ein vorgelegtes Suchproblem in Bezug auf den Umgang mit Speicher besser abschneidet: Solange der aus dem Suchgraphen entfaltete Suchbaum nicht im Ver gleich zu seiner Breite sehr lange Wurzelpfade enthält und der Zielknoten in unserer Visualisierung des Suchbaums weit oben und rechts von diesen langen Wurzelpfa den liegt, wird die Tiefensuche der Breitensuche in Bezug auf das Speicherverhalten überlegen sein. Fatal ist die Situation allerdings, wenn die erste Lösung rechts oberhalb eines Un terbaums des Suchbaums liegt, in dem ein unendlicher Wurzelpfad liegt. In diesem Fall wird die Tiefensuche diesem unendlichen Pfad in die Tiefe folgen und nicht termi nieren. Tiefensuche ist also kein vollständiges Suchverfahren. Sie ist im Allgemeinen auch nicht optimal, da sie von zwei Lösungen immer diejenige zuerst finden wird, die links unterhalb der anderen liegt. Häufig unangemessen ist das uninformierte Verhalten von Tiefensuche auch beim Erkennen von Sackgassen. Tiefensuche steigt in so einem Fall grundsätzlich zum Va terknoten der Sackgasse auf, nimmt also die zeitlich zuletzt getroffene Entscheidung zurück und versucht dann über dessen nächstes Geschwister, d. h. mit einer Alternati ve für die letzte Entscheidung, wieder abzusteigen. Dieses chronologische Rücksetzen (engl. backtracking) ist aber z. B. beim Lösen eines Kreuzworträtsels fast immer kon traproduktiv: Meist ist nämlich nicht der letzte Versuch, ein Wort zu vervollständigen, sondern eine schon viel frühere Festlegung beim Ausfüllen des Rätsels für das späte re Scheitern des Lösungsversuchs verantwortlich, und es wäre viel klüger, gleich alle Entscheidungen von der eigentlich verantwortlichen bis zur Letzten auf einmal zu rückzunehmen und die Suche mit einer Alternative für die verantwortliche Entschei
74 | 3 Suche
dung fortzusetzen. Dafür wird aber im Allgemeinen Information benötigt, über die ein blindes Suchverfahren nicht verfügt. In der Literatur werden zur Lösung des Sack gassenproblems im Wesentlichen zwei Lösungsvorschläge gemacht, die wir hier nicht weiter ausführen können und für die wir deshalb lediglich auf die Originalquellen ver weisen: schrittweise verbreitende Suche (engl. iterative broadening, [12]) und Suche mit abhängigkeitengesteuertem Rücksetzen (engl. dependency-directed backtracking, [7; 27] und [2]). 3.2.2.3 Schrittweise vertiefende Suche Wir hatten in den vorausgegangenen Abschnitten gesehen, dass das Tiefensuchver fahren unter unseren vereinfachenden Annahmen meist ein etwas besseres Zeit- und ein deutlich besseres Speicherverhalten als das Breitensuchverfahren aufweist, da für aber gelegentlich zum Nichtterminieren neigt und nicht optimal ist. Es wäre daher schön, wenn man nach der Aschenputtelmethode die guten Eigenschaften der beiden Verfahren kombinieren könnte, ohne dabei gleichzeitig die schlechten Eigenschaften in Kauf nehmen zu müssen. Dieses Verfahren müsste also im Wesentlichen den Raum bedarf von Tiefensuche und den Zeitbedarf sowie die Robustheit und Optimalität von Breitensuche aufweisen. Ein solches Suchverfahren gibt es tatsächlich. Die Schlüsselidee ist dabei, im Prin zip Breitensuche durchzuführen, jedoch nicht jeweils alle Knoten einer Ebene zwi schenzuspeichern, sondern diese jeweils zum Expansionszeitpunkt ggf. neu zu erzeu gen. Wie wir gleich sehen werden, rechnet sich dieses wiederholte Erzeugen unter un seren vereinfachenden Annahmen, solange die Zeit dafür nur kleiner ist, als die für das Überprüfen der Knoten auf der Tiefe d des (baumförmigen) Suchgraphen. Nach dem sich Tiefensuche außerdem vor allem dann schlecht verhält, wenn der Zielknoten höher liegt als der Suchgraph tief ist, ist es gut, wenn der Suchgraph nicht tiefer durch sucht wird, als das oberste Ziel liegt. Dem wird in Algorithmus 3.2 Rechnung getragen.
Algorithmus 3.2: Schrittweise vertiefende Suche Gegeben: der implizite Suchgraph zum Suchgraphen G = (V, E, u 0 , V T ) 1. Sei m = 1 (m steht für die maximale Suchtiefe). 2. L ← {u 0 }. 3. Ist L leer, so erhöhe m um 1 und mache weiter mit Schritt 2! 4. Andernfalls sei v der erste Knoten in L. 5. Gilt v ∈ V T , so melde Erfolg und liefere den Pfad vom Startknoten u 0 zu v. 6. Andernfalls entferne v aus L: L ← L − {v}: Befand sich v in dem so weit entfalteten Suchbaum auf einer Tiefe kleiner als m, so füge an den Anfang von L die Nachkommen von v an. Markiere dabei die neuen Knoten jeweils mit dem zugehörigen Wurzelpfad. 7. Weiter mit Schritt 3!
3.2 Pfadsuche | 75
Wie man sieht, führt der Algorithmus im Wesentlichen eine iterierte Tiefensuche durch, bei der nur bis zu einer bestimmten maximalen Suchtiefe m im Suchbaum vor gestoßen wird, die bei jedem neuen Suchvorgang um eins erhöht wird. Daher wird dieses Suchverfahren auch als Suchverfahren der schrittweisen Vertiefung (engl. itera tive deepening, ID ) bezeichnet. Offensichtlich findet die ID-Suche wie die Breitensuche immer zuerst die im (baumförmigen) Suchgraph höchstgelegene Lösung, ist also optimal und vollständig und kann sich nicht wie die Tiefensuche in unendlichen Wurzelpfaden verirren. Auf grund ihrer Realisierung hat sie jedoch – unabhängig von der Lage der Lösung auf der Tiefe d des Suchgraphen – den gleichen Raumbedarf, den auch die Tiefensuche aufweist: Space(ID) = Space(DF) . Der Speicherbedarf von ID stimmt also mit dem Speicherbedarf für die letzte Iteration überein. Der Zeitbedarf für die letzte Iteration der schrittweise vertiefenden Suche ist der, den eine Tiefensuche (unter unseren vereinfachenden Annahmen über die Lage der einzigen Lösung) mit einer Tiefenbegrenzung von d aufweisen würde. Vorher werden aber noch alle Teilbäume zu den Tiefen 1, . . . , d − 1 jeweils komplett aber vergeblich b j+1 −1 b d+1 −bd−b+d verstreicht. Zusammen durchsucht, wobei die Zeit T = ∑d−1 j=0 b−1 = (b−1)2
ergibt das im günstigsten Fall einen Zeitbedarf von T + (d + 1) = O(b d−1 ) und im d+1 ungünstigsten Fall von T + b b−1−1 = O(b d ), wodurch das Mittel für große d von (b+1)b d+1 2(b−1)2
dominiert wird, also in etwa mit dem Zeitbedarf Time(DF) der Tiefensuche übereinstimmt. Insgesamt erhalten wir damit für das Verhältnis des mittleren Zeitbe darfs für die schrittweise vertiefende und die reguläre Tiefensuche: 1≤
b+1 Time(ID) = ≤3. Time(DF) b − 1
Das Iterieren stellt also unter unseren vereinfachenden Annahmen (für große d) – ent gegen dem ersten Augenschein – nicht wirklich ein Problem dar.
3.2.3 Informierte Suche Die Strategien der bisherigen Suchverfahren organisieren die Knoten in der Agenda ohne Kenntnis des Knoteninhalts. Eine Information, die gerade bei gewichteten Such problemen berücksichtigt werden muss, sind die im Pfad vom Startknoten bis zu dem einzufügenden Knoten entstandenen Kosten. Eine weitere Information kann eine heu ristische Schätzfunktion liefern, die dem Suchverfahren problemspezifische Hinweise gibt, welche Knoten auf dem Pfad zu einem Zielknoten liegen.
76 | 3 Suche
3.2.3.1 Gleiche-Kosten-Suche Die im Folgenden skizzierte Gleiche-Kosten-Suche wird oft als uninformiertes Such verfahren beschrieben, da sie keine heuristische Schätzfunktion benötigt. Nach un serer Definition benötigt sie jedoch Informationen aus den Knoten (nämlich die ak kumulierten Kosten der Wurzelpfade der Knoten im soweit entfalteten Suchbaum). Außerdem passt sie insofern besser zu den anderen informierten Suchverfahren, als sie explizit Kosten für Aktionen berücksichtigt. Die Gleiche-Kosten-Suche entspricht dem Dijkstra-Algorithmus, der kürzeste Pfa de in kantengewichteten Graphen berechnet und in Lehrbüchern zur Graphentheorie oder allgemein zu Theoretischer Informatik zu finden ist. Zur konsistenten Benennung der Suchalgorithmen bleiben wir hier jedoch bei der in der KI üblicheren Bezeichnung der Gleiche-Kosten-Suche. Im Folgenden sei davon ausgegangen, dass in unserem gewichteten Zustands raum Z = (S, A, w A ) Operatoren nur positive Kosten verursachen, es also keine Opera toren gibt, deren Anwendung umsonst ist oder gar Gewinne (negative Kosten) bringt. Außerdem nehmen wir hier an, dass es eine (positive) untere Schranke ϵ ∈ ℝ für die Kosten der Operatoren gibt, d. h. für alle Zustände s ∈ S und alle Operatoren a ∈ A, die in s anwendbar sind, die Beziehung w A (a) ≥ ϵ > 0 gilt. Eine solche untere Schranke gibt es natürlich immer schon dann, wenn die Zahl der zur Problemlösung zur Verfügung stehenden Operatoren – wie vorne unterstellt – endlich ist. Definition 3.2.9. Für einen beliebigen Knoten v im so weit entfalteten, gewichteten Suchbaum B zum gewichteten Suchgraphen G = (V, E, u 0 , V T , w E ) nennen wir die Kosten g(v) := δ B (u 0 , v) eines in B kostenminimalen Wurzelpfades vom Startknoten u 0 zu v die (derzeitigen) Min destkosten von v. Im Fall von Suchgraphen, die keine Bäume sind, also Zusammenführungen von Pfa den oder gar Zyklen enthalten (ein Knoten ist dann nicht mehr auf eindeutigem Wege vom Startknoten aus zu erreichen), muss man einem Knoten zur Bestimmung seiner derzeitigen Mindestkosten natürlich jeweils die Kosten des Pfades zuordnen, auf dem der Knoten im soweit entfalteten Suchbaum B mit minimalen Kosten erreichbar ist. Dazu prüft man vor dem Einfügen eines Knotens v in die Agenda, ob v dort bereits mit einem Pfad enthalten ist, der größere Kosten verursacht, ersetzt dann ggf. diesen Pfad destruktiv durch den neu gefundenen, kostengünstigeren Pfad und platziert den Kno ten nicht neu auf die Agenda. Die Agenda enthält damit zu jedem Zeitpunkt für jeden auf ihr gespeicherten Knoten einen Wurzelpfad, der relativ zum bereits explorierten Teil des Suchgraphen kostenoptimal ist.
3.2 Pfadsuche | 77
Definition 3.2.10. Gleiche-Kosten-Suche (engl. uniform cost search, branch & bound) expandiert im so weit entfalteten Suchbaum zum gewichteten Suchgraphen G = (V, E, u 0 , V T , w E ) den Knoten v ∈ V auf der Agenda zuerst, der die geringsten derzeitigen Mindestkosten g(v) besitzt. Das Verfahren zur Gleiche-Kosten-Suche ist in Abbildung 3.7 illustriert. 1
1
Zustand in Agenda
3
s0 1
t0 3
2
3
1 3/4
expandiert t2 in Lösungspfad Start-/Zielzustand
Die Zahlen über den Zuständen bezeichnen den Abstand des Knotens vom Zielknoten im entfalteten Suchbaum.
2
3
si
3 t1
Operator expandiert Lösungspfad w=2 w=4 w=6
Abb. 3.7: Gleiche-Kosten-Suche. Wenn bei der Expansion mehrere Knoten mit gleichen Pfadkosten zur Verfügung stehen, wird dieselbe Strategie wie beim Beispiel der Tiefen- und Breitensuche ver wendet: Knoten vom expandierten Knoten aus links oben, links unten, rechts unten, rechts oben. Gleiche-Kosten-Suche findet den optimalen Pfad mit Pfadkosten 6 vom Startknoten s0 zum Zielkno ten t 1
Breitensuche ist der Spezialfall von Gleiche-Kosten-Suche, bei dem Einheitskosten für die Operatoren vorliegen. Die Mindestkosten eines Knotens stimmen dann mit des sen Tiefe im soweit entfalteten Suchbaum überein. Nachdem unter den o. g. Annah men die Mindestkosten g auf Wurzelpfaden streng monoton wachsen, lässt sich die Argumentation für die Vollständigkeit der Breitensuche direkt auf die Gleiche-Kos ten-Suche übertragen. Gleiche-Kosten-Suche ist also wie die Breitensuche nicht nur optimal, sondern auch vollständig. Gleiche-Kosten-Suche ist übrigens ein Spezialfall des noch vorzustellenden infor mierten Suchverfahrens, das durch den sog. A*-Algorithmus realisiert wird und teilt deshalb auch wesentliche Eigenschaften mit der A*-Suche. 3.2.3.2 Heuristische Schätzfunktionen Die Gleiche-Kosten-Suche verwendet für die Knotenauswahl nur Informationen zu den bisherigen (Mindest-)Kosten eines Pfades im soweit entwickelten Suchbaum. Zum
78 | 3 Suche
Leiten der Suche durch den Suchgraphen wären jedoch auch Informationen zum wei teren Verlauf interessant. Sogenannte heuristische Suchverfahren (die Klassiker zu die sem Thema sind [23] und [5]) bevorzugen daher bei der Knotenexpansion solche Kno ten, die aus deren Sicht vermutlich nahe am Ziel liegen. Was genau bei heuristischer Suche unter „Nähe zum Ziel“ zu verstehen ist, hängt natürlich vom konkreten Problem ab. Selbst dann, wenn das Ziel gut bekannt ist, fällt es häufig schwer, ein gutes Maß für die Nähe zu diesem Ziel festzulegen. Sicher wird diese Nähe aber von den Kosten der Operatoren abhängen, die für die Errei chung des Ziels in Betracht gezogen werden. Wir unterstellen daher im Folgenden, dass wir es mit einem Zustandsraumproblem mit einem gewichteten Suchgraphen G = (V, E, u 0 , V T , w E ) zu tun haben. Natürlich würde man zur Steuerung der Suche gerne über eine Funktion h∗ : V → ℝ verfügen, die für beliebige Knoten v ∈ V des Suchgraphen, auf der Grundlage der dort gespeicherten Informationen über den von u repräsentierten Zustand, die tat sächlichen Kosten h∗ (v) := minv∗ ∈V T δ(v, v∗ ) eines optimalen Pfads (im Fall von Einheitskosten also die kürzeste Distanz) von u zu einem Zielknoten angibt, falls ein Zielknoten von u aus erreichbar ist. Diese opti male Heuristik h∗ im Vorhinein zu bestimmen, ist aber im Allgemeinen mindestens genauso kostspielig wie die Bestimmung der eigentlichen Lösung des Suchproblems. Deshalb setzt man üblicherweise Daumenregeln zur Abschätzung h des tatsächlichen (Kosten-)Abstands h∗ zum nächstgelegenen Ziel ein und versucht dann mithilfe die ser Abschätzung einen möglichst guten, als Nächstes zu expandierenden Knoten zu bestimmen. Definition 3.2.11. Eine Funktion h : V → ℝ, die die Knoten des gewichteten Suchgra phen G = (V, E, u 0 , V T , w E ) über eine Schätzung von h∗ bewertet, heißt heuristische Schätzfunktion. Von einer heuristischen (Schätz-)Funktion h, die wir im Folgenden manchmal auch salopp als Heuristik bezeichnen werden, erwartet man einerseits, dass sie den Such prozess nicht an der Nase herumführt, also bei tatsächlicher Annäherung an ein Ziel auch größere Nähe signalisiert und andererseits, dass sie für eine gegebene Situation mit möglichst geringem Aufwand eine Schätzung dieses Abstands ermöglicht – zwei Ziele, die nur schwer gleichzeitig zu erfüllen sind. Formal verlangt man von einer heuristischen Funktion h meist nur, dass sie immer nicht negative Werte liefert und zumindest die Zielknoten v ∈ V T mit null bewertet: goal(v) = true
⇒
h(v) = 0 .
Eine plausible, aber – wie wir später sehen werden – starke Forderung an eine heu ristische Schätzfunktion ist ihre Konsistenz.
3.2 Pfadsuche | 79
Definition 3.2.12. Eine heuristische Schätzfunktion h für einen gewichteten Suchgraph G = (V, E, u 0 , V T , w E ) heißt konsistent, wenn für beliebige Kanten (u, v) ∈ E gilt: h(u) − h(v) ≤ w E (u, v) . Bei einer konsistenten Schätzfunktion schrumpft also die geschätzte (Kosten-)Distanz zum Ziel bei einem vorgegebenen Schritt im Suchgraphen nicht mehr, als die Kosten, die dieser Schritt verursacht. Damit ist auch das Maximum zweier konsistenter Schätz funktionen wieder konsistent. Definition 3.2.13. Gilt für zwei Heuristiken h1 und h2 die Beziehung ∀v ∈ V : h1 (v) ≤ h2 (v), so heißt h2 besser informiert als h1 . Das Maximum zweier Heuristiken h1 und h2 ist also mindestens so gut informiert wie h1 und h2 . Die am schlechtesten informierte, aber trotzdem konsistente Heuristik h ist die mit der Eigenschaft ∀v ∈ V : h(v) = 0 , die sog. „Ich-bin-schon-da“-Heuristik. Diese Heuristik macht offensichtlich gar kei nen Gebrauch von den bei den Knoten gespeicherten, zustandscharakterisierenden Informationen. Beispiel 3.2.4. Eine Heuristik h1 für das Schiebepuzzle-Problem in Beispiel 3.1.1 besteht z. B. darin, die Anzahl der Steine zu zählen, die in der momentanen Situation noch nicht am richtigen Platz sind – die Situation in Abbildung 3.1 wäre danach mit drei zu bewer ten. Offensichtlich ist eine Schiebepuzzle-Stellung umso weiter vom Ziel entfernt, je mehr derartige Fehlplatzierungen in ihr bestehen. Eine bessere, aber auch etwas aufwendiger zu bestimmende Heuristik h2 für das Schiebepuzzle erhält man durch Berechnen der sog. Manhattan-Distanz. Dabei bestimmt man für jeden Stein den kürzesten Weg zu sei ner Zielposition und summiert diese Werte zu einer Bewertung der Gesamtstellung auf – für die gezeigte Beispielsituation erhält man damit ebenfalls den Wert drei. Die fehlplat zierten Steine einer Situation gehen in die Manhattan-Distanz also umso stärker ein, je weiter sie von ihrer jeweiligen Zielposition entfernt sind. Die Heuristik der ManhattanDistanz ist besser informiert als die der Fehlplatzierungsanzahl. 3.2.3.3 Gierige Suche Verwendet man zum Einsortieren von neuen Knoten in die Agende nur eine gegebene heuristische Schätzfunktion h, so spricht man von gieriger Suche (engl. greedy search). Definition 3.2.14. Gierige Suche expandiert im so weit entfalteten Suchbaum zum ge wichteten Suchgraphen G = (V, E, u 0 , V T , w E ) den Knoten v ∈ V auf der Agenda zuerst, für den die heuristische Schätzfunktion h den kleinsten Schätzwert h(v) liefert, Gierige Suche sieht nur nach vorne, sie strebt in die Richtung des aus agendalokaler Sicht nächstgelegenen Ziels ohne dabei in Betracht zu ziehen, welche Mindestkosten
80 | 3 Suche
Zustand
Operator
w=2
h=2
in Agenda
expandiert
w=4
h=3
expandiert
Lösungspfad
w=6
h=4
in Lösungspfad si
h=5
Start-/Zielzustand
Die Zahlen über den Zuständen bezeichnen den Abstand des Knotens vom Zielknoten im entfalteten Suchbaum. 1
2
3 t0
s0 1
2
3
1
t2 1
2
3 t1
Abb. 3.8: Gierige Suche. Die heuristische Schätzfunktion ist an jedem Zustand als gepunkteter Kreis angegeben. An den Zielzuständen ist der Wert der heuristischen Schätzfunktion jeweils null. Gierige Suche findet einen nicht optimalen Pfad mit Pfadkosten zehn vom Startknoten s0 zum Zielknoten t 0
das Streben in die betreffende Richtung für eine potenzielle Lösung bewirken wird (Abbildung 3.8). Gierige Suche findet im Allgemeinen nicht eine optimale Lösung. Da die zugehöri ge Einfügestrategie (Implementierung von insert) die derzeitigen Mindestkosten von Kandidatenpfaden ignoriert, kann man dies auch kaum erwarten. Trotzdem ist gierige Suche eine wichtige Strategie in der Praxis, da sie in vielen Fällen schnell zu vernünftigen Lösungen führt. Dabei ist auch zu bedenken, dass die Modellierung einer Aufgabe als Suchproblem sowieso eine Abstraktion der eigentli chen Aufgabe darstellt (mehr dazu in Abschnitt 3.4) und das Optimum des Suchpro blems nicht notwendigerweise die beste Lösung der ursprünglichen Aufgabe reprä sentiert. 3.2.3.4 A*-Suche Die Schwäche von gieriger Suche, die Mindestkosten von Kandidatenpfaden zu igno rieren, behebt der A*-Algorithmus durch eine Kombination dieser Mindestkosten (wie sie die Gleiche-Kosten-Suche nutzt) mit der Vorausschau anhand einer Heuristik h (wie sie die gierige Suche vornimmt). Er wurde das erste Mal 1968 von Peter Hart,
3.2 Pfadsuche |
81
Nils J. Nilsson und Bertram Raphael beschrieben [15]. Dem A*-Algorithmus liegt die folgende Auswahlmaxime zugrunde: Definition 3.2.15. A*-Suche expandiert im so weit entfalteten Suchbaum zum gewich teten Suchgraphen G = (V, E, u 0 , V T , w E ) den Knoten v ∈ V auf der Agenda zuerst, der (aus Sicht von v) schätzungsgemäß am nächsten an einem möglichst kostengünstigen Ziel t ∈ V T liegt, d. h. den mit minimalem f(v) := g(v) + h(v). Die Funktion g errechnet hier – wie bei der Gleiche-Kosten-Suche gemäß Definiti on 3.2.9 – die derzeitigen Mindestkosten des zu expandierenden Knotens v. Das Ver fahren ist in Abbildung 3.9 illustriert.
Zustand
Operator
w=2
h=2
in Agenda
expandiert
w=4
h=3
expandiert
Lösungspfad
w=6
h=4
in Lösungspfad si
h=5
Start-/Zielzustand
Die Zahlen über den Zuständen bezeichnen den Abstand des Knotens vom Zielknoten im entfalteten Suchbaum. 1
1
2
s0
t0
1
3
1
2
t2
2
3
3 t1
Abb. 3.9: A*-Suche. Die heuristische Schätzfunktion ist an jedem Zustand als gepunkteter Kreis an gegeben. An den Zielzuständen ist der Wert der heuristischen Schätzfunktion jeweils null. A*-Suche findet denselben optimalen Pfad mit Pfadkosten sechs wie die Gleiche-Kosten-Suche, muss dazu aber weniger Knoten expandieren
3.2.3.4.1 Zulässige Schätzfunktionen Solange nichts weiter über die im A*-Algorithmus verwendete Schätzfunktion be kannt ist, kann nur wenig über das Verhalten des A*-Algorithmus ausgesagt werden. Dies ändert sich schlagartig, wenn wir verlangen, dass die Schätzfunktionen konsis tent oder wenigstens zulässig sein soll.
82 | 3 Suche
Definition 3.2.16. Eine Schätzfunktion h wird als optimistisch oder zulässig bezeich net, falls h(v) ≤ h∗ (v) für alle Knoten v ∈ V des Suchgraphen G = (V, E, u 0 , V T , w E ) gilt, die (Kosten-)-Distanz von v zum nächsten Zielknoten also nicht überschätzt wird. Beispiel 3.2.5. Die beiden weiter vorne für das Schiebepuzzle beispielhaft aufge führten Schätzfunktionen („Anzahl Fehlplatzierungen“ bzw. „Manhattan-Distanz“) sind zulässig (eine entsprechende Analyse des allgemeinen Schiebepuzzles findet sich u. a. in [5]). Das Maximum zweier zulässiger Schätzfunktionen ist offenbar wieder zulässig. Kon sistente Schätzfunktionen sind immer auch zulässig, aber nicht jede zulässige Schätz funktion ist auch konsistent (für einen Beweis dieser Aussage, siehe [5]). Der A*-Algorithmus findet garantiert zuerst eine optimale Lösung, wenn die Schätzfunktion zulässig ist. Außerdem hat die Schätzfunktion einen wesentlichen Einfluss auf die Geschwindigkeit, mit der der A*-Algorithmus so eine optimale Lö sung findet: Sind zwei Schätzfunktionen h1 und h2 zulässig und ist h2 besser informiert als h1 , dann explo riert der A*-Algorithmus mit h2 nie mehr Knoten als mit h1 (für einen Beweis konsultiere man [7] bzw. [22]).
Das eine Geschwindigkeitsextrem stellt hier die „Ich-bin-schon-da“-Heuristik dar, bei der A* zur Breitensuche (bzw. Gleiche-Kosten-Suche bei variablen Operatorkosten) entartet. Das andere Extrem resultiert, falls die Schätzfunktion zur Verfügung steht, die den Abstand zum nächsten Zielknoten immer exakt angibt; in diesem Fall steu ert der A*-Algorithmus ohne Umwege, d. h. mit maximaler Geschwindigkeit, auf das nächstgelegene Ziel zu. Es kann übrigens keine zulässige Schätzfunktion geben, die mit A*-Suche Tiefen suche realisiert, da Tiefensuche im Allgemeinen nicht die optimale Lösung eines Such problems findet, ja nicht einmal vollständig ist.
3.2.4 Zusammenfassung Tabelle 3.1 fasst die hier vorgestellten Algorithmen zusammen. Die Wahl des besten Al gorithmus für ein gegebenes Suchproblem kann jedoch nicht einfach einer Checkliste folgen. Man sollte eine Vorstellung über die Art des Zustandsraumes haben, insbe sondere davon, ob unendliche Schleifen möglich sind. In diesem Fall ist Tiefensuche problematisch, es sei denn, man verhindert redundante Pfade durch eine Liste ge schlossener Knoten. Auch Laufzeitangaben sind nur bedingt hilfreich. Alle Algorithmen haben im schlimmsten Fall exponentielle Laufzeit, was nicht überrascht, wenn man sich vor Au gen führt, dass die meisten interessanten Probleme, die man mit Suche zu lösen ver sucht, NP-vollständig sind. Wichtiger ist, dass die Modellierung (Abschnitt 3.4) zum
3.3 Optimierung
| 83
Tab. 3.1: Überblick über die vorgestellten Suchalgorithmen Verfahren
Insert-Strategie
Vollständigkeit
Optimalität
Breitensuche Tiefensuche Schrittweise Tiefensuche
Am Ende Am Anfang Am Anfang
Ja Nein Ja
Ja Nein Ja
Gleiche-Kosten-Suche Gierige Suche A*-Suche
Pfadkosten Heuristik Pfadkosten und Heuristik
Ja Nein Ja
Ja Nein Ja
Algorithmus passt. Möchte man beispielsweise Optimalität mit dem A*-Algorithmus garantieren, muss man sich die Mühe machen, eine zulässige Heuristik zu finden.
3.3 Optimierung Die Aufgabe bei der Pfadsuche besteht darin, die Arbeitsschritte zu ermitteln, die ei nen gegebenen Anfangszustand in einen Zielzustand verwandeln. In vielen Fällen ist jedoch der Zielzustand selbst der interessanteste Teil des Prozesses und der Weg da hin nicht weiter wichtig. Beispiele sind das Finden von kürzesten Routen als Rund reiseproblem, bei dem die Zustände Kandidatenrouten darstellen, das Erstellen von Zeitplänen oder die Zuschnittplanung in Produktionsprozessen. Das Ziel wird dabei üblicherweise nicht durch eine Menge von Zielzuständen oder ein Zielprädikat vor gegeben, sondern durch eine Zielfunktion f , die die Güte von Zuständen numerisch bewertet. Die Aufgabe bei solchen Aufgaben ist das Maximieren (z. B. von Durchsatz mengen) oder Minimieren (z. B. von Kosten) dieser Zielfunktion. Definition 3.3.1. Ein Optimierungsproblem P = (S, A, f) besteht aus 1. einer Menge S von Zuständen, die potenzielle Lösungen der Aufgabe darstellen, 2. einer Menge A = {a1 , . . . , a n } von Zustandsübergangsoperatoren a i : S → S (1 ≤ i ≤ n), die Transformationen von Lösungen darstellen und durch deren Anwendun gen neue Lösungsalternativen generiert werden und 3. einer Zielfunktion f , die jedem Zustand eine numerische Bewertung (üblicherweise eine natürliche oder reelle Zahl) zuordnet: f : S → ℝ. Optimierungsalgorithmen zu derartigen Optimierungsproblemen werden auch als lo kale Suchverfahren bezeichnet. Im Gegensatz zur Pfadsuche benötigt ein Optimierungsproblem keinen Startzu stand. Es ist möglich, solch einen Startzustand fest vorzugeben, meist wird er jedoch zufällig gewählt. Außerdem tritt an die Stelle der Zielzustände die Zielfunktion (Abbil dung 3.10). Theoretisch wäre die Menge der Zielzustände als die Menge von Zuständen vorgebbar, die die höchst- (oder niedrigst-)mögliche Bewertung von der Zielfunktion
84 | 3 Suche
Abb. 3.10: Zustandsraum für ein Optimierungsproblem. Die Größe der Kreise repräsentiert die Ziel funktion. Statt Zielzuständen enthält der Raum lokale Maxima (mit dicken Konturen markiert), die jedoch unterschiedliche Güte aufweisen
erhalten. Um solch ein globales Optimum zu finden, wäre im Allgemeinen aber eine systematische Aufzählung aller Zustände nötig, was für reale Probleme üblicherweise jede verfügbare Rechenkapazität übersteigt. Die meisten Verfahren können daher nur lokal optimale Lösungen zurückliefern, also Lösungen, die durch Anwendung jedes Operators nur schlechter werden würden (eine Verbesserung könnte nur durch An wendung einer Kette von Operatoren eintreten). Eine andere Möglichkeit ist es, den Zustandsraum so zu transformieren, dass die Zielfunktion konvex ist, d. h. nur ein Mi nimum oder Maximum besitzt. Dann ist jedes lokale Optimum gleichzeitig das globale Optimum. Solche Transformationen sind jedoch nur für Spezialfälle bekannt. Beispiel 3.3.1. Stellen wir uns ein extrem vereinfachtes medizinisches Experiment vor. In diesem Experiment wurden Versuchspersonen bestimmte Dosen eines Medikaments verabreicht und dann in irgendeiner, uns nicht weiter bekannten Form der daraus resul tierende Zustand der Versuchspersonen gemessen. Das Ergebnis wäre z. B. eine solche Tabelle: Medikamentendosis
Patientenzustand
2.13 2.38 1.96 ...
4.56 5.16 3.17 ...
Die Initiatoren des Experiments vermuten einen funktionalen Zusammenhang p zwi schen der Medikamentendosis und dem Patientenzustand, der mit einer quadratischen Gleichung beschrieben werden kann: p(Medikamentendosis) = a ⋅ Medikamentendosis2 + b ⋅ Medikamentendosis + c .
3.3 Optimierung
| 85
Gesucht sind nun Belegungen der Variablen a, b und c, für die der vermutete Zusammen hang die Beobachtungen möglichst gut beschreibt. Diese Aufgabe kann man wie folgt als Optimierungsproblem formulieren. Zustände: die Menge {[a, b, c] | a, b, c ∈ ℝ} von dreistelligen Vektoren, die mögliche Werte der gesuchten Variablen repräsentieren, Operatoren: Veränderungen der durch die Vektoren codierten Variablenwerte, z. B. um einen festen Wert ε: o a : [a, b, c] → [a + ε, b, c] ,
o b : [a, b, c] → [a, b + ε, c] , o c : [a, b, c] → [a, b, c + ε] ,
Zielfunktion: implizit definiert über die Tabelle: Pro Tabellenzeile ermittelt man die Abweichung zwischen dem dort zur Medikamen tendosis vermerkten, gemessenen Patientenzustand und dem für die aktuelle Varia blenbelegung [a, b, c] prognostizierten Zustand p(Medikamentendosis). Diese Ab weichung, quadratisch aufsummiert über alle Tabellenzeilen, soll möglichst klein sein. Dieses Beispiel ist übrigens auch ein Beispiel für überwachtes Maschinelles Lernen. Ver fahren zum Maschinellen Lernen (Kapitel 11) sind Varianten der hier vorgestellten Opti mierungsalgorithmen.
3.3.1 Bergsteigerverfahren Wenn man sich in einer unbekannten Gegend verlaufen hat, soll man einer Pfadfin derregel zufolge permanent versuchen, in der Landschaft abzusteigen und keinesfalls bergauf gehen: So hat man eine gute Chance, früher oder später in einem Tal und an einem (natürlich abwärts fließenden) Gewässer anzugelangen, wo bevorzugt Siedlun gen anzutreffen sind. Als Verbesserung der eigenen Situation wird bei dieser Pfadfin derregel also die lokale Verminderung der Höhe über dem Meeresspiegel genommen. Dieses Verhalten wird durch den Optimierungsalgorithmus 3.3 realisiert, für den die Abbildung 3.11 beispielhaft einen Zustandsraum zeigt. Beim Bergsteigerverfahren (engl. hill climbing, HC) nimmt man (passend zum Na men des Verfahrens) meistens an, dass ein Maximum der Zielfunktion gesucht wird, man also immer bergauf läuft. Das Verfahren funktioniert natürlich auch zur Suche eines Minimums, wenn man das Vorzeichen der Zielfunktion umdreht. Ist die Anzahl der Operatoren beschränkt, so hat Bergsteigen lediglich einen kon stanten Speicherbedarf von Space(HC) = O(b) , wobei dann b der maximale Verzweigungsgrad im Suchraum, also die maximale An zahl in einem Zustand anwendbarer Operatoren, ist.
86 | 3 Suche
Algorithmus 3.3: Das Bergsteigerverfahren Gegeben: das Optimierungsproblem P = (S, A, f) 1. Sei s0 ein beliebiger Zustand aus S. 2. Berechne die Menge N 0 der Nachbarzustände von s0 : N 0 ← {a(s0 ) | a ∈ A und a anwendbar in s0 }. 3. Berechne die Zielfunktion f für alle Zustände in N 0 und bestimme den Nachbarzustand s von s0 mit der höchsten Bewertung: s ← arg maxs∈N0 f(s). 4. Gilt f(s ) > f(s0 ), so verwende s als neuen besten Zustand: s0 ← s , weiter mit Schritt 2! 5. Ansonsten gib s0 als lokales Maximum zurück.
Abb. 3.11: Das Bergsteigerverfahren. Die Größe der Kreise repräsentiert die Zielfunktion. Statt Ziel zuständen enthält der Raum lokale Maxima (mit dicken Konturen markiert), die jedoch unterschiedli che Güte aufweisen
Einen zu hohen Verzweigungsgrad kann man umgehen, indem man in Schritt 2 nur eine zufällig (oder regelbasiert) gewählte Stichprobe der Nachbarzustände generiert und bewertet. Das Bergsteigerverfahren vollzieht auf der Zielfunktion im Wesentlichen eine diskrete Variante dessen, was ein Gradientenabstieg (Kapitel 11), beginnend beim Startknoten des Suchraums, leisten würde, wenn die Schätzfunktion differenzier bar wäre (was bei einem per Definition diskreten Suchraum natürlich nicht möglich ist). Neben dem bereits angesprochenen Problem der lokalen Maxima, bestimmt die Struktur des Suchraums auch die Effizienz der Suche. In Teilen des Suchraums, in de nen sich der Wert der Schätzfunktion nicht ändert (sog. Plateaus) vollzieht Bergstei gen im Wesentlichen blinde Suche und führt mangels jeglicher Anhaltspunkte nur zufällige lokale Richtungsänderungen aus. Deshalb ist man z. B. mit dem Bergsteiger verfahren in flachen Wüstenlandschaften hoffnungslos verloren.
3.3 Optimierung
|
87
3.3.1.1 Randomisierte Varianten des Bergsteigens Eine naheliegende Möglichkeit, die genannten Probleme zu lindern, besteht darin, das Bergsteigerverfahren an einem zufällig gewählten Zustand neu zu starten, sobald es an einem Zustand angelangt ist, von dem aus kein Fortschritt mehr erzielt wird und sich für die soweit erfolgten Suchvorgänge das bisher beste Endergebnis zu mer ken (engl. random-restart hill climbing). Hat man genug Zeit für solche Neustarts, so wird man auf diese Weise früher oder später ein globales Maximum finden. Dabei be nötigt man im Mittel umso mehr Durchgänge, je mehr lokale Maxima in der durch die Schätzfunktion definierten Landschaft enthalten sind. Einen anderen Weg zur Lösung der Probleme beschreitet das Verfahren des sog. si mulierten Ausglühens (engl. simulated annealing, [17]), bei dem nicht der Startzustand zufällig variiert wird, sondern während der Suche mit einer bestimmten Wahrschein lichkeit auch Schritte in eine Richtung unternommen werden dürfen, die keine lokale Maximierung der Zielfunktion bewirken. Auf diese Weise können lokale Maxima mit einer im Verlauf der Zeit sinkenden Wahrscheinlichkeit wieder verlassen werden. Die Wahrscheinlichkeit wird proportional zu einer globalen Größe T, der sog. Tempera tur gewählt, die von Iteration zu Iteration langsam reduziert wird. Irgendwann ist die Wahrscheinlichkeit dann so klein, dass das Verfahren nur noch aufwärts schreiten darf und sich wie das Bergsteigerverfahren verhält, also das nächste lokale und hof fentlich auch globale Maximum ansteuert. Nachdem der zum simulierten Ausglühen gehörende stochastische Prozess die Markov-Eigenschaft besitzt, kann man zeigen, dass das Verfahren asymptotisch kon T0 , fällt die vergiert. Gilt etwa für die Temperatur T k beim k-ten Schritt T k ≥ log(1+k) Temperatur also sehr langsam und ist T0 eine hinreichend große Starttemperatur, so gelangt die Suche schließlich mit einer Grenzwahrscheinlichkeit von eins in ein glo bales Maximum ([8] – andere hinreichende Konvergenzbedingungen finden sich z. B. in [1]). Das Verfahren bezieht seinen Namen nach einer Erfahrung beim Kochen von Stahl, wonach man einen besonders guten und harten Stahl dadurch erhält, dass man den rohen Stahl anfangs stark erhitzt und dann langsam abkühlen lässt.
3.3.2 Evolutionäre Algorithmen Wie der Name vermuten lässt, leitet sich die Idee der evolutionären Algorithmen aus der Biologie ab, ebenso wie die damit verbundenen Begrifflichkeiten: Population, Mu tation und Selektion. Im Grunde handelt es sich aber um eine Art parallelisierte Ver sion des Bergsteigeralgorithmus. Beim Bergsteigen haben wir randomisierte Neustarts als Möglichkeit erwähnt, um das Problem der lokalen Maxima zum umgehen. Statt sequenzieller Neustarts könnte man das Verfahren auch mehrfach parallel laufen lassen. Neben der Zeitersparnis er möglichen es parallele Läufe sogar, Informationen der verschiedenen Läufe unterein
88 | 3 Suche
ander auszutauschen. In komplexen Zustandsräumen kann es sein, dass eine Lösung ein Gütekriterium besonders gut erfüllt, eine andere Lösung dagegen bei einem an deren Gütekriterium besser abschneidet. Durch Kombination der Zustände lässt sich damit schneller ein vielversprechender Zustand erzeugen, als durch das Suchen in der Nachbarschaft (Abbildung 3.12). Das Kombinieren von Zuständen setzt jedoch voraus, dass die Zustände in einem Format repräsentiert sind, das sich für solch eine Opera tion eignet. In evolutionären Algorithmen wird deshalb die Definition von Optimie rungsalgorithmen auf Zustandsrepräsentationen mit Vektoren eingeschränkt. Definition 3.3.2. Ein Problem P = (S, f) für einen evolutionären Algorithmus besteht aus 1. einer Menge S von Individuen (Zuständen), die jeweils als Vektoren repräsentiert sind und 2. einer Fitnessfunktion (Zielfunktion) f , die jeden Zustand auf eine (üblicherweise reellwertige) Bewertung abbildet: f : S → ℝ. Die Operatoren sind bei evolutionären Algorithmen fest im Algorithmus angelegt, können jedoch durch Parameter weiter detailliert werden: – Mutation ändert einen Wert im Zustandsvektor, ähnlich wie die Operatoren in Bei spiel 3.3.1, jedoch nicht um einen festen Wert ε, sondern üblicherweise um einen zufälligen Wert aus einem konfigurierbaren Bereich. – Rekombination, auch als cross-over bezeichnet, transformiert zwei Vektoren in ei nen neuen Vektor (macht gewissermaßen aus zwei Elternvektoren einen Kindvek tor). Üblicherweise geschieht dies, indem einige Elemente aus dem ersten Vektor i mit einigen aus dem zweiten Vektor j zu einem neuen Vektor k zusammengesetzt wer den, z. B. wie folgt:
i = [i0 , i1 , i2 , i3 ], j = [j0 , j1 , j2 , j3 ]
→
k = [i0 , i1 , j2 , j3 ] .
Der evolutionäre Algorithmus 3.4 beginnt mit einer vorgegebenen Anzahl n von zu fällig gewählten Zustandsvektoren (Population). Auf jeden dieser Vektoren wird die Fitnessfunktion angewendet, die die Fortpflanzungschancen des Individuums misst. Im Selektionsschritt werden dann zufällig Individuen für die nächste Iteration ausge wählt, wobei die Wahrscheinlichkeit, gewählt zu werden, von der Fitness des Indivi duums abhängt. Die gewählten Individuen werden schließlich durch Rekombination und Mutation zu neuen Individuen zusammengesetzt, wodurch eine neue Population der Größe n zur weiteren Evolution entsteht. Algorithmus 3.4 enthält kein explizites Abbruchkriterium. Üblicherweise verwen det man eine feste Zahl von Iterationen (Generationen) oder ein Konvergenzkriterium ähnlich dem beim Bergsteigen: Stoppe, wenn von einer Generation zur nächsten keine nennenswerte Verbesserung eintritt (oder sogar eine Verschlechterung).
3.3 Optimierung
Zustand in erster Generation
Rekombination
Zustand in zweiter Generation
Mutation
Zwischenzustand nach Rekombination, vor Mutation
(a)
(b)
(c)
| 89
90 | 3 Suche
◂ Abb. 3.12: Evolutionärer Algorithmus. Die Größe der Kreise repräsentiert die Zielfunktion. Statt Zielzuständen enthält der Raum lokale Maxima (mit dicken Konturen markiert), die jedoch unter schiedliche Güte aufweisen. (a) Erste Generation aus vier zufälligen Zuständen (hellgrau markiert). Die Gesamtfitness (Summe der Zielfunktionen aller Zustände in der Population) ist 7,5. (b) Optimie rungsschritt durch Rekombination und Mutation; das Übernehmen eines Zustandes ohne Rekom bination wird in diesem Beispiel auch erlaubt. Mutationen werden zufällig nach der Rekombination oder Übernahme von Zuständen durchgeführt. (c) Zweite Generation von Zuständen nach dem ers ten Optimierungsschritt. Die Gesamtfitness ist 10,5
Wie das Bergsteigerverfahren kann man evolutionäre Algorithmen in verschiede nen Varianten anwenden. Beispielsweise kann das beste Individuum immer unver ändert in die neue Population aufgenommen werden, die Populationsgröße könnte sich ändern oder die Selektionsfunktion könnte (wie beim simulierten Ausglühen) am Anfang die Fortpflanzungschancen für weniger privilegierte Individuen erhö hen.
Algorithmus 3.4: Evolutionärer Algorithmus Gegeben: ein Problem P = (S, f) für einen evolutionären Algorithmus 1. Sei S eine zufällige Menge von Zuständen mit S ⊂ S. 2. Berechne die Fitness f für alle Individuen in S . 3. Bestimme eine Menge I ⊂ S von sich fortpflanzenden Individuen, wobei die Wahrscheinlichkeit dafür, dass ein Individuum i aus S in I aufgenommen wird, proportional zu dessen Fitness f(i) ist. 4. Bestimme aus I eine neue Population S durch Rekombination und Mutation der Individuen in I. 5. S ← S , weiter mit Schritt 2.
3.4 Modellierung von Problemräumen Das Grundprinzip von Suche verlagert die Arbeit vom Programmieren auf das Model lieren. Die Modellierung ist der Schritt, der eine Aufgabe aus der realen Welt über eine Zustandsraumrepräsentation so beschreibt, dass sie in das Schema einer Suchaufgabe passt. Dazu müssen wir festlegen, was wir als Zustände auffassen wollen und welche Operatoren dann diese Zustände ineinander überführen sollen. Bei Optimierungsauf gaben ist zusätzlich die Wahl der Zielfunktion entscheidend. Die Suchalgorithmen haben wir bereits ausführlich behandelt, und Implementie rungen dieser Algorithmen sind leicht zu bekommen. Für die Modellierung gibt es – im Gegensatz zu den Suchalgorithmen – keine naheliegenden oder gar universellen Definitionen und Formeln. Hier ist menschliche Kreativität gefragt – ähnlich wie beim Lösen mathematischer Aufgaben [24].
3.4 Modellierung von Problemräumen
| 91
Beispiel 3.4.1 Das Acht-Damen-Problem [25]. Auf einem Schachbrett sollen acht Da men so angeordnet werden, dass sie sich nach den Regeln des Schachspiels nicht gegen seitig bedrohen, d. h., in jeder Zeile, Spalte und Diagonale des Schachbrettes darf für eine Lösung nur jeweils genau eine Dame platziert werden. Modell 1: Ein Zustand ist ein Schachbrett mit acht Damen darauf, der Anfangszustand ist eine zufällige Anordnung der Damen. Ein Operator verschiebt eine Dame um ein Feld. Die Zielfunktion zählt die Angriffe, die in dem Zustand möglich wären. Ein Ziel zustand ist ein Zustand, bei dem die Anzahl der Angriffe null ist. Dieser Zustands raum beinhaltet 4 ⋅ 109 Zustände. Neben dem großen Zustandsraum ist bei diesem Modell auch die Zielfunktion pro blematisch. In vielen Fällen wird sich die Zielfunktion durch Anwendung eines Ope rators kaum ändern und somit helfen lokale Verbesserungen nicht weiter. Modell 2: Ein Zustand ist ein Schachbrett mit null bis acht Damen darauf. Ein Operator setzt eine Dame in die auf dem Schachbrett am weitesten links befindliche Spalte, in der noch keine Dame steht und zwar so, dass die neue Dame von keiner vorhandenen Dame angegriffen wird. Ein Zielzustand ist ein Zustand, in dem alle Damen auf dem Brett platziert sind. In diesem Fall haben wir den für ein Optimierungsproblem untypischen Weg ge wählt, das Problem als Pfadsuche zu formulieren. Der Suchraum beinhaltet nur noch 2057 Zustände. Die Modellierung umfasst also eine Abwägung, wie viel Arbeit man selbst für die Lö sung zu investieren bereit ist und wie viel Arbeit man dem Suchalgorithmus überlas sen will. Beim Acht-Damen-Problem ist die erste Formalisierung die naheliegende, die zweite braucht mehr Denkaufwand. Ebenso bedeutet das Entwickeln einer guten Heu ristik für die A*-Suche menschlichen Aufwand. In gewisser Weise relativiert sich so der Anspruch auf Allgemeinheit von Suche. Sie funktioniert umso besser, desto mehr Ge danken man sich beim Modellieren gemacht hat. Suche ist eben ein Werkzeug, keine Wunderwaffe.
3.4.1 Zustände und Operatoren Ein Problem, das bereits mehrfach angesprochen wurde, ist die Größe von realisti schen Zustandsräumen. Wir haben am Acht-Damen-Problem gesehen, wie eine güns tige Modellierung die Größe des Zustandsraums einschränken kann. Jedoch geht es nicht nur darum, einen möglichst kleinen Zustandsraum zu defi nieren, sondern einen, der die Aufgabe so gut wie möglich repräsentiert. Betrachten wir daher noch ein etwas komplexeres Beispiel. Beispiel 3.4.2 Eine App, die uns Empfehlungen für unser Mittagessen geben soll. Üb licherweise wird man für dieses Problem als Zustände – also mögliche Lösungen – Re staurants und Imbisse in einem bestimmten Umkreis vom aktuellen Standort in Betracht
92 | 3 Suche
ziehen.² Von diesen Varianten gibt es häufig viel mehr als von den Alternativen, die ein Mensch für eine Auswahl erwägen würde. Das führt nicht selten dazu, dass uns als Mensch Lösungen, die Computer vorschlagen, überraschen. Andererseits ist die App darauf beschränkt, schlicht eine der (ggf. vielen) verfügba ren Essenslokalitäten auszuwählen. Als Mensch könnte man sich aber auch entscheiden, überhaupt nicht zu Mittag zu essen, die Reste im Kühlschrank zu plündern, einen Liefer service zur Essensbeschaffung zu bemühen oder zu versuchen, bei den Nachbarn etwas Leckeres abzustauben. Bei der Modellierung des Zustandsraums ließen sich all diese Möglichkeiten ebenfalls codieren. Damit wird dann aber der Zustandsraum deutlich grö ßer. Und da diese Varianten eher selten auftreten werden, ist zu überlegen, ob sie den zusätzlichen Rechenaufwand wert sind. Schließlich wird auch die Kontrolle des Ergeb nisses schwieriger. Wenn man dem Suchalgorithmus erst einmal verraten hat, dass man auch Nahrung bei den Nachbarn bekommen kann, wird er diese Möglichkeit grundsätz lich in Betracht ziehen. Dann muss man aber wieder über die Zielfunktion sicherstellen, dass diese Möglichkeit nur in Ausnahmefällen als Lösung angezeigt wird. Lässt sich ein großer Zustandsraum nicht vermeiden, muss man anderweitig dafür sorgen, dass die Suche trotzdem effizient verläuft. Ein Lösungsansatz, den wir bereits gesehen haben, ist der Einsatz von Heuristiken. Eine andere Möglichkeit besteht dar in, die Aufgabe über eine geschickte Modellierung in Teilaufgaben zu zerlegen. Insbe sondere die Zerlegung in hierarchische Unteraufgaben hilft einerseits die Zustands räume beherrschbar zu machen, andererseits sinnvolle Ergebnisse zu produzieren. Für unsere Beispiel-App, die Essensvorschläge macht, könnte man zunächst ei ne Bedingung definieren, die den Modus des Mittagessens bestimmt: zu Hause, im Restaurant, bei den Nachbarn oder überhaupt nicht. Je nach Ergebnis wird dann die Ausgestaltung des gewählten Modus in einer eigenen Suchaufgabe modelliert. Diese Art der Modellierung hat auch den Vorteil, dass Menschen leichter in den Auswahl prozess eingreifen können. Wenn einer Nutzerin der App die Wahl des Modus nicht zusagt, kann sie diese manuell ändern und trotzdem von weiteren Hilfestellungen bei der Lösungsausgestaltung profitieren. Doch hierarchische Modelle bringen auch neue Herausforderungen. Dabei ist vor allem der Übergang zwischen den Abstraktionsebenen zu nennen. Damit unsere Es sensauswahl-App entscheiden kann, welcher Modus des Essens gut ist, kann es sein, dass die spezifischen Lösungen der einzelnen Modi schon bekannt sein müssen. Ob man z. B. zu Hause oder im Restaurant essen möchte, hängt manchmal vom Wetter ab (dann ist die Entscheidung direkt möglich), manchmal aber auch davon, was man im Kühlschrank hat und was im Restaurant an der Ecke auf der Mittagskarte steht. Barba
2 Man kann sich streiten, ob diese Aufgabe überhaupt ein Optimierungsproblem ist, da vermutlich al le in Betracht kommenden Alternativen betrachtet werden. In diesem Fall wird ungewöhnlicherweise der komplette Zustandsraum expandiert. Das Beispiel zeigt aber auch, dass die Größe von Zustands räumen nicht die einzige Herausforderung für die praktische Anwendung von Suchverfahren ist.
3.4 Modellierung von Problemräumen |
93
ra und Frederick Hayes-Roth haben in den 1970er-Jahren gezeigt, dass Menschen bei komplexen Entscheidungen zwischen Abstraktionsebenen wechseln [16], d. h., dass die abstrakte Entscheidung über den Essensmodus im Wechsel mit Detailentschei dungen stattfindet, wobei auch die Detailentscheidungen die abstrakte Entscheidung beeinflussen können und nicht nur umgekehrt. Dieses Prinzip wurde bisher jedoch kaum in KI-Methoden umgesetzt.
3.4.2 Zielfunktionen Über Kosten und Zielfunktion können wir steuern, welche der durch den Zustands raum gegebenen potenziellen Lösungen in einer gegebenen Situation gute oder schlechte Lösungen sind. Menschen sind jedoch nicht gewohnt, ihre Präferenzen in Zahlenwerten auszudrücken und durch die Varianz von möglichen Situationen ist das Testen der Zielfunktion schwierig. Beispiel 3.4.3. Bei einer Reise nach Italien will man sich die österreichische Autobahn maut sparen. Praktischerweise hat das mitgeführte Navigationssystem eine Option, die Mautstraßen ausschließt. Deren Aktivierung führt allerdings dazu, dass das Gerät versu chen wird, eine Route um den Brennerpass herum zu planen – selbst dann, wenn man be reit wäre, die Maut für den Brenner zu bezahlen, um sich den stundenlangen Umweg zu ersparen, den die Alternative bedeutet würde. Man könnte angesichts dieses Problems argumentieren, dass die Option im Navigationssystem nicht als „mit oder ohne Maut straßen“ ausgelegt sein sollte, sondern als eine graduell spezifizierbare Präferenz, die von dem Gerät im Zusammenspiel mit anderen Werten betrachtet wird. Aber auch das würde das Problem nicht lösen, wenn schon nur ein paar Meter auf mautpflichtigen Stra ßen in Österreich eine hohe Geldstrafe bedeuten können und man nur keine Mautstraße außer den Brenner nutzen möchte. Üblicherweise setzt sich also das Ziel von Optimierung aus mehreren Kriterien zusam men. Man spricht dabei von mehrkriterieller Optimierung [6]. Dazu definiert man zu nächst einzelne Zielfunktionen zu den Kriterien. Für die App, die uns beim Mittag essensuchen helfen soll, könnten dies Bewertungen für Kriterien wie die geschätzte Zeitdauer, die Güte des Essens oder dessen Preis sein. Die Frage ist dann, wie man die Bewertungen zu den spezifischen Kriterien in einer Gesamtzielfunktion zusammen fasst. 3.4.2.1 Gewichtete Summierung von Bewertungsmaßen Die am Weitesten verbreitete Methode zur Zusammenfassung ist eine Kombination der Einzelwerte in einer gewichteten Summe. Dazu muss festgelegt werden, wie wichtig jedes einzelne Kriterium sein soll. Beispielsweise könnte für das Mittagessen an ei nem Arbeitstag die Zeit doppelt so wichtig sein wie die Güte. Obwohl das Verfahren unkompliziert aussieht, weist es in der Praxis Tücken auf.
94 | 3 Suche
3.4.2.1.1 Einschätzung der Gewichte Als Menschen sind wir zwar gewohnt, verschiedene Güteaspekte gegeneinander ab zuwägen, wir tun dies aber üblicherweise nicht quantitativ. Daher kann es sich als schwierig herausstellen, entsprechende Gewichtungen zur Parametrisierung des Op timierungsverfahrens direkt von Nutzenden abzufragen. Die Auswirkungen der Ge wichte werden häufig erst beim Testen an Einzelfällen sichtbar, und man sollte des halb auch entsprechend Zeit und Ressourcen für entsprechende Tests einplanen. Ein anderer Weg zur Ermittlung geeigneter Gewichte könnte es sein, anhand von Beispie len gefundene Ergebnisse bewerten zu lassen und per Reinforcement Learning die Ge wichtsfunktion automatisch zu optimieren (Kapitel 11). Doch auch hier hat man das fundamentale Problem, dass es nicht immer eine einzige Gewichtszuweisung gibt, die alle Fälle gut abdeckt. Eventuell muss man deshalb auch dabei nach Situationsklas sen unterscheiden und für diese Klassen jeweils spezifische Gewichtsfunktionen de finieren. 3.4.2.1.2 Skalierung Um einigermaßen die Kontrolle über das Ergebnis der Optimierung zu haben, sollte dieses in erster Linie von den gesetzten Gewichten abhängen. Dies ist nur gewährleis tet, wenn die Einzelbewertungen sinnvoll und einheitlich skaliert sind. Zunächst soll te man daher einen Wertebereich definieren, in den alle Teilzielfunktionswerte fallen müssen – z. B. der kanonische Bereich zwischen null und eins. Wenn wir z. B. für unsere Essensauswahl-App den Preis eines Mittagessens auf dieser Skala einordnen wollen, ist ein geschenktes Essen wahrscheinlich am besten, bekäme also den Wert eins. Doch wann ist ein Gericht zu teuer? Zur Entscheidung dieser Frage wird man weitere Parameter festlegen müssen, die Einfluss auf die Ziel funktion und damit das Ergebnis haben – z. B. einen angenommenen Maximalpreis zusammen mit der Maßgabe, dass Preise, die darüber liegen, mit null bewertet wer den. Diese Parameter sind aber häufig nur implizit in der Zielfunktion codiert und damit weder sichtbar noch explizit manipulierbar. Mit der skizzierten Bewertung des Essenspreises, z. B., wird nur selten der gesamte Wertebereich ausgeschöpft werden. So wird der Wert zwischen eins und dem ersten Wert eines bezahlten Mittagessens nur selten auftreten. Wenn der so skalierte Preis jedoch üblicherweise nicht über einen Wert von (beispielsweise) 0,8 hinauskommt, wird er automatisch niedriger gewichtet als andere Faktoren, die ihren vollen Wertebereich ausnutzen oder vielleicht nur hohe Werte aufweisen. 3.4.2.1.3 Vermeiden von ungültigen Zuständen Oft hat man auch den Fall, dass Kriterien zwar in einem vorgegebenem Wertebereich skalierbar sind, dass es jedoch Werte gibt, mit denen die Lösung ungültig wird. In un serem Essensbeispiel könnte die Güte des Essens an Werktagen eine untergeordnete Rolle für unsere Essenswahl spielen, obwohl es vielleicht ein Mindestmaß an Qua
3.4 Modellierung von Problemräumen |
95
lität gibt, das wir keinesfalls unterschreiten möchten. In gewichteten Summen kann jedoch immer eine schlechte Bewertung eines Faktors durch eine besonders gute Be wertung anderer Faktoren kompensiert werden (deswegen werden gewichtete Sum men und andere Verfahren mit dieser Eigenschaft auch als kompensatorische Metho den bezeichnet). 3.4.2.2 Alternativen zu gewichteten Summen In der KI findet man kaum Alternativen zur gewichteten Summe. In anderen Fachge bieten gibt es jedoch interessante Alternativen. 3.4.2.2.1 Sozialwahltheorie Die computerunterstützte Sozialwahltheorie (engl. computational social choice the ory) [4] untersucht mathematisch fundierte Methoden zur Aggregation von Einzelmei nungen, wie dies beispielsweise bei politischen Wahlen notwendig ist. Jede Wählerin und jeder Wähler gibt nach einem bestimmten Muster eine Meinung ab. Üblicherwei se wird die Meinungsabgabe dabei als geordnete Liste von Alternativen modelliert, die die Rangfolge der Präferenz angibt. Die Frage ist dann, wie man aus den Einzel meinungen eine gemeinsame Rangfolge errechnet. Wenn man nun jedes Kriterium in der multikriteriellen Optimierung als Wähler betrachtet, hat man genau die gleiche Aufgabenstellung. Beispiel 3.4.4. Die App zur Wahl des Mittagessens zieht vielleicht drei Restaurants A, B und C näher in Betracht und unterstellt dabei für jedes der drei Kriterien Preis, Güte und Zeit eine eigene Rangfolge der drei Restaurants: Preis: Güte: Zeit:
A, C, B C, B, A C, A, B
Wäre der Preis allein entscheidend, würde die App damit Restaurant A wählen, wenn dieses gerade geschlossen hat, Restaurant C, und als letzte Alternative Restaurant B. Das Problem ist hier also, aus den gegebenen Rangfolgen eine gemeinsame zu erstel len, mit der alle Abstimmenden möglichst zufrieden sind. Dies kann beispielsweise durch die Condorcet-Methode passieren, in der die Alternativen paarweise verglichen werden. Beispiel 3.4.5. In unserem Beispiel wird Restaurant A zweimal vor B sortiert, aber B nur einmal vor A. Deshalb sollte in der Gesamtrangfolge A vor B liegen. Ebenso wird C zweimal vor A sortiert, aber A nur einmal vor C. Folglich sollte im Ergebnis C besser sein als A. Die Gesamtrangfolge wäre also C, A, B.
96 | 3 Suche
Diese Methode liefert nicht immer eindeutige Ergebnisse, aber es gibt verschiedene Verfahren, die nach diesem Prinzip beliebige Abstimmungsergebnisse in eine Rang folge kombinieren können. 3.4.2.2.2 Menschliche Entscheidungsheuristiken In der Psychologie und den Wirtschaftswissenschaften wird seit Jahren experimen tell untersucht, wie Menschen mithilfe vereinfachender Heuristiken Entscheidungen treffen³ [9; 26; 28]. Menschen nutzen für ihre Entscheidungen u. a. Eliminationsregeln. Dabei werden Attribute nach Wichtigkeit sortiert (im Gegensatz zu gewichteten Summen ist dies eine bloße Reihung ohne Zahlenwerte). Zunächst werden die Alternativen nach dem wich tigsten Attribut bewertet, beispielsweise dem Preis. Wenn eine Lösung unter eine be stimmte Schwelle fällt, wird sie im Weiteren nicht mehr betrachtet. Dann werden die restlichen Alternativen anhand des nächstwichtigsten Attributs betrachtet und ent sprechend aussortiert, solange bis nur noch eine Alternative übrig ist. Eliminations regeln sind ein Beispiel für nicht kompensatorische Methoden. Egal, wie gut eine Alter native in anderen Bereichen sein mag, wenn sie vom ersten (und damit wichtigsten) Bewertungskriterium ausgeschlossen wurde, wird sie nicht weiter betrachtet. Die Erkennungsheuristik (engl. recognition heuristic) kommt sogar ohne explizite Attribute aus. Die reine Wiedererkennung einer Alternative genügt in manchen Fällen für eine Entscheidung [13]. Will man diese Heuristik für KI-Suche nutzen, so braucht man allerdings ein gut organisiertes Gedächtnismodell (Kapitel 7). Psychologie und Wirtschaftswissenschaften haben ganze Listen von Heuristiken identifiziert, die bei Menschen in bestimmten Situationen beobachtet wurden [10; 28]. Diese Resultate fanden in der KI bisher aber kaum einen methodischen Niederschlag. Das gilt auch für die philosophischen Konsequenzen dieser Forschung zu menschli chen Heuristiken. Die gängigen KI-Suchverfahren unterstellen, dass es zu einer Auf gabe eine Menge von Lösungen bzw. beste Lösungen gibt und dass die Bewertung der (besten) Lösung alle relevanten Gesichtspunkte der Problemstellung berücksichtigt. In vielen potenziellen Anwendungsfällen ist diese Annahme jedoch ungerechtfertigt: Einerseits sind Aufgaben selten fest, sie verändern sich oft so schnell, dass die beste Lösung gar nicht definiert ist [19]. Andererseits hat man festgestellt, dass Entscheidun gen besser sein können, wenn weniger Daten berücksichtigt werden [14]. Einfache Re geln liefern dann bessere Entscheidungen als ausgeklügelte Optimierungsverfahren.
3 Diese Heuristiken sind nicht zu verwechseln mit der heuristischen Schätzfunktion von Suchalgo rithmen. Auch wenn die Grundidee der „Anwendung von Daumenregeln“ ähnlich ist, so sind die Strategien, die bei Menschen untersucht wurden, eher als allgemeine, problemunabhängige Verein fachungsstrategien zu verstehen, während heuristische Schätzfunktionen eine problemspezifische Funktion zur Kostenabschätzung darstellen.
3.4 Modellierung von Problemräumen
| 97
3.4.3 Interaktion Im Zuge der zunehmenden Nutzung von Maschinellem Lernen wird das Thema „Ex plainable AI“, also erklärbare KI, aktuell viel diskutiert (Kapitel 13). Wenn ein Compu terprogramm als Entscheidungshilfe herangezogen wird oder gar autonom Entschei dungen trifft, ist es wichtig, dass Menschen diese von der Maschine getroffenen Ent scheidungen auch nachvollziehen können. Stuft beispielsweise eine Maschine eine Person in einem Kriminalfall als verdächtig ein, sollte diese Einstufung auch von ei ner menschenverstehbaren Erklärung begleitet sein, anhand der die Ermittlungsbe hörden entscheiden können, ob sie gegen diese Person ggf. rechtlich aktiv werden dürfen oder sogar müssen. Die Grundidee der Modellierung von Aufgaben in Suchräumen geht auf die Ar beit von Newell und Simon zurück, die versucht haben, menschliches Problemlösen zu verstehen [21]. Die damals untersuchten Aufgaben waren allerdings eher abstrakter Natur: Schachspielen, kryptarithmetische Puzzles und Logik. Die daraus gewonnenen Erkenntnisse spiegeln daher auch nicht unbedingt menschliches Alltagsverhalten wi der. Trotzdem kann die grundlegende Idee von Suche in Zustandsräumen durchaus als Modell menschlichen Problemlösens dienen [18]. Damit eignet sich Suche grundsätzlich als Methode, um erklärbare Entscheidun gen zu produzieren. Wenn beispielsweise eine Alternative, die einer Nutzerin sinnvoll erscheint, nicht vom Programm vorgeschlagen wurde, kann man herausfinden, ob die Alternative nicht betrachtet, ob sie betrachtet, aber nicht für gut befunden wurde oder ob sie vielleicht gar nicht im Zustandsraum modelliert ist. Um solche Erklärungen zu ermöglichen, ist beim Suchalgorithmus sicherzustellen, dass die entsprechenden In formationen mitgeführt werden. Außerdem ist die Modellierung der Zustände wich tig – ein reiner Zahlenvektor als Inhalt ist durch Menschen normalerweise schwer zu beurteilen. Noch hilfreicher als das Erklären des Ergebnisses ist eine direkte Interaktion zwi schen Suchalgorithmus und Mensch. Die Informationsfülle, die Menschen in ihren Köpfen tragen, ist auch mit enormem Aufwand nicht vollständig für eine Maschine modellier- und formalisierbar. Selbst wenn man bereit wäre, den damit verbunde nen Aufwand zu treiben, handelte man sich damit riesige Suchräume und (wie in Abschnitt 3.4.1 diskutiert) manchmal recht seltsame Ergebnisse ein. Deutlich effizien ter und stabiler ist es, das Suchproblem stattdessen für typische Fälle zu modellieren und die Spezialfälle Menschen zu überlassen. Je nach Aufgabe und Modellierung des Suchproblems können Menschen dessen Komplexität verringern, indem sie Alterna tiven manuell ausschließen. Das oben diskutierte Problem komplexer Zielfunktionen lässt sich abmildern, wenn Menschen einzelne Alternativen bewerten können (dabei sollte sich deren Anzahl natürlich in Grenzen halten). Die Interaktion zwischen Optimierung und menschlicher Kreativität wird im künstlerischen und gestalterischen Bereich bereits genutzt, beispielsweise in Archi tektur und Produktentwicklung. Unter dem Stichwort parametrisches Design explo
98 | 3 Suche
rieren Menschen unter Zuhilfenahme von Suchalgorithmen Lösungsräume zu realen Aufgaben. Anders als bei der Alltagsaufgabe, ein Mittagessen auszusuchen, verlässt man sich bei deren Ausgestaltung besser nicht auf den ersten Impuls, sondern ex ploriert bewusst Alternativen. Die Fähigkeit, viele Alternativen zu erdenken, wird bei Menschen als Maß für Kreativität angesetzt. In diesem Sinne sind Suchalgorithmen tatsächlich kreativer als Menschen, da typische Suchräume deutlich mehr (häufig auch unsinnige) Alternativen enthalten als sich Menschen dabei erdenken.⁴ Oft in Kombination mit 3-D-Visualisierungen verbindet man deshalb für die Exploration großer Zustandsräume die Möglichkeiten von Suchalgorithmen mit der Urteilsfähig keit der Menschen, um interessante und nützliche Artefakte zu schaffen. Bei dieser Interaktion zwischen Mensch und KI-Suchverfahren muss man sich na türlich von der Vorstellung lösen, dass eine Aufgabe einen wohldefinierten Zielzu stand oder eine eindeutige optimale Lösung hat. Der ideale Turnschuh wird für jeden ein wenig anders aussehen. Parametrisches Design kann helfen, dass die produzier ten Turnschuhe stabil sind und an möglichst viele Füße passen, einen Standardschuh vorgesetzt zu bekommen, wäre jedoch unbefriedigend. Mit kleinen Anpassungen kön nen aber auch Standardoptimierungsalgorithmen mehr als ein Ergebnis erzeugen: Ein evolutionärer Algorithmus kann die gesamte letzte Population zurückliefern anstatt nur das beste Individuum; ein mehrmals gestartetes Bergsteigerverfahren alle gefun denen lokalen Maxima. Die Interaktion zwischen menschlichem und maschinellem Problemlösen ist also weniger ein algorithmisches Problem als eines der Modellierung und Ausgestaltung.
Literaturverzeichnis [1] [2] [3] [4] [5] [6] [7]
Aarts, E. und Korst, J. Simulated Annealing and Boltzmann Machines: A Stochastic Approach to Combinatorial Optimization and Neural Computing. Wiley, New York, 1989. Beckstein, C. Begründungsverwaltung: Grundlagen, Systeme und Algorithmen. Teubner-Texte zur Informatik. Teubner-Verlag, Leipzig, 1996. Berlekamp, E. R., Conway, J. H. und Guy, R. K. Gewinnen: Strategien für mathematische Spiele, Band 1–4. Vieweg, Braunschweig, 1985 und 1986. Brandt, F., Conitzer, V., Endriss, U., Lang, J. und Procaccia, A. D. (Hrsg.). Handbook of Computa tional Social Choice. Cambridge University Press, 2016. Edelkamp, S. und Schrödl, S. Heuristic Search: Theory and Applications. Morgan Kaufmann, MA, 2012. Ehrgott, M. Multicriteria Optimization. Springer-Verlag Berlin Heidelberg, 2. Aufl., 2005. Gaschnig, J. Performance Measurement and Analysis of Certain Search Algorithms. Technical Report CMU-CS-79-124, Carnegie-Mellon University, 1979.
4 Andererseits zeichnen sich kreative Menschen auch dadurch aus, dass sie in der Lage sind, Problem stellungen clever umzuformulieren und zu hinterfragen. In dieser Hinsicht sind Suchalgorithmen mit fest definierten Zustandsräumen also deutlich unkreativer.
Literaturverzeichnis
[8]
[9] [10] [11] [12] [13] [14]
[15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28]
| 99
Geman, S. und Geman, D. Stochastic relaxation, Gibbs distributions, and the Bayesian res toration of images. IEEE Transactions on Pattern Analysis and Machine Intelligence PAMI-6, S. 721–741, 1984. Gigerenzer, G. The Adaptive Toolbox. In Gigerenzer, G. und Selten, R. (Hrsg.), Bounded ratio nality: The adaptive toolbox. MIT Press, Cambridge, MA, 2001. Gigerenzer, G. und Brighton, H. Homo Heuristicus: Why Biased Minds Make Better Inferences. Topics in Cognitive Science, 1:107–143, 2009. Ginsberg, M. L. Essentials of Artificial Intelligence. Morgan Kaufmann, 1993. Ginsberg, M. L. und Harvey, W. D. Iterative Broadening. In Proc. of the Eighth National Confer ence on Artificial Intelligence, S. 216–220, 1990. Goldstein, D. G. und Gigerenzer, G. Models of ecological rationality: The recognition heuristic. Psychological Review, 109(1):75–90, 2002. Haksöz, Ç., Katsikopoulos, K. und Gigerenzer, G. Less can be more: How to make operations more flexible and robust with fewer resources. Chaos: An Interdisciplinary Journal of Nonlinear Science, 6(28), 2018. Hart, P., Nilsson, N. und Raphael, B. A Formal Basis for the Heuristic Determination of Minimum Cost Paths. IEEE Transactions on SCC, 4, 1968. Hayes-Roth, B. und Hayes-Roth, F. A Cognitive Model of Planning. Cognitive Science, 3(4):275–310, 1979. Kirkpatrick, S., Gelatt, D. und Vercchi, M. P. Optimization by Simulated Annealing. Science, 220:671–680, 1983. Kirsch, A. A Unifying Computational Model of Decision Making. Cognitive Processing, 20(2):243–259, 2019. Klein, G. The Fiction of Optimization. In Gigerenzer, G. und Selten, R. (Hrsg.), Bounded ratio nality: The adaptive toolbox, S. 103–122. MIT Press, Cambridge, MA, 2002. McCarthy, J. Circumscription — a Form of Non-monotonic Reasoning. Artificial Intelligence, 13:27–39, 1980. Newell, A. und Simon, H. Human Problem Solving. Prentice Hall, Upper Saddle River, New Jer sey, 1972. Nilsson, N. J. Principles of Artificial Intelligence. Springer-Verlag, 2014. Pearl, J. Heuristics: Intelligent Search Strategies for Computer Problem Solving. Addison-Wes ley, Reading, MA, 1984. Polya, G. How to Solve it: A New Aspect of Mathematical Method. Princeton University Press, New Jersey, 2. Aufl., 2014. Russell, S. und Norvig, P. Artificial Intelligence, A Modern Approach. Prentice Hall Series in Artificial Intelligence, 3. Aufl., 2016. Shah, A. K. und Oppenheimer, D. M. Heuristics made easy: An effort-reduction framework. Psychological Bulletin, 134(2):207–222, 2008. Stallman, R. und Sussman, G. Forward Reasoning and Dependency Directed Backtracking in a System for Computer-aided Circuit Analysis. Artificial Intelligence, 9:135–196, 1977. Svenson, O. Process Descriptions of Decision Making. Organizational Behavior and Humand Performance, 23:86–112, 1979.
4 Wissen über Raum und Zeit Diedrich Wolter und Özgür L. Özçep Alltägliches Wissen beinhaltet in den meisten Fällen auch räumliche oder zeitliche Aspekte. Die Fähigkeit, Information über Raum und Zeit aufzunehmen, zu verarbei ten und zu kommunizieren, ist ein wesentlicher Bestandteil komplexen menschlichen Verhaltens. Menschliches Problemlösen im Alltag ist durchdrungen von der Verarbei tung räumlichen und zeitlichen Wissens, wie folgende Beispiele zeigen: – Wir erkennen, wie schmutziges Geschirr in einer Spüle so umgeräumt werden kann, dass ein weiterer Becher hineinpasst – und so ein Abspülen vorerst ver mieden werden kann. – Dabei können wir das Geschirr auch ohne Kenntnis seiner konkreten physikali schen Eigenschaften zielsicher stapeln. – Wir erkennen auch, wenn ein Umräumen nicht mehr hilft, und können das Ab spülen dann in unser Tun einplanen. – Wir wissen, wenn wir auf einem geplanten Weg unerwartet abbiegen müssen, wel che Abzweigungen uns möglicherweise auf den ursprünglich geplanten Weg zu rückführen. – Wir sind in der Lage, unsere Mitmenschen nach dem Weg zu fragen und uns aus der Antwort ein Modell der Umgebung aufzubauen. Eine genauere Betrachtung der Beispiele zeigt, dass verschiedene klassische KI-Pro blemstellungen wie Konfigurations- und Planungsprobleme oder Deduktionen zur Be wältigung dieser Alltagsprobleme mit räumlicher und zeitlicher Information ange wendet werden müssen. Bemerkenswert dabei ist, dass unterschiedliche Konzeptuali sierungen der Problemstellung zum Lösen zweckdienlich sind und selbstverständlich benutzt werden. Beispielsweise kann sich anhand einer zweidimensionalen Projek tion eines dreidimensionalen Objektes die Frage nach einem freien Stellplatz beant worten lassen, während für das Planen eines stabilen Stapels eine dreidimensionale Information notwendig ist. Auch zeitliche Information lässt sich auf vielfältige Wei se konzeptualisieren (Abbildung 4.1). In der Abfolge von Instruktionen einer Wegbe schreibung können wir die einzelnen Anweisungen als atomare Entitäten gleich Punk ten auf einem linearen Zeitstrahl betrachten, in der Diagnose oder Planung hinge gen mag eine sich in die Vergangenheit oder Zukunft verzweigende Zeit adäquater die unterschiedlichen Möglichkeiten repräsentieren. Abhängig von einer durchgeführten Aktion in einem Plan ergeben sich verschiedene Abläufe, die in einem zeitlichen Be zug zueinander stehen. In Abbildung 4.1 ist als Spülen ein derartiger Verzweigungs punkt dargestellt. Müssen wir eine neue Tätigkeit in unseren Tagesablauf einplanen, so muss deren Dauer mit repräsentiert sein. Eine Abstraktion zu Zeitpunkten ist hier für wenig geeignet.
https://doi.org/10.1515/9783110659948-004
102 | 4 Wissen über Raum und Zeit
arbeiten
Zeitlinie
abgespült
Besprechung spülen? keine saubere Tasse mehr 1958: John McCarthy entwirft LISP 1843: Ada Lovlace veröffentlicht ihre Notizen
Abb. 4.1: Beispiele zeitlicher Konzeptbildungen: Ereignisse können als Zeitpunkte oder Zeitspannen repräsentiert werden; zeitliche Abfolgen können als verzweigt betrachtet werden, wenn verschie dene mögliche Verläufe betrachtet werden. Zeitpunkte auf unterschiedlichen Zweigen können unter Umständen nicht sinnvoll zeitlich geordnet werden.
Modelle zu entwickeln, die das oben skizzierte intelligente Verhalten natürlicher Agenten erklären können und es künstlichen Agenten erlauben, ebenso intelligen tes Verhalten zu zeigen, ist das Kernanliegen des Gebietes Raumkognition. Diese Ziel setzung umfasst in weiten Teilen auch die Behandlung zeitlicher Information, denn einige räumliche Strukturen lassen sich auch auf die Zeitinformation anwenden. Bei spielsweise lässt sich eine lineare zeitliche Abfolge auch als eindimensionale räumli che Anordnung darstellen.
Raumkognition und KI – eine Standortbestimmung In der Raumkognition treffen die verschiedenen Disziplinen zusammen, die Grund prinzipien des Wissens über Raum und Zeit in natürlichen und künstlichen kognitiven Systemen betrachten. Dies umfasst die Psychologie, die Philosophie, die Neurowis senschaften, die Linguistik und auch die KI: Das Verständnis natürlicher kognitiver Systeme kann als Vorbild für künstliche Systeme dienen. Eine Beachtung der mensch lichen Kognition ist vor allem unabdingbar in KI-Systemen, die Menschen unterstüt zen und mit ihnen auf komplexe Weise interagieren, z. B. durch natürliche Sprache. Dies führt dazu, dass viele Ansätze der KI zur Handhabung von Wissen über Raum und Zeit durch Erkenntnisse oder Annahmen über die menschliche Kognition moti viert sind. Intelligentes Verhalten umfasst Handeln und Problemlösen, aber ebenso Verste hen und Kommunizieren. Handlungen werden ausgeführt, um Einfluss auf die Ent wicklung des Geschehens der Welt zu nehmen: Zustände sollen herbeigeführt oder beendet werden; Prozesse an einem bestimmten Ort in Gang gesetzt, zu Ende geführt oder vorzeitig abgebrochen werden; Ereignisse sollen verursacht oder verhindert wer den. Situation – wie wir im Folgenden allgemeiner sagen wollen – herrschen zu be stimmten Zeiten an bestimmten Orten, bzw. finden in Raum und Zeit statt; sie un terliegen raumzeitlichen Bedingungen. Beachtenswert ist, dass diese raumzeitlichen
4 Wissen über Raum und Zeit |
103
Bedingungen fundamentale Aspekte räumlichen und zeitlichen Wissens umschrei ben und sowohl universell als auch aufgabenunabhängig sind: Sie charakterisieren räumliches und zeitliches Wissen. Forschung im Gebiet Raumkognition verfolgt des halb auch das Ziel, diese Bedingungen wie mathematische Wahrheiten zu entdecken und zu beschreiben. Grundsätzlich wird die Untersuchung von Repräsentation und Schlussfolge rungstechniken innerhalb der KI dem Fachgebiet Wissensrepräsentation (engl. know ledge representation) zugeschrieben. Die Schnittmenge von KI und Raumkognition könnte als ein Spezialfall des im Naive Physics Manifesto [61] propagierten Unter fangens gesehen werden, Wissen über die physikalische Umwelt umfassend derart repräsentieren zu können, dass alltäglich intelligentes Verhalten damit erklärt wer den kann. Die einleitenden Beobachtungen zeigen aber auch, dass die Verarbeitung von Wissen über Raum und Zeit eine fundamentale und allgegenwärtige mensch liche Fähigkeit ist, deren Betrachtung innerhalb der KI dem Gebiet Commonsense Reasoning zugeordnet werden kann. Forschung im Bereich Wissen über Raum und Zeit geht jedoch über diese Zielsetzung hinaus [58], insbesondere durch die Unter suchung menschlicher Vorstellungen und der Betrachtung von Kommunikation und Wahrnehmung. Die Zielsetzung, menschliche Fähigkeiten verstehen und nachbil den zu können, stellt zusätzlich einen engen Bezug zur Kognitionswissenschaft und zu den beitragenden Disziplinen wie Psychologie und Linguistik dar. Diese Vernet zung macht Raumkognition zu einem interdisziplinären Themengebiet unter Betei ligung der KI, das originäre Forschungsfragen für verschiedene Disziplinen bereit hält [48]. Die besonderen Fragestellungen der Repräsentation von Wissen über Raum und Zeit innerhalb der KI wollen wir etwas näher beleuchten. Die einleitenden Beobach tungen illustrieren, dass menschliche Fähigkeiten nicht auf die Kenntnis präziser quantitativer Information angewiesen sind. Dies begründet ein besonderes Interesse der Raumkognition, qualitative Repräsentationen zu entwickeln, die relevante Eigen schaften in diskreten Klassen repräsentieren und als Basis für – typischerweise sym bolische – Problemlöseprozesse dienen. Dieses Arbeitsgebiet wird (im Englischen) auch als Qualitative Spatial (and Temporal) Reasoning bezeichnet und ist eng mit dem Gebiet Qualitative Reasoning [134] verbunden. Im Gegensatz zu Ansätzen, die einen Mangel an präziser quantitativer Information durch Wahrscheinlichkeitsver teilungen über mögliche Werte darstellen, abstrahieren qualitative Repräsentationen gänzlich von Werten. Relevante Beziehungen werden explizit repräsentiert, z. B., ob eine freie Fläche in einer Spüle größer oder kleiner als der Grundriss eines Bechers ist: kleiner(FBecher , Ffrei ) bzw. größer(FBecher , Ffrei ). Die Exploration nützlicher Relationen (größer, kleiner, neben, hinter, vor, . . . ), ihrer Axiomatisierung und Untersuchung in Bezug auf Berechnungseigenschaften ist eine wichtige Aufgabe der KI innerhalb der Raumkognition. Schon früh wurde vermutet, dass es sich um keine kleine Menge nützlicher Relationen handeln kann, sondern dass die Menge an relevanten Relatio nen aufgabenspezifisch und unerschöpflich ist (Poverty Conjecture) [45]. Die Fülle an
104 | 4 Wissen über Raum und Zeit
Arbeiten und Ansätzen in der Raumkognition mag als Beleg der Behauptung gewertet werden.
Eine kurze Geschichte des zeitlichen und räumlichen Wissens Anders als der Vorlagengeber dieser Überschrift¹ werden wir keine zwölf Kapitel aus breiten, sondern in lediglich zwölf Sätzen die relevante Entwicklung bis zum heuti gen Punkt zusammenfassen. Fundamentale Untersuchungen fanden bereits vor der Geburt der KI statt. Das 1983 von James Allen beschriebene Intervallkalkül [3] (oft Allen-Kalkül ge nannt) lieferte einen wesentlichen Impuls und motivierte zahlreiche Ansätze, zeitli che und räumliche Beziehungen in einem einfachen algebraischen Rahmenwerk zu repräsentieren. Ähnlich tiefgreifende Aufmerksamkeit konnte seitdem nur die 1992 beschriebene topologische Theorie des Region Connection Calculus erreichen, die Ar beiten des Mathematikers Whitehead aus den 1920er-Jahren [132] wurden auf nützli che Weise operationalisiert. Ebenfalls in den 1980er-Jahren erwuchs das Gebiet des qualitativen Schlussfolgerns (engl. qualitative reasoning) [134], in dem räumliche Re präsentation eine wichtige Rolle spielt. In Deutschland untersuchte seit 1986 das durch IBM geförderte Verbundprojekt LILOG (LInguistic and LOGic methods and tools) [63] u. a. Methoden zur Repräsenta tion und Verarbeitung räumlichen und zeitlichen Wissens [57]. Heutzutage existiert ein großer Fundus an räumlichen und zeitlichen Repräsentationen ([38] für eine um fassende Übersicht), deren berechnungstheoretische Eigenschaften umfassend, aber nicht erschöpfend analysiert worden sind. Auch existieren Werkzeuge wie SparQ [123; 139] oder GQR [131], die Standardalgorithmen und Werkzeuge zur einfachen Verwen dung bereithalten. Neben etlichen offenen Detailfragen verbleiben auf der Landkar te räumlicher und zeitlicher Repräsentationen weiße Flecken in den Grenzgebieten einzelner Techniken, etwa der Verbindung algebraisch-relationaler und logikbasier ter Ansätze, quantitativer und qualitativer Beschreibungen oder der Verbindung zeit licher und räumlicher Repräsentation. Dies wurde bereits 2007 treffend von Kontcha kov et al. [66] durch die Artikelüberschrift „Spatial Logic + Temporal Logic = ?“ be schrieben. Auch ist es trotz einer Vielzahl erfolgreicher Anwendungen räumlicher und zeitlicher Repräsentationstechniken noch nicht gelungen, unser alltägliches Wissen über physikalische Prozesse im Sinne des Naive Physics Manifesto [61] zu formalisieren und zu operationalisieren, um intelligentes Verhalten in der Umwelt zu synthetisie ren. Auch im Bereich des Sprachverstehens bleiben Computerprogrammen viele für Menschen triviale Folgerungen verborgen, wie die Betrachtung des Winograd-Sche mas zeigt [77] (Abbildung 4.2).
1 Stephen Hawking (1991). Eine kurze Geschichte der Zeit, Rowohlt, Reinbek bei Hamburg.
4 Wissen über Raum und Zeit
The suitcase doesn’t fit in the green car because it’s too big [small]. What is too big? (a) The suitcase. (b) The car.
nn Gü
| 105
e
Abb. 4.2: Schlussfolgern über räumliche Beziehungen ist notwendig zum Textverstehen, wie das ausgewählte Winograd-Schema illustriert. Ein Schema ist im Englischen so konstruiert, dass keine syntaktischen oder statistischen Merkmale Indizien bieten. Durch Austausch des in eckigen Klam mern stehenden Wortes kehrt sich die korrekte Antwort um.
Die Verarbeitung räumlichen und zeitlichen Wissens stellt somit einen Anker punkt im noch unerreichbaren Verstehen alltäglichen Wissens dar und lädt zu wei teren Studien ein.
Themen dieses Kapitels Fragestellungen der Raumkognition mit primärem Bezug zur KI lassen sich in zwei wesentliche Gruppen von Fragen einteilen: 1. Ist Wissen über Raum und Zeit ein spezieller Typ von Wissen? Wie kann Wissen über Raum und Zeit repräsentiert werden? Welche speziellen Schlussfolgerungs verfahren existieren für diese Bereiche? 2. Wie wird die Verankerung zwischen Situationen und Objekten in Raum und Zeit realisiert? Wie kann Schlussfolgern über Situationen, etwa zur Analyse von Kau salbeziehungen, mit anderen Mechanismen zur Schlussfolgerung integriert wer den? Wie integrieren sich Wissensrepräsentation und Schlussfolgerungstechni ken mit Wahrnehmung und Interaktion? Im vorliegenden Kapitel werden primär die originären Ansätze der Wissensrepräsen tation räumlichen und zeitlichen Wissens und die Zusammenhänge ihrer Teilaspekte dargestellt. Ziel der Untersuchung von Zusammenhängen ist, das Wissen über die On tologie und die Struktur von Raum und Zeit, wie es Teil unseres Alltagswissens ist, zu repräsentieren, d. h. in einer formalen Beschreibung zu explizieren. Die Repräsenta tion von Situationen und der Verankerungsbeziehung – entsprechend Fragestellung 2 – sowie die Repräsentation von Objekten wird nur insoweit berücksichtigt, wie es für die Motivation der raumzeitlichen Strukturen und Entitäten notwendig ist. Bevor wir auf konkrete Ansätze zur Repräsentation der Domänen Raum und Zeit näher eingehen, sollen noch zwei methodische Vorbemerkungen erfolgen: Ausgangs punkt vieler Beispiele ist die Analyse von Sätzen natürlicher Sprache. Dieses Vorgehen ist darin begründet, dass das räumliche und zeitliche Inventar natürlicher Sprache als Anhaltspunkt für die Erforschung der Kognition von Raum und Zeit verwendet werden kann. Es wird nämlich angenommen, dass Sprache und kognitive Konzepte einander
106 | 4 Wissen über Raum und Zeit
bedingen [29; 113; 133]. Unsere beispielhaften Analysen natürlichsprachlicher Sätze erheben jedoch in keiner Weise den Anspruch, linguistische Theorien über räumliche bzw. zeitliche Sprache darzustellen. Wissen über Raum und Zeit ist in vielen Bereichen der Informatik und anderen Wissenschaften von Bedeutung. Obwohl Methoden wie physikalische Simulation und Datenstrukturen der Computergrafik zur Darstellung von Körpern zweifelsohne hilfreich sind, um mit räumlichen und zeitlichen Wissen umzugehen, so werden derartige Techniken in diesem Kapitel ausgeblendet. Dieses Kapitel betrachtet Raum und Zeit aus der Perspektive der Wissensrepräsentation und setzt in Teilen Vorkenntnisse der Logik voraus. Da für eine Verwendung in Systemen der KI Wissen in einem eindeutigen und ma schinell verarbeitbaren Format repräsentiert werden muss, ist das Ziel des vorliegen den Kapitels, explizite Repräsentationen von Alltagswissen über Raum und Zeit im Rahmen mathematischer, formaler Theorien vorzustellen und ihre algorithmischen Eigenschaften zu beleuchten.
4.1 Prinzipielle Ansätze der Repräsentation und des Schlussfolgerns für Wissen über Raum, Zeit und Situationen Ziel dieses Abschnitts ist, die grundlegenden Repräsentationstechniken auf Basis all gemeiner Prädikatenlogik und speziell gestalteter Logiken sowie qualitativer relatio naler Modellierung durch Beschränkungen (engl. constraints) und dem darauf basie renden constraint-basierten Schließen einzuführen. Als Anschauungsobjekte sollen für diesen Zweck die folgenden wichtigen Repräsentationen – eine zeitliche und eine räumliche – dienen. Wir gehen später auf diese noch genauer ein. Seitens einer Repräsentation zeitlichen Wissens soll das Allen-Kalkül [3] als Bei spiel dienen, welches die relative Beziehung von zwei zeitlich ausgedehnten Ereig nissen durch die Anordnung von geschlossenen Intervallen auf der Zeitlinie, einem reellwertigen Zahlenstrahl, beschreibt. Die Lage der Intervalle wird dabei durch den Vergleich der Start- und Endpunkte anhand der mathematischen Prädikate be schrieben (Abbildung 4.3). Zwischen dem in der Abbildung schwarz dargestellten und dem schraffierten Intervall gilt beispielsweise die Relation „vor“, wenn der Endpunkt des schwarzen Intervalls vor dem Startpunkt des schraffierten Intervalls liegt. Diese Relation ist gerichtet, denn bei vertauschter Perspektive – die Lage des schraffierten Intervalls in Bezug auf das schwarze Intervall – gilt die Relation „nach“. Insgesamt führt dies zu einem Repertoire von 13 unterschiedlichen Relationen, welche in Abbil dung 4.3 dargestellt sind. Im Allen-Kalkül wird beispielsweise von der Länge der Inter valle bewusst abstrahiert, es kann also nicht unterschieden werden, ob ein kürzeres Intervall auf ein längeres folgt oder umgekehrt. Seitens der Repräsentation räumlichen Wissens betrachten wir die RCC-Fami lie [109] (engl. region connection calculus, RCC), die Regionen alleinig durch eine topologische Verbundenheitsrelation beschreibt. Ein populärer Repräsentant dieser
4.1 Prinzipielle Ansätze der Repräsentation und des Schlussfolgerns
R(
)
,
R(
,
|
107
)
(gleich)
gleich
startet
beginnt mit
während
umfasst
beendet
endet mit
überlappt von
überlappt
getroffen von
trifft vor
nach
Zeitlinie Abb. 4.3: Die 13 im Allen-Kalkül unterschiedenen Konfigurationen von Intervallen: die symmetrische Relation „gleich“ plus 2 × 6 gerichtete Relationen. Von der Dauer der Intervalle wird abstrahiert, Relationen werden ausschließlich anhand der Abfolge der Intervallgrenzen entlang der Zeitlinie bestimmt.
)
R(
, = ,
)
DC
EC
PO
EQ
R(
,
)
TPP
TPPi
NTPP
NTPPi
R(
Abb. 4.4: Die acht topologisch unterscheidbaren Konfigurationen von Regionen in RCC-8: discrete (DC), externally connected (EC), partially overlapping (PO), equal (EQ), tangential proper part (TPP), TPP inverse (TPPi), nontangential proper part (NTPP), NTTP inverse (NTPPi). Von sowohl Form der Regionen als auch Dimension des Raumes wird abstrahiert, lediglich anhand des Kontakts von Inne rem, Rand und Komplement einer Region bestimmt sich die Relation.
Familie, RCC-8, ist in Abbildung 4.4 illustriert. Anhand der Unterscheidung, ob jeweils das Innere und/oder der Rand einer Region mit dem Inneren und/oder dem Rand ei ner zweiten Region verbunden sind, lassen sich acht Konstellationen unterscheiden (daher der Name RCC-8). Werden hingegen Regionen als offen angenommen, wie etwa eine offene Kreisscheibe {(x, y)|x2 + y2 < 1}, dann existieren keine Relatio nen, die aus dem Kontakt mit dem Rand einer Region hervorgehen. Es sind dann nur die fünf in Abbildung 4.5 dargestellten Relationen möglich, man bezeichnet dieses Relationensystem als RCC-5.
108 | 4 Wissen über Raum und Zeit
)
R(
, = ,
)
DR
PO
R(
,
)
PP
PPi
R(
EQ
Abb. 4.5: Die fünf topologisch unterscheidbaren Konfigurationen von Regionen in RCC-5: discrete (DR), partially overlapping (PO), equal (EQ), proper part (PP), PP inverse (PPi). In RCC-5 werden Re gionen als offen angenommen. Die in Abbildung 4.4 dargestellten Relationen aus RCC-8, die durch Kontakt eines Randes charakterisiert werden, existieren deshalb nicht in RCC-5
4.1.1 Axiomatisierung in klassischer Logik Logiken spielen eine zentrale Rolle in der Wissensrepräsentation und so existieren auch zahlreiche Ansätze, die räumliche und zeitliche Beziehungen axiomatisieren, al so diese durch Axiome in einer Logik darstellen. Axiomatisierungen in Prädikatenlogik sind hilfreich, um die betrachteten Aspek te und zugrunde liegenden Strukturen räumlichen oder zeitlichen Wissens zu erfas sen. Allerdings erfordert die Beschreibung von geometrischen Eigenschaften ein oft umfangreiches Axiomensystem [64]. In der praktischen Anwendung spielen Axioma tisierungen in der Prädikatenlogik kaum eine Rolle, da generelle Inferenzverfahren ineffizient sind und Erfüllbarkeit in der Prädikatenlogik sogar unentscheidbar ist. Auf räumliches oder zeitliches Wissen spezialisierte Inferenzverfahren sind hingegen oft effizient durchführbar. Axiomatisierungen helfen jedoch, derartige spezialisierte In ferenzverfahren zu entdecken. Als motivierendes Beispiel für eine Axiomatisierung lässt sich das RCC anführen (Abbildung 4.4). Das RCC wurde zunächst als prädikaten logische Theorie eingeführt [108]. Die Theorie des RCC fußt auf der grundlegenden Be schreibung der Verbindung (engl. connection) zweier Regionen, charakterisiert durch ein zweistelliges Prädikat C: ∀x.C(x, x)
(4.1)
∀x, y. (C(x, y) → C(y, x))
(4.2)
Auf Basis dieser elementaren Charakterisierung einer Verbindung als symmetrische (4.1) und reflexive (4.2) Relation zwischen Regionen lassen sich die in Abbildung 4.4 dargestellten Relationen (sowie einige Hilfsrelationen) wie in Tabelle 4.1 beschreiben. So wird beispielsweise die Relation DC (engl. disconnected) als das Nichtvorhanden sein einer Kontaktbeziehung definiert, die Hilfsrelation P (engl. part of ) durch eine Im plikation von Kontaktbeziehungen: Eine Region x ist genau dann Teil einer Region y, wenn jede Region z, die in Kontakt mit x steht, immer auch in Kontakt mit y steht. Aus
4.1 Prinzipielle Ansätze der Repräsentation und des Schlussfolgerns
| 109
Tab. 4.1: Axiomatisierung der Relationen des Region Connection Calculus (Abbildung 4.4)
∀x, y.[DC(x, y)
↔ ¬C(x, y)]
∀x, y.[P(x, y)
↔ ∀z. (C(z, x) → C(z, y))]
∀x, y.[PP(x, y)
↔ P(x, y) ∧ ¬P(y, x)]
∀x, y.[EQ(x, y)
↔ P(x, y) ∧ P(y, x)]
∀x, y.[O(x, y)
↔ ∃z.(P(z, x) ∧ P(z, y))]
∀x, y.[PO(x, y)
↔ ∃O(x, y) ∧ ¬P(x, y) ∧ ¬P(y, x)]
∀x, y.[DR(x, y)
↔ ¬O(x, y)]
∀x, y.[TPP(x, y)
↔ PP(x, y) ∧ ∃z.(EC(z, x) ∧ EC(z, y))]
∀x, y.[TPPi(x, y)
↔ TPP(y, x)]
∀x, y.[EC(x, y)
↔ C(x, y) ∧ ¬O(x, y)]
∀x, y.[NTPP(x, y) ↔ PP(x, y) ∧ ¬∃z.(EC(z, x) ∧ EC(z, y))] ∀x, y.[NTPPi(x, y) ↔ NTPP(y, x)]
diesen Axiomen konnten dann Operationen automatisch abgeleitet werden, die die in Abschnitt 4.1.4 beschriebenen effizienten Inferenzverfahren ermöglichen [107]. Zahlreiche weitere Untersuchungen schlossen sich an die dargestellte Axioma tisierung topologischer Relationen an. So wurden beispielsweise die algebraischen Eigenschaften der Verbindungsrelation zweier Regionen beschrieben [118], auf deren Basis Modelle für RCC gefunden werden konnten, die eine effiziente Manipulation er lauben [136], etwa für Anwendungen in der Handlungsplanung oder der Diagnose. Die Inferenzeigenschaften von RCC für verschiedene Modelle sind detailliert in [68] beschrieben.
4.1.2 Temporale Logiken Allgemeine, nicht auf die betrachtete Domäne spezialisierte Logiken erfordern eine Axiomatisierung der Domäne. Dies kann schwierig sein und auch eine ausdruckskräf tige Logik erfordern, die keine effizienten Inferenzeigenschaften erkennen lässt. Bei de Aspekte motivieren die Untersuchung speziell einer Domäne angepasster Logiken. Das Ziel dabei sind anwendungsorientierte Logiksysteme, die als formaler Rahmen für die Wissensrepräsentation und -verarbeitung dienen. Das Gebiet der Temporallogiken, oft als Teilgebiet der Modallogiken dargestellt, ist dabei auch außerhalb der KI von besonderem Interesse. Temporallogiken werden beispielsweise in der Softwaretechnik zur Spezifikation von Protokollen und Verhal ten von Softwarekomponenten eingesetzt. Wir können an dieser Stelle keine Einfüh rung in das Gebiet der Modallogiken bieten und beschränken uns auf die Beschrei
110 | 4 Wissen über Raum und Zeit
bung der Temporallogik als Erweiterung der Aussagenlogik. Vertiefende Informatio nen können in [22] nachgelesen werden. Syntaktisch erweitern Temporallogiken die Aussagenlogik um sog. Modalopera toren, die Beziehungen zu anderen Zeitpunkten herbeiführen. Temporallogiken ba sieren klassisch auf einem Modell von diskreten Zeitpunkten; die Halpern-ShohramLogik [59] stellt eine intervallbasierte Temporallogik dar. Bei Betrachtung diskreter Zeitpunkte werden Modaloperatoren definiert, die auf den nächsten Zeitpunkt ver weisen, auf einen beliebig späteren und auf alle späteren Zeitpunkte. Die Semantik der Modaloperatoren wird auf einer sog. Menge von Welten (engl. set of worlds) definiert. Jeder Zeitpunkt wird als unabhängige Welt innerhalb der zeitli chen Struktur aufgefasst. Im Falle der linearen temporalen Logik (LTL) ist diese Struk tur die lineare Abfolge der Zeitpunkte. Für jeden Zeitpunkt – in jeder Welt – wird eine aussagenlogische Formel wie gewöhnlich durch eine Interpretationsfunktion auf ei nen Wahrheitswert {wahr, falsch} abgebildet. Ein Modell einer Formel in LTL besteht also als Folge I n , n = 0, 1, . . . von Interpretationsfunktionen. Der Modaloperator er zeugt einen Wechsel des betrachteten Zeitpunktes durch einen Wechsel der Interpre tationsfunktion. Folgende vier Modaloperatoren sind üblich, weitere können daraus abgeleitet werden:² X (next) bezieht eine Aussage über den nachfolgenden Zeitpunkt; ⬦ (eventually) bezieht eine Aussage auf einen späteren Zeitpunkt; (always) bezieht eine Aussage auf alle folgenden Zeitpunkte; U (until) betrachtet die zeitliche Abfolge der Gültigkeit zweier Aussagen.
Tab. 4.2: Mögliche Modaloperatoren und ihre Semantik in linearer temporaler Logik φ
I n X φ
I n+1 (φ) = wahr
n
I n ⬦ φ
∃m ≥ n.I m (φ) = wahr
n
I n
∀m ≥ n.I m (φ) = wahr
φ
φ
∃m.(m ≥ n ∧ I (ψ) = wahr)
φ
φ
φ
ψ
n
m
I n φ U ψ
φ m
n
∧ ∀n .(n ≤ n < m → I (φ) = wahr)
n
m
In Tabelle 4.2 sind die Modaloperatoren sowie ihre Semantik dargestellt. Damit lassen sich eine Vielfalt von Aussagen mit temporalem Charakter modellieren:
2 Aufmerksamen mag auffallen, dass nicht alle vier Operatoren notwendig sind, denn äquivalent durch ¬ ⬦ ¬φ ersetzen.
φ lässt sich
4.1 Prinzipielle Ansätze der Repräsentation und des Schlussfolgerns
– – –
| 111
Der Regen wird aufhören: ⬦¬r. Fortwährend wechseln sich Ein- und Ausatmen ab: (¬(e ∧ a) ∧ ((e ∧ Xa) ∨ (a ∧ Xe))). Prolog ist eine unverständliche Programmiersprache, bis man deklarative Pro grammierung verstanden hat: ¬p U d.
4.1.3 Räumliche Logiken Analog zu den temporalen Logiken werden auch räumliche Logiken betrachtet. Marco Aiello und Kollegen [1] charakterisieren räumliche Logik dabei als jegliche Logik, die über einer räumlichen Domäne interpretiert wird. Betrachtet man den Zeitstrahl als eindimensionale räumliche Domäne, so schließt dies temporale Logiken ein. Auch andere Interpretationen ursprünglich temporaler Logiken sind möglich: Die Modal operatoren für zeitliche Nachfolge aus LTL lassen sich auch als topologische Opera toren für ‚Inneres‘ interpretieren, wodurch sich die RCC-Theorie auch als Modallogik darstellen lässt [18; 19]. Dies erlaubt beispielsweise, Inferenzverfahren der Modallogik auf Problemstellungen der RCC-Theorie anzuwenden. Dabei entsteht ein logikbasier ter und entscheidbarer Ansatz als interessante Alternative zur ausdrucksstarken, aber unentscheidbaren Prädikatenlogik oder den weniger ausdrucksstarken Ansätzen des constraint-basierten Schließens. Die Untersuchung räumlicher Logiken exploriert auch mögliche Semantiken für Junktoren und Quantoren [1]. Beispielsweise wurden die booleschen Operatoren ∧, ∨, ¬ auf Regionen im Kontext der RCC-Theorie angewendet [140]. Dabei steht ∧ für den Schnitt zweier Regionen, ∨ für deren Vereinigung und ¬ für das Komplement. Der Ausdruck PO(x, y ∧ z) beschreibt demnach, dass Region x mit dem Schnitt von Region y und z überlappt. Diese Anwendung von Operatoren erlaubt ausdrucksstarke Beschreibungen ohne zusätzliche Verwendung von Quantoren.³
4.1.4 Qualitative Modellierung und constraint-basiertes Schließen Qualitative Repräsentationen beschränken sich auf die Darstellung der essenziellen Information [134]. In der Anwendung auf Wissen über Raum und Zeit werden alleinig räumliche bzw. zeitliche Aspekte repräsentiert, der „Ballast“ einer ausdrucksstarken Logik wird vermieden. In der qualitativen Modellierung sowohl räumlichen als auch zeitlichen Wissens stehen Vergleiche im Vordergrund: Startet ein Intervall früher als das andere oder umgekehrt? Ist eine Region vollständig in einer anderen enthalten? Das Ergebnis dieser Vergleiche wird fast immer als boolescher Wahrheitswert inter 3 Das Komplement x C einer Region x, x C = ¬x lässt sich mithilfe der RCC-Theorie nur unter Verwen dung von Quantoren beschreiben: EC(x C , x) ∧ ¬∃x .(EC(x , x) ∧ PP(x C , x )).
112 | 4 Wissen über Raum und Zeit
pretiert, die betrachtete Eigenschaft kann also mathematisch als Relation modelliert werden. Aufgrund ihrer Natur, Entitäten miteinander zu vergleichen, sind Relationen in qualitativen Repräsentation meist zweistellig, selten dreistellig. Wir konzentrieren uns im Folgenden auf die Betrachtung von zweistelligen Relationssystemen, für die Behandlung höherstelliger relationaler Systeme sei auf [31; 38] verwiesen. In einer qualitativen Wissensrepräsentation gilt es, ausgewählte Relationen sym bolisch zu repräsentieren und ihre Wechselbeziehungen zu erfassen. Gegeben sei ei ne räumliche oder zeitliche Domäne D, so bildet die Menge aller Relationen auf D, R i ⊆ D × D, eine boolesche Mengenalgebra – ein mathematisches Konstrukt, wel ches unter mengentheoretischen Operationen Schnitt, Vereinigung und Komplement bildung abgeschlossen ist. Typischerweise sind betrachtete Domänen unendlich, die Anzahl der möglichen Relationen damit auch. Eine endliche und somit in Computern repräsentierbare Mengenalgebra ergibt sich auch für endliche Mengen an Relationen, wenn diese die JEPD-Eigenschaft erfüllen. Die Eigenschaft besagt, dass die Menge al ler Relationen vollständig (exhaustiv) ist und sich jedes Paar von Objekten durch ge nau eine Relation beschreiben lässt. Definition 4.1.1 JEPD. Eine Menge von Relationen R1 , . . . , R n über einer Domäne D, R i ⊂ D × D, 1 ≤ i ≤ n erfüllt die Eigenschaft JEPD (engl. jointly exhaustive and pairwise disjoint), wenn gilt: 1. R1 ∪ ⋅ ⋅ ⋅ ∪ R n = D × D (exhaustiv), 2. (R i ∩ R j ≠ 0) → i = j (paarweise disjunkt). In der qualitativen Modellierung werden ausschließlich Relationssysteme betrachtet, die der JEPD-Eigenschaft genügen.⁴ Relationssysteme, die der JEPD-Eigenschaft ge nügen, werden auch Partitionsschemata (engl. weak partition scheme) genannt [38; 82], da sie das kartesische Produkt der Domäne mit sich selbst partitionieren (Abbil dung 4.11). Die durch die Partitionsschemata erzeugte Mengenalgebra lässt sich sym bolisch repräsentieren. Definition 4.1.2. Sei R1 , . . . , R n eine Menge von zweistelligen Relationen über D, die die JEPD-Eigenschaft aufweisen. Ferner seien r1 , r2 , . . . , r n eine Menge von Symbo len. Als qualitative Relation bezeichnet man Elemente der Potenzmenge 2B , B = {r1 , . . . , r n }, die Semantik einer qualitativen Relation r ∈ 2B ist durch eine Inter pretationsfunktion I definiert: rI := ⋃ R k . r k ∈r
Beispiel 4.1.1. Die Menge der Relationen {} über den reellen Zahlen erfüllt die JEPD-Eigenschaft. Unter Verwendung der Symbole ≺, ≃, ≻ mit ≺I :=≡≠ repräsentiert. In der Literatur wird oftmals auf eine syntaktische Differenzierung von Symbolen und den Relationen, die sie repräsentieren, verzichtet. In den nachfolgenden Abschnitten werden wir deshalb auch nur von qualitativen Relationen sprechen und meinen damit sowohl die Menge an Symbolen als auch die dadurch repräsentierte Relation. Grundlegende Eigenschaften der betrachteten Domäne lassen sich durch alge braische Eigenschaften der qualitativen Relationen beschreiben, formal wird dazu ei ne relationale Algebra [88] auf Basis der Komposition von Relationen ∘ und des Konver sen −1 definiert [38; 82]. Diese werden in der Literatur als qualitative Kalküle bezeich net. Zunächst sei darauf hingewiesen, dass sich mengentheoretische Operationen ∪, ∩ sowie Komplementbildung C auf qualitativen Relationen wie üblich durchführen las sen und dies der Verknüpfung der Relationen entspricht. Beispiel 4.1.2. Sei r = {≃, ≻} und s = {≺, ≃}, so ergibt sich (r ∩ s)I ≡ {≃}I sowie gleicher maßen rI ∩ sI ≡≤ ∩ ≥≡=. Ausgehend von den üblichen mathematischen Definitionen für die Komposition und das Konverse über zweistelligen Relationen, R ∘ S := {(a, c) | ∃b.[(a, b) ∈ R ∧ (b, c) ∈ S]} , R
−1
:= {(b, a) | (a, b) ∈ R} ,
(4.3) (4.4)
werden entsprechende symbolische Operationen für qualitative Relationen über {r1 , . . . , r n } anhand deren Interpretation I definiert: s ˛ t := {r i ∈ B | 1 ≤ i ≤ n, rIi ∩ (sI ∘ tI ) ≠ 0} , ⌣
s := {r i ∈ B | 1 ≤ i ≤
n, rIi
I −1
∩ (s )
≠ 0} .
(4.5) (4.6)
Diese symbolischen Operationen sind Approximationen der mathematischen Opera tionen und weichen von diesen unter Umständen ab. Man spricht deswegen von der schwachen Komposition bzw. allgemein von schwachen Operationen. Die Abweichung ist notwendig, um sicherzustellen, dass die Algebra der qualitativen Operationen un ter den Operationen abgeschlossen ist. Dass Abgeschlossenheit nicht automatisch si chergestellt ist, zeigt ein einfaches Beispiel: Betrachte die zeitlichen Relationen auf dem Zeitstrahl, der nur aus diskreten Zeitpunkten 0, 1, 2, . . . besteht. Die Kom position < ∘ < berechnet sich anders als beim kontinuierlichen Zeitstrahl nicht als 1 | _ -> (fib (n - 1)) + (fib (n - 2)) Abb. 5.15: Implementierung der Fibonacci-Folge in OCaml
5.9 Erweiterungen | 183
licherweise auf die Paramodulation [64] und Superposition [2] zurückgegriffen. Dies hat den Vorteil, dass eine hohe Performanz erreicht werden kann. Jedoch muss dafür die Formel, welche die Eigenschaften repräsentiert, in disjunktiver Normalform vor liegen, was – wie bereits angemerkt – einen Verlust von Struktur bedeutet. Für matrixbasierte Kalküle existieren bislang keine Spezialisierungen auf das Schließen über Gleichheiten. Dennoch haben automatische Beweissysteme wie leanCoP die Möglichkeit, Gleichheiten zu behandeln [53]. Dies wird dadurch er reicht, dass die Theorie der Gleichheiten explizit zu der Wissensbasis hinzugefügt wird. Dabei werden die Axiome der Theorie – Reflexivität, Transitivität, Symmetrie und funktionale Substitutivität – als logische Formeln repräsentiert und bei der Be weissuche mitgenutzt. Eine andere Möglichkeit, Gleichheiten zu behandeln, ist die Einbindung in die Unifikation, auch E-Unifikation [76] genannt. Hierbei wird geprüft, ob zwei Terme unter Berücksichtigung von gegebenen Gleichheiten unifizierbar sind. Dieser Ansatz hat jedoch zwei Nachteile. Einerseits wird die Unifikation durch in den Gleichheiten potenziell vorhandene Variablen unentscheidbar. Andererseits gibt es nicht notwendigerweise einen allgemeinsten Unifikator. Der Verlust der Entscheidbarkeit ist hierbei besonders signifikant. Eine Lösung für dieses Problem bieten Entscheidungsprozeduren für Gleichheiten wie z. B. der Kon gruenzhüllenalgorithmus [50]. Dieser kann entscheiden, ob zwei Terme unter Berück sichtigung einer Menge von Gleichheiten ineinander überführt werden können, und ist dabei mit einer Komplexität von O(n log n ) sehr schnell. Die Entscheidbarkeit wird dadurch erreicht, dass die Gleichheiten ground, also frei von Variablen, sein müssen. Dies mag eine gravierende Einschränkung sein. In der Praxis hat sich jedoch gezeigt, dass viele Gleichheiten diese Einschränkungen erfüllen. Die Behandlung von Arithmetik ist eine weitaus komplexere Problematik, da es hierfür keine analogen Verfahren zu der Superposition oder Paramodulation gibt. Da her muss die Arithmetik sowohl bei resolutionsbasierten als auch matrixbasierten Be weisern anders behandelt werden. Hinzu kommt, dass viele arithmetische Theorien wie z. B. die Peano-Arithmetik unentscheidbar sind [33]. Daher beschränkt sich die Behandlung von Arithmetik üblicherweise auf entscheidbare Fragmente wie die Pres burger-Arithmetik [61], induktionsfreie Arithmetik oder lineare (Un-)Gleichungen mit Integerarithmetik. Entsprechend existieren spezialisierte Entscheidungsprozeduren, wie der Sup-Inf-Algorithmus [14; 74], die Arith-Prozedur [16] und der Omega-Test [63]. Diese Prozeduren lassen sich mit relativ geringem Aufwand in die Unifikation einbin den und der Kalkül um Theoriebehandlung erweitern. Dieser Ansatz wurde beispiels weise bei leanCoP-Ω [59] erfolgreich durchgeführt. Ein anderer – vor allem im resolutionsbasierten Schließen üblicher – Ansatz ist die Nutzung von sog. Theory- oder SMT-Solvern, wenn in logischen Formeln arithme tische Ausdrücke auftreten. Diese Solver bauen auf verschiedenen Verfahren auf, bei spielsweise auf einer Erweiterung des DPLL-Verfahrens um Theorien (DPLL+T) [30], und unterstützen verschiedene Theorien und Entscheidungsprozeduren, z. B. für Arrays, Arithmetik und Bit-Vektoren. Bekannte Beispiele solcher Solver sind z3 [49],
184 | 5 Automatische Inferenz
CVC4 [3] und Alt-Ergo [15]. Die meisten SMT-Solver haben jedoch den Nachteil, dass sie nur auf Formeln in Normalform arbeiten und keine Unterstützung für quantifizierte Formeln bieten.
5.10 Schlussbetrachtungen Das Ziel dieses Kapitels war, einige wichtige Methoden des automatischen Schließens vorzustellen. Dabei lag der Fokus auf dem Verdichtungsprinzip, also dem schrittwei sen Entfernen von Redundanz aus der Beweisführung zugunsten einer effizienten Ver arbeitung, die trotz hoher Performanz einen Zusammenhang zu einer für Menschen verständlichen Beweisführung erkennen lässt. Offensichtlich konnten in diesem Ka pitel nur die grundsätzlichen Ideen und Konzepte erläutert werden. Einige Themen wie Resolution, instanzbasierte Verfahren, das DPLL-Verfahren für die Aussagenlo gik, Modelchecker, SAT- und SMT-Solver sowie interaktive Beweisassistenten für um fangreiche Logiken wurden überhaupt nicht behandelt. Hierzu gibt es jedoch eine Reihe von Übersichtsartikeln in Handbüchern [4; 9; 10; 11; 12; 35; 66] und einschlä gigen Lehrbüchern [8; 13; 28; 70]. Aktuelle Entwicklungen kann man in den Konfe renzen CADE, IJCAR, ITP, LPAR, Tableaux, CAV, SAT, AITP und JELIA verfolgen oder in Zeitschriften wie z. B. dem Journal of Automated Reasoning, Journal of Symbolic Computation, Journal of Applied Logic, Annals of Pure and Applied Logic, Journal of Symbolic Logic, Journal of Logic and Computation oder auch in allgemeinen KI-Zeit schriften und Proceedings von KI-Konferenzen nachlesen.
Literaturverzeichnis [1]
ACL2 home page. http://www.cs.utexas.edu/users/moore/acl2.
[2]
Bachmair, L. und Ganzinger, H. Rewrite-based equational theorem proving with selection and simplification. Journal of Logic and Computation, 4(3):217–247, 1994.
[3]
Barrett, C., Conway, C. L., Deters, M., Hadarean, L., Jovanovi’c, D., King, T., Reynolds, A. und Tinelli, C. CVC4. In Gopalakrishnan, G. und Qadeer, S. (Hrsg.), CAV ’11, Band 6806 von LNCS, S. 171–177. Springer, 2011.
[4]
Barwise, J. Handbook of mathematical logic. North-Holland, 1977.
[5]
Beth, E. W. Semantic entailment and formal derivability. Mededelingen der Koninklijke Neder landse Akademie van Wetenschappen, 18(13):309–342, 1955.
[6]
Bibel, W. On matrices with connections. Journal of the ACM, 28:633–645, 1981.
[7]
Bibel, W. Automated Theorem Proving. Vieweg Verlag, 1987.
[8]
Bibel, W. Deduktion – Automatisierung der Logik. R. Oldenbourg, 1992.
[9]
Bibel, W. und Schmitt, P. (Hrsg.). Automated Deduction – A Basis for Applications Vol I: Founda tions – Calculi and Methods. Applied Logic Series 8. Kluwer, 1998.
[10] Bibel, W. und Schmitt, P. (Hrsg.). Automated Deduction – A Basis for Applications Vol II: Sys tems and Implementation Techniques. Applied Logic Series 9. Kluwer, 1998.
Literaturverzeichnis
| 185
[11] Bibel, W. und Schmitt, P. (Hrsg.). Automated Deduction – A Basis for Applications Vol III: Appli cations. Applied Logic Series 10. Kluwer, 1998. [12] Biere, A., Heule, M., van Maaren, H. und Walsh, T. Handbook of Satisability. IOS Press, 2009. [13] Bläsius, K. und Bürckert, H.-J. Deduktionssysteme. Oldenburg, 1987. [14] Bledsoe, W. A new method for proving certain Presburger formulas. In 4th IJCAI, S. 15–21, 1975. [15] Bobot, F., Conchon, S., Contejean, É., Iguernelala, M., Lescuyer, S. und Mebsout, A. The AltErgo automated theorem prover. http://alt-ergo.lri.fr/, 2008. [16] Chan, T. A decision procedure for checking PL/CV arithmetic inferences. In Introduction to the PL/CV2 Programming Logic, Band 135 von LNCS, S. 227–264. Springer, 1982. [17] CompCert home page. http://compcert.inria.fr/. [18] Constable, R. L. The semantics of evidence. Technical Report, TR 85-684, Cornell University. Department of Computer Science, 1985. [19] Coq home page. http://coq.inria.fr. [20] Davis, M., Logemann, G. und Loveland, D. A machine program for theorem proving. Communi cations of the ACM, 5(7):394–397, 1962. [21] Davis, M. und Putnam, H. A computing procedure for quantification theory. Journal of the ACM, 7:201–215, 1960. [22] DeepSpec home page. http://deepspec.org. [23] Dynamic window manager. https://dwm.suckless.org/patches/fibonacci/. [24] E prover home page. http://www.eprover.org. [25] EQP home page. https://www.cs.unm.edu/~mccune/eqp. [26] Escalada-Imaz, G. und Ghallab, M. A practically efficient and almost linear unification algo rithm. Artificial Intelligence, 36(3):249–263, 1988. [27] Fisher, K., Launchbury, J. und Richards, R. The HACMS program: using formal methods to elimi nate exploitable bugs. Philos Trans A Math Phys Eng Sci, 375(20150401), 2017. [28] Fitting, M. C. First Order Logic and Automated Theorem Proving. Springer, 1990. [29] Galmiche, D. Connection methods in linear logic and proof nets construction. Theoretical Com puter Science, 232(2):231–272, 2000. [30] Ganzinger, H., Hagen, G., Nieuwenhuis, R., Oliveras, A. und Tinelli, C. DPLL(t): Fast decision procedures. In Alur, R. und Peled, D. A. (Hrsg.), CAV ’04, S. 175–188. Springer, 2004. [31] Gentzen, G. Untersuchungen über das logische Schließen. Mathematische Zeitschrift, 39:176–210, 405–431, 1935. [32] Girard, J.-Y. Linear logic. Theoretical Computer Science, 50:1–102, 1987. [33] Gödel, K. Über formal unentscheidbare Sätze der Principia Mathematica und verwandter Syste me I. Monatshefte für Mathematik, 38(1):173–198, 1931. [34] Gonthier, G. Formal proof – the four-color theorem. Notices Amer. Math. Soc., 55(11):1382– 1393, 2008. [35] Harrison, J. Handbook of Practical Logic and Automated Reasoning. Cambridge University Press, 2009. [36] Hilbert, D. und Bernays, P. Grundlagen der Mathematik, Band 1. Springer, 1934. [37] HOL home page. http://www.cl.cam.ac.uk/Research/HVG/HOL. [38] Isabelle home page. http://www.cl.cam.ac.uk/Research/HVG/Isabelle. [39] Kreitz, C. und Mantel, H. A matrix characterization for Multiplicative Exponential Linear Logic. Journal of Automated Reasoning, 32(2):121–166, 2004. [40] Kreitz, C., Mantel, H., Otten, J. und Schmitt, S. Connection-based proof construction in linear logic. In McCune, W. (Hrsg.), CADE 14, Band 1249 von LNAI, S. 207–221. Springer, 1997. [41] Kreitz, C. und Otten, J. Connection-based theorem proving in classical & non-classical logics. Journal of Universal Computer Science, 5(3):88–112, 1999. [42] LeanCoP home page. http://www.leancop.de.
186 | 5 Automatische Inferenz
[43] LeanTaP home page. https://formal.iti.kit.edu/beckert/leantap. [44] Letz, R., Schumann, J., Bayerl, S. und Bibel, W. Setheo: A high-performance theorem prover. Journal of Automated Reasoning, 8:183–212, 1992. [45] Liu, X., Kreitz, C., van Renesse, R., Hickey, J., Hayden, M., Birman, K. und Constable, R. L. Buil ding reliable, high-performance communication systems from components. SOSP’99, Operat ing Systems Review, 33:80–92, 1999. [46] Mantel, H. und Otten, J. linTAP: A tableau prover for linear logic. In Murray, N. (Hrsg.), TA BLEAUX-99, Band 1617 von LNAI, S. 217–231. Springer, 1999. [47] Martelli, A. und Montanari, U. An efficient unification algorithm. ACM Transactions on Pro gramming Languages and Systems, 4:258–282, 1982. [48] McCune, W. Solution of the Robbins problem. Journal of Automated Reasoning, 19:263–276, 1997. [49] de Moura, L. und Bjørner, N. Z3: An efficient SMT solver. In TACAS 2008, Band 4963 von LNCS, S. 337–340. Springer, 2008. [50] Nelson, G. und Oppen, D. C. Fast decision procedures based on congruence closure. Journal of the ACM, 27(2):356–364, April 1980. [51] Nuprl home page. http://www.nuprl.org. [52] Otten, J. leanCoP 2.0 and ileancop 1.2: High performance lean theorem proving in classical and intuitionistic logic. In Armando, A., Baumgartner, P. und Dowek, G. (Hrsg.), IJCAR 2008, Band 5195 von LNAI, S. 283–291. Springer, 2008. [53] Otten, J. Restricting backtracking in connection calculi. AI Communications, 23(2-3):159–182, 2010. [54] Otten, J. A non-clausal connection calculus. In Brünnler, K. und Metcalfe, G. (Hrsg.), TABLEAUX 2011, Band 6793 von LNAI, S. 226–241. Springer, 2011. [55] Otten, J. MleanCoP: A connection prover for first-order modal logic. In Demri, S., Kapur, D. und Weidenbach, C. (Hrsg.), IJCAR 2014, Band 8562 von LNAI, S. 269–276. Springer, 2014. [56] Otten, J. nanoCoP: A non-clausal connection prover. In Olivetti, N. und Tiwari, A. (Hrsg.), IJCAR 2016, Band 9706 von LNAI, S. 300–312. Springer, 2016. [57] Otten, J. und Bibel, W. leanCoP: Lean connection-based theorem proving. Journal of Symbolic Computation, 36:139–161, 2003. [58] Otten, J. und Kreitz, C. T-string-unification: Unifying prefixes in non-classical proof methods. In Moscato, U. (Hrsg.), TABLEAUX-96, Band 1071 von LNAI, S. 244–260. Springer, 1996. [59] Otten, J., Trölenberg, H. und Raths, T. leanCoP-Ω 0.1. In 5th IJCAR – ATP System Competition – CASC-J5, 2010. [60] Otter home page. https://www.cs.unm.edu/~mccune/otter. [61] Presburger, M. Über die Vollständigkeit eines gewissen Systems der Arithmetik ganzer Zahlen, in welchem die Addition als einzige Operation hervortritt. In Comptes Rendus du l congrès de Mathématiciens des Pays Slaves, Warszawa, S. 92–101, 1929. [62] Prover9 home page. https://www.cs.unm.edu/~mccune/mace4. [63] Pugh, W. The Omega test: a fast and practical integer programming algorithm for dependence analysis. In Supercomputing, S. 4–13, 1991. [64] Robinson, G. und Wos, L. Paramodulation and theorem-proving in first-order theories with equality. In Meltzer, B. und Michie, D. (Hrsg.), Machine Intelligence 4, Kapitel 8, S. 135–150. Edinburgh University Press, 1969. [65] Robinson, J. A. A machine-oriented logic based on the resolution principle. Journal of the ACM, 12(1):23–41, January 1965. [66] Robinson, J. A. und Voronkov, A. Handbook of Automated Reasoning. Elsevier/MIT Press, 2001.
Literaturverzeichnis
| 187
[67] Schiper, N., Rahli, V., Renesse, R. V., Bickford, M. und Constable, R. L. ShadowDB: A replicated database on a synthesized consensus core. In Eighth Workshop on Hot Topics in System De pendability, 2012. [68] Schmitt, S. Proof Reconstruction in Classical and Non-classical Logics. PhD thesis, Technische Universität Darmstadt, 1999. [69] Schmitt, S., Lorigo, L., Kreitz, C. und Nogin, A. JProver: Integrating connection-based theorem proving into interactive proof assistants. In Gore, R., Leitsch, A. und Nipkow, T. (Hrsg.), IJCAR 2001, Band 2083 von LNAI, S. 421–426. Springer, 2001. [70] Schöning, U. Logik für Informatiker. Spektrum, 2000. [71] Schulz, S. System Description: E 1.8. In McMillan, K., Middeldorp, A. und Voronkov, A. (Hrsg.), LPAR 19, Band 8312 von LNCS. Springer, 2013. [72] seL4 home page. https://sel4.systems. [73] Setheo home page. http://www2.tcs.ifi.lmu.de/~letz/TU/setheo/. [74] Shostak, R. E. On the SUP-INF method for proving Presburger formulas. Journal of the ACM, 24(4):529–543, October 1977. [75] Smith, D., Parra, E. und Westfold, S. Synthesis of high performance transportation schedulers. Technical Report, KES.U.95.1, Kestrel Institute, 1995. [76] Snyder, W. E-Unification, S. 49–60. Birkhäuser, 1991. [77] Spass home page. http://www.spass-prover.org. [78] Vampire home page. https://vprover.github.io/. [79] Voronkov, A. Algorithms, datastructures, and other issues in efficient automated deduction. In Gore, R., Leitsch, A. und Nipkow, T. (Hrsg.), IJCAR 2001, Band 2083 von LNAI, S. 13–28. Sprin ger, 2001. [80] Wallen, L. Automated deduction in nonclassical logics. MIT Press, 1990.
6 Nichtmonotones Schließen Gerhard Brewka Das Wissen intelligenter Agenten ist häufig unvollständig und beruht auf Zusammen hängen, die zwar typischerweise, aber nicht ausnahmslos gelten. Das Auftreten von Ausnahmen macht es erforderlich, zu nichtmonotonen Schlussverfahren überzuge hen, bei denen die Konklusionen nicht mit der Menge der Prämissen wachsen müs sen. In diesem Kapitel wird zunächst die Rolle des nichtmonotonen Schließens für die Künstliche Intelligenz erörtert. Nach der Darstellung einiger einfacher Formen der Nichtmonotonie, wie sie in verschiedenen verbreiteten Systemen vorkommt, stellt Ab schnitt 6.2 einige der wichtigsten existierenden nichtmonotonen Logiken dar: Reiters Default-Logik, Moores Autoepistemische Logik und McCarthys Circumscription. Ab schnitt 6.3 beschreibt dann ausführlich einen Ansatz, der Default-Schließen auf in konsistenztolerantes Schließen zurückführt. Dabei werden bevorzugte maximal kon sistente Teilmengen der Prämissen berücksichtigt. Es wird gezeigt, wie durch eine ge eignete Definition der bevorzugten Teilmengen Prioritäten zwischen Default-Regeln auf einfache Weise ausgedrückt werden können. Abschnitt 6.4 geht auf den Zusam menhang zwischen nichtmonotonen Logiken und Logikprogrammierung ein und dis kutiert die Antwortmengenprogrammierung, einen neueren Ansatz zum Problemlö sen. Der folgende Abschnitt 6.5 bietet eine kurze Einführung in das Gebiet der forma len Argumentation. Das Kapitel schließt mit einem kurzen Ausblick in Abschnitt 6.6.
6.1 Einführung Unser empirisches Wissen über die Welt ist stets unvollständig, und sehr häufig lassen sich aus ihm nicht alle Fakten ableiten, die wir benötigen, um darauf Entscheidun gen, Planungen und Aktionen zu gründen. Trotz solcher Lücken in unserem Wissen sind wir natürlich gezwungen zu handeln. Vielfach verwenden wir deshalb Regeln mit Ausnahmen, um das fehlende Wissen zu ergänzen. Solche Regeln drücken aus, was typischerweise der Fall ist, und können dazu benutzt werden, plausible Konklusionen abzuleiten, sofern keine der Konklusion widersprechende Information vorliegt. Jeder intelligente Agent muss in der Lage sein, solche Regeln – im KI-Deutsch werden sie auch Default-Regeln genannt – sinnvoll zu handhaben. Eine zweite für uns wichtige Fähigkeit ist der Umgang mit inkonsistenter Informa tion. Es kommt ständig vor, dass sich die uns vorliegende Information widerspricht, z. B. weil sie aus unterschiedlichen Quellen stammt. Natürlich dürfen wir uns dadurch nicht paralysieren lassen. Wir müssen auf sinnvolle Weise mit der inkonsistenten In formation umgehen. Für beide Probleme bietet die klassische Prädikatenlogik für sich genommen kei ne Lösung: Im Falle inkonsistenter Prämissen liefert die Prädikatenlogik die Menge https://doi.org/10.1515/9783110659948-006
190 | 6 Nichtmonotones Schließen
aller Formeln als Theoreme. Das ist sicher nicht das, was wir wollen, denn wer auf widersprüchliche Information stößt, wird sicher nicht anfangen, auf einmal alle be liebigen Sätze für wahr zu halten. Auch die Behandlung von Regeln mit Ausnahmen lässt sich in der klassischen Logik nicht adäquat modellieren. Natürlich können wir eine Regel wie Vögel fliegen typischerweise folgendermaßen darstellen: ∀x.Vogel(x) ∧ ¬Ausnahme(x) ⇒ Fliegt(x) , ∀x.Ausnahme(x) ⇔ Pinguin(x) ∨ Strauß(x) ∨ ¬HatFl¨ ugel(x) . . . Diese Darstellung erfordert aber eine vollständige Auflistung aller möglichen Ausnah men, eine für sich genommen unmögliche Aufgabe, denn auch das Wissen um Aus nahmen ist natürlich so gut wie immer unvollständig. Aber selbst wenn eine solche vollständige Liste verfügbar wäre, wäre die Darstellung immer noch inadäquat: Um für einen bestimmten Vogel, sagen wir Tweety, abzuleiten, dass er fliegt, ist es not wendig zu beweisen, dass kein Ausnahmefall vorliegt, d. h., dass Tweety kein Pinguin ist, kein Strauß, dass er Flügel hat usw. Das aber wollen wir gerade nicht: Wir wollen Tweety fliegt auch ableiten können, wenn nicht gezeigt werden kann, dass Tweety eine Ausnahme ist, nicht nur dann, wenn gezeigt werden kann, dass er keine Ausnahme ist. Worin ist diese Schwierigkeit begründet? Die klassische Logik besitzt folgende Monotonieeigenschaft: Für alle Mengen von Prämissen A und Formeln p, q gilt A ⊢ q impliziert A ∪ {p} ⊢ q , d. h., zusätzliche Information kann nie alte Konklusionen ungültig machen (⊢ be zeichnet die klassische Ableitbarkeitsrelation). Wie wir im obigen Beispiel gesehen haben, wollen wir eine Default-Regel dazu benutzen, um eine plausible Konklusion abzuleiten, sofern nichts auf einen Ausnahmefall hindeutet. Wenn wir später zusätzli che Information erhalten, die besagt, dass entgegen unseren Erwartungen doch eine Ausnahme vorliegt, dann muss diese Konklusion zurückgenommen werden. Jedes Schließen, das auf Regeln mit Ausnahmen basiert, muss deshalb in diesem Sinne nichtmonoton sein. Dasselbe gilt konsequenterweise auch für eine Logik, die solches Schließen formalisiert. Uns geht es hier vor allem um Default-Schließen. Es gibt aber andere Formen nichtmonotonen Schließens, die wenigstens erwähnt werden sollen. Wie gesagt er lauben Default-Regeln die Ableitung plausibler Konklusionen aus unvollständigem Wissen, sofern keine widersprüchliche Information vorliegt. Eine ganz andere Form nichtmonotonen Schließens ist das autoepistemische Schließen. Dabei wird Wissen über das eigene Wissen (autoepistemisches Wissen) zur Ableitung korrekter Schlüsse verwendet. Das Standardbeispiel lautet: Ich kenne alle meine Brüder. ( = Wenn x mein Bruder ist, so weiß ich das.)
6.1 Einführung |
191
Ich habe keine Information, dass Peter mein Bruder ist. Also ist Peter nicht mein Bruder.
Die Nichtmonotonie entsteht in diesem Fall deshalb, weil die Bedeutung von Aussa gen über das eigene Wissen kontextabhängig ist: Wenn wir in unserem Beispiel zu sätzliche Information erhalten, die besagt, dass Peter doch mein Bruder ist, so wissen wir, dass die erste Prämisse falsch war, als sie zur Ableitung von Peter ist nicht mein Bruder verwendet wurde. Aber das heißt nicht, dass diese Prämisse nun aufgegeben werden muss. Die Prämisse bezieht sich auf das jeweils aktuelle Wissen, und es ist durchaus sinnvoll anzunehmen, dass sie bezogen auf das jetzt erweiterte Wissen zu trifft. Eine genauere Analyse des autoepistemischen Schließens findet sich in [53]. Auch das Schließen auf der Basis inkonsistenter Information (inkonsistenztole rantes Schließen) ist nichtmonoton. Betrachten wir die inkonsistente Prämissenmen ge {p, ¬p, q, r, s} . Wie würde ein intelligenter Agent mit solcher Information umgehen? Er würde sicher lich nicht alle verfügbare Information als gleichermaßen wertlos ansehen. Eine Mög lichkeit wäre es, die maximal konsistenten Teilmengen der Prämissen zu betrachten und als ableitbar anzusehen, was aus all diesen Teilmengen abgeleitet werden kann. In unserem Beispiel hätte das den Effekt, dass p und ¬p ‚eliminiert‘ würden und nur die anderen Prämissen für Ableitungen verwendet werden könnten. Natürlich kann dabei das Zufügen von neuer Information, etwa ¬q, weitere Prämissen unwirksam machen. Damit ist auch diese Form von Schließen nichtmonoton. Wir werden in Ab schnitt 6.3 noch einmal ausführlicher auf inkonsistenztolerantes Schließen zurück kommen. Bevor wir uns einigen wichtigen Formalisierungen zuwenden, wollen wir noch einige Beispiele diskutieren, die die Relevanz nichtmonotonen Schließens für die KI zeigen. Historisch gesehen wurden die Arbeiten auf diesem Gebiet vor allem motiviert durch das berühmte Frame-Problem: Wie lässt sich adäquat repräsentieren, dass die meisten Objekte sich nicht ändern, wenn ein Ereignis eintritt? Das Problem trat vor al lem im Zusammenhang mit dem Situationskalkül deutlich zutage. Der Situationskal kül wurde von McCarthy und Hayes entwickelt [49; 52], um in einem logischen Rah men das Schließen über Aktionen und Ereignisse in der Zeit zu modellieren. Damit die Effekte von Ereignissen dargestellt werden können, werden Fakten mit den Situa tionen indiziert, in denen sie gelten, etwa:¹ Holds(In(Fred, Kitchen), Sit105) , Holds(Color(Kitchen, Red), Sit105) .
1 In diesen und den folgenden Beispielen beginnen Konstanten mit großen Buchstaben, Variablen mit kleinen.
192 | 6 Nichtmonotones Schließen
Ereignisse produzieren neue Situationen, etwa: Sit106 = Result(Go(Fred, Bathroom), Sit105) . Weitere Axiome beschreiben, wie Ereignisse die Welt verändern: ∀x, y, s.Holds(In(x, y), Result(Go(x, y), s)) . Das Problem ist nun z. B. zu zeigen, welche Farbe die Küche in Sit106 hat. Um ableiten zu können, dass sie immer noch rot ist, brauchen wir folgendes Axiom: ∀x, y, v, w, s.Holds(Color(x, y), s) ⇒ Holds(Color(x, y), Result(Go(v, w), s)) . Solche Frame-Axiome sind für jedes Paar bestehend aus einem Ereignis und einem durch dieses Ereignis nicht veränderten Faktum nötig. Das macht den Ansatz für die Praxis völlig unbrauchbar. Eine mögliche Lösung dieses Problems wäre die Einfüh rung eines Persistenz-Defaults, das informell etwa so lauten könnte: Ereignisse verändern Eigenschaften normalerweise nicht. Mit einem solchen Default, so die Grundidee, ist nur noch die Beschreibung der tat sächlichen Effekte von Ereignissen erforderlich. Explizite Frame-Axiome erübrigen sich. Ihre Konklusionen liefert das Persistenz-Default. Mittlerweile hat sich allerdings herausgestellt, dass eine einfache Repräsentati on dieses Defaults in einer der inzwischen entwickelten nichtmonotonen Logiken oft nicht zu den erwarteten Resultaten führt. Eine Analyse der dabei auftretenden Proble me und eine Darstellung einiger Lösungsversuche finden sich in [32]. Ein verwandtes Problem ist das Qualifikationsproblem: Wie lässt sich adäquat reprä sentieren, dass Aktionen fehlschlagen können? Wenn man z. B. den Autoschlüssel im Zündschloss dreht, so ist der erwartete Effekt, dass der Motor anspringt. Aber, jeder kennt das, es gibt Ausnahmesituationen, in denen dieser Effekt nicht eintritt: Der Tank kann ausgelaufen sein, die Batterie leer, die Zündkerzen defekt, der Motor ausgebaut, usw. Wieder ist die Liste der möglichen Ausnahmen beliebig verlängerbar. Keiner von uns wird wohl jedesmal nachsehen, ob der Motor noch da ist, bevor er zu starten ver sucht. Unsere Handlungen basieren auf der Erwartung, dass sich die Dinge wie üblich verhalten. Wieder ist es eine natürliche Idee, Defaults zu verwenden, um die erwarte ten Effekte von Ereignissen formal zu beschreiben. Es gibt zahlreiche weitere Gebiete, in denen Nichtmonotonie eine wichtige Rol le spielt. Bei der Diagnose etwa können Defaults verwendet werden, um das normale Verhalten von Teilen eines Gerätes zu beschreiben. Fügt man zu dieser Beschreibung des normalen Verhaltens die Beschreibung des tatsächlich beobachteten Verhaltens hinzu, so geben die nicht angewendeten Defaults Auskunft darüber, welche Bauteile
6.1 Einführung | 193
defekt sein können. Beim Sprachverstehen verwenden wir ständig Defaults, etwa um Mehrdeutigkeiten zu beheben. Beim Bilderkennen werden Defaults benutzt, um aus Teilszenen vollständige Bilder zu erzeugen. Selbst das Gesetz ist nichtmonoton, wie folgende Regeln zeigen, die in dieser oder ähnlicher Form tatsächlich in Gesetzestex ten zu finden sind [31]: Verträge sind gültig. Verträge mit Minderjährigen sind ungültig. Verträge mit Minderjährigen, die im Beisein eines Vormundes geschlossen werden, sind gültig.
Es ist leicht zu sehen, dass in all diesen Fällen zusätzliche Information zur Rücknahme von Schlüssen führen kann. Nichtmonotone Systeme haben eine recht lange Tradition in der KI. Schon früh wur den etwa Frame-Systeme verwendet, wie sie in fast allen Expertensystemwerkzeugen zu finden sind. Diese Systeme ermöglichen die Beschreibung von Klassenhierarchien und typischen Eigenschaften von Instanzen dieser Klassen. Frames beschreiben Klas sen, Slots repräsentieren Attribute der Instanzen dieser Klassen und ihre typischen Werte. Die grundlegende Idee ist die, dass im Falle von Widersprüchen die spezifischs te Information vorgezogen wird. Betrachten wir folgendes Beispiel (die hier für Frameund Instanzdefinitionen verwendete Sprache stammt aus dem in der GMD entwickel ten BABYLON-System [17] und dürfte selbsterklärend sein): (defframe auto (slots (sitze 5) (zylinder 4) (raeder 4))) (defframe sportwagen (supers auto) (slots (sitze 2) (preis hoch))) (definstance speedy of sportwagen) Aus diesen Definitionen lässt sich ableiten, dass speedy zwei Sitze und vier Zylinder hat. Der aus der Definition von auto stammende Wert fünf für sitze wird nicht berück sichtigt, da auto eine Oberklasse von sportwagen ist, wie es durch die entsprechende supers-Spezifikation festgelegt wurde. Wir erweitern nun die zweite Definition folgen dermaßen: (defframe sportwagen (supers auto)
194 | 6 Nichtmonotones Schließen
(slots
(sitze 2) (preis hoch) (zylinder 6)))
Jetzt wird für zylinder der Wert sechs abgeleitet, d. h., zusätzliche Information hat zur Revision einer früheren Ableitung geführt. Ein anderes bekanntes nichtmonotones System ist Prolog mit seiner Behandlung der Negation (negation as failure). Dabei wird not A als gültig betrachtet, wenn A nicht abgeleitet werden kann. Betrachten wir wieder unser altes Tweety-Beispiel:² Fliegt(X) :- Vogel(X), not Abnormal(X). Abnormal(X) :- Pinguin(X). Vogel(Tweety).
Das Prolog-Ziel Fliegt(Tweety)? liefert SUCCESS, da not Abnormal(Tweety) abgelei tet werden kann. Fügen wir jedoch die Prämisse Pinguin(Tweety).
hinzu, so kann Fliegt(Tweety) nicht mehr abgeleitet werden. Auch hier also ein Fall von Nichtmonotonie. Die vor allem aus dem Bereich der deduktiven Datenbanken bekannte Closed World Assumption (CWA) ist in engem Zusammenhang hierzu zu sehen. Ähnlich wie in Pro log geht man davon aus, dass nur positive Information explizit gespeichert werden muss. Das Fehlen einer (atomaren) Information wird als Falschheit dieser Information gedeutet. Wenn etwa in einer Datenbank über Flugverbindungen keine Direktverbin dung zwischen Bonn und London enthalten ist, so wird das so interpretiert, dass es eben keine solche Verbindung gibt. Formal lässt sich die CWA folgendermaßen präzi sieren: Definition 6.1.1. Sei T eine Menge von Formeln. p ist ableitbar aus T unter der CWA genau dann wenn T ∪ ASS(T) ⊢ p , wobei ASS(T) := {¬q | q ist atomar, und es gilt T ⊢ ̸ q}. Wie diese drei Beispiele zeigen, spielen nichtmonotone Systeme schon lange eine wichtige Rolle in der KI und, allgemeiner, in der Informatik. Allerdings sind die For men der Nichtmonotonie, die wir hier vorgestellt haben, äußerst beschränkt und lassen sich nicht einfach verallgemeinern. So führt etwa die CWA zu Inkonsistenz,
2 Abweichend von unserer üblichen Notation verwendet Prolog Großbuchstaben für Variablen.
6.2 Formalisierungen nichtmonotonen Schließens | 195
wenn Disjunktionen in den Prämissen zugelassen werden. Seit Ende der 1980-Jahre hat sich das nichtmonotone Schließen als eigenständiges Forschungsgebiet der KI etabliert. Vorrangiges Ziel war zunächst, geeignete Formalisierungen zu finden, die mindestens so ausdrucksstark sind wie die klassische Logik. Einige wichtige Ergeb nisse dieser Bemühungen werden in den folgenden Abschnitten dargestellt. Aktuelle Forschungsarbeiten beschäftigen sich nur in geringem Maße mit der Ent wicklung neuer nichtmonotoner Logiken – hier sind wohl die grundlegenden Ideen ausgearbeitet und die Möglichkeiten ausgereizt. Das Gebiet lebt aber weiter in min destens zwei derzeit äußerst aktiven Richtungen. Die Antwortmengenprogrammierung kombiniert Ideen aus dem nichtmonotonen Schließen, der Logikprogrammierung und dem Constraint Solving zu einem erfolgreichen deklarativen Paradigma des Pro blemlösens. Nicht zuletzt die Verfügbarkeit höchst effizienter Solver macht diesen Ansatz auch für industrielle Anwendungen attraktiv. Ein weiterer Schwerpunkt ak tueller Arbeiten ist die formale Argumentation. Hier versucht man die Art und Weise nachzubilden, wie wir durch Konstruktion und Auswahl von Argumenten für und gegen bestimmte Optionen zu Entscheidungen und Überzeugungen kommen. Beiden genannten Themen ist ein Abschnitt in diesem Kapitel gewidmet.
6.2 Formalisierungen nichtmonotonen Schließens Bevor wir in diesem Abschnitt einige der wichtigsten nichtmonotonen Logiken dar stellen, wollen wir kurz ein grundlegendes Problem diskutieren, das jede Formalisie rung technisch schwierig macht: das Problem sich widersprechender Defaults. Hier das Standardbeispiel: Quäker sind Pazifisten. Republikaner sind keine Pazifisten. Nixon ist Quäker und Republikaner.
Ist Nixon Pazifist oder nicht? Es gibt zwei Defaults, die jeweils benutzt werden kön nen, um sich widersprechende Konklusionen abzuleiten. Die Defaults sind für sich genommen völlig korrekt, sie können aber natürlich nicht beide gleichzeitig verwen det werden. Es scheint in diesem Fall unterschiedliche Mengen von Überzeugungen zu geben, die durch die Defaults gleichermaßen gestützt werden. Wie wir sehen werden, tragen einige Ansätze dem dadurch Rechnung, dass sie verschiedene Formelmengen, sog. Extensionen, generieren, in denen jeweils eine maximale Menge von Defaults an gewendet wurde. Damit stellt sich natürlich die Frage, was eigentlich die ableitbaren Formeln sind. Es gibt zwei Möglichkeiten: Einer skeptischen Sichtweise entspricht es, nur das zu glauben, was in allen Extensionen gilt. Diese Sichtweise ist, wie wir sehen werden, implizit in McCarthys Zirkumskription. Reiter dagegen vertritt die Sichtwei se, dass jede der erzeugten Extensionen für sich genommen als akzeptable Menge von Überzeugungen eines Agenten aufgefasst werden kann.
196 | 6 Nichtmonotones Schließen
Zu den wichtigsten Ansätzen der Formalisierung nichtmonotonen Schließens gehö ren: – Die Default-Logik (Reiter). Nichtklassische Inferenzregeln werden verwendet, um Defaults darzustellen. Die Extensionen werden als Fixpunkte eines Operators de finiert. Der Operator garantiert, dass in einer Extension möglichst viele Defaults angewendet wurden. – Der modale Ansatz (McDermott und Doyle, Moore). Hier drückt ein Modalopera tor explizit aus, ob etwas geglaubt wird oder konsistent ist. Wiederum wird ein Fixpunktoperator verwendet, um die Extensionen zu definieren. – Zirkumskription (McCarthy, Lifschitz). Hier wird Folgerbarkeit nicht, wie üblich, als Gültigkeit in allen, sondern als Gültigkeit in bestimmten, bevorzugten Model len der Prämissen definiert. Syntaktisch werden die „uninteressanten“ Modelle durch Hinzufügen eines Formelschemas bzw. einer Formel zweiter Stufe elimi niert. – Konditionale Ansätze (Delgrande, Kraus/Lehmann/Magidor, Boutilier). Sie ver wenden ein Konditional →, also einen nicht wahrheitsfunktionalen Junktor, um Defaults in der logischen Sprache zu repräsentieren. Eine Formel q folgt nichtmo noton aus einer Formel p, wenn das Konditional p → q in dem entsprechenden Ansatz ableitbar ist. Wir werden einige dieser Ansätze im Folgenden näher erläutern. Dabei werden wir die Default-Logik ausführlich beschreiben. Die Darstellung der autoepistemischen Logik sowie der Zirkumskription beschränkt sich auf die wichtigsten Grundideen. Eine Dar stellung der konditionalen Ansätze würde den Rahmen dieses Kapitels sprengen. Als Einstieg hierzu empfehlen wir dem Leser [7; 18; 34].
6.2.1 Default-Logik In der Default-Logik (DL) [62] werden Default-Regeln als eine Art von nicht klassischen Inferenzregeln repräsentiert. Eine Default-Theorie ist ein Paar (D, W), wobei W, eine Menge von klassischen logischen Formeln erster Stufe, das sichere Wissen repräsen tiert. D ist eine Menge von Defaults der Form A : B1 , . . . , B n , C wobei A, B i und C klassische Formeln sind (als alternative Notation wird häufig auch A : B1 , . . . , B n /C verwendet). Diese Default-Regel ist intuitiv in folgendem Sinne zu lesen: Wenn A ableitbar ist und für alle i (1 ≤ i ≤ n), ¬B i nicht abgeleitet werden kann, dann leite C ab. A heißt Vorbedingung, B i Konsistenzannahme und C Konsequenz des Defaults. Wir werden im Folgenden offene Defaults, d. h. Defaults mit freien Variablen, als Schemata interpretieren, die alle ihre Grundinstanzen repräsentieren.
6.2 Formalisierungen nichtmonotonen Schließens |
197
Die Frage ist nun: Gegeben sei eine Default-Theorie (D, W), was sind die durch sie induzierten akzeptablen Überzeugungsmengen, die Extensionen genannt werden? Es gibt einige Eigenschaften, die eine solche Menge S erfüllen sollte: 1. Sie sollte das sichere Wissen W enthalten. 2. Sie sollte im Sinne der klassischen Logik abgeschlossen sein. 3. Alle „anwendbaren“ Defaults sollten angewendet worden sein, wobei Anwend barkeit in Bezug auf S selbst definiert werden muss. 4. Sie sollte keine Formel enthalten, die sich nicht aus W zusammen mit den Konse quenzen „anwendbarer“ Defaults in D herleiten lässt. Die ersten drei Eigenschaften lassen sich direkt formal aufschreiben, etwa in Form der folgenden Definition³: Definition 6.2.1. Sei (D, W) eine Default-Theorie. S ist bezüglich (D, W) abgeschlossen genau dann, wenn 1. W ⊆ S, 2. Th(S) = S, 3. falls A : B1 , . . . , B n /C ∈ D, A ∈ S, ¬B i ∈ ̸ S (1 ≤ i ≤ n), dann C ∈ S. Allerdings trägt die Abgeschlossenheit einer Menge von Formeln der vierten ge wünschten Eigenschaft noch nicht Rechnung. Eine in der Mathematik und Informatik übliche Art, unerwünschte Elemente aus Mengen auszuschließen, ist die Forderung nach Minimalität von Mengen. Es liegt also nahe, Extensionen als kleinste Mengen zu definieren, die die obige Definition erfüllen. Leider hilft das in unserem Fall nicht weiter. Betrachten wir die simple DefaultTheorie ({true : b/a}, 0). Zwar erfüllt, wie gewünscht, die Menge S1 = Th({a}) unsere obige Definition, aber leider auch die Menge S2 = Th({¬b}). Es ist leicht zu sehen, dass die drei Eigenschaften von Definition 6.2.1 gelten, außerdem gibt es keine ech te Teilmenge von S2 , die diese Bedingungen erfüllt, d. h., S2 ist auch minimal. Das zeigt, dass wir unsere vierte gewünschte Bedingung auf diesem Weg nicht erreichen können. Reiter verwendet deshalb einen Trick. Er testet einen Kandidaten, also eine Menge von Formeln S, auf folgende Weise: S wird in eine Menge Γ(S) überführt. Γ(S) ist die kleinste Menge, die die drei ersten Eigenschaften aus unserer obigen Aufzählung er füllt, wobei jedoch die Konsistenzbedingungen einer Default-Regel bezüglich S (und nicht Γ(S)) geprüft werden. S hat den Test bestanden, ist also Extension, wenn es sich bei diesem Test reproduziert, wenn also Γ(S) = S. Es ist sofort zu sehen, dass nur sol che Mengen diesen Test bestehen, die bezüglich (D, W) abgeschlossen sind. Aber auch Eigenschaft 4 muss erfüllt sein: Wenn ein Kandidat Formeln enthält, die nicht aus W oder durch Anwendung von Defaults hergeleitet werden können, so werden diese bei
3 Für eine Menge von Formeln S bezeichnet Th(S) die Menge der logischen Konsequenzen von S.
198 | 6 Nichtmonotones Schließen
dem Test nicht reproduziert, und der falsche Kandidat scheidet aus. In unserem Bei spiel etwa ist Γ(S2 ) = Th(0), d. h., wir erhalten die Menge aller Tautologien. Damit ist S2 keine Extension, da z. B. ¬b ∈ S2 aber ¬b ∈ ̸ Γ(S2 ). Hier nun die endgültige Fassung von Reiters Definition der Extensionen: Definition 6.2.2. Sei (D, W) eine Default-Theorie, S eine Menge von Formeln. Wir defi nieren einen Operator Γ, sodass Γ(S) die kleinste Menge ist, für die gilt: 1. W ⊆ Γ(S), 2. Th(Γ(S)) = Γ(S), 3. falls A : B1 , . . . , B n /C ∈ D, A ∈ Γ(S), ¬B i ∈ ̸ S (1 ≤ i ≤ n), dann C ∈ S. E ist eine Extension von (D, W) genau dann, wenn E Fixpunkt von Γ ist, d. h., wenn gilt Γ(E) = E. Reiter hat eine äquivalente, quasiinduktive Charakterisierung der Extensionen gege ben. Diese Version wird häufig in Beweisen benutzt und macht sehr deutlich, in wel chem Sinne Formeln in den Prämissen gegründet sein müssen. Sei E eine Menge von Formeln. Wir definieren für eine gegebene Default-Theorie (D, W) eine Folge von For melmengen wie folgt: E0 = W , und für i ≥ 0 E i+1 = Th(E i ) ∪ {C | A : B1 , . . . , B n /C ∈ D, A ∈ E i , ¬B i ∈ ̸ E} Reiter hat gezeigt, dass E eine Extension von (D, W) ist, genau dann, wenn E = ⋃∞ i=0 E i . Das Vorkommen von E in der Definition von E i+1 macht diese Definition nicht kon struktiv. Die Tabelle 6.1 stellt einige einfache Beispiele dar. Das letzte Beispiel in der Tabelle zeigt, wie der Konsistenztest in einem Default verwendet werden kann, um Prioritäten zwischen Defaults auszudrücken: Pinguine fliegen normalerweise nicht erhält dadurch Vorrang vor Vögel fliegen normalerweise, dass letztere Regel nur dann anwendbar ist, wenn nicht bekannt ist, dass es sich um einen Pinguin handelt. Tab. 6.1: Einige einfache Beispiele für Defaults D
W
Fixpunkte(e)
Bird(x) : Flies(x) Flies(x)
Bird(Tw)
Th(W ∪ {Flies(Tw)})
Bird(x) : Flies(x) Flies(x)
Bird(Tw) Peng(Tw) ∀x.Peng(x) ⇒ ¬Flies(x)
Th(W)
Bird(x) : Flies(x) Flies(x) Peng(x) : ¬Flies(x) ¬Flies(x)
Bird(Tw)
Th(W ∪ {Flies(Tw)})
Peng(Tw)
Th(W ∪ {¬Flies(Tw)})
Bird(x) : Flies(x)∧¬Peng(x) Flies(x) Peng(x) : ¬Flies(x) ¬Flies(x)
Bird(Tw)
Th(W ∪ {¬Flies(Tw)})
Peng(Tw)
6.2 Formalisierungen nichtmonotonen Schließens
| 199
Reiters Default-Logik ist heute sicher eine der prominentesten nichtmonotonen Logiken. Dafür gibt es zwei Gründe. Erstens ist – trotz der etwas trickreichen tech nischen Definition der Extensionen – die der Default-Logik zugrunde liegende Idee einfach und intuitiv: Verwende Inferenzregeln mit einem zusätzlichen Konsistenztest für die Darstellung von Defaults. Zweitens hat sich herausgestellt, dass die DefaultLogik in bestimmter Hinsicht expressiver ist als manch konkurrierender Ansatz, etwa Zirkumskription. Diese zusätzliche Ausdrucksmächtigkeit ist nötig, um z. B. die Se mantik für logisches Programmieren erfassen zu können. Durch die Verwendung von Inferenzregeln lassen sich vor allem Probleme mit der Kontraposition von Defaults vermeiden. In der klassischen Logik ist eine Impli kation A ⇒ B äquivalent zu ihrer Kontraposition ¬B ⇒ ¬A. Im Zusammenhang mit Defaults ist Kontraposition manchmal unerwünscht. Zum Beispiel ist es sicher rich tig, dass Informatiker normalerweise wenig über Nichtmonotonie wissen. Daraus folgt aber nicht, dass jemand, der viel über Nichtmonotonie weiß, normalerweise kein In formatiker ist. Durch die Verwendung von Inferenzregeln zur Darstellung von Defaults lassen sich solche unerwünschten Effekte vermeiden. Allerdings hat die Verwendung von Inferenzregeln im Sinne von Reiter auch ihre Nachteile. Zunächst kann es vorkommen, dass es gar keine Extension gibt. Man be trachte etwa die Theorie ({true: ¬A/A}, {}) . Keine Menge von Formeln, die A nicht enthält, ist eine Extension, da die Default-Regel nicht angewendet wurde. Aber auch keine Menge S, die A enthält, kann eine Extension sein: Wenn S die Formel A enthält, dann wird dadurch bei der Konstruktion von Γ(S) die Default-Regel unanwendbar. Damit kann die Formel A nicht mehr in Γ(S) enthalten sein und S ist kein Fixpunkt. Es gibt auch Situationen, in denen intuitiv erwartete Resultate nicht erzielt wer den, wie folgendes Beispiel zeigt (da Defaults und Fakten syntaktisch unterschieden werden können, lassen wir in diesem und den folgenden Beispielen D und W impli zit): 1) Italiener:Trinkt_Wein/Trinkt_Wein , 2) Franzose:Trinkt_Wein/Trinkt_Wein , 3) Italiener ∨ Franzose .
Man würde erwarten, aus dieser Default-Theorie Trinkt_Wein ableiten zu können, denn, unabhängig davon, ob die betreffende Person Italiener oder Franzose ist, sollte eine der Default-Regeln anwendbar sein. In der Default-Logik jedoch kann ein Default nur dann angewendet werden, wenn seine Vorbedingung bereits abgeleitet wurde. Default-Logik ist deshalb nicht in der Lage, Fallunterscheidungen adäquat zu behan deln. Angeregt durch Arbeiten von Gabbay [25], Makinson [43] und anderen [34] ist es in jüngerer Zeit üblich geworden, dieses und ähnliche Probleme in Form von meta
200 | 6 Nichtmonotones Schließen
theoretischen Eigenschaften nichtmonotoner Inferenzrelationen zu formulieren. Die hier relevante Eigenschaft wird üblicherweise OR genannt. |∼ bezeichne eine beliebi ge (nichtmonotone) Inferenzrelation, d. h. eine Relation mit einer Menge von Formeln auf der linken und einer Formel auf der rechten Seite. OR lässt sich folgendermaßen formulieren: OR : Wenn X ∪ {y} |∼ a und X ∪ {z} |∼ a dann X ∪ {y ∨ z} |∼ a . Es stellt sich hier natürlich die Frage, was die der Default-Logik entsprechende Infe renzrelation ist. Um solch eine Relation geeignet zu definieren, wird üblicherweise die Menge von Defaults D festgehalten. Mit anderen Worten, jede Menge D erzeugt ihre ei gene Inferenzrelation ⊢D , die auf folgende Weise definiert werden kann: Definition 6.2.3. Sei D eine Menge von reiterschen Defaults, W eine Menge von Formeln erster Ordnung und p eine Formel. Wir definieren W ⊢D p genau dann, wenn p in allen Extensionen von (D, W) enthalten ist. Unser Weinbeispiel zeigt, dass ⊢D die Eigenschaft OR verletzt. Es ist zu bemerken, dass auf Fallunterscheidung basierende Schlüsse möglich sind, wenn wir unsere Defaults in folgender Form repräsentieren: true:Italiener ⇒ Trinkt_Wein/Italiener ⇒ Trinkt_Wein . Dadurch entstehen aber wiederum Probleme mit der Kontraposition, denn nun kann ¬Italiener von ¬Trinkt_Wein abgeleitet werden. Eine bessere Darstellung ist des halb: true:Trinkt_Wein/Italiener ⇒ Trinkt_Wein . Jetzt können wir die Default-Regel nicht mehr benutzen, um ¬Italiener abzuleiten, falls ¬Trinkt_Wein gegeben ist. Einige mehr implizite Konsequenzen der Kontraposi tion lassen sich dadurch aber immer noch nicht vermeiden. Wenn z. B. ¬Trinkt_Wein ∨ ¬Trinkt_Bier gegeben ist, so können wir das Default anwenden und seine Konsequenz benutzen, um ¬Italiener∨¬Trinkt_Bier abzuleiten. Das ist nicht möglich, wenn die ursprüng liche Default-Regel mit Vorbedingung Italiener verwendet wird. Im Weinbeispiel waren die Konklusionen, die man erhält, zu schwach. Es gibt auch Fälle, in denen die Default-Logik zu starke Ableitungen liefert. Folgendes Bei spiel stammt von D. Poole [58] 1) true:Usable(x) ∧ ¬Broken(x)/Usable(x) , 2) Broken(Left_Arm) ∨ Broken(RightArm) .
Die einzige Extension enthält Usable(Left_Arm) ∧ Usable(Right_Arm) ,
6.2 Formalisierungen nichtmonotonen Schließens
| 201
obwohl wir wissen, dass einer der Arme gebrochen ist. Reiters Definition der Exten sionen garantiert nur, dass jede einzelne Konsistenzbedingung eines angewendeten Defaults mit der generierten Extension konsistent ist. Die Gesamtmenge aller Konsis tenzbedingungen aller angewendeten Defaults muss nicht notwendigerweise mit der Extension konsistent sein. Deshalb erhält man in unserem Beispiel die unerwünschte Ableitung. Makinson hat gezeigt [43], dass ⊢D eine weitere wichtige Eigenschaft nichtmono toner Inferenzrelationen nicht erfüllt, die Kumulativität. Kumulativität besagt, infor mell, dass die Hinzunahme eines Theorems zu einer Prämissenmenge die Menge der ableitbaren Formeln nicht verändern soll. Formal: Wenn X |∼ a dann X ∪ {a} |∼ b genau dann, wenn X |∼ b . Diese Eigenschaft scheint wesentlich für jede Inferenzrelation zu sein, wenn man In ferenz als Explizitmachen dessen versteht, was implizit in den Prämissen steckt. Denn warum sollte, wenn a implizit in X ist, das Hinzufügen von a zu X irgendeine Auswir kung haben (außer natürlich, dass man beim nächsten Mal nicht mehr so lange nach dem Beweis suchen muss). Leider erfüllt die Default-Logik, genauer ⊢D , die Kumulativitätseigenschaft nicht, wie Makinsons Gegenbeispiel zeigt. Betrachten wir folgende Menge D: 1) true:p/p , 2) p ∨ q:¬p/¬p .
Für W = 0 gibt es genau eine Extension, die p und damit p ∨ q enthält. Es gilt also 0 ⊢D p ∨ q und 0 ⊢D p. Wenn jedoch p ∨ q als Prämisse in W verwendet wird, dann entsteht eine zweite Extension, die ¬p enthält. Damit ist p nicht mehr in allen Extensionen enthalten, d. h. {p ∨ q} ⊢D̸ p. Diese Schwierigkeiten haben zu einer Reihe von Modifikationen der Default-Logik ge führt, von denen wir hier nur einige kurz erwähnen können. Lukaszewicz [42] hat ei ne Version definiert, die auf einem zweistelligen Fixpunktoperator basiert. Das zweite Argument wird benutzt, um Konsistenzbedingungen der angewendeten Defaults mit zuführen. Ein Default wird nur angewendet, wenn seine Konsistenzbedingung nicht diejenige eines anderen angewendeten Defaults verletzt. Dadurch wird die Existenz von Extensionen garantiert, und die Default-Logik wird semimonoton, d. h., durch die Hinzunahme weiterer Defaults können neue Extensionen entstehen, existierende Ex tensionen werden jedoch nicht zerstört (sie können allerdings größer werden). Das poolesche Beispiel (broken arms) lässt sich aber immer noch nicht adäquat behan deln. In [10] wird CDL, eine kumulative Version der Default-Logik, vorgestellt. Die Ba siselemente dieser Logik sind Assertionen der Form (p, Q), wobei p eine Formel ist
202 | 6 Nichtmonotones Schließen
und Q die Menge der Konsistenzbedingungen, die man benötigt, um p abzuleiten. In CDL muss die Gesamtmenge der Konsistenzbedingungen aller angewendeten Defaults einer Extension konsistent sein. Damit lässt sich das poolesche Beispiel wie von ihm intendiert behandeln. Schaub und Delgrande haben eine Variante der Default-Logik eingeführt, bei der die Konsistenzbedingungen der angewendeten Defaults als Kontext mitgeführt wer den. Defaults werden nur dann angewendet, wenn ihre Konsistenzbedingungen in Bezug auf den gesamten Kontext (und nicht nur die ableitbaren Formeln) erfüllt sind. Auch hier führt das poolesche Beispiel zu den erwarteten Resultaten. Diese und wei tere Varianten der Default-Logik sind in [19] beschrieben. Anstatt Reiters Logik zu modifizieren, kann man natürlich auch untersuchen, ob es Spezialfälle gibt, in denen bestimmte Probleme gar nicht erst auftreten. Dabei wird meist die Form der zulässigen Defaults eingeschränkt. In uneingeschränkten DefaultTheorien kann ein Default sogar dann anwendbar sein, wenn seine Konsequenz falsch ist. Um das zu vermeiden, können wir fordern, dass die Konsequenz eines jeden De faults von seiner Konsistenzbedingung impliziert wird (wir nehmen hier an, dass es nur eine Konsistenzbedingung gibt). Solche Defaults heißen seminormal und können in folgender Form notiert werden: A:B ∧ C/C . Die Beschränkung auf seminormale Defaults hat keine großen Auswirkungen auf die Ausdrucksfähigkeit, der Nutzen von nicht seminormalen Defaults ist sowieso eher fraglich. Andererseits gewinnt man durch diese Einschränkung auch nicht allzu viel: Existenz von Extensionen, OR und Kumulativität sind immer noch nicht erfüllt [20], selbst wenn alle Defaults keine Vorbedingung haben, also von folgender Form sind: true:B ∧ C/C . Eine interessante Klasse von Defaults, die einige wünschenswerte Eigenschaften be sitzt, ist die Klasse der normalen Defaults. Sie haben folgende Form: A:B/B . Reiter hat gezeigt [62], dass normale Default-Theorien immer Extensionen besitzen. Allerdings ist die Ausdrucksmächtigkeit solcher Theorien nicht immer ausreichend. In Tabelle 6.1 haben wir bereits ein Beispiel dafür gesehen, wie man durch die ge eignete Wahl von Konsistenzbedingungen Prioritäten in die Defaults hineincodieren kann. Hierzu waren allerdings seminormale Defaults erforderlich. Prioritäten spielen eine wichtige Rolle in praktischen Anwendungen, denn durch sie lässt sich die Zahl der Extensionen reduzieren, siehe [10] für eine ausführlichere Diskussion und weitere Beispiele.
6.2 Formalisierungen nichtmonotonen Schließens |
203
Normale Default-Theorien erfüllen immer noch nicht OR und Kumulativität. Diese beiden Eigenschaften gelten aber bei einer weiteren Einschränkung, nämlich dann, wenn nur normale Defaults ohne Vorbedingung verwendet werden [20]. Diese Ein schränkung ist allerdings erheblich, und das Resultat unterstreicht sicherlich die Be deutung der oben erwähnten Modifikationen der Default-Logik.
6.2.2 Autoepistemische Logik Moores autoepistemische Logik (AEL) [53] ist das derzeit sicher prominenteste Beispiel für den modalen Ansatz. Moore geht es um die Modellierung eines rationalen Agen ten, der in der Lage ist, über seine eigenen Überzeugungen zu reflektieren, und der dabei über vollständige introspektive Fähigkeiten verfügt, d. h., er weiß genau, was er weiß und was er nicht weiß. Zu diesem Zweck wird ein modaler Operator L eingeführt. Lp steht für es wird geglaubt, dass p. Die bekannte Vogelregel wird folgendermaßen repräsentiert: Vogel(x) ∧ ¬L¬Fliegt(x) ⇒ Fliegt(x) . Es stellt sich nun die Frage, was die Mengen von Überzeugungen sind, die ein ratio naler Agent auf der Basis einer gegebenen Menge von Prämissen annehmen sollte. Moore definiert diese Überzeugungsmengen, bei ihm heißen sie Expansionen einer Menge von Prämissen A, folgendermaßen: Definition 6.2.4. T ist eine Expansion von A genau dann, wenn T = {p | A ∪ Bel(T) ∪ Disbel(T) ⊢ p} , wobei Bel(T) = {Lq | q ∈ T}, und Disbel(T) = {¬Lq | q ∈ ̸ T}. Expansionen sind also Mengen von Formeln, die deduktiv abgeschlossen sind und Lp enthalten genau dann, wenn p enthalten ist, und ¬Lp genau dann, wenn p nicht enthalten ist. Die Theorie Vogel(Tweety) ∧ ¬L¬Fliegt(Tweety) ⇒ Fliegt(Tweety) , Vogel(Tweety) etwa besitzt genau eine Expansion. Da ¬Fliegt(Tweety) auch bei Hinzunahme einer beliebigen konsistenten Menge von Formeln der Form Lq oder ¬Lq nicht abgeleitet werden kann, muss ¬L¬Fliegt(Tweety) in der Expansion enthalten sein, und damit auch Fliegt(Tweety). Im allgemeinen Fall kann es auch mehrere Expansionen geben. Das ist insbeson dere dann der Fall, wenn sich, wie im Nixon-Beispiel, unterschiedliche Regeln gegen seitig widersprechen.
204 | 6 Nichtmonotones Schließen
Es konnte inzwischen gezeigt werden, dass AEL und Reiters Default-Logik in sehr enger Beziehung zueinander stehen [33; 45]. Konolige verwendet die folgende Über setzung von Defaults in autoepistemische Formeln: A:B1 , . . . , B n /C wird zu LA ∧ ¬L¬B1 ∧ ⋅ ⋅ ⋅ ∧ ¬L¬B n ⇒ C . Da andererseits jede AEL-Formel in eine AEL-Implikation obiger Art transformiert wer den kann, kann man diese Übersetzung auch in umgekehrter Richtung, also von AEL zu Default-Logik, vornehmen. Konolige hat gezeigt, dass bei Verwendung dieser Übersetzung die Extensionen einer Default-Theorie genau dem objektiven Teil, d. h. dem Teil ohne Vorkommen des Modaloperators L, einer bestimmten Klasse von AEL-Expansionen entsprechen. Die AEL-Expansionen, für die es keine entsprechenden Default-Logik-Extensionen gibt, entstehen deshalb, weil in AEL Formeln zirkuläre Begründungen haben können. Der Wert dieser Expansionen ist deshalb auch recht fraglich. Die AEL-Theorie {Lp ⇒ p}, z. B., hat zwei Expansionen, von denen eine Lp und p enthält. Die entsprechende De fault-Theorie dagegen besitzt nur eine Extension, in der p nicht enthalten ist. Es sind auch nichtmonotone Systeme vorgeschlagen worden, die zwei unabhängi ge Modaloperatoren verwenden [38; 41]. Die Logik MKNF von Lifschitz etwa verwendet einen epistemischen Operator K und einen Operator not für negation as failure (mi nimal knowledge with negation as failure, MKNF). In diesem System ist es möglich, zu unterscheiden zwischen Anfragen der Form „Gibt es eine Klasse, die John unterrich tet?“, formal: ∃x.unterrichtet(John, x) und der Anfrage „Gibt es eine (bekannte) Klasse, von der man weiß, dass John sie unterrichtet“: ∃x.Kunterrichtet(John, x) . Diese Unterscheidung ist wichtig für Datenbanken, die disjunktive Information ent halten, und erweiterte (disjunktive) logische Programme mit echter Negation. Ein weiterer interessanter modaler Ansatz wurde von Levesque vorgeschlagen [37] und von Lakemeyer weitergeführt [35]. Levesque definiert eine monotone Modallogik, die zusätzlich zu L den Modaloperator O enthält. Op steht für „p ist alles, was gewusst wird.“. Die grundlegende Idee ist die Folgende: Um zu bestimmen, ob beispielsweise „Tweety fliegt“ aus „Vögel fliegen typischerweise“ und „Tweety ist ein Vogel“ abgelei tet werden kann, muss überprüft werden, ob folgende Formel in der Logik gültig ist: O[(Vogel(Tw) ∧ ¬L¬Fliegt(Tw) ⇒ Fliegt(Tw)) ∧ Vogel(Tw)] ⇒ LFliegt(Tw) . In diesem Ansatz wird die Nichtmonotonie sozusagen vollständig in den Bereich des Operators O geschoben: Op ⇒ Lq kann gültig sein, O(p ∧ r) ⇒ Lq jedoch ungül tig. Es stellt sich heraus, dass O eine intuitive Semantik besitzt, die auf dem Konzept möglicher Welten (possible worlds) basiert. Die AEL-Extensionen einer Formel p ent sprechen genau den Interpretationen, die Op erfüllen.
6.2 Formalisierungen nichtmonotonen Schließens | 205
6.2.3 Zirkumskription Zirkumskription ist eine Technik, die es uns erlaubt, die Extension bestimmter aus gewählter Prädikate zu minimieren. Die Grundidee ist die Folgende: Es wird eine Prä ferenzrelation auf den Modellen einer Prämissenmenge definiert. Diese Präferenzre lation bevorzugt Modelle, in denen die ausgewählten Prädikate eine möglichst kleine Extension besitzen. Folgerbarkeit wird dann nicht, wie üblich, als Gültigkeit in allen Modellen definiert, sondern als Gültigkeit in den bezüglich dieser Präferenzrelation besten (minimalen) Modellen. Syntaktisch lässt sich diese semantische Idee auf folgende Weise umsetzen: Die nichtmonotonen Theoreme einer (endlichen) Prämissenmenge T werden definiert als die monotonen Theoreme von T plus gewissen zusätzlichen Formeln. Bei den zusätz lichen Formeln handelt es sich in der einfachsten Form der Zirkumskription um alle Instanzen eines bestimmten Formelschemas, bei anderen Varianten um eine Formel zweiter Stufe. Diese Formeln dienen dazu, all die Modelle von T zu „eliminieren“, in denen die Extension des zu minimierenden Prädikates nicht minimal ist. Eine beträchtliche Anzahl von Varianten der Zirkumskription sind definiert wor den. Wir werden uns hier auf die einfachste Form, die Prädikatenzirkumskription, be schränken [50; 51]. Sie ist folgendermaßen definiert: Definition 6.2.5. Sei T die Konjunktion einer endlichen Menge von logischen Formeln, die das Prädikatensymbol P enthalten. T(φ) entstehe aus T durch Ersetzen jedes Vor kommens von P durch den Parameter φ. Die Prädikatenzirkumskription von P in T ist das Schema T(φ) ∧ (∀x.φ(x) ⇒ P(x)) ⇒ (∀x.P(x) ⇒ φ(x)) . x steht hier für einen Variablenvektor entsprechend der Stelligkeit von P. Das Schema besagt intuitiv Folgendes: Wenn φ ein Prädikat ist, das alle Eigenschaften erfüllt, die in T für P festgelegt sind, so kann φ nicht für weniger Objekte gelten als P. Mit ande ren Worten: P ist das kleinste Prädikat, das die in T für P festgelegten Eigenschaften besitzt. Alle Instanzen dieses Schemas können zusammen mit den ursprünglichen Prä missen für Ableitungen benutzt werden. Für φ werden dabei Prädikatsausdrücke ent sprechender Stelligkeit substituiert, das sind Lambda-Ausdrücke der Form λx1 , . . . , x n .F, wobei F eine offene Formel ist und die x i Variablen. Für diese Variablen wer den bei der Substitution in F die jeweiligen Argumente von φ eingesetzt. Hier ist ein einfaches Beispiel [50]: T = Block(A) ∧ Block(B) ∧ Block(C) . Prädikatenzirkumskription von Block in T ergibt das Schema: φ(A) ∧ φ(B) ∧ φ(C) ∧ (∀x.φ(x) ⇒ Block(x)) ⇒ (∀x.Block(x) ⇒ φ(x)) .
206 | 6 Nichtmonotones Schließen Substitution von λx.(x = A∨x = B∨x = C) für φ und Anwendung auf die jeweiligen Argumente ergibt: (A = A ∨ A = B ∨ A = C) ∧ (B = A ∨ B = B ∨ B = C) ∧ (C = A ∨ C = B ∨ C = C) ∧ (∀x.(x = A ∨ x = B ∨ x = C) ⇒ Block(x)) ⇒ (∀x.Block(x) ⇒ (x = A ∨ x = B ∨ x = C)) . Die Vorbedingung dieser Implikation ist wahr in T, und wir können ableiten, dass A, B und C die einzigen existierenden Blöcke sind. Es ist nicht schwer zu sehen, wie das Schema sich verändert, wenn die ursprüngliche Menge von Prämissen sich ändert (wenn wir etwa Block(D) hinzufügen). Dadurch wird eine andere Substitution erfor derlich, um die Vorbedingung der Implikation wahr zu machen und damit eine expli zite Definition von Block abzuleiten. Auf diese Weise entsteht die Nichtmonotonie der Zirkumskription. Die Präferenzrelation
0 und jedes Ereignis B mit P(B) > 0 gilt der bayessche Satz (auch: bayessche Formel): P(B | A k ) ⋅ P(A k ) P(B | A k ) ⋅ P(A k ) . = n P(A k | B) = P(B) ∑i=1 P(B | A i ) ⋅ P(A i ) Diese Formel heißt auch die Formel über die Wahrscheinlichkeit von Hypothesen. Beispiel 8.2.4. Gegeben seien fünf Urnen folgenden Inhalts: zwei Urnen vom Inhalt A1 mit je zwei weißen und drei schwarzen Kugeln, zwei Urnen vom Inhalt A2 mit je einer weißen und vier schwarzen Kugeln, eine Urne mit dem Inhalt A3 mit vier weißen und einer schwarzen Kugel. Aus einer willkürlich gewählten Urne werde eine Kugel entnommen. Sie sei weiß. (Dies sei das Ereignis B.) Wie groß ist die (A-posteriori-)Wahrscheinlichkeit dafür, dass die Kugel aus der Urne mit Inhalt A3 stammt? Nach Voraussetzung ist: P(A1 )
= 25 ,
P(A2 )
= 25 ,
P(A3 )
= 15 ,
P(B | A1 )
= 25 ,
P(B | A2 )
= 15 ,
P(B | A3 )
= 45 .
Mit der bayesschen Formel erhalten wir: P(A3 | B) = Genauso finden wir P(A1 | B) =
2 5
2 5
⋅
2 5
+
4 5 1 5
⋅ ⋅
1 5 2 5
+
4 5
⋅
1 5
=
2 5
.
und P(A2 | B) = 15 .
8.2.2 Probabilistische Schlussfolgerungsnetze Versucht man, sich so kurz wie möglich zu fassen, so lässt sich die Idee der Schluss folgerungsnetze wie folgt beschreiben: Unter bestimmten Bedingungen kann eine Verteilung δ (z. B. eine Wahrscheinlichkeitsverteilung) auf einem mehrdimensio nalen Raum, die A-priori-Wissen oder generisches Wissen über einen bestimmten
292 | 8 Unsicheres, impräzises und unscharfes Wissen Anwendungsbereich darstellt, zerlegt werden in eine Menge {δ1 , . . . , δ s } von (ggf. überlappenden) Verteilungen auf niedrigdimensionalen Unterräumen. Wenn eine solche Zerlegung möglich ist, dann reicht es aus, die Verteilungen auf den Unter räumen zu kennen, um alle Schlussfolgerungen ziehen zu können, die man mit der ursprünglichen Verteilung δ ziehen kann. Da eine solche Zerlegung oft durch ein Netz dargestellt wird und da sie zum Ziehen von Schlussfolgerungen dient, nennen wir sie ein Schlussfolgerungsnetz. Ein anderer populärer Name ist probabilistisches gra fisches Modell, wobei „grafisch“ andeutet, dass es auf einem Graphen (im Sinne der Graphentheorie) beruht. Obwohl diese Beschreibung alle wesentlichen Dinge nennt, ist sie natürlich zu komprimiert, um verständlich zu sein. Im Folgenden erklären wir daher zunächst etwas genauer die in dieser Beschreibung benutzten Begriffe und illustrieren anschließend die Idee an einem einfachen Beispiel. Mit mehrdimensionalem Raum meinen wir, dass jeder Zustand eines gegebenen, zu modellierenden Weltausschnitts beschrieben werden kann, indem man die Wer te einer Menge von Attributen angibt. Wenn man z. B. Fahrzeuge beschreiben will, so könnte man den Hersteller, das Modell, die Farbe, ob bestimmte Sonderausstat tungen vorhanden sind oder nicht u. ä. angegeben. Jedes Attribut – oder genauer, die Menge der Werte, die es annehmen kann – bildet eine Dimension des Raumes. Damit dies möglich ist, müssen die Werte des Attributes natürlich erschöpfend sein (jeder Zustand des Weltausschnitts muss einen Wert für das Attribut aufweisen) und sich ge genseitig ausschließen (kein Zustand des Weltausschnitts darf mehr als einen Wert für das Attribut aufweisen). In unserem Fahrzeugbeispiel heißt das, dass die Menge der Werte des Attributes „Hersteller“ alle möglichen Hersteller umfassen muss und kein Fahrzeug das gemeinsame Produkt mehrerer Hersteller sein darf. Das heißt, es muss möglich sein, für jedes Fahrzeug genau einen Hersteller anzugeben. Mit diesen Ein schränkungen (für alle Attribute) entspricht jedes Fahrzeug einem Punkt des mehrdi mensionalen Raumes. Natürlich kann es mehrere Fahrzeuge geben, die dem gleichen Punkt entspre chen – einfach weil diese Fahrzeuge in allen Attributen übereinstimmen (gleicher Hersteller, gleiche Farbe, gleiche Sonderausstattungen etc.). Andererseits kann es Punkte des Raumes geben, denen kein existierendes Fahrzeug entspricht – z. B. weil bestimmte Sonderausstattungen für ein Modell nicht erhältlich sind und es folglich keine Fahrzeuge dieses Modells mit diesen Sonderausstattungen gibt. Derartige In formation ist in der Verteilung auf dem betrachteten Raum enthalten. Eine Vertei lung δ ordnet jedem Punkt des Raumes eine Zahl aus dem Intervall [0, 1] zu, die die Möglichkeit oder die (A-priori-)Wahrscheinlichkeit angibt, dass der entsprechen de Zustand des modellierten Weltausschnitts vorliegt. Diese Zahlen werden gewöhn lich von Experten geschätzt oder durch statistische Analysen aus Erfahrungsdaten gewonnen. In unserem Fahrzeugbeispiel könnten diese Zahlen einfach die relative Häufigkeit angeben, mit der Fahrzeuge eines bestimmten Typs und einer bestimm ten Ausstattung verkauft wurden.
8.2 Unsicheres Wissen
|
293
Mit Zerlegung meinen wir, dass die Verteilung δ auf dem betrachteten Raum (we nigstens näherungsweise) aus den Verteilungen {δ1 , . . . , δ s } rekonstruiert werden kann, indem man die Informationen aus den Verteilungen δ i geeignet kombiniert. Ei ne solche Zerlegung hat verschiedene Vorteile, z. B. dass die Verteilungen δ1 , . . . , δ s mit weniger Redundanz gespeichert werden können als die ursprüngliche Vertei lung (denn Zerlegbarkeit zeigt immer, dass eine Verteilung redundante Information enthält). Diese Vorteile sind der wesentliche Grund, aus dem Zerlegungen in der Datenbanktheorie [14; 38; 62] untersucht werden. Es ist daher nicht überraschend, dass die Datenbanktheorie eng mit der Theorie der Schlussfolgerungsnetze verbun den ist. Der Unterschied ist, dass man sich bei Schlussfolgerungsnetzen auf, wie der Name ja schon sagt, das Ziehen von Schlussfolgerungen konzentriert, während die Datenbanktheorie sich stärker mit dem Speichern, Warten und Abrufen von Daten beschäftigt. Nur in der Lage zu sein, eine Verteilung effizienter zu speichern, wäre zum Zwe cke des Schlussfolgerns allerdings wenig nützlich, gäbe es nicht die Möglichkeit, die Schlussfolgerungen zu ziehen, ohne die ursprüngliche Verteilung vorher rekonstruie ren zu müssen. Die Kernidee ist, Informationen lokal von Unterraum zu Unterraum weiterzugeben, bis alle Verteilungen aktualisiert sind. Diesen Vorgang nennt man ge wöhnlich Evidenzpropagation. Wie er abläuft, lässt sich am besten an einem einfachen Beispiel zeigen. In diesem Beispiel vernachlässigen wir zunächst die Wahrscheinlich keiten, die leicht die sehr einfache Idee verschleiern können, und betrachten nur, ob bestimmte Zustände eines gegebenen Weltausschnitts möglich sind oder nicht. Das heißt, wir betrachten zunächst Netze, die man relationale Netze nennen könnte, und erst anschließend echte probabilistische Netze (die Möglichkeit eines Ereignisses durch seine Wahrscheinlichkeit ersetzend). 8.2.2.1 Ein einfaches Beispiel Der Weltausschnitt unseres einfachen Beispiels ist eine Menge geometrischer Objek te, die in Abbildung 8.1 gezeigt sind. Diese Objekte sind durch drei Eigenschaften ge kennzeichnet: Farbe, Form und Größe. Daher kann man die Menge der Objekte auch als Relation durch die in Abbildung 8.1 gezeigte Tabelle darstellen, in der jede Zeile ein Objekt beschreibt, indem Farbe, Form und Größe angegeben werden. Es werde nun zufällig ein Objekt aus dieser Menge ausgewählt. Wir nehmen je doch an, dass nicht alle kennzeichnenden Eigenschaften des Objektes beobachtet werden können. Man kann sich dazu vorstellen, dass jemand in einiger Entfernung ein Objekt aus einer Kiste zieht, sodass nur die Farbe, nicht aber die Form oder die Größe des Objektes erkennbar ist. Nun wissen wir aber, dass es nur zehn verschiedene Objekte mit bestimmten Kombinationen der drei Eigenschaften gibt. Wie kann man diese Information ausnutzen, um etwas über die nicht beobachteten bzw. beobacht baren Eigenschaften des zufällig gewählten Objektes zu erschließen?
294 | 8 Unsicheres, impräzises und unscharfes Wissen
Farbe Form Gro¨ße klein mittel klein mittel mittel groß mittel mittel mittel groß Abb. 8.1: Eine Menge geometrischer Objekte und ihre Darstellung als Tabelle
Probleme dieser Art treten in vielen Anwendungen auf, z. B. in der medizinischen Diagnose: Ein Arzt verfügt über Lehrbuch- und Erfahrungswissen über die Abhängig keiten zwischen Symptomen, physiologischen Zuständen und Krankheiten, ggf. im Kontext anderer Eigenschaften eines Patienten, z. B. Alter und Geschlecht. Beobach ten bzw. erfragen kann er aber nur die Symptome sowie Alter, Geschlecht etc. Welche Krankheit(en) (wahrscheinlich) vorliegen, muss er mithilfe seines Wissens erschlie ßen. In unserem einfachen Beispiel geometrischer Objekte ist die Schlussfolgerung na türlich trivial: Man könnte etwa in der Tabelle alle Objekte mit einer anderen Farbe als der beobachteten aussortieren und für die restlichen die möglichen Formen und Größen zusammenstellen. Dies ist aber nur möglich, weil wir lediglich zehn Objekte mit nur drei Eigenschaften haben. In der medizinischen Diagnose können wir kaum so vorgehen, da die Tabelle, die wir hier aufstellen müssten, viel zu groß ist, um auf diese Weise bearbeitet werden zu können. Stattdessen müssen wir das medizinische Wissen des Arztes geeignet strukturieren, z. B. durch Zerlegung in Abhängigkeiten zwischen wenigen Eigenschaften. Wie (tabellarisches) Wissen zerlegt werden kann, sodass es handhabbar wird, lässt sich be reits am Beispiel der Menge geo metrischer Objekte zeigen: Die Ei genschaftstabelle dieser Objekte groß groß mittel mittel lässt sich ohne Verlust auf zwei klein klein kleinere Tabellen aufteilen. Um dies zu verdeutlichen, stellen wir Abb. 8.2: Schlussfolgerungsraum und grafische Darstel lung der Relation den Schlussfolgerungsraum gra fisch dar, wie in Abbildung 8.2 links gezeigt: Wir ordnen jeder Eigenschaft eine Raumrichtung zu, sodass sich jede mögliche Kombination von Eigenschaftswerten durch einen Würfel in diesem Raum
8.2 Unsicheres Wissen
|
295
darstellen lässt. Tragen wir die zu den Objekten unseres Beispiels gehörenden Wür fel in diesen Schlussfolgerungsraum ein, so ergibt sich das in Abbildung 8.2 rechts gezeigte Bild. Nehmen wir an, dass das zufällig gewählte Objekt hellgrau ist. In der Darstellung von Abbildung 8.2 entspricht das einfache Schlussfolgern durch Einschränken auf hellgraue Objekte dem Herausschneiden der zur Farbe Hellgrau gehörenden „Schei be“ des Schlussfolgerungsraums, wie es in Abbildung 8.3 gezeigt ist. Wir erhalten so, dass das Objekt kein Kreis sein kann, sondern ein Quadrat oder ein Dreieck sein muss, und dass es nicht klein sein kann, sondern mittelgroß oder groß sein muss. Diese Schlussfolgerung lässt sich jedoch auch anders ziehen, da, wie bereits angedeutet, das Wissen über die Eigenschafts kombinationen der Objekte zer groß groß legt werden kann, und zwar in mittel mittel sog. Projektionen auf zweidimen klein klein sionale Unterräume des Schluss Abb. 8.3: Direktes Schlussfolgern folgerungsraums. Alle möglichen derartigen Projektionen sind in Abbildung 8.4 gezeigt. Sie ergeben sich als Schattenwürfe, wenn man sich Lichtquel len in genügender Entfernung vor, über und rechts dieser Darstellung der Relation vorstellt.
groß mittel klein
groß mittel klein
groß mittel klein
groß mittel klein
Abb. 8.4: Alle drei zweidimensio nalen Projektionen der Relation
Wir können die Relation in die Projektionen auf die hintere und die linke Seitenfläche des Schlussfolgerungsraums zerlegen, denn aus diesen lässt sie sich rekonstruieren. Dies ist in Abbildung 8.5 gezeigt. Wir gehen folgendermaßen vor: Zunächst werden die sog. zylindrischen Erweiterungen der beiden Projektionen gebildet. Das heißt, wir
296 | 8 Unsicheres, impräzises und unscharfes Wissen
groß mittel klein
groß mittel klein
groß mittel klein
Abb. 8.5: Zwei zylindrische Erweiterungen von Projektionen und ihr Schnitt
fügen in der jeweils fehlenden Dimension alle möglichen Werte hinzu. Dies ist in Ab bildung 8.5 oben und rechts gezeigt.³ Die so erhaltenen Würfelanordnungen werden anschließend miteinander geschnitten, d. h., es bleiben nur die Würfel übrig, die in beiden zylindrischen Erweiterungen enthalten sind. Das Ergebnis ist in Abbildung 8.5 gezeigt. Wie man leicht sieht, stimmt es mit der grafischen Darstellung der Relation aus Abbildung 8.2 überein. Der Vorteil einer Zerlegung der Re lation ist, dass sie sich zum Schlussfol k m g gern nutzen lässt, ohne dass die Darstel Farbe Gro ¨ße lung im dreidimensionalen Raum vor erweit. proj. Form her wiederhergestellt werden muss. Ab proj. erweit. bildung 8.6 zeigt das Vorgehen. Zuerst wird die Beobachtung, dass das Objekt hellgrau ist, auf die Projektion auf den k m g Unterraum Farbe×Form zylindrisch er Abb. 8.6: Evidenzpropagation weitert (schraffierte Spalte) und mit der Projektion der Relation auf diesen Raum (grau unterlegte Felder) geschnitten. Das Ergebnis wird auf die Dimension Form pro jiziert. Man erhält so, wie oben, dass das Objekt kein Kreis sein kann, sondern ein Quadrat oder ein Dreieck sein muss. Dieses Zwischenergebnis wird in analoger Weise auf den Unterraum Form×Größe zylindrisch erweitert (schraffierte Zeilen), mit der Pro jektion der Relation auf diesen Raum (graue Felder) geschnitten und schließlich auf
3 Der Name „zylindrische Erweiterung“ für diese Operation leitet sich übrigens von der üblichen Pra xis ab, in Skizzen Mengen durch Kreisscheiben darzustellen: Fügt man zu einer Kreisscheibe eine Di mension hinzu, so erhält man einen Zylinder.
8.2 Unsicheres Wissen
| 297
die Dimension Größe projiziert. Man erhält, wieder wie oben, dass das Objekt nicht klein sein kann, sondern mittelgroß oder groß sein muss. Dieses Verfahren, Schlussfolgerun gen zu ziehen, rechtfertigt die Darstel Form Farbe Gro ¨ße lung durch ein Netz, wie es in Abbil dung 8.7 gezeigt ist. Jeder Eigenschaft Abb. 8.7: Netzwerkdarstellung entspricht ein Knoten, und die Kanten geben an, welche Projektionen benötigt werden. Zu beachten ist, dass natürlich nicht immer auf zweidimensionale Unterräu me projiziert wird. Dass wir nur solche Projektionen betrachten, liegt an der Einfach heit des Beispiels. In Anwendungen können die Unterräume, auf die projiziert wird, drei, vier oder noch mehr Dimensionen haben. Entsprechend verbinden die Kanten des zugehörigen Netzes dann mehr als zwei Knoten (man spricht in diesem Fall von Hyperkanten). Eine Darstellung der Attributmengen, die so verbunden werden, z. B. durch einen Verbundbaum, kann hier hilfreich sein. Diese Möglichkeit werden wir später noch etwas genauer betrachten. Man beachte außerdem, dass die Projektionen sorgfältig gewählt werden müssen. Die Relation aus Abbildung 8.1 lässt sich nicht in zwei beliebige zweidimensionale Projektionen zerlegen. Dies zeigt Abbildung 8.8. Statt der Projektion auf die hintere Seitenfläche wird hier die Projektion auf die untere Fläche verwendet. Der Schnitt der zylindrischen Erweiterungen der beiden Projektionen (unten links gezeigt) ist jedoch deutlich verschieden von der Originalrelation, die oben rechts noch einmal dargestellt ist: Er enthält sechs zusätzliche Objekte.
groß mittel klein
groß mittel klein Abb. 8.8: Andere Projektionen
groß mittel klein
groß mittel klein
298 | 8 Unsicheres, impräzises und unscharfes Wissen
Nicht nur müssen die Projektionen sorgfältig gewählt werden, man kann sogar nicht immer eine Zerlegung fin 2 den. Dazu betrachten wir Abbildung 8.9, groß in der zwei Würfel markiert sind. Neh mittel 1 men wir zunächst an, das zu dem mit ei klein ner 1 markierten Würfel gehörende Ob Abb. 8.9: Ist eine Zerlegung immer möglich? jekt werde entfernt. Dann kann die Rela tion nicht mehr in zwei Projektionen auf zweidimensionale Unterräume zerlegt werden, wie man leicht ausprobieren kann. In diesem Fall kann man sich jedoch noch behelfen, indem man alle drei Projektionen verwendet. Da das Entfernen des Würfels 1 die Projektion auf die untere Fläche än dert, ist der Würfel 1 in der zylindrischen Erweiterung dieser Projektion und damit im Schnitt aller drei Projektionen nicht mehr enthalten. Wird dagegen das Objekt ent fernt, das zu dem mit einer 2 markierten Würfel gehört, lässt sich die Relation gar nicht mehr zerlegen. Denn das Entfernen dieses Würfels ändert keine der drei Projek tionen: In jeder Raumrichtung gibt es noch einen anderen Würfel, der den Schatten wirft. Allerdings wird man, da das Schlussfolgern im Gesamtraum in praktischen An wendungen wegen der großen Zahl zu betrachtender Eigenschaften im Allgemeinen unmöglich wird, versuchen, nicht (exakt) zerlegbares Wissen wenigstens näherungs weise zu zerlegen. Ziel ist es dann, eine Zerlegung zu finden, die möglichst wenige zu sätzliche Eigenschaftskombinationen für möglich erklärt (eine näherungsweise Zer legung führt offenbar höchstens zu zusätzlichen Kombinationen im Schnitt der zylin drischen Erweiterungen). Man beachte, dass dieses Beispiel aus didaktischen Gründen sehr klein gehalten wurde. In Anwendungen wie z. B. der Beschreibung von Bauvarianten von Fahr zeugen hat man es dagegen typischerweise mit einigen Hundert Variablen mit zwei (Sitzheizung ja/nein) bis 50 (Art des Sitzbezugs) Werten zu tun [18]. Trotzdem ist das Zerlegungsprinzip weiterhin anwendbar. Nur werden sehr viel mehr und grö ßere Unterräume benötigt. Mit heutigen Rechnern ist das jedoch leicht zu bewäl tigen. Die bisher erläuterten Ideen zur Zerlegung einer Relation lassen sich außerdem leicht auf Wahrscheinlichkeitsverteilungen übertragen. Das heißt, statt der Mög lichkeit oder Unmöglichkeit von bestimmten Eigenschaftskombinationen betrachten wir nun ihre Wahrscheinlichkeit. Wir erweitern dazu unser Beispiel, wie in Abbil dung 8.10 gezeigt, indem wir jeder Kombination der drei Eigenschaften der geo metrischen Objekte eine Wahrscheinlichkeit zuordnen. Das Beispiel ist so gewählt, dass Eigenschaftskombinationen, die vorher möglich waren, nun eine hohe, solche, die unmöglich waren, eine niedrige Wahrscheinlichkeit haben. Zur Illustration: Die Wahrscheinlichkeiten könnten z. B. die relative Häufigkeit der verschiedenen Objekte in einer Kiste angeben.
8.2 Unsicheres Wissen
Angaben in Promille
220 330 170 280
2 2 84
9 1 72
18 8 56
81 4 48
1 20 15
8 17 9
40 180 20 160 12 6 120 102 168 144 30 18
20 2 28
90 1 24
9 80 10
72 68 6
10 20 5
80 17 3
groß 300 mittel 460
klein 240
400 240 360
k
m
g
20 180 200 40 160 40 180 120 60 50 115 35 100 g 82 133 99 146 m 88 82 36 34 k
0 0 0
0 0 0
0 0 0
0 0 0
0 0 0
29 61 32
|
299
0
0
0 1000
0 0 0
0 0 0
0 0 0
0 0 0
257 242 21
572 364 64
286 61 11
groß 358 mittel 520
klein 122
Abb. 8.10: Eine dreidimensionale Wahrscheinlichkeitsverteilung und direktes Schlussfolgern in dieser Verteilung (d. h. Berechnung einer bedingten Verteilung)
Zu dieser Verteilung sind außerdem die Randverteilungen (dieser Name sagt offen bar, wo sie zu finden sind) angegeben. Sie werden durch Summieren über die heraus fallende Dimension bzw. die herausfallenden Dimensionen berechnet. (Man verglei che dazu die Herleitung des Satzes 8.2.4 über die vollständige Wahrscheinlichkeit auf Seite 290.) So ergibt sich etwa der Wert von 40 ‰ für schwarze Dreiecke in der unten links in Abbildung 8.10 gezeigten Randverteilung auf dem Unterraum Farbe×Form als Summe der Wahrscheinlichkeiten von 2, 18 und 20 ‰ für kleine, mittlere und große schwarze Dreiecke, der Wert von 460 ‰ für mittelgroße Objekte als Summe der Wahr scheinlichkeiten der mittleren Tafel. Betrachten wir hier zunächst wieder ein direktes Schlussfolgern durch Einschrän ken auf die „Scheibe“, die dem Wert des beobachteten Attributes entspricht. Wir neh men wieder an, dass wir durch Beobachtung feststellen, dass das Objekt hellgrau ist. Dann können wir die Wahrscheinlichkeit dieser Farbe auf den Wert eins (denn die se Farbe ist jetzt sicher) und die Wahrscheinlichkeit aller anderen Farben auf den Wert null setzen (denn sie sind ja jetzt unmöglich). Entsprechend passen wir die Wer te in den Tafeln des Schemas an, indem wir die zu den Farben gehörenden „Schei ben“ mit dem Quotienten der Wahrscheinlichkeiten vor und nach der Beobachtung multiplizieren (Abbildung 8.10 rechts). Formal berechnen wir dadurch die bedingten Wahrscheinlichkeiten der verschiedenen Wertkombinationen, gegeben die Beobach tung, dass das Objekt hellgrau ist.⁴ Durch Summation über die Zeilen bzw. Spalten der „Scheibe“ erhalten wir die bedingten (Rand-)Wahrscheinlichkeiten der Formen und Größen. Wie die Relation aus Abbildung 8.2, so lässt sich auch die betrachtete Wahrschein lichkeitsverteilung in die Projektionen (Randverteilungen) auf die Unterräume Far be×Form und Form×Größe zerlegen, denn aus diesen lässt sie sich folgendermaßen
4 Man vergleiche die Definition der bedingten Wahrscheinlichkeit in Definition 8.2.5 auf Seite 289.
300 | 8 Unsicheres, impräzises und unscharfes Wissen k 0
0
0 1000 neu
220 330 170 280 alt · neu alt 40
Farbe
Gro ¨ße
Form neu
alt
180 20 160 572 400 0 0 572 Zeilen12 6 120 102 summe 364 240 0 0 0 364 168 144 30 18 64 360 0 0 0 64 0
m
g
alt 240 460 300 neu 122 520 358 Spaltensumme
· neu alt
20 180 200 29 257 286 40 160 40 61 242 61 180 120 60 32 21 11 k m g
Abb. 8.11: Propagation der Evidenz, dass das Objekt hellgrau ist (alle Angaben in Promille)
rekonstruieren: Um z. B. die Wahrscheinlichkeit kleiner schwarzer Dreiecke zu be stimmen, multipliziert man die Wahrscheinlichkeit schwarzer Dreiecke (40 ‰) mit der Wahrscheinlichkeit kleiner Dreiecke (20 ‰) und teilt durch die (doppelt berück sichtigte) Wahrscheinlichkeit von Dreiecken (400 ‰). Man erhält 2 ‰, wie auch in der dreidimensionalen Verteilung ausgewiesen. Man prüft leicht nach, dass sich alle Werte der dreidimensionalen Verteilung auf analoge Weise berechnen lassen. Diese Zerlegbarkeit der Verteilung lässt sich, wie im relationalen Fall, zum Schluss folgern ausnutzen. Das Prinzip ist in Abbildung 8.11 gezeigt. Wir nehmen wieder an, dass das zufällig ausgewählte Objekt hellgrau ist. Die neue Wahrscheinlichkeit hell grauer Objekte ist folglich eins. Wir bilden den Quotienten der neuen Wahrscheinlich keiten mit den alten (d. h. vor der Beobachtung) und multiplizieren die Randverteilung auf dem Unterraum Farbe×Form spaltenweise mit diesem Quotienten. Man erhält so aus den jeweils im oberen Teil eines Feldes angegebenen alten Wahrscheinlichkeiten die im unteren Teil angegebenen neuen. Das Ergebnis wird durch zeilenweise Sum mation auf die Dimension Form projiziert, was die neuen Wahrscheinlichkeiten der Objektformen liefert. Im zweiten Schritt gehen wir analog vor. Die Randverteilung auf dem Unterraum Form×Größe wird zeilenweise mit dem Quotienten aus alter und neuer Formwahrscheinlichkeit multipliziert und anschließend durch spaltenweise Summation auf die Dimension Größe projiziert, was die neuen Wahrscheinlichkeiten der Objektgrößen liefert. Diese Art, Schlussfolgerungen zu ziehen, rechtfertigt wieder eine Netzdarstellung, wie sie in Abbildung 8.7 gezeigt ist. Diese spezielle Art probabilistischer Netze, die mit Randverteilungen arbeitet, nennt man auch Markow-Netze (nach Andrej A. Markow, 1856–1922). Eine Alternative sind die sog. Bayes-Netze (nach Thomas Bayes, 1702– 1761), die mit bedingten Verteilungen arbeiten und in denen die Kanten des Netzwerks gerichtet sind. Auf diese Netzwerktypen gehen wir unten noch genauer ein. Man beachte, dass natürlich auch bei der Zerlegung von Wahrscheinlichkeits verteilungen die Projektionen sorgfältig gewählt werden müssen, da nicht jede Wahl einer Menge von Randverteilungen eine Zerlegung darstellt, und auch Wahrschein lichkeitsverteilungen nicht immer zerlegbar sind. Bei nicht zerlegbaren Verteilungen
8.2 Unsicheres Wissen
|
301
wird man wieder versuchen, eine möglichst gute Näherung zu finden, bei der die aus den Randverteilungen berechneten Wahrscheinlichkeiten möglichst wenig von den tatsächlichen abweichen. 8.2.2.2 Bedingte Unabhängigkeit Warum lässt sich die oben betrachtete Wahrscheinlichkeitsverteilung in die Randver teilungen auf den Unterräumen Farbe×Form und Form×Größe zerlegen? Um diese Fra ge zu beantworten, stellen wir die oben nur natürlichsprachlich angegebene Berech nungsvorschrift zur Rekonstruktion der Gesamtverteilung aus den Randverteilungen zunächst formal dar. Sei das Attribut A die Farbe des Objektes, das Attribut B seine Form und das Attribut C seine Größe und seien dom(A), dom(B) bzw. dom(C) die zu gehörigen Wertebereiche. Dann gilt in der Wahrscheinlichkeitsverteilung aus Abbil dung 8.10 ∀a ∈ dom(A) : ∀b ∈ dom(B) : ∀c ∈ dom(C): P(A = a ∧ B = b ∧ C = c) =
P(A = a ∧ B = b) ⋅ P(B = b ∧ C = c) P(B = b)
= P(A = a ∧ B = b) ⋅ P(C = c | B = b) = P(B = b ∧ C = c) ⋅ P(A = a | B = b) . Diese Gleichung gilt sicherlich nicht allgemein. Im allgemeinen Fall gilt lediglich (gemäß dem Produktsatz der Wahrscheinlichkeitsrechnung, siehe Satz 8.2.3 auf Sei te 290) ∀a ∈ dom(A) : ∀b ∈ dom(B) : ∀c ∈ dom(C): P(A = a ∧ B = b ∧ C = c) = P(A = a ∧ B = b) ⋅ P(C = c | A = a ∧ B = b) = P(B = b ∧ C = c) ⋅ P(A = a | B = b ∧ C = c) . Durch Vergleich der beiden obigen Gleichungen finden wir, dass ∀a, b, c: P(A = a | C = c ∧ B = b) = P(A = a | B = b)
und
P(C = c | A = a ∧ B = b) = P(C = c | B = b)
gilt.
Das heißt, für alle Werte a, b und c müssen die Ereignisse A = a und C = c bedingt unabhängig sein, gegeben das Ereignis B = b.⁵ Um die Quantifizierung mit allen mög lichen Attributwerten zu sparen, sagt man abkürzend, dass die Attribute A und C be dingt unabhängig seien, gegeben das Attribut B. Diese Betrachtung legt nahe, dass die bedingte Unabhängigkeit von Ereignissen eine wichtige Rolle spielt. In der Tat beruht die Möglichkeit, Zerlegungen durch Gra phen darzustellen, darauf, dass die Begriffe der bedingten Unabhängigkeit von Attri buten und der Trennung von Knoten in einem Graphen eng verwandt sind. Sogenannte bedingte Unabhängigkeitsgraphen, die über den Begriff der Trennung von Knoten ei
5 Vergleiche die Definition der stochastischen Unabhängigkeit von Ereignissen in Definition 8.2.6 so wie Satz 8.2.2 auf Seite 289.
302 | 8 Unsicheres, impräzises und unscharfes Wissen
ne Menge von bedingten Unabhängigkeitsaussagen darstellen, beschreiben eine Zer legung einer Verteilung. Als anschauliches Beispiel betrachte man den Graphen aus Abbildung 8.7. In diesem ist offenbar der einzige Pfad vom Attribut A (Farbe) zum Attribut C (Größe) durch das Attribut B (Form) blockiert und dies drückt gerade die bedingte Unabhängigkeit von A und C gegeben B aus. Außerdem beschreibt er, wie oben angegeben, eine Zerlegung der Verteilung in Randverteilungen. Diese Beziehung zwischen Zerlegungen von Verteilungen und bedingten Unabhängigkeiten sowie ih rer Darstellung durch Graphen betrachten wir, ausgehend vom Begriff der bedingten Unabhängigkeit, etwas genauer. Für die Untersuchung bedingter Unabhängigkeiten ist eine axiomatische Fassung günstig. Zwar könnte man auch stets auf die wahrscheinlichkeitstheoretische Unab hängigkeitsdefinition zurückgreifen, doch erweist es sich als einfacher, wenn man mithilfe geeigneter Axiome aus bereits bekannten bedingten Unabhängigkeiten an dere erschließen kann und nicht immer wieder die Definition prüfen muss. Die Axio matisierung des Unabhängigkeitsbegriffs hat außerdem den Vorteil, dass man nicht an die Wahrscheinlichkeitstheorie gebunden ist, sondern auch andere Kalküle, z. B. die Possibilitätstheorie, betrachten und die Ergebnisse übertragen kann. Axiome zur Beschreibung bedingter Unabhängigkeit wurden schon von [15], aber später auch unabhängig von [48] angegeben. Die folgende Definition führt außerdem eine Schreibweise für bedingte Unabhängigkeiten ein. Definition 8.2.8. Sei U eine Menge mathematischer Objekte, (⋅ ⊥ ⊥ ⋅ | ⋅) eine dreistellige U Relation auf der Potenzmenge 2 von U und W, X, Y und Z vier disjunkte Teilmengen von U. Dann heißen die Aussagen Symmetrie:
(X ⊥ ⊥ Y | Z) ⇒ (Y ⊥ ⊥ X | Z) ,
Zerlegung:
(W ∪ X ⊥ ⊥ Y | Z) ⇒ (W ⊥ ⊥ Y | Z) ∧ (X ⊥ ⊥ Y | Z) ,
Schwache Vereinigung:
(W ∪ X ⊥ ⊥ Y | Z) ⇒ (X ⊥ ⊥ Y | Z ∪ W) ,
Zusammenziehung:
(X ⊥ ⊥ Y | Z ∪ W) ∧ (W ⊥ ⊥ Y | Z) ⇒ (W ∪ X ⊥ ⊥ Y | Z)
die Semi-Graphoid-Axiome. Eine dreistellige Relation (⋅ ⊥ ⊥ ⋅ | ⋅), die die Semi-GraphoidAxiome für alle W, X, Y und Z erfüllt, heißt Semi-Graphoid. Obige Aussagen und Schnitt:
(W ⊥ ⊥ Y | Z ∪ X) ∧ (X ⊥ ⊥ Y | Z ∪ W) ⇒ (W ∪ X ⊥ ⊥ Y | Z)
heißen die Graphoid-Axiome. Eine dreistellige Relation (⋅ ⊥ ⊥ ⋅ | ⋅), die die Graphoid-Axio me für alle W, X, Y und Z erfüllt, heißt Graphoid. Mit der in dieser Definition genannten Menge U ist natürlich die Menge der Attribu te gemeint, die zur Beschreibung des zu modellierenden Weltausschnitts verwendet werden. Die dreistellige Relation (⋅ ⊥ ⊥ ⋅ | ⋅) stellt einen Begriff bedingter Unabhängig keit von Attributen bzw. Attributmengen (bzgl. eines gegebenen Unsicherheitskalküls)
8.2 Unsicheres Wissen
| 303
dar, und zwar bedeutet X ⊥ ⊥ Y | Z, dass X bedingt unabhängig ist von Y, gegeben Z. Mit dieser Interpretation kann man die obigen Axiome wie folgt lesen [45]: Das Symmetrieaxiom sagt: Wenn bei einem Kenntnisstand Z (d. h. bei Kenntnis der Werte der Attribute in Z) gilt, dass wir dadurch, dass wir die Werte der Attribute in X herausfinden (oder kurz: die Information X erhalten), nichts Neues über die Werte der Attribute in Y erfahren, dann erfahren wir auch nichts Neues über die Werte der Attri bute in X, wenn wir die Werte der Attribute in Y herausfinden. Das Zerlegungsaxiom behauptet: Wenn die Kombination zweier Informationen irrelevant für unser Wissen über die Werte der Attribute in X ist, dann ist auch jede einzelne irrelevant. Das Axiom der schwachen Vereinigung sagt, dass das Erfahren irrelevanter Information W nicht dazu führen kann, dass die (vorher) irrelevante Information Y nun relevant für unser Wissen über die Werte der Attribute in X wird. Das Zusammenziehungsaxiom fordert, dass, vorausgesetzt die Kenntnis von X ist irrelevant für unser Wissen über die Werte der Attribute in Y, wenn wir eine irrelevante Information W erhalten haben, die In formation X auch schon vorher (vor Erhalten von W) irrelevant sein muss. Zusammen bedeuten die Axiome der schwachen Vereinigung und der Zusammenziehung, dass ir relevante Information nicht die Relevanz anderer Aussagen des Systems ändert: Was relevant war, bleibt relevant, und was irrelevant war, bleibt irrelevant. Es ist plausibel, dass eine bedingte Unabhängigkeit diese Axiome erfüllen sollte. Das Schnittaxiom fordert: Wenn weder die Information W, bei konstantem X, un ser Wissen über Y beeinflusst, noch die Information X, bei konstantem W, unser Wis sen über Y beeinflusst, dann kann weder die Information W noch die Information X noch die Kombination dieser Informationen unser Wissen über Y beeinflussen (dass sie auch einzeln irrelevant sind, folgt mithilfe des Zerlegungsaxioms). Dieses Axiom ist offenbar weniger plausibel als die anderen. Zwei Informationen über die Werte zweier Attribute können durchaus zusammen oder jede für sich relevant sein für unser Wissen über den Wert eines dritten, obwohl sie beide irrelevant sind, wenn die jeweils andere konstant gehalten wird. Eine solche Situation tritt etwa dann auf, wenn es eine starke Abhängigkeit zwischen den Attributen gibt. Zum Beispiel könnte eine Eins-zueins-Beziehung zwischen den Werten der beiden Attribute bestehen, sodass mit dem Wert des einen der Wert des anderen (implizit) festgelegt wird. Dann liefert es sicher lich keine Information über den Wert eines dritten Attributes, wenn man bei Kenntnis des Wertes des einen den Wert des anderen erfährt. Wenn man aber vorher den Wert keines der beiden Attribute kennt, kann es durchaus für unser Wissen über den Wert eines dritten Attributes relevant sein, den Wert eines der beiden (oder gleich die Werte beider) zu erfahren. Es ist daher nicht überraschend, dass die bedingte stochastische Unabhängigkeit dieses Axiom nicht für beliebige Wahrscheinlichkeitsverteilungen er füllt. Vielmehr gilt der folgende Satz: Satz 8.2.6. Bedingte stochastische Unabhängigkeit erfüllt die Semi-Graphoid-Axiome. Für strikt positive Wahrscheinlichkeitsverteilungen erfüllt sie die Graphoid-Axiome. Der Beweis ist leicht zu führen und findet sich z. B. in [8].
304 | 8 Unsicheres, impräzises und unscharfes Wissen
Die Einführung der Semi-Graphoid- und Graphoid-Axiome ähnelt offenbar der Einführung von Systemen syntaktischer Schlussregeln (z. B. der Resolutionsregel) in der formalen Logik. In der Logik erlauben es solche Schlussregelsysteme, mit rein syn taktischen Mitteln semantische Folgerungen einer Menge von Aussagen abzuleiten. Im Falle der bedingten Unabhängigkeit sind die Semi-Graphoid- bzw. die GraphoidAxiome (zusammen mit dem Modus Ponens) die syntaktischen Schlussregeln. Eine bedingte Unabhängigkeit I folgt dagegen semantisch aus einer Menge I von bedingten Unabhängigkeitsaussagen, wenn sie in allen Verteilungen gilt, die alle Aussagen in I erfüllen. Damit stellt sich, analog zur Logik, die Frage, ob die obigen Axiome korrekt und vollständig sind, d. h., ob sie nur semantisch korrekte Folgerungen liefern und ob auch alle semantischen Folgerungen abgeleitet werden können. Die Korrektheit wird offenbar durch den obigen Satz sichergestellt. Die von [45] aufgestellte Vermu tung, die Semi-Graphoid-Axiome seien für allgemeine (also nicht nur strikt positive) Wahrscheinlichkeitsverteilungen auch vollständig, hat sich jedoch als falsch erwie sen [61]. 8.2.2.3 Darstellung durch Graphen Wie bereits angedeutet, ist ein Begriff von bedingter Unabhängigkeit, jedenfalls wenn er die oben genannten Axiome erfüllt, erstaunlich ähnlich zur Trennung von Knoten bzw. Knotenmengen in Graphen. Dies ermöglicht die Darstellung von (Mengen von) bedingten Unabhängigkeitsaussagen durch (Knotentrennung in) Graphen. Wir gehen daher hier zunächst auf einige Grundbegriffe der Graphentheorie ein. Ein Graph ist ein Tupel G = (V, E), bestehend aus einer (endlichen) Menge V = {A1 , . . . , A n } von n Knoten (vertices) und einer Menge E ⊆ (V × V)\{(A, A) | A ∈ V} von Kanten (edges). Mit dieser Definition sind die Graphen, die wir betrachten, einfach (es gibt keine mehrfachen Kanten zwischen zwei Knoten) und schleifenfrei (es gibt keine Kanten von einem Knoten zu sich selbst). Wir nennen eine Kante (A, B) ∈ E gerichtet (von A nach B), wenn (B, A) ∉ E, und ungerichtet, wenn auch (B, A) ∈ E. Das heißt, bei ungerichteten Kanten sind beide möglichen Richtungen vorhanden. Sind zwei Knoten A und B durch eine gerichtete Kante (A, B) verbunden, so sagen wir, dass A der Elternknoten (oder kurz der Elter) von B und B der Kindknoten (oder kurz das Kind) von A ist. Die Familie eines Knotens A besteht aus dem Knoten A selbst und seinen Elternknoten. Ein Knoten A heißt benachbart oder adjazent zu einem Kno ten B, wenn (A, B) ∈ E oder (B, A) ∈ E. Der Knoten B heißt dann auch Nachbar von A (und umgekehrt). In einem gerichteten Graphen sind die Nachbarn eines Knotens ge rade seine Kinder und seine Eltern. Wir unterscheiden nun gerichtete und ungerichte te Graphen danach, ob sie ausschließlich gerichtete oder ausschließlich ungerichtete Kanten enthalten. Wenn nötig, werden wir bei gerichteten Graphen zur Unterschei dung G⃗ für den Graphen und E⃗ für die Kantenmenge schreiben. Gemischte Graphen (die sowohl gerichtete als auch ungerichtete Kanten enthalten) werden wir nicht be trachten.
8.2 Unsicheres Wissen
|
305
Zwei Knoten A und B heißen verbunden in einem Graphen G = (V, E), geschrie ben A ∼ G B, wenn es eine Folge ⟨C 1 , . . . , C k ⟩ paarweise verschiedener Knoten, Pfad genannt, gibt mit C1 = A, C k = B und ∀i, 1 ≤ i < k : (C i , C i+1 ) ∈ E ∨ (C i+1 , C i ) ∈ E. Ein Graph G = (V, E) ist ein Baum, wenn für jedes Knotenpaar A, B ∈ V nur genau ein Pfad existiert, der sie verbindet. In einem Baum heißen Knoten mit nur einem Nach barn Blätter, alle anderen Knoten heißen innere Knoten. Ein Pfad in einem gerichteten Graphen heißt gerichtet, wenn ∀i, 1 ≤ i < k : (C i , C i+1 ) ∈ E, d. h., ein gerichteter Pfad B und sagen, dass A folgt stets der Richtung der Kanten. Wir schreiben dann A ⇝ G ein Vorfahre von B und B ein Nachfahre von A ist. Ein gerichteter Graph heißt kreisfrei oder azyklisch, wenn ∀A, B ∈ E : A ⇝ G B ⇒ (B, A) ∉ E, d. h., man kann nicht zu einem Knoten zurückkehren, wenn man stets der Richtung der Kanten folgt. Was unter „Trennung“ von Knoten und Knotenmengen in Graphen zu verstehen ist, hängt von der Art des Graphen ab. Für ungerichtete Graphen wird sie so definiert: Definition 8.2.9. Sei G = (V, E) ein ungerichteter Graph und X, Y und Z drei disjunkte Knotenmengen. Z u-trennt X und Y in G, geschrieben ⟨X | Z | Y⟩G , genau dann, wenn alle Pfade von einem Knoten aus X zu einem Knoten aus Y einen Knoten aus Z enthalten. Enthält ein Pfad einen Knoten aus Z, so heißt dieser Pfad (durch Z) blockiert, sonst aktiv. Alternativ können wir sagen: Z u-trennt X und Y in G genau dann, wenn es nach dem Entfernen der Knoten aus Z und der zugehörigen Kanten aus G keinen Pfad mehr von einem Knoten aus X zu einem Knoten aus Y gibt. Für gerichtete Graphen wird ein etwas komplizierteres Kriterium verwendet [19; 45; 63], das weniger natürlich ist als die u-Trennung. Es ist ihm anzusehen, dass mit ihm die bedingten Unabhängigkeiten erfasst werden sollen, die man bei einer Zerle gung mithilfe des Produktsatzes ausnutzt. Definition 8.2.10. Sei G⃗ = (V, E)⃗ ein gerichteter azyklischer Graph (d. h. ohne gerichtete Kreise) und seien X, Y und Z drei disjunkte Teilmengen von Knoten. Z d-trennt X und Y in G,⃗ geschrieben ⟨X | Z | Y⟩G⃗ , genau dann, wenn es keinen Pfad von einem Knoten aus X zu einem Knoten aus Y gibt, auf dem die folgenden Bedingungen gelten: 1. Jeder Knoten, an dem Kanten zusammenlaufen (d. h., an dem die beiden diesen Kno ten berührenden Kanten des Pfades auf diesen Knoten gerichtet sind), ist selbst aus Z oder hat einen (direkten oder indirekten) Nachfolger in Z. 2. Jeder andere Knoten ist nicht in Z. Wenn entlang eines Pfades die beiden obigen Bedingungen gelten, so heißt dieser Pfad aktiv, anderenfalls heißt er (durch Z) blockiert. Beispiel 8.2.5. Gegeben sei der rechts gezeigte gerichte te azyklische Graph. In diesem Graphen gilt ⟨A | 0 | B⟩, da der Pfad A → C ← B blockiert ist, wenn keine Attribute gegeben sind, aber es gilt nicht ⟨A | F | B⟩, da der Pfad A → C ← B durch den Nachfolger F von C aktiviert wird. Es gilt ⟨A | C | E⟩, da der Pfad A → C → E durch C blockiert
A
B C
E
D F
306 | 8 Unsicheres, impräzises und unscharfes Wissen ist, aber nicht ⟨B | C | F⟩, da zwar der Pfad B → C → F blockiert ist, nicht jedoch der Pfad B → D → F. Es gilt ⟨C | B | D⟩, da der Pfad C ← B → D durch B und der Pfad C → F ← D dadurch blockiert ist, dass weder F noch ein Nachfolger von F (den es hier auch gar nicht gibt) gegeben sind. Sowohl u- als auch d-Trennung erfüllen die Graphoid-Axiome. Für die u-Trennung ist dies aus der in Abbildung 8.12 gezeigten Illustration der Graphoid-Axiome [45] (mit Ausnahme der offensichtlichen Symmetrie) ersichtlich. Auch für den Nachweis, dass die d-Trennung die Graphoid-Axiome erfüllt, ist diese Illustration hilfreich, doch spa ren wir uns hier eine detaillierte Untersuchung.
Zerlegung:
W Z Y X
Schwache Vereinigung:
W Z Y X
Zusammenziehung:
W Z Y X
Schnitt:
W Z Y X
⇒ ⇒ ∧ ∧
W
Z Y
∧
X
Z Y
W Z Y X W
Z Y
W Z Y X
⇒ ⇒
W Z Y X W Z Y X
Abb. 8.12: Illustration der Graphoid-Axiome und der Trennung in Graphen
Die Tatsache, dass die Trennung von Knoten in Graphen die gleichen Axiome erfüllt, die auch ein Begriff bedingter Unabhängigkeit erfüllen sollte, legt es nun nahe, eine Menge bedingter Unabhängigkeitsaussagen durch einen Graphen darzustellen. Das können z. B. alle bedingten Unabhängigkeitsaussagen sein, die in einer gegebenen Wahrscheinlichkeitsverteilung gelten. Im Idealfall können wir dann an dem Graphen ablesen, ob zwei Attributmengen bedingt unabhängig sind, gegeben eine dritte, in dem wir feststellen, ob sie durch die dritte Attributmenge in diesem Graphen getrennt werden. Leider lässt sich dieses Optimum, also die völlige Isomorphie der bedingten Unabhängigkeit von Attributen und ihrer Trennung in einem Graphen, nicht im all gemeinen Fall erreichen. Dies liegt erstens daran, dass speziell die u-Trennung Axio me erfüllt, die deutlich stärker sind als die Graphoid-Axiome [48], sodass aus Aus sagen über die Trennung von Knoten andere folgen, deren Analoga aus den entspre chenden bedingten Unabhängigkeitsaussagen nicht gefolgert werden können. Zwei tens erfüllt die bedingte stochastische Unabhängigkeit im allgemeinen Fall nur die Semi-Graphoid-Axiome, sodass bereits Ableitungen mit dem Schnittaxiom ungültig sein können. Drittens gibt es Fälle, in denen bestimmte bedingte Unabhängigkeitsaus sagen, die gleichzeitig in einer Verteilung gelten können, aber keine logischen Folge rungen voneinander sind, nicht gleichzeitig durch einen Graphen dargestellt werden können [5].
8.2 Unsicheres Wissen
| 307
Folglich müssen wir eine schwächere Definition benutzen, als die Isomorphie von bedingter Unabhängigkeit und Trennung zu fordern [45]. Diese Definition ist jedoch ausreichend, da zur Beschreibung von Zerlegungen, die ja unser eigentliches Ziel ist, diese Isomorphie zwar wünschenswert, aber nicht unerlässlich ist. Definition 8.2.11. Sei (⋅ ⊥ ⊥ δ ⋅ | ⋅) eine dreistellige Relation, die die bedingten Unabhän gigkeiten darstellt, die in einer gegebenen Verteilung δ über einer Menge U von Attri buten gelten. Ein ungerichteter Graph G = (U, E) heißt bedingter Abhängigkeitsgraph (conditional dependence graph) oder Abhängigkeitskarte (dependence map) für δ ge nau dann, wenn für alle disjunkten Teilmengen X, Y, Z ⊆ U gilt X⊥ ⊥ δ Y | Z ⇒ ⟨X | Z | Y⟩G , d. h., wenn G durch u-Trennung alle (bedingten) Unabhängigkeiten erfasst, die in δ gelten. Analog heißt G bedingter Unabhängigkeitsgraph (conditional independence graph) oder Unabhängigkeitskarte (independence map) für δ genau dann, wenn für alle disjunkten Teilmengen X, Y, Z ⊆ U gilt ⟨X | Z | Y⟩G ⇒ X ⊥ ⊥δ Y | Z , d. h., wenn G durch u-Trennung nur (bedingte) Unabhängigkeiten darstellt, die in δ gel ten. Falls G sowohl eine Abhängigkeitskarte als auch eine Unabhängigkeitskarte für eine gegebene Verteilung δ ist, so heißt G perfekte Karte (perfect map) für δ. Man beachte, dass ein leerer Graph eine triviale Abhängigkeitskarte, ein vollständiger Graph eine triviale Unabhängigkeitskarte ist, und dass nicht jede Verteilung eine per fekte Karte besitzt. Für gerichtete azyklische Graphen werden die Begriffe natürlich analog definiert. Allerdings ist zu bemerken, dass gerichtete und ungerichtete Gra phen in Bezug auf die Darstellung bedingter Unabhängigkeiten unterschiedlich aus drucksfähig sind. Zum Beispiel gibt es keinen gerichteten azyklischen Graphen, der die gleichen bedingten Unabhängigkeiten darstellt wie der in Abbildung 8.13 gezeig te ungerichtete Graph, und keinen ungerichteten Graphen, der die gleichen beding ten Unabhängigkeiten darstellt wie der ebenfalls in Abbildung 8.13 gezeigte gerichtete azyklische Graph. Im Folgenden beschränken wir uns auf bedingte Unabhängigkeitsgraphen, da es ja gerade die bedingten Unabhängigkeiten von Attributen sind, die es ermöglichen, eine Verteilung zu zerlegen. Der Graph, den wir benutzen, sollte uns daher keine be dingten Unabhängigkeiten ablesen lassen, die in der betrachteten Verteilung nicht gelten, denn sonst erhalten wir möglicherweise keine korrekte Zerlegung der Vertei lung. Ehe wir jedoch diesen Zusammenhang genauer untersuchen können, müssen wir definieren, was es bedeutet, dass eine Verteilung bzgl. eines Graphen zerlegbar ist. A
B
C
D
A
B C
Abb. 8.13: Ein ungerichteter Graph, dem kein gerichteter, und ein gerichteter Graph, dem kein ungerichteter Graph entspricht
308 | 8 Unsicheres, impräzises und unscharfes Wissen Definition 8.2.12. Eine Wahrscheinlichkeitsverteilung p U über einer Menge U = {A1 , . . . , A n } von Attributen heißt zerlegbar oder faktorisierbar bzgl. eines ungerichteten Graphen G genau dann, wenn sie als Produkt von nicht negativen Funktionen auf den maximalen Cliquen von G geschrieben werden kann. Genauer: Sei M eine Familie von Teilmengen von U, sodass die durch die Mengen M ∈ M induzierten Teilgraphen die ma ximalen Cliquen von G sind. Sei außerdem EM die Menge der Ereignisse, die sich durch Zuweisung von Werten an alle Attribute in M beschreiben lassen. Dann heißt p U zer legbar oder faktorisierbar bzgl. G, wenn es Funktionen φ M : EM → ℝ+0 , M ∈ M, gibt, sodass ∀a1 ∈ dom(A1 ) : . . . ∀a n ∈ dom(A n ): pU ( ⋀ Ai = ai ) = ∏ φM ( ⋀ Ai = ai ) . A i ∈U
M∈M
A i ∈M
Beispiel 8.2.6. Gegeben sei der rechts gezeigte ungerichte te Graph. Dieser Graph besitzt vier maximale Cliquen, nämlich die Teilgraphen, die von den Mengen {A1 , A2 , A3 }, {A3 , A5 , A6 }, {A2 , A4 }, und {A4 , A6 } gebildet werden. Er stellt eine Faktorisie rung einer Wahrscheinlichkeitsverteilung über dem gemeinsamen Wertebereich der Attribute A1 bis A6 gemäß der folgenden Formel dar: ∀a1 ∈ dom(A1 ) : . . . ∀a6 ∈ dom(A6 ): p U (A1 = a1 ∧ ⋅ ⋅ ⋅ ∧ A6 = a6 )
A1
A2 A3
A5
=
φ A 1 A 2 A 3 (A1 = a1 , A2 = a2 , A3 = a3 )
⋅
φ A 3 A 5 A 6 (A3 = a3 , A5 = a5 , A6 = a6 )
⋅
φ A 2 A 4 (A2 = a2 , A4 = a4 )
⋅
φ A 4 A 6 (A4 = a4 , A6 = a6 ).
A4 A6
Für solche Zerlegungen gilt der folgende Satz, der üblicherweise [21] zugeschrieben wird, die ihn für den diskreten Fall bewiesen haben (auf den wir uns hier auch be schränken), obwohl, laut [36], dieses Ergebnis von verschiedenen Autoren in unter schiedlichen Formen entdeckt worden zu sein scheint. Satz 8.2.7. Eine strikt positive Wahrscheinlichkeitsverteilung p U über einer Menge U von (diskreten) Attributen ist genau dann faktorisierbar bzgl. eines ungerichteten Gra phen G = (U, E), wenn G ein bedingter Unabhängigkeitsgraph für p U ist. Einen Beweis dieses Satzes findet man z. B. in [36]. Er kann auf allgemeinere Vertei lungen erweitert werden, z. B. auf Verteilungen über reellwertigen Attributen, voraus gesetzt, sie haben eine positive und stetige Dichtefunktion [36]. Für gerichtete Graphen wird der Begriff der Zerlegbarkeit bzw. Faktorisierbarkeit in analoger Weise eingeführt. Der einzige Unterschied besteht darin, dass man, ent sprechend der Richtungen der Kanten, bedingte Wahrscheinlichkeitsverteilungen be nutzt. Definition 8.2.13. Eine Wahrscheinlichkeitsverteilung p U über einer Menge U = {A1 , . . . , A n } von Attributen heißt zerlegbar oder faktorisierbar bzgl. eines gerichteten
| 309
8.2 Unsicheres Wissen
azyklischen Graphen G⃗ genau dann, wenn sie geschrieben werden kann als Produkt der bedingten Wahrscheinlichkeiten der Attribute, gegeben ihre Elternknoten in G,⃗ d. h., wenn gilt ∀a1 ∈ dom(A1 ) : . . . ∀a n ∈ dom(A n ): Aj = aj ) , ⋀ p U ( ⋀ A i = a i ) = ∏ P(A i = a i A i ∈U
A i ∈U
A j ∈parents G⃗ (A i )
wobei parents G⃗ (A i ) die Menge der Elternattribute des Attributes A i in G⃗ ist. Beispiel 8.2.7. Gegeben sei der rechts gezeigte gerichte te azyklische Graph. Die durch diesen Graphen dargestellte Faktorisierung können wir ablesen, indem wir ein Produkt bil den, das einen Faktor für jedes Attribut enthält. Dieser Faktor gibt die bedingte Wahrscheinlichkeit eines Wertes dieses At tributes an, gegeben eine Belegung der Elternattribute. Wir erhalten so ∀a1 ∈ dom(A1 ) : . . . ∀a7 ∈ dom(A7 ):
A1
A2
A3
A4
A5
A6
A7
p U (A1 = a1 ∧ ⋅ ⋅ ⋅ ∧ A7 = a7 ) = P(A1 = a1 ) ⋅ P(A2 = a2 | A1 = a1 ) ⋅ P(A3 = a3 ) ⋅ P(A4 = a4 | A1 = a1 ∧ A2 = a2 ) ⋅ P(A5 = a5 | A2 = a2 ∧ A3 = a3 ) ⋅ P(A6 = a6 | A4 = a4 ∧ A5 = a5 ) ⋅ P(A7 = a7 | A5 = a5 ). Für gerichtete azyklische Graphen gilt analog zu ungerichteten Graphen der Satz: Satz 8.2.8. Eine Wahrscheinlichkeitsverteilung p U über einer Menge U von (diskreten) Attributen ist genau dann faktorisierbar bzgl. eines gerichteten azyklischen Graphen G⃗ = ⃗ wenn G ein bedingter Unabhängigkeitsgraph für p U ist. (U, E), Die Faktorisierbarkeit lässt sich offenbar unmittelbar dadurch rechtfertigen, dass man den (verallgemeinerten) Produktsatz der Wahrscheinlichkeitsrechnung (Satz 8.2.3) auf die Verteilung p U anwendet und dann die durch den Graphen dargestellten be dingten Unabhängigkeiten ausnutzt, um einige der bedingenden Attribute zu strei chen. Ein vollständiger Beweis findet sich z. B. in [36]. Mit dem Begriff der Faktorisierbarkeit bzgl. eines Graphen können wir schließlich die Begriffe des Markov-Netzes und des Bayes-Netzes einführen. Ein Markov-Netz ist ein ungerichteter bedingter Unabhängigkeitsgraph zusammen mit den Funktionen, die in der Zerlegung bzgl. dieses Graphen auftreten. Analog ist ein Bayes-Netz ein ge richteter azyklischer bedingter Unabhängigkeitsgraph zusammen mit den bedingten Wahrscheinlichkeitsverteilungen, die in der Zerlegung bzgl. dieses Graphen auftreten. Beide nennen wir probabilistische (Schlussfolgerungs-)Netze. 8.2.2.4 Evidenzpropagation Um deutlich zu machen, wie man von einer Zerlegung einer mehrdimensionalen Ver teilung zu einem Verfahren zur Propagation von Evidenz in der zugehörigen Unabhän gigkeitskarte gelangt, geben wir eine formale Begründung der Evidenzpropagation
310 | 8 Unsicheres, impräzises und unscharfes Wissen
aus Abbildung 8.11 für das Beispiel aus Abbildung 8.10 an. Wie in den Erläuterungen zu der in Abbildung 8.10 rechts dargestellten Schlussfolgerung im Gesamtraum an gegeben, besteht eine wahrscheinlichkeitstheoretische Schlussfolgerung in der Be stimmung der bedingten Wahrscheinlichkeiten der Werte eines Attributes, gegeben die Werte der beobachteten Attribute. In diesem Beispiel haben wir, wenn wieder das Attribut A für die Farbe, das Attribut B für die Form und das Attribut C für die Größe eines Objektes stehen, zunächst die bedingten Wahrscheinlichkeiten der Werte des Attributes B zu bestimmen, gegeben dass das Attribut A den Wert aobs hat („obs“ für „observed“, also beobachtet). Das heißt, wir müssen ∀b ∈ dom(B) berechnen: P(B = b | A = aobs ) = P(
⋁
A=a∧B=b∧
a∈dom(A) (1)
=
∑
⋁ c∈dom(C)
∑
C = c A = aobs )
P(A = a ∧ B = b ∧ C = c | A = aobs )
a∈dom(A) c∈dom(C) (2)
=
∑
∑
P(A = a ∧ B = b ∧ C = c) ⋅
a∈dom(A) c∈dom(C) (3)
=
=
P(A = a | A = aobs ) P(A = a)
P(A = a ∧ B = b)⋅P(B = b ∧ C = c) P(A = a | A = aobs ) ⋅ P(B = b) P(A = a) a∈dom(A) c∈dom(C) ∑
∑ a∈dom(A)
∑
P(A = a ∧ B = b)⋅
P(A = a | A = aobs ) ⋅ ∑ P(C = c | B = b) P(A = a) c∈dom(C) ⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟ =1
P(A = a | A = aobs ) = ∑ P(A = a ∧ B = b)⋅ . P(A = a) a∈dom(A) In dieser Ableitung gilt (1) wegen der Kolmogorow-Axiome (Definition 8.2.3) und (3) wegen der bedingten Unabhängigkeit von A und C gegeben B (Abschnitt 8.2.2.2), die es erlaubt, die Wahrscheinlichkeitsverteilung zu zerlegen. (2) gilt, da erstens P(A = a ∧ B = b ∧ C = c) { { , P(A = aobs ) P(A = a ∧ B = b ∧ C = c | A = a obs ) = { { 0, {
falls a = aobs , sonst ,
und zweitens P(A = a ∧ A = aobs ) {1, falls a = aobs , ={ P(A = a) 0, sonst , { und folglich, unabhängig davon, ob a = aobs oder nicht, P(A = a ∧ B = b ∧ C = c | A = a obs ) = P(A = a ∧ B = b ∧ C = c) ⋅
P(A = a | A = aobs ) . P(A = a)
Es ist klar, dass der linke Teil von Abbildung 8.11 nur eine grafische Darstellung dieser Berechnungsformel für alle möglichen Werte des Attributes B ist.
8.2 Unsicheres Wissen
| 311
Im zweiten Schritt der Evidenzpropagation haben wir die bedingten Wahrschein lichkeiten der Werte des Attributes C zu berechnen, wieder gegeben, dass das Attri but A den Wert aobs hat. Das heißt, wir müssen ∀c ∈ dom(C) berechnen: P(C = c | A = aobs ) = P(
A=a∧
⋁ a∈dom(A)
(1)
=
∑
⋁ b∈dom(B)
∑
B = b ∧ C = c A = aobs )
P(A = a ∧ B = b ∧ C = c | A = aobs )
a∈dom(A) b∈dom(B) (2)
=
∑
∑
P(A = a ∧ B = b ∧ C = c)⋅
a∈dom(A) b∈dom(B) (3)
=
=
P(A = a | A = aobs ) P(A = a)
P(A = a ∧ B = b)P(B = b ∧ C = c) P(A = a | A = aobs ) ⋅ P(B = b) P(A = a) a∈dom(A) b∈dom(B) ∑
∑
P(B = b ∧ C = c) P(B = b) b∈dom(B) ∑
P(A = a | A = aobs ) ∑ P(A = a ∧ B = b) ⋅ P(A = a) a∈dom(A) ⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟ =P(B=b|A=a obs)
=
∑
P(B = b ∧ C = c)⋅
b∈dom(B)
P(B = b | A = aobs ) . P(B = b)
(1), (2) und (3) gelten hier aus den gleichen Gründen wie oben. Es ist klar, dass der rechte Teil von Abbildung 8.11 nur eine grafische Darstellung dieser Berechnungsfor mel für alle möglichen Werte des Attributes C ist. Aus diesen beiden Berechnungen lässt sich bereits das sehr einfache Prinzip der Ableitung von Evidenzpropagationsformeln ablesen. Bei der Berechnung der beding ten Wahrscheinlichkeiten treten offenbar immer Summen über die Werte der ande ren, nicht beobachteten Attribute auf. Die Zerlegung der Verteilung ermöglicht es, aus diesen Summen Faktoren, die nicht von der Summationsvariable abhängen, heraus zuziehen. Die so umgeschriebenen Summen lassen sich dann oft vereinfachen. Ent weder summieren sie lediglich alle bedingten Wahrscheinlichkeiten der Werte eines Attributes und sind folglich eins, oder sie sind bereits in einem früheren Schritt der Propagation berechnet worden. Man beachte, dass diese Ableitung nicht auf ungerichtete Graphen beschränkt ist. Denn z. B. das Ergebnis der ersten Berechnung lässt sich ja auch schreiben als P(B = b | A = aobs ) = P(B = b | A = a) ⋅ P(A = a | A = aobs ) , was offenbar, wegen der bedingten Wahrscheinlichkeit P(B = b | A = a), einer Propa gation entlang einer gerichteten Kante A → B entspricht. Diese Betrachtung erklärt auch den Namen Bayes-Netz, denn wäre die Kante B → A gerichtet, so müssten wir P(B = b | A = aobs ) =
P(A = a | B = b) ⋅ P(B = b) ⋅ P(A = a | A = aobs ) P(A = a)
312 | 8 Unsicheres, impräzises und unscharfes Wissen
berechnen, also die bayessche Formel (Satz 8.2.5) anwenden, um die bedingte Wahr scheinlichkeit und damit gewissermaßen die Kante „umzudrehen“. obs) (für un Man beachte weiter das typische Auftreten von Faktoren wie P(A=a|A=a P(A=a) gerichtete Graphen) oder nur P(A = a | A = aobs ) (für gerichtete Graphen), die man anschaulich Evidenzfaktoren nennen könnte, da sie die Evidenz wiedergeben, dass das Attribut A den beobachteten Wert aobs hat. Im Prinzip kann man auch bei mehr als einem beobachteten Attribut mit einem solchen einfachen Evidenzfaktor für jedes beobachtete Attribut rechnen, wenn man berücksichtigt, dass man dann zur Norma lisierung der Wahrscheinlichkeiten den Faktor γnorm =
∏ A i ∈O P(A i = a i,obs ) P (⋀ A i ∈O A i = a i,obs )
hinzufügen muss, wobei O die Menge der beobachteten Attribute ist.⁶ Dieser Faktor kann jedoch in den Rechnungen vernachlässigt werden, da er für gegebene Beobach tungen konstant ist und folglich durch eine Normalisierung ersetzt werden kann: Die Summe der (bedingten) Wahrscheinlichkeiten aller Werte eines Attributes muss ja, mit oder ohne Evidenz, stets eins ergeben. Mit der gleichen Vorgehensweise wie in den oben betrachteten Beispielen lassen sich leicht allgemeine Propagationsformeln für einfach zusammenhängende Unab hängigkeitskarten, also Bäume, ableiten. Auch wenn wir hier nicht auf alle Details eingehen können (ein interessierter Leser sei auf die ausführlicheren Darstellungen in z. B. [27; 45] oder [8] verwiesen), wollen wir doch versuchen, die wesentlichen Prin zipien deutlich zu machen. Wir beschränken uns dazu (zunächst) auf einfache, unge richtete Bäume. Wie wir schon in den Beispielen gesehen haben, laufen die Rechnun gen im Wesentlichen in den Verbundverteilungen ab, die den Kanten entsprechen. Es ist daher hilfreich, diese Verteilungen in den Vordergrund zu setzen, was dadurch geschieht, dass man die Attribute in einem sog. Verbundbaum darstellt. In diesem bil den die Kanten, die die Verbundverteilungen repräsentieren, die Knoten. Diese Kno ten werden so verbunden, dass wieder ein Baum entsteht (d. h., unter Umständen wird nicht jedes Paar von Verbundverteilungen, das ein Attribut gemeinsam hat, durch ei ne Kante verbunden). Den Verbundbaum für das ein fache Beispiel aus Abschnitt 8.2.2.1 Farbe,Form Form,Gro ¨ße Form (hier gibt es nur eine Möglichkeit, während im allgemeinen Fall Wahl Abb. 8.14: Verbundbaum möglichkeiten bestehen können) zeigt Abbildung 8.14. Man beachte, dass die einzige Kante in diesem Verbundbaum mit dem Schnitt der Attributmengen der Knoten, der auch als Separatormenge be zeichnet wird, belegt ist (Achtung: das Rechteck in der Mitte ist kein Knoten, sondern 6 Denn im Allgemeinen wird das Produkt der Wahrscheinlichkeiten der beobachteten Werte nicht mit ihrer gemeinsamen Wahrscheinlichkeit übereinstimmen.
8.2 Unsicheres Wissen
|
313
zeigt lediglich die Separatormenge der einzigen Kante). Die Evidenzpropagation in einem Verbundbaum, der aus einem ungerichteten, azyklischen Unabhängigkeits graphen (also einem ungerichteten Baum) erzeugt wurde, ist sehr einfach, da die Separatormengen immer nur ein Attribut enthalten, auf das marginalisiert werden muss und von dem aus, mithilfe des Faktors aus neuer und alter Wahrscheinlichkeit der Werte des Attributs, die verbundene Verbundverteilung aktualisiert wird. Betrachten wir dazu die in Abbildung 8.10 dargestellte Verteilung in Verbindung mit dem Verbundbaum aus Abbildung 8.14. Angenommen wir erhalten die Evidenz, dass die Farbe des Objektes weiß ist, so müssen wir die Verteilungen der anderen Attri bute entsprechend anpassen. Gemäß dem Verbundbaum aktualisieren wir zuerst die Verteilung von „Farbe, Form“. Die 17 % weiße Objekte stellen nun 100 % der mögli chen Objekte dar, was wiederum die Wahrscheinlichkeiten für die Form des Objektes beeinflusst (die nun 11,8 %, 70,6 % bzw. 17,6 % für dreieckige, viereckige bzw. runde Objekte sind). Die Veränderung der Verteilung des Attributes Form be wirkt wiederum eine Änderung der Verteilung des Attributes k m g Größe, die in der rechts gezeigten Tabelle dargestellt ist. Da 6 53 59 mit ist die Evidenzpropagation für dieses sehr einfache Beispiel 118 470 118 88 59 29 auch schon abgeschlossen. Die durchgeführten Berechnungen entsprechen im Wesentlichen den Berechnungen, die wir schon Abb. 8.15: Neue Ver in Abbildung 8.11 gesehen haben (aber für eine andere Beobach teilung Form×Größe tung). Allerdings wurden die Berechnungen hier auf einem Ver bundbaum ausgeführt, der die Weitergabe der Information steu ert. Mit dem Verbundbaumverfahren werden nach und nach alle Verbundverteilun gen und Separatorwahrscheinlichkeiten gemäß der erhaltenen Evidenz angepasst. In dem jeweils innerhalb eines Verbundbaumknotens die Verteilung neu berechnet wird, werden die daraus resultierenden Verteilungsänderungen über die Separatormengen (hier: die Menge {Form} in Abbildung 8.14) an andere Verbundbaumknoten weiter gereicht. In diesen werden auch wieder die zugehörigen Verteilungen neu berechnet usf. Auf einer Baumstruktur lässt sich auch die Verbundverteilung über alle Attribute sehr einfach angeben (Abschnitt 8.2.2.2). Hat man einen zyklenfreien, ungerichteten Unabhängigkeitsgraphen G = (V, E), mit V = {A1 , . . . A n }, so gilt ∀a(1) , . . . , a(n) : P(A1 = a(1) ∧ ⋅ ⋅ ⋅ ∧ A n = a(n) ) = ( ∏ P(A))⋅( ∏ A∈V
{A,B}∈E
P(A ∧ B) ). P(A) ⋅ P(B)
Mithilfe dieser Formel lassen sich die allgemeinen Propagationsformeln, die wir oben anschaulich anhand eines Verbundbaums beschrieben haben, recht leicht ableiten (auch wenn wir dies hier nicht im Detail tun wollen). Im Grunde geht man auf die glei che Weise vor wie in dem oben betrachteten einfachen Beispiel (geometrische Objek
314 | 8 Unsicheres, impräzises und unscharfes Wissen
te): Für ein beobachtetes Attribut wird ein Evidenzfaktor hinzugefügt. Für ein Zielat tribut, für dessen Werte wir die neuen Wahrscheinlichkeiten berechnen wollen, sum mieren wir die obige Zerlegungsformel über alle anderen Attribute. Dann können wir Faktoren, die nicht von bestimmten Summationsvariablen abhängen, aus den zugehö rigen Summen herausziehen und erhalten so am Ende eine Art Kettenrechnung für die Evidenzpropagation, die die Information von Kante zu Kante (also von Knoten zu Kno ten des Verbundbaums) weitergibt. Die Form der einzelnen Rechenschritte ist stets die gleiche wie schon in dem mehrfach betrachteten einfachen Beispiel: Es werden Quotienten aus neuer und alter Wahrscheinlichkeit der verschiedenen Attributwerte gebildet, mit denen eine zugehörige Verbundverteilung multipliziert wird. Diese wird dann auf das jeweils andere Attribut marginalisiert (durch Summation über die Werte des ersten Attributes). Bei der Verallgemeinerung dieses Verfahrens treten im Wesentlichen nur zwei Probleme auf, die sich jedoch recht leicht lösen lassen, ohne dass das Verfahren an sich deutlich komplizierter wird. Erstens treten unter Umständen gewisse technische Schwierigkeiten auf, wenn Evidenz für mehr als ein Attribut vorliegt. Das ist natürlich im Grunde kein Problem, da man ja Evidenz über mehrere Attribute Schritt für Schritt einbeziehen kann: Erst propagiert man die Evidenz eines ersten Attributes und aktua lisiert alle Verteilungen des Verbundbaums. Dann propagiert man die Evidenz eines zweiten Attributes auf dem aktualisierten Verbundbaum. Der Nachteil dieses Verfah rens ist, dass dann für jedes Attribut, für das eine Evidenz vorliegt, der komplette Graph durchlaufen werden muss. Verfahren, wie sie z. B. in [8] oder [27] vorgestellt werden, benutzen stattdessen ein Nachrichtensystem, in dem die Knoten Nachrich ten über Änderungen ihrer Verteilungen an ihre Nachbarn verschicken. Knoten aktua lisieren ihre eigenen Verteilungen dann anhand aller eingehenden Nachrichten und versenden ihrerseits wieder Nachrichten, nachdem ihre Aktualisierung abgeschlos sen ist. Eine genaue Herleitung dieses Verfahrens würde jedoch den Rahmen dieses Kapitels sprengen. Es möge hier genügen, wenn wir erwähnen, dass mit diesem Ver fahren beliebig viel Evidenz (d. h. für beliebig viele Attribute) mit nur zwei Durchläu fen des Graphens propagiert werden kann, nämlich einer „Sammelphase“ und einer „Verteilungsphase“. Ein zweites Problem besteht darin, dass sich Abhängigkeiten nur selten durch ei ne einfache Baumstruktur darstellen lassen. Das gerade vorgestellte Verfahren lässt sich aber nur auf Baumstrukturen anwenden. In der Praxis liegen dagegen oft Struk turen vor, wie die in Abbildung 8.16 links gezeigte. Da es hier mehrere Wege von einem Knoten zu einem anderen gibt, kann es mit einem auf Bäumen basierenden Verfahren zu Berechnungsfehlern kommen. Der Grund für diese Berechnungsfehler ist, dass sich nur schwer verhindern lässt, dass eine Evidenz doppelt berücksichtigt wird, nämlich dann, wenn sie auf zwei verschiedenen Wegen zu einem Knoten gelangt. Eine mehrfa che Einrechnung der gleichen Evidenz kann jedoch zu falschen Ergebnissen führen, da die Einrechnung im Wesentlichen aus der Multiplikation mit einem Faktor besteht. In einer formalen Ableitung der Formeln für die Evidenzpropagation zeigt sich dies
8.2 Unsicheres Wissen
A B
A C
D
| 315
⇒
BC D
Abb. 8.16: Durch Verschmelzen von Attributen können mehrfache Wege eliminiert werden
dadurch, dass man eben nicht zu einer einfachen Kettenrechnung kommt, wie sie für das oben besprochene Verfahren notwendig wäre, sondern komplexere Formeln er hält. Um mit diesem Problem umzugehen, sind verschiedene Verfahren vorgeschlagen worden. Zu den bekanntesten gehört die Cliquenbaumpropagation (clique tree propa gation) [37], dessen Idee darin besteht, einen mehrfach zusammenhängenden Gra phen durch Zusammenfassen von Knoten (z. B. Abbildung 8.16 rechts) in eine ein fach zusammenhängende Struktur, eben einen Cliquenbaum, zu überführen. Ohne auf Details eingehen zu können (z. B. [5; 8] oder [31]), bemerken wir hier, dass die se Umformung im Wesentlichen aus zwei Schritten besteht. Im ersten Schritt wird der Unabhängigkeitsgraph trianguliert: Es wird durch Einfügen von Kanten sichergestellt, dass der (ungerichtete) Graph keine Kreise mit mehr als drei Knoten enthält, in denen nur die Nachbarn im Kreis durch eine Kante verbunden sind. Anschaulich: Es wird sichergestellt, dass der Graph aus Dreiecken aufgebaut ist (daher auch der Name Tri angulierung). Triangulierte Graphen sind in einem gewissen Sinne azyklisch, nämlich wenn man die Struktur ihrer Cliquen betrachtet, wobei eine Clique ein vollständiger Teil graph ist (alle möglichen Kanten sind vorhanden). Im zweiten Schritt kann man dann aus dem triangulierten Graphen einen neuen Graphen bilden, in de*m* alle maxima len Cliquen des Ursprungsgraphen Knoten sind.⁷ Aus dieser Struktur lässt sich immer ein Verbundbaum ableiten, ähnlich dem oben betrachteten, nur dass die Knoten mehr als zwei Attribute enthalten können. Außerdem kann man stets sicherstellen, dass ein Attribut, das in zwei Knoten des Verbundbaums enthalten ist, auch in allen Knoten auf dem diese Knoten verbindenden Pfad enthalten ist. Dadurch wird eine sonst mögliche inkonsistente Propagation vermieden. Der sich ergebende Verbundbaum hat nun zwar Knoten mit mehr als zwei Attribu ten und ggf. auch Separatormengen mit mehr als einem Attribut, aber er kann immer noch in gleicher Weise behandelt werden wie die oben betrachteten Verbundbäume. Die auftretenden Attributmengen (speziell der Separatoren) können nämlich einfach als komplexe (Pseudo-)Attribute aufgefasst werden, die als Wertebereich das Kreuz produkt der Wertebereiche der enthaltenen Attribute haben. Damit lassen sich alle Verfahren zur Berechnung der Verteilungsänderungen recht direkt übertragen. Man geht also im Prinzip genauso vor, wie wir es in Abbildung 8.11 veranschaulicht haben,
7 Eine Clique ist maximal, wenn sich nicht Teil einer größeren Clique ist.
316 | 8 Unsicheres, impräzises und unscharfes Wissen
nur dass man einen komplexeren Graphen hat, folglich mehr Knoten zu verarbeiten sind und die den Knoten zugeordneten Wahrscheinlichkeitsverteilungen größer sind. 8.2.2.5 Lernen aus Daten Bisher haben wir weitgehend die Frage unberücksichtigt gelassen, wie man denn eine geeignete Unabhängigkeitskarte für einen gegebenen Weltausschnitt findet. Das klas sische Vorgehen ist, einen menschlichen Experten zu bitten, einen solchen Graphen anzugeben. Oft wird dieser dann von einem kausalen Modell des betrachteten Welt ausschnitts ausgehen und einfach die (vermuteten) kausalen Einflüsse mit den ge richteten Kanten eines Bayes-Netzes identifizieren. Ein solches Vorgehen macht zwar starke Annahmen über die Art und Weise, in der sich kausale Beziehungen statistisch zeigen (insbesondere setzt es voraus, dass ein Netz kausaler Beziehungen die durch die d-Trennung ablesbaren stochastischen Unabhängigkeiten zeigt), doch ist ein sol ches Vorgehen oft erfolgreich. Die bedingten Wahrscheinlichkeiten des Bayes-Netzes werden anschließend von dem Experten geschätzt oder mit statistischen Verfahren aus Erfahrungsdaten bestimmt. Man kann jedoch auch versuchen, eine Zerlegung automatisch zu finden, indem man eine Datenbank von Beispielfällen analysiert. Das Prinzip eines solchen Lernens aus Daten wollen wir hier auch kurz anhand des oben betrachteten relationalen Bei spiels erläutern. Nehmen wir an, uns sei die Tabelle aus Abbildung 8.1 gegeben und wir suchten eine (möglichst gute) Zerlegung in Projektionen auf zweidimensionale Unterräume. Wir könnten natürlich alle Möglichkeiten ausprobieren, jeweils die zu sätzlichen Würfel zählen und schließlich die Möglichkeit mit der geringsten Zahl zu sätzlicher Würfel wählen. Ein solches Verfahren ist allerdings für praktische Proble me wegen der sehr großen Zahl an Möglichkeiten nicht brauchbar. Angenehm wäre es, wenn man an einer Projektion schon ablesen könnte, ob man sie in der Zerlegung benötigt oder nicht. In der Tat lässt sich eine Heuristik angeben, die solche Einzel bewertungen durchführt und gute Chancen verspricht, eine geeignete Zerlegung zu finden. Die diesem Verfahren zugrunde liegende Idee ist sehr einfach: Der Schnitt der zy lindrischen Erweiterungen der Projektionen soll möglichst wenige (zusätzliche) Wert kombinationen enthalten, um die gegebene Relation gut anzunähern. Es ist plausibel, dass der Schnitt wenige Wertkombinationen enthält, wenn dies schon für die zylindri schen Erweiterungen gilt. Die Zahl der Kombinationen in einer zylindrischen Erweite rung wird aber direkt von der Zahl der Wertkombinationen in der Projektion bestimmt (die zylindrische Erweiterung fügt ja nur alle Werte der fehlenden Dimension[en] hin zu). Wir sollten daher Projektionen wählen, in denen möglichst wenige Kombinatio nen vorkommen. Allerdings sollte man die unter Umständen unterschiedliche Größe des Unter raums berücksichtigen – denn in großen Unterräumen wird es im Allgemeinen mehr mögliche Kombinationen geben, ohne dass dies etwas über die Zerlegbarkeit zu besa
8.2 Unsicheres Wissen
| 317
Tab. 8.1: Auswahlkriterien für relationale Projektionen Unterraum
Relative Anzahl möglicher Wertkombinationen
Gewinn an Hartley-Information
Farbe×Form
6 12 8 12 5 9
log2
Farbe×Größe Form×Größe
= = =
1 2 2 3 5 9
= 50 % ≈ 67 % ≈ 56 %
12 6 log2 12 8 log2 95
=1 ≈ 0,58 ≈ 0,85
gen hätte – und deshalb nicht die absolute, sondern die relative Zahl der Wertkombi nationen bestimmen. Für unser Beispiel sind die Werte dieses Kriteriums in der zwei ten Spalte der Tabelle 8.1 angegeben. Offenbar führt eine Auswahl der beiden Projek tionen mit den kleinsten Werten zu der richtigen Zerlegung. In der dritten Spalte ist der Logarithmus zur Basis zwei dieser Anzahlen berechnet, den man auch als Hart ley-Informationsgewinn bezeichnet [22]. Für die Auswahl von Randverteilungen einer mehrdimensionalen Wahrscheinlichkeitsverteilung lassen sich ähnliche Heuristiken angeben, wie z. B. der Shannon-Informationsgewinn [9; 34; 57]. Ein Verfahren zum Lernen eines bayesschen Netzes, das auf einem bayesschen Ansatz (im Sinne des bayesschen Satzes) beruht, wurde in [10] und [23] vorgeschla gen und genauer untersucht: Mithilfe eines Bewertungsmaßes werden Elternmengen bestimmt. Weiter gibt es Ansätze, eine geeignete Netzstruktur abzuleiten, indem ei ne Reihe bedingter Unabhängigkeitstest durchgeführt werden, um für Variablenpaare (möglichst kleine) Bedingungsmengen zu finden, unter denen sie unabhängig werden (z. B. [49; 60]). Ein Beispiel für einen solchen Ansatz wird in Abschnitt 8.2.4 bespro chen, da er auch benutzt werden kann, um (Hinweise auf) kausale Beziehungen zu finden. Einen Überblick über Lernverfahren findet man z. B. in [5; 28].
8.2.3 Wissensrevision Mithilfe der Evidenzpropagation, wie wir sie im vorangehenden Abschnitt betrachtet haben, berechnet man effektiv bedingte Wahrscheinlichkeitsverteilungen, wobei die gemachten Beobachtungen die Bedingungen darstellen. Im Englischen spricht man daher auch von conditioning oder focusing der Verteilung bzgl. der durch Beobachtung gegebenen Evidenz. In industriellen Anwendungen tritt aber auch das Problem auf, eine Wahrscheinlichkeitsverteilung, die durch ein grafisches Modell dargestellt wird, so anzupassen, dass sie bestimmten Rahmenbedingungen genügt, z. B. vorgegebenen Randverteilungen. Für diese Aufgabe, die man als Modellrevision oder Wissensrevisi on bezeichnet, sind reine Methoden der Evidenzpropagation jedoch ungeeignet. Dieses Problem tritt z. B. in einem System auf, in dem der Fahrzeughersteller Volkswagen Markow-Netze für die Teilebedarfsplanung und das Kapazitätsmanage ment einsetzt [18]. In dieser Anwendung müssen die Wahrscheinlichkeiten von Kom
318 | 8 Unsicheres, impräzises und unscharfes Wissen
binationen von Ausstattungsmerkmalen (also das durch das grafische Modell darge stellte Wissen) so angepasst werden, dass bestimmte bedingte oder Randverteilungen erfüllt sind, die sich z. B. aus Kapazitätsgrenzen, technischen Regeln, Verkaufspro grammen oder der Dynamik der Kundenwahlen verschiedener Ausstattungsoptionen ergeben. Ein altes Markow-Netz muss dazu so revidiert werden, dass das neue, re vidierte Netz vorgegebene Randverteilungen besitzt. Dabei sollen allerdings nur die numerischen Parameter des Netzes verändert, seine Struktur (also sein Graph und da mit die durch diesen ausgedrückten bedingten Unabhängigkeiten) dagegen erhalten werden. Weiter kann man fordern, dass bedingte Abhängigkeiten zwischen Variablen – bestimmt über geeignete Abhängigkeitsmaße – gleich bleiben oder sich nur so wenig wie möglich ändern. Dies entspricht einem Prinzip, das aus Ansätzen zur sog. Theorie revision in der klassischen Logik bekannt ist, die z. B. auf der Basis kontrafaktischer Annahmen durchgeführt wird [17], nämlich das Prinzip der minimalen Änderung. Die ses Prinzip besagt, dass man das vorhandene Wissen nur so wenig wie möglich ändern sollte, um die gegebenen (neuen) Randbedingungen zu erfüllen. Für ein Markow-Netz bedeutet dies, dass die neuen Verteilungsbedingungen erfüllt sind, aber nur minimale Änderungen der qualitativen und quantitativen Interaktionsstrukturen vorgenommen wurden [18]. Das neue Netz hat die gleichen Cliquen wie das alte und auch die Kreuz produkte der Verteilungen, die nicht von Revisionsinformationen betroffen sind, blei ben erhalten. Die Änderung der durch das gesamte Netz dargestellten Wahrschein lichkeitsverteilung kann z. B. mit der Kullback-Leibler-Informationsdivergenz [34], ei nem klassischen Maß für die Verschiedenheit von Wahrscheinlichkeitsverteilungen, gemessen werden. Dieses Anpassungsproblem kann unter Rückgriff auf einige Konzepte der multiva riaten Statistik, insbesondere des iterativen proportionalen Anpassens (iterative pro portional fitting) [65] gelöst werden [18]. Das Prinzip dieses Ansatzes verdeutlichen wir an einem ganz einfachen Beispiel, in dem eine zweidimensionale Wahrscheinlich keitsverteilung so angepasst werden soll, dass sie eine vorgegebene Randverteilung besitzt. Die Verteilung, die wir dazu betrachten, ist in Abbildung 8.17 oben links dar gestellt: Zwei jeweils zweiwertige Variablen haben eine gemeinsame Verteilung, die in einer 2 × 2-Tabelle angegeben ist. Unterhalb und rechts dieser Tabelle sind außerdem die Randverteilungen gezeigt. Ziel der Anpassung ist es, die Verteilung der horizon tal aufgetragenen Variable auf die unterhalb der Tabelle fett angegebenen Werte zu ändern, während die Verteilung der vertikal aufgetragenen Variable auf ihrem derzei tigen Stand erhalten werden soll (ebenfalls in Fettdruck rechts angegeben). Die Anpassung durchläuft mehrere Schritte, in denen der Reihe nach die Ver teilung zuerst auf die untere Randverteilung, dann auf die rechte, dann wieder auf die untere usw. angepasst wird. Rechnerisch ist das Vorgehen dabei analog zu dem der Evidenzpropagation (Abbildung 8.11): Im ersten Schritt wird die gemeinsame Ver teilung spaltenweise mit dem Verhältnis aus Ziel- und aktueller Wahrscheinlichkeit der horizontalen Randverteilung multipliziert, dann über die Zeilen summiert, um
8.2 Unsicheres Wissen
·neu alt
Σ 100 400 500 500 300 200 500 500 400 600
·neu alt
alt
neu
·neu alt
167 222 389 500 500 111 611 500 400 600
alt
667 333 neu
667 333 neu
Σ
·neu alt
229 253 482 500 438 80 518 500 624 376
alt
667 333 neu
neu
Σ
neu
alt
667 333 neu
Σ
215 285 389 500 409 91 611 500 624 376
alt
neu
667 333 neu
238 262 482 500 422 78 518 500 660 340
| 319
neu
242 258 500 500 425 75 500 500 667 333
alt
neu
667 333 neu
Abb. 8.17: Iteratives proportionales Anpassen an einem sehr einfachen Beispiel (alle Angaben von Wahrscheinlichkeiten sind in Promille und auf Promille gerundet)
die neue vertikale Randverteilung zu erhalten (Abbildung 8.17 oben Mitte). Bei ei ner Evidenzpropagation ist diese neue Randverteilung, was man berechnen möch te. Hier jedoch soll die alte Randverteilung erhalten bleiben. Sie wurde jedoch durch die Anpassung der gemeinsamen Verteilung verändert. Daher wird im zweiten Schritt die gemeinsame Verteilung zeilenweise mit dem Verhältnis aus Ziel- und aktueller Wahrscheinlichkeit der vertikalen Randverteilung multipliziert, um diese Randvertei lung wiederherzustellen, und dann spaltenweise summiert, um die neue horizonta le Randverteilung zu erhalten (Abbildung 8.17 oben rechts). Damit weicht nun aber diese Randverteilung wieder von den Zielwerten ab (obwohl diese durch den ersten Schritt hergestellt wurden). Also wird der Vorgang wiederholt: Spaltenweises Multi plizieren mit Verhältnis aus Ziel- und aktueller Randwahrscheinlichkeit und Bilden der Zeilensummen (Abbildung 8.17 unten links), wodurch wieder die vertikale Rand verteilung verändert wird. Also erneutes zeilenweises Multiplizieren mit dem Verhält nis aus Ziel- und aktueller Randwahrscheinlichkeit und Bilden der Spaltensummen (Abbildung 8.17 unten Mitte). Man sieht bereits nach diesen vier Schritten, dass die Abweichungen zwischen den gewünschten und den aktuellen Randverteilungen deutlich kleiner geworden sind. Weitere Wiederholungen des Vorgehens, bis die Änderungen genügend klein sind, führt schließlich zu dem in Abbildung 8.17 unten rechts gezeigten Ergebnis, in dem die gewünschten Randverteilungen exakt eingehalten sind. Die Abhängigkeiten sind offenbar recht gut erhalten worden: In der linken Spalte ist immer noch die obere Wertkombination, in der rechten die untere deutlich wahrscheinlicher. Insbesondere hat sich auch keine unabhängige Verteilung ergeben, sondern die Abhängigkeit der beiden Variablen ist so gut wie möglich erhalten geblieben. In der Tat ist die neue gemeinsame Verteilung diejenige, die unter allen Verteilungen mit den gewünschten Randverteilungen die kleinste Kullback-Leibler-Informationsdivergenz zur ursprüng lichen Verteilung besitzt.
320 | 8 Unsicheres, impräzises und unscharfes Wissen
Zwar war die Verteilung dieses Beispiels nur zweidimensional, aber es sollte nach dem Abschnitt zur Evidenzpropagation klar sein, dass dieses Verfahren völlig analog auch allgemeiner angewandt werden kann, nämlich wenn ein grafisches Modell in ei nen Verbundbaum umgewandelt wurde (Abbildung 8.14). Denn dann ist das Rechen schema im Grunde das gleiche, das auch zur Evidenzpropagation eingesetzt wird – nur dass es iteriert werden muss, weil man nicht an bedingten (Rand-)Verteilungen interessiert ist, sondern die durch das grafische Modell (bzw. seinen Verbundbaum) dargestellte Wahrscheinlichkeitsverteilung auf gewünschte Randverteilungen anpas sen möchte. Man beachte, dass, obwohl das Rechenschema dem der Evidenzpropagation ent spricht (Abbildung 8.11), etwas anderes berechnet wird. Zunächst ist festzuhalten, dass bei einer Evidenzpropagation für die beobachteten Variablen nur Randvertei lungen auftreten, die für einen Wert der Variable eine eins (sicherer Wert) und für alle anderen eine null (unmöglicher Wert) haben, während hier beliebige Verteilun gen auftreten können. Zwar treten bei einer Evidenzpropagation für nicht beobachtete Variablen auch „echte“ Randverteilungen auf, aber diese behalten die Werte, die be rechnet wurden, und werden nicht, wie bei der Verteilungsanpassung, auf gewünsch te Randverteilungen gezwungen. Man beachte weiter, dass für beobachtete Variablen eine Rückpropagation von Information die Randverteilung nicht mehr ändern kann, da sie durch die Nulleinträge (es gibt nur einen Wert mit Wahrscheinlichkeit eins) fest gelegt ist, was sich in alle gemeinsamen Verteilungen überträgt, an denen die beob achtete Variable beteiligt ist.
8.2.4 Erschließen kausaler Beziehungen Im Abschnitt 8.2.2 haben wir gesehen, wie Graphen zur Darstellung einer Menge be dingter Unabhängigkeiten eingesetzt werden können. Speziell gerichtete Graphen legen nun aber eine weitergehende Interpretation nahe. Zwar sind die Kantenrich tungen zunächst nur eine anschauliche Codierung bedingter Unabhängigkeiten oder zeigen (in der Faktorisierungssicht) an, welche Attribute als Bedingungen in den benötigten bedingten Wahrscheinlichkeitsverteilungen auftreten. Aber die Kanten richtung ist zumindest sehr suggestiv und wird daher gern als kausale Beziehung zwischen einer Ursache und einer Wirkung gedeutet. Die Tatsache, dass bayessche Netze ursprünglich causal belief networks genannt wurden, legt davon Zeugnis ab. Auch zeigt dies die übliche Praxis, bayessche Netze zu entwerfen, indem man ein Netzwerkmodell der kausalen Einflüsse eines Weltausschnitts erstellt, das dann in eine gerichtete Unabhängigkeitskarte umgewandelt wird. In vielen Fällen funktio niert dieses Vorgehen auch erstaunlich gut. Damit stellt sich die nahe liegende Frage, ob sich durch das Lernen der Struktur gerichteter grafischer Modelle aus Daten etwas über kausale Beziehungen erfahren lässt; vielleicht nicht sicher und nicht umfassend, aber doch ansatzweise. Natür
8.2 Unsicheres Wissen
| 321
lich muss man auch hier berücksichtigen, dass allein aus Korrelation oder allgemein stochastischer Abhängigkeit nicht auf Kausalität geschlossen werden kann.⁸ Aber Korrelation kann ja immerhin Hinweise auf mögliche kausale Beziehungen liefern, und Lernverfahren für grafische Modelle könnten vielleicht bessere Hinweise liefern, weil sie nicht aus einfachen Abhängigkeiten, sondern aus der stochastischen Struktur mehrerer Variablen und den zwischen ihnen bestehenden bedingten Unabhängigkei ten bestimmt wurden. Übersichten findet man z. B. in [46; 47; 50]. 8.2.4.1 Induktive Kausalität Grundlage des Erschließens kausaler Beziehungen aus bedingten Unabhängigkeiten ist eine Überlegung, die auf [52] zurückgeht. Diesem ging es zwar eigentlich um das Problem der Zeitrichtung in der Physik: Warum ist eine Zeitrichtung ausgezeichnet, die Zeit nicht umkehrbar? (Im Gegensatz zum Raum, in dem man sich in beliebige Richtungen bewegen kann.) Der Bezug zur Kausalität wird dadurch hergestellt, dass nach unserem üblichen Verständnis eine Ursache ihrer Wirkung zeitlich vorange hen muss. Wenn es also gelingt, Kausalität allein über bedingte Unabhängigkeiten und ohne Rückgriff auf die Zeit zu definieren, dann hat man auch eine Erklärung für die Zeitrichtung gefunden, die sich dann nämlich aus der Kausalitätsrichtung ergibt. C A
C
A ⊥⊥ B | ∅ B
kausale Kette
A ⊥⊥ B | C
A
A ⊥⊥ B | ∅ B
A ⊥⊥ B | C
gemeinsame Ursache
A
B C
A ⊥⊥ B | ∅ A ⊥⊥ B | C
gemeinsame Wirkung
Abb. 8.18: Die drei kausalen Grundstrukturen und zugehörige bedingte Unabhängigkeiten
Dazu betrachtete [52] die drei kausalen Grundstrukturen, die in Abbildung 8.18 gezeigt sind. In einer kausalen Kette verursacht eine Ursache (hier A) vermittelt über eine Zwi schengröße (hier C) eine Wirkung (hier B). Deutet man den zugehörigen Graphen als Unabhängigkeitskarte (Definition 8.2.11 und liest die gemäß d-Trennung geltenden bedingten Abhängigkeiten und Unabhängigkeiten ab, so erhält man, dass A und B abhängig sind, solange C nicht gegeben ist, aber unabhängig werden, wenn man C festhält. Ähnlich sieht es aus, wenn eine Ursache zwei verschiedene Wirkungen hat (Abbildung 8.18 Mitte): Solange die Ursache (hier C) nicht gegeben ist, sind die bei den Wirkungen (hier A und B) abhängig, aber sie werden unabhängig, wenn man die Ursache (hier C) festhält. Grundsätzlich verschieden ist aber die dritte Struktur (Ab
8 Das klassische Beispiel hierzu ist die deutliche Korrelation zwischen der Zahl der frei lebenden Störche und der Zahl der Neugeborenen, die ca. von 1965–1980 bestand [58].
322 | 8 Unsicheres, impräzises und unscharfes Wissen
bildung 8.18 rechts): Erzeugen zwei Ursachen (hier A und B) eine Wirkung (hier C), wobei es irrelevant ist, ob die Ursachen die Wirkung jeweils einzeln oder nur zusam men hervorbringen können, dann ist die Situation genau umgekehrt: A und B sind unabhängig, solange C, die Wirkung, nicht gegeben ist, werden aber abhängig, wenn man C festhält. Es besteht eine fundamentale Asymmetrie. Diese Sicht ist sehr plausibel, wie Beispiele zeigen: In der kausalen Kette sei A die Position des Gaspedals eines Fahrzeugs, C die zugeführte Kraftstoffmenge und B die Motordrehzahl. Hält man die zugeführte Kraftstoffmenge konstant, verschwindet die vorher bestehende Abhängigkeit von Pedalposition und Motordrehzahl. Bei der ge meinsamen Ursache sei A der Speiseeisumsatz, B die Zahl der Badeunfälle und C die Außentemperatur. Solange die Außentemperatur nicht auf einem Wert festgehalten (oder Daten mit einem festen Wert ausgewählt) werden, besteht eine Abhängigkeit zwischen dem Speiseeisumsatz und der Zahl der Badeunfälle: Beide sind um so hö her, je wärmer es ist – letztere, weil bei warmem Wetter mehr Menschen baden ge hen, wodurch auch mehr beim Baden verunglücken. Bei einer gemeinsamen Wirkung beschreibe A das Vorliegen einer Grippeerkrankung, B das Vorliegen einer Maserner krankung und C das Auftreten von Fieber. Solange über die Körpertemperatur nichts bekannt ist, haben Grippe und Masern nichts miteinander zu tun (sie sind unabhän gig), aber wenn man das Auftreten von Fieber festhält, so erhält man daraus, dass kei ne Grippe vorliegt, eine höhere Wahrscheinlichkeit für Masern, weil das Fieber eine Ursache haben muss. Besonders deutlich wird dies, wenn wir vereinfachend anneh men, dass nur Grippe und Masern Fieber verursachen können: Dann kann bei Vorlie gen von Fieber aus der Abwesenheit der einen Krankheit sicher auf das Vorliegen der anderen geschlossen werden. Auf dieser Grundlage haben [49] einen Algorithmus entwickelt, den sog. induc tive causation algorithm, mit dem man versuchen kann, mithilfe der Ergebnisse von bedingten Unabhängigkeitstests, die man zwischen den Attributen eines Weltaus schnitts durchführt, zumindest eine teilweise gerichtete Struktur kausaler Abhän gigkeiten zu erschließen. Obwohl dieser Algorithmus recht hübsch ist und in vielen Fällen durchaus sinnvolle Ergebnisse liefern kann, sollte man seine Mächtigkeit nicht überschätzen. Er beruht auf einigen sehr starken und keineswegs unproblematischen Annahmen, durch die die Sicherheit des Ergebnisses nicht garantiert werden kann. Diese Annahmen sowie die genaue algorithmische Form des Vorgehens gehen jedoch über dieses Kapitel weit hinaus. Eine genaue Untersuchung und Kritik der Annahmen, die bis auf die oben betrachteten kausalen Grundstrukturen zurückgeht und insbe sondere in der stochastischen Interpretation der Struktur mit gemeinsamer Ursache ein schwerwiegendes Problem erblickt, findet man in [3]. Die Grundidee des Algorithmus soll aber an einem ganz einfachen Beispiel kurz erläutert werden. Wir nehmen an, dass ein Weltausschnitt durch vier Attribute A, B, C und D beschrieben werden kann (Abbildung 8.19 links). Wir nehmen an, dass um fangreiche Tests auf bedingte Unabhängigkeit das Ergebnis erbrachten, dass nur die folgenden bedingten Unabhängigkeiten gelten: A ⊥ ⊥ B | 0, A ⊥ ⊥ D | C, B ⊥ ⊥ D | C sowie
| 323
8.2 Unsicheres Wissen
A
A
A C
D
B Attribute/Variablen
C B kausales Skelett
C
D
D
B kausale Richtungen
Abb. 8.19: Erschließen einer kausalen Struktur aus bedingten Unabhängigkeiten
die aus diesen mithilfe der Semi-Graphoid-Axiome ableitbaren (Definition 8.2.8). Alle anderen Paare von Attributen seien stets abhängig, unabhängig davon, welche Bedin gungen gewählt werden, und auch die in der Liste auftretenden Paare von Attributen seien abhängig unter allen anderen möglichen Bedingungen. Wir können nun zunächst feststellen, dass es in einer (gerichteten) Unabhängig keitskarte zwischen A und C, zwischen B und C und zwischen C und D Kanten geben muss, denn es gibt ja nach unserer Annahme keine bedingten Unabhängigkeiten für diese Variablenpaare. Das ist aber nur möglich, wenn sie durch eine Kante verbunden sind. Damit erhalten wir die in Abbildung 8.19 in der Mitte gezeigte Struktur, die man ein Skelett des gesuchten gerichteten Graphen nennen kann, weil nur die benötigten Kanten eingetragen sind, sie aber noch keine Richtung zugewiesen bekommen haben. Diese Richtungen werden im letzten Schritt bestimmt. Wir wissen z. B., dass A⊥ ⊥ B | 0 gilt, aber A ⊥ ⊥ B | C nicht (weil ja alle nicht in obiger Liste aufgeführten oder aus ihnen mit den Semi-Graphoid-Axiomen ableitbaren Unabhängigkeiten nicht gelten). Das ist aber bei einer Struktur, bei der zwei Variablen (hier A und B) mit einer dritten (hier C), aber nicht miteinander verbunden sind, nur möglich, wenn es sich um die Situation einer gemeinsamen Wirkung handelt (Abbildung 8.18 rechts). Folglich müssen die Kanten von A nach C und von B nach C zeigen (Abbildung 8.19 rechts). Dass außerdem die verbleibende Kante von C nach D gerichtet sein muss, erhält man wie folgt: Wir wissen, dass A ⊥ ⊥ D | C gilt, aber A ⊥ ⊥ D | 0 nicht (wieder, weil alle nicht in obiger Liste aufgeführten und nicht mit den Semi-Graphoid-Axiomen aus den aufgeführten ableitbaren Unabhängigkeiten nicht gelten). Die einzige Struktur von zwei Variablen (hier A und D), die jeweils mit einer dritten (hier C) verbun den sind, aber nicht miteinander, die diese bedingten (Un-)Abhängigkeiten und die bereits bekannte Kantenrichtung (von A nach C) erfüllt, ist die kausale Kette (Abbil dung 8.18 links). Folglich muss die Kante von C nach D gerichtet sein. Man beachte, dass man das gleiche Ergebnis erzielt, wenn man von B ⊥ ⊥ D | C und B ⊥ ⊥̸ D | 0 ausgeht. Allerdings kann man nicht immer alle Kanten eines kausalen Skeletts ausrich ten, wie es in diesem sehr einfachen Beispiel möglich war. Zum Beispiel kann in der in Abbildung 8.20 gezeigten Struktur die Kante zwischen B und D nicht ausgerichtet werden, da beide Kantenrichtungen mit dem gleichen Satz bedingter (Un-)Abhängig keiten vereinbar sind.
324 | 8 Unsicheres, impräzises und unscharfes Wissen
Man kann sogar nicht einmal sagen, dass die Kan A B te eine der beiden Richtungen haben muss, und wir le diglich mit den vorhandenen Informationen nicht sagen C D können, welche Richtung dies ist. Es besteht die Möglich keit, dass es ein weiteres, unbeobachtetes Attribut, also Abb. 8.20: Eine Ausrichtung eine versteckte Variable gibt, die eine gemeinsame Ur aller Kanten ist nicht immer möglich sache von B und D ist. Auch eine solche Konfiguration ist mit dem gleichen Satz bedingter (Un-)Abhängigkeiten konsistent. Lediglich eine versteckte gemeinsame Wirkung kann ausgeschlossen wer den. In diesem Fall ist die wahre (aber versteckte) Situation nicht sinnvoll durch eine Kantenrichtung beschreibbar. Eine ungerichtete Kante ist noch die beste Wahl. Auch bei gerichteten Kanten besteht natürlich im Prinzip die Möglichkeit, dass die Ursache-Wirkung-Beziehung nicht direkt ist, sondern durch eine oder mehrere ver steckte Variablen vermittelt wird. Hier liefern aber die oben erwähnten, recht starken Annahmen, dass eine versteckte gemeinsame Ursache oder versteckte gemeinsame Wirkung nicht möglich sind. Versteckte Variablen können nur vermittelnde Zwischen größen in einer kausalen Kette sein, und die ist durch die Kantenrichtung sinnvoll beschrieben. 8.2.4.2 do-Operator Eine recht klassische Sicht der Kausalität besteht darin, dass man den Satz „p ist die Ursache von q“ als kontrafaktische Konditionalaussage deutet, nämlich als „Man könnte q herbeiführen, wenn man p tun könnte.“. Diese Sicht ist auch als die inter ventionistische (oder manipulative) Konzeption der Kausalität bekannt [67], da sie mit Eingriffen in den Vorgang arbeitet. Sie ist insofern plausibel, als sie erstens der Asymmetrie von Ursache und Wirkung Rechnung trägt (es kann eben nicht p hervor gebracht werden, indem man q tut, sondern nur q, indem man p tut) und zweitens Situationen, in denen der Zusammenhang zwischen zwei Ereignissen z. B. dadurch hervorgerufen wird, dass sie beide Wirkungen der gleichen Ursache sind, erkannt wer den können. So erhöht die Beobachtung, dass eine Barometeranzeige fällt, zwar die Wahr scheinlichkeit, dass ein Sturm aufkommt, aber dieses Fallen verursacht den Sturm nicht. Könnte man in den Vorgang eingreifen, indem man die Barometeranzeige änderte, so änderte man dadurch nicht die Wahrscheinlichkeit, dass ein Sturm auf kommt. Mit dieser Sicht sind natürlich einige Probleme verknüpft. Was soll als zuläs siges Ändern der Anzeige des Barometers in einem solchen Fall gelten? Das mechani sche Bewegen des Zeigers eines Druckdosenbarometers? Das Einfüllen zusätzlichen Quecksilbers in ein Quecksilberbarometer? Das Einschließen des Barometers in eine Druckkammer, die dann auf den gewünschten Wert gebracht wird? Alle diese Eingriffe verändern sicher die Anzeige des Barometers, aber da sie die Wahrscheinlichkeit des Auftretens des Sturmes nicht ändern, ist es nicht das Barometer bzw. seine Anzeige,
8.2 Unsicheres Wissen
| 325
das den Sturm verursacht. Aber war das die Aussage, die geprüft werden sollte? In den ersten beiden Eingriffen wurde das Barometer verändert. Es ist also nicht mehr das gleiche Barometer und man sieht sich der Kritik ausgesetzt, dadurch möglicherweise auch den kausalen Zusammenhang zerstört zu haben. Bei dem letzten Eingriff hat man das Barometer in einer spezifischen Weise von seiner Umwelt isoliert. Wieder ist also die Kritik möglich, durch diese Isolation sei der Kausalzusammenhang zerstört worden. Tatsächlich ist die Konzeption aber auch eine kontrafaktische, also eine, die ge gen die Tatsachen steht. Es heißt ja „. . . , wenn ich p tun könnte“, also nimmt man offenbar an, p nicht oder zumindest nicht so tun zu können, dass der Eingriff kei ne Kritik hervorruft. Damit hat die Kausalitätsbehauptung de facto den Status eines Gedankenexperimentes: Eine (physikalische) Situation wird durch Probehandeln in einem hypothetischen Raum untersucht, und unser Hintergrundwissen darüber, wie die Welt „funktioniert“, liefert die Kausalbeziehung – offenbar ein rationalistischer, kein empirischer Ansatz. Dennoch hat [46] einen seiner Kausalitätsansätze auf diese Sicht aufgebaut, in dem im Rahmen einer formalen Sprache ein zusätzlicher, neuer Operator eingeführt wird: Der sog. do-Operator (von engl. to do – etwas tun) markiert einen Eingriff in das System bzw. in ein Modell des Systems. Es steht do(U) für eine externe Intervention, die die Wahrheit von U (der Ursache) erzwingt. Untersucht wird, ob sich die Wahr scheinlichkeit von W (der Wirkung) durch do(U) ändert, speziell, ob gilt: P(W | do(U)) > P(W | do(¬U)) . Die bedingte Wahrscheinlichkeit P(W | U) stellt dagegen nur eine Wahrscheinlichkeit dar, die aus einer passiven Beobachtung von U resultiert (bei der U also nicht durch einen Eingriff hervorgerufen wurde) und daher nicht mit P(W | do(U)) zusammenfällt. Dies soll an einem einfachen Beispiel erläutert werden, das das in diesem Zu sammenhang wichtige simpsonsche Paradoxon zeigt [59]. James Lind (1716–1794) ent deckte, dass man Skorbut, eine Vitamin-C-Mangelerkrankung, die besonders bei See leuten auftrat, durch das Verabreichen von Zitronensaft erfolgreich behandeln kann. Nehmen wir an, wir führen ein entsprechendes (fiktives) Experiment durch, bei dem von insgesamt 80 Seeleuten, die an Skorbut leiden, die Hälfte mit Zitronensaft be handelt wird, und finden die in Abbildung 8.21 links gezeigten Häufigkeiten [46]. Aus dieser Tabelle ergibt sich, entgegen der Erwartung, dass eine Behandlung mit Zitro nensaft sogar zu weniger Heilungen führt (50 % ohne, aber nur 40 % mit Behandlung mit Zitronensaft). Dieses überraschende Ergebnis entsteht aber dadurch, dass die Be handlung nicht unabhängig vom Alter der Seeleute durchgeführt wurde und die Be handlung je nach Alter unterschiedlich erfolgreich ist. Teilt man die Seeleute in alte und junge (Abbildung 8.21 Mitte und rechts), dann ist in beiden Gruppen ein Behand lungserfolg festzustellen (bei den alten Seeleuten 30 % Heilung mit Zitronensaft ge gen nur 20 % Heilung ohne, bei jungen 70 % gegen 60 %). Es gibt also eine positive Wirkung.
326 | 8 Unsicheres, impräzises und unscharfes Wissen
Heilung:
alle Seeleute nein ja
nein 20 Behandlung: ja 24 44
20 16
alte Seeleute nein ja
%
40 40
50 40
36
8 21
2 9
29
11
10 30
% 20 30
junge Seeleute nein ja 12 3
18 7
15
25
30 10
% 60 70
Abb. 8.21: Ein (fiktives) Experiment zur Behandlung von Skorbut mit Zitronensaft
Was wir hier beobachten, ist im Grunde nur eine allgemeinere Form der bedingten Unabhängigkeit. Bei Bestehen einer bedingten Unabhängigkeit verschwindet durch das Festhalten des Wertes einer dritten Variable die Abhängigkeit, die man bei Frei lassen dieser dritten Variable zwischen den beiden anderen feststellt. Beim simpson schen Paradoxon [59] kehrt sich dagegen die Abhängigkeit um; im Prinzip ist das aber das gleiche Phänomen. Man beachte, dass die Abhängigkeit auch einfach nur schwä cher (oder auch stärker) werden könnte. Das sähe man nicht als Paradoxon, es wäre aber immer noch das gleiche Phänomen. Dieses Phänomen kann immer dann auftre ten, wenn man den stochastischen Zusammenhang von drei Variablen untersucht. Im Skorbut-Beispiel wird do-Operator nun wie folgt eingesetzt: Durch „Setzen“ der Variable B (Behandlung mit Zitronensaft) wird die Abhängigkeit dieser Variable vom Alter A aufgehoben (Abbildung 8.22). Man berechnet jetzt das plausible Ergebnis P(H = ja | do(B = ja)) = ∑a∈{alt,jung} P(H = ja | A = a ∧ B = ja) ⋅ P(A = a) = 30 % ⋅
1 2
+ 70 % ⋅
1 2
=
50 % ,
P(H = ja | do(B = nein)) = ∑a∈{alt,jung} P(H = ja | A = a ∧ B = nein) ⋅ P(A = a) = 20 % ⋅
1 2
+ 60 % ⋅
1 2
=
40 % .
Stattdessen ergibt die Standardberechnung die bedingten Wahrscheinlichkeiten P(H = ja | B = ja) = ∑a∈{alt,jung} P(H = ja | A = a ∧ B = ja) ⋅ P(A = a | B = ja) = 30 % ⋅
3 4
+ 70 % ⋅
1 4
=
40 % ,
P(H = ja | B = nein) = ∑a∈{alt,jung} P(H = ja | A = a ∧ B = nein) ⋅ P(A = a | B = nein) = 20 % ⋅
1 4
+ 60 % ⋅
3 4
=
50 % ,
die auch in Abbildung 8.21 links angegeben sind. Man könnte also auch sagen, dass das simpsonsche Paradoxon dadurch auftritt, dass P(H | B) mit P(H | do(B)) verwech selt wird. Die kausale Abhängigkeit zeigt sich in P(H | do(B)).
8.3 Unscharfes Wissen
A B
A H
B
H
| 327
Abb. 8.22: Strukturen ohne (links) und mit do-Operator (rechts). Es bedeuten: A – Alter, B – Behandlung mit Zitronensaft, H – Heilung
In einem bayesschen Netz G wird der do-Operator allgemein so verwendet [46] (Abbildung 8.22): Ist eine (Knoten-)Menge X das Ziel der Intervention, so werden alle Variablen in X auf den erzwungenen („wahren“) Wert gesetzt. Im Graphen G werden alle Kanten entfernt, die in das Ziel der Intervention X führen (da ja der Zustand der Knoten in X nicht mehr durch seine Eltern bestimmt wird, sondern durch den Ein griff von außen gesetzt wurde). Alle Kanten, die aus der Interventionsmenge heraus führen, werden dagegen behalten und können folglich für Schlussfolgerungen aus genutzt werden. Es wird nun festgestellt, für welche Zielmenge Y und welche Werte dieser Zielmenge sich die Wahrscheinlichkeit erhöht. Diese sind dann durch X verur sacht. Man sieht so direkt den Zusammenhang mit dem (kontrafaktischen) Gedanken experiment: Der hypothetische Raum mit seinen aus einem Hintergrundwissen be stimmten Eigenschaften wird durch das bayessche Netz dargestellt. In diesem Raum wird ein Probehandeln durchgeführt, indem bestimmte Variablen auf bestimmte Wer te fixiert werden, und es wird dann geprüft, welche Auswirkungen dies in dem hypo thetischen Raum hat, indem die durch den Eingriff gesetzte Evidenz propagiert wird. Man beachte dabei, dass in diesem Fall nicht aus empirisch erhobenen Daten oder in der Wirklichkeit durchgeführten Experimenten eine Kausalitätsbeziehung abgelei tet wird, wie bei der induktiven Kausalität. Vielmehr wird in einem (kausalen) Mo dell eines Gegenstandsbereichs, der hier ein bayessches Netz ist, mithilfe von (hy pothetischen) Eingriffen erkundet, welche Wirkungen aus bestimmten Eingriffen fol gen. Insofern handelt es sich nicht um das Erschließen von kausalen Bedingungen aus Daten, sondern um das Erschließen konkreter kausaler Beziehungen aus einem kausalen Modell, also um ein analytisches oder deduktives statt um ein induktives Schließen.
8.3 Unscharfes Wissen Die Fuzzy-Mengentheorie bzw. die Fuzzy-Logik[68] sind die vorherrschenden Ansätze zur Behandlung von Unschärfe und Vagheit. Mit diesen Ansätzen versucht man eini ge der Probleme, die sich aus der Unschärfe sprachlicher Ausdrücke ergeben, dadurch zu lösen, dass man die Begriffe der Zugehörigkeit zu einer Menge bzw. des Wahrheits wertes „fuzzifiziert“, d. h., statt nur ist Element und ist nicht Element bzw. wahr und falsch Grade der Zugehörigkeit bzw. Wahrheit oder Möglichkeit einführt.
328 | 8 Unsicheres, impräzises und unscharfes Wissen
8.3.1 Fuzzy-Mengen Die Probleme, die sich durch die Unschärfe sprachlicher Begriffe ergeben, lassen sich am besten mithilfe des klassischen Sorites-Paradoxons deutlich machen. Als SoritesParadoxon bezeichnete man ursprünglich die Frage „Wie viele Körner machen einen Haufen?“.⁹ Dieses Paradoxon soll von Eubulides von Milet (4. Jahrhundert v. Chr.) auf gebracht worden sein. Wir betrachten die folgende Form des Sorites-Paradoxons: 1. Wenn man von einem Sandhaufen ein Sandkorn wegnimmt, dann bleibt ein Sandhaufen übrig. 2. Eine Ansammlung von einer Milliarde Sandkörnern ist ein Sandhaufen. Aus diesen beiden, offenbar wahren Aussagen folgt: 3. Eine Ansammlung von 999.999.999 Sandkörnern ist ein Sandhaufen. Diese Schlussfolgerung können wir aber zu einer Prämisse machen und erschließen so: 4. Eine Ansammlung von 999.999.998 Sandkörnern ist ein Sandhaufen. Indem wir die Schlusskette fortsetzen, erhalten wir schließlich, dass eine Ansamm lung von drei, zwei, einem, ja sogar gar keinem Sandkorn ein Sandhaufen ist. Diese Schlussfolgerung ist jedoch offenbar falsch, denn sonst lägen ja überall Sandhaufen herum. Das Problem besteht darin, dass der Ausgangspunkt, nämlich dass eine Milliar de Sandkörner ein Sandhaufen sind, sicherlich richtig ist, wir aber in der Schlusskette kaum einen einzelnen Schluss identifizieren können, der zu einer falschen Schlussfol gerung führt, und der erklärte, warum wir schließlich ein falsches Ergebnis erhalten. Es gibt keine scharf bestimmte Anzahl von Sandkörnern, die noch einen Sandhaufen bilden, während eine Ansammlung von Sandkörnern mit einem Sandkorn weniger kein Sandhaufen mehr ist, keinen Sprung von wahr auf falsch an einer bestimmten Sandkornanzahl. Man wird vielmehr sagen müssen, dass die Konklusionen „allmäh lich“ falsch werden, und zwar während wir uns schließend durch die Penumbra des Begriffs „Sandhaufen“ bewegen. Es liegt nahe, dieses „allmähliche“ Falschwerden der Konklusionen dadurch zu modellieren, dass man neben den Wahrheitswerten wahr und falsch Zwischenwerte, also Grade der Wahrheit, einführt. Allgemein kann man mehrwertige Logiken einfüh ren [20]. In der Penumbra des Begriffs „Sandhaufen“ wird der Wahrheitsgrad dann mit jedem Schluss, d. h. mit jedem Sandkorn, das entfernt wird, ein bisschen klei ner, bis er schließlich den Wert falsch erreicht. Genauso können wir mit dem Begriff
9 Der Name dieses Paradoxons leitet sich ab von griech. σωϱoς (soros), was „Haufen“ bedeutet. Das ́ Paradoxon hieß ursprünglich einfach σωϱ ιτης (sorites), d. h. „Häufelnder“. Manchmal ergänzte man ́ ́ (syllogismos) was dann „Haufenschluss“ ergibt. noch λ oγoς (logos) oder σνλλoγισμ oς
8.3 Unscharfes Wissen
|
329
der Zugehörigkeit zu einer Menge verfahren, der in der klassischen Mengenlehre auch nur zweiwertig ist: Entweder ein Element gehört zu einer Menge oder es gehört nicht dazu. Da sich jedoch die Ansammlungen von Sandkörnern, die unter den Begriff des Sandhaufens fallen, nicht scharf von jenen trennen lassen, die nicht unter ihn fallen, erscheint es sinnvoll, für Ansammlungen von Sandkörnern, die in der Penumbra des Begriffs „Sandhaufen“ liegen, Grade der Zugehörigkeit einzuführen. Diese Zugehörig keitsgrade sollten um so höher sein, je mehr Sandkörner die Ansammlung enthält. Formal lässt sich der Begriff einer Fuzzy-Menge über die sog. Indikatorfunktion ei ner Menge einführen. Diese Funktion ordnet den Elementen einer gegebenen Grund menge, die in der zu beschreibenden Menge enthalten sind, eine eins, allen ande ren eine null zu und zeigt so an (lat. indicare, anzeigen), welche Elemente enthalten sind. Definition 8.3.1. Sei U eine Menge und X ⊆ U. Die Indikatorfunktion von X bzgl. U ist die Funktion I X : U → {0, 1} ,
{1, u → { 0, {
falls u ∈ X , sonst .
Indem man außer null und eins auch Zwischenwerte zulässt, erhält man eine FuzzyMenge. Definition 8.3.2. Sei U eine Menge. Eine Fuzzy-Menge über U ist eine Funktion μ : U → [0, 1]. Wie bei der Wahrscheinlichkeit stellt sich natürlich auch hier das Problem, wie denn die formale Theorie zu interpretieren ist, insbesondere welche Bedeutung ein Zuge hörigkeitsgrad zwischen null und eins, z. B. 0,7, hat. Zwar haben wir aus den obigen Erklärungen eine Intuition, was der Zugehörigkeitsgrad ausdrücken soll, doch wis sen wir noch nicht, wie man die Zahlenwerte der Zugehörigkeitsgrade festlegen und begründen kann. In der Tat ist diese Frage nach der Semantik der Zugehörigkeitsgrade ein funda mentales Problem der Fuzzy-Mengentheorie bzw. Fuzzy-Logik, das in den meisten Pu blikationen zu diesen Themen nicht hinreichend gelöst wird. Zwar gibt es z. B. mit der Possibilitätstheorie und ihren verschiedenen Interpretationen Ansätze, die ange deuteten Fragen zu beantworten [4], doch würde eine genaue Erörterung möglicher Semantiken von Zugehörigkeitsgraden den Rahmen dieses Kapitels sprengen. Wir verfolgen daher hier einen anderen, für die meisten Anwendungen hinrei chenden, oft sogar besser geeigneten Ansatz, der auf der folgenden Einsicht beruht: Das Problem, die genauen Werte der Zugehörigkeitsgrade zu rechtfertigen, stellt sich eigentlich nur dann, wenn man sich darauf versteift, Fuzzy-Mengen als die Bedeutung oder die (mathematische) Interpretation eines sprachlichen Ausdrucks aufzufassen. Doch das ist oft gar nicht notwendig. Vielmehr haben wir oft folgende Situation vor liegen, die bereits im Abschnitt über Unschärfe behandelt wurde: Ein (menschlicher)
330 | 8 Unsicheres, impräzises und unscharfes Wissen
Experte gibt (z. B. für die Steuerung eines Prozesses) unscharfe Regeln an. Da die Re geln unscharf formuliert sind, gibt es zwar Bereiche, in denen sie sicher anwendbar sind, und solche, in denen sie sicher nicht gelten, aber auch Zwischenbereiche, in de nen nicht eindeutig entschieden werden kann, welche von ggf. mehreren Regeln ver wendet werden sollte. In diesen Zwischenbereichen sollte man offenbar zwischen den (nur eingeschränkt) anwendbaren Regeln interpolieren, unter Umständen gewichtet mit der „Nähe“ zu dem Bereich, in dem die jeweilige Regel sicher gültig ist. Mit ande ren Worten: Wir beschränken uns hier darauf, Fuzzy-Mengen als einen Mechanismus zur Glättung von unscharf beschriebenen Funktionen und zur Interpolation zwischen unscharfen Regeln aufzufassen. Trotz dieser Beschränkung führen wir im Folgenden – im Wesentlichen der Voll ständigkeit halber – die Standardoperationen auf Fuzzy-Mengen ein, auch wenn sie nicht unbedingt benötigt werden, wenn man Fuzzy-Mengen nur zur Interpolation zwi schen unscharfen Regeln verwendet, wie wir es im Folgenden tun. Die Operationen auf Fuzzy-Mengen werden in Analogie zu den Mengenoperatio nen Schnitt, Vereinigung und Komplementbildung eingeführt. Bedingung ist stets, dass die Operationen auf Fuzzy-Mengen mit den entsprechenden Operationen auf (scharfen) Mengen übereinstimmen, wenn man sich auf Indikatorfunktionen be schränkt. Weiter wird festgelegt, dass die Operationen elementweise auszuführen sind: Der Zugehörigkeitsgrad eines Elementes z. B. zum Schnitt zweier Fuzzy-Men gen muss sich aus den Zugehörigkeitsgraden des Elementes zu den beiden Mengen berechnen lassen. Außerdem sollten Assoziativität und Kommutativität gelten. Diese Bedingungen legen die Operationen jedoch noch nicht eindeutig fest. Daher betrachtet man Klassen von Operationen, und zwar sog. t-Normen (triangular norms) als Grundlage einer verallgemeinerten Schnittmengenbildung, sog. t-Conormen als Grundlage einer verallgemeinerten Vereinigung, und sog. Negationen als Grundlage einer verallgemeinerten Komplementbildung. Definition 8.3.3. Eine Funktion ⊤ : [0, 1]2 → [0, 1] heißt t-Norm, wenn für alle a, b, c ∈ [0, 1] gilt: (1)
⊤(a, ⊤(b, c)) = ⊤(⊤(a, b)c)
(Assoziativität),
(2)
⊤(a, b) = ⊤(b, a)
(Kommutativität),
(3)
⊤(a, 1) = a
(neutrales Element),
(4)
a ≤ b ⇒ ⊤(a, c) ≤ ⊤(b, c)
(Monotonie).
Die wohl bekanntesten t-Normen sind ⊤min (a, b) = min{a, b}, ⊤prod (a, b) = a ⋅ b und ⊤Łuka (a, b) = max{0, a + b − 1} (nach Jan Łukasiewicz, 1878–1956) [32]. Abbil dung 8.23 zeigt ihre Funktionsgraphen. Aus jeder t-Norm erhält man eine Schnittmen genbildung für Fuzzy-Mengen, indem man sie elementweise anwendet. Das heißt, für zwei Fuzzy-Mengen μ1 und μ 2 wird der Schnitt definiert als ∀u ∈ U :
(μ 1 ∩ μ 2 )(u) = ⊤(μ 1 (u), μ 2 (u)) .
8.3 Unscharfes Wissen
min
Luka
prod
1
1
1
0.5
0.5
0.5
0.5
a
a
a
1
0
0
0
0
0.5 b
0.5
0.5
0.5
1
0.5
1
1
1 0
0.5 b
1
1
1 0.5
331
|
0
0.5 b
1
Abb. 8.23: Die t-Normen ⊤min , ⊤prod und ⊤Łuka
Der Zugehörigkeitsgrad eines Elements u zur Fuzzy-Schnittmenge wird also berechnet als eine t-Norm der Zugehörigkeitsgrade zu den geschnittenen Fuzzy-Mengen. Definition 8.3.4. Eine Funktion ⊥ : [0, 1]2 → [0, 1] heißt t-Conorm, wenn für alle a, b, c ∈ [0, 1] gilt: (1)
⊥(a, ⊥(b, c)) = ⊥(⊥(a, b), c)
(Assoziativität),
(2)
⊥(a, b) = ⊥(b, a)
(Kommutativität),
(3)
⊥(a, 0) = a
(neutrales Element),
(4)
a ≤ b ⇒ ⊥(a, c) ≤ ⊥(b, c)
(Monotonie).
Die bekanntesten t-Conormen sind ⊥min (a, b) = max{a, b}, ⊥prod (a, b) = a + b − ab und ⊥Łuka (a, b) = min{a + b, 1} [32]. Abbildung 8.24 zeigt ihre Funktionsgraphen. Aus jeder t-Conorm erhält man, analog zu den t-Normen, eine Vereinigungsoperation für Fuzzy-Mengen, indem man sie elementweise anwendet. Das heißt, für zwei FuzzyMengen μ1 und μ 2 wird die Vereinigung definiert als ∀u ∈ U :
⊥min
(μ 1 ∪ μ 2 )(u) = ⊥(μ 1 (u), μ 2 (u)) .
⊥Luka
⊥prod
1
1
1 1
0.5
0.5
0.5
0.5
0.5
a
a
a
Abb. 8.24: Die t-Conormen ⊥max , ⊥sum und ⊥Łuka
1
0
0
0
0
0.5 b
0.5
0.5
0.5
1
0.5
1
1
1 0
0.5 b
1
1
0
0.5 b
1
332 | 8 Unsicheres, impräzises und unscharfes Wissen Definition 8.3.5. Eine Funktion n : [0, 1] → [0, 1] heißt Negation, wenn sie die Bedin gungen n(0) = 1, n(1) = 0 und ∀a, b ∈ [0, 1] : a ≤ b ⇒ n(a) ≥ n(b) erfüllt. Am bekanntesten ist die von Zadeh vorgeschlagene Negation n(a) = 1 − a [32]. Eine Komplementbildung für Fuzzy-Mengen erhält man aus einer Negation, indem man sie, wie die t-Normen und t-Conormen, elementweise anwendet: Man definiert als Komplement μ einer Fuzzy-Menge μ ∀u ∈ U :
μ(u) = n(μ(u)) .
Oft werden eine t-Norm und eine t-Conorm über eine Negation zu einem dualen Paar assoziiert. Mit der Negation μ = 1 − μ werden z. B. die o. g., mit dem gleichen Index versehenen t-Normen und t-Conormen miteinander assoziiert. Diese Assoziation hat den Vorteil, dass dann die de-morganschen Gesetze gelten, d. h., es gilt μ1 ∪ μ2 = μ1 ∩ μ2
und
μ1 ∩ μ2 = μ1 ∪ μ2 .
Am häufigsten verwendet man die Negation n(a) = 1 − a, die t-Norm ⊤min und die zu ihr bzgl. n duale t-Conorm ⊥min , da dieser Operationensatz günstige algebraische Eigenschaften hat. So sind Schnitt und Vereinigung idempotent, weil μ ∩ μ = μ und μ ∪ μ = μ gelten, und es gelten die Distributivgesetze, also μ 1 ∩ (μ 2 ∪ μ 3 ) = (μ 1 ∩ μ 2 ) ∪ (μ 1 ∩ μ 3 )
und
μ 1 ∪ (μ 2 ∩ μ 3 ) = (μ 1 ∪ μ 2 ) ∩ (μ 1 ∪ μ 3 ) . Distributivität ist jedoch in manchen Anwendungen keine wünschenswerte Eigen schaft, sodass mitunter auch andere Operationensätze verwendet werden [29; 32].
8.3.2 Fuzzy-Regelsysteme Wir haben gesehen, dass menschliches Wissen häufig in Form von Regeln modelliert wird. Menschliches Wissen, wie z. B. „Wenn die Nachfrage nach einem Produkt steigt, kann der Preis erhöht werden.“, weist jedoch oft Unsicherheit, Unschärfe oder Imprä zision auf. Eine Möglichkeit, dieses Wissen geeignet zu modellieren, ist die Verwen dung von linguistischen Regeln bzw. von Fuzzy-Regeln [30; 32; 39]. Der Unterschied zwischen „normalen“ Regeln und Fuzzy-Regeln ist die Verwendung des Konzepts der Fuzzy-Menge. Eine Fuzzy-Regel besteht damit im Allgemeinen aus einem Antezedens, das eine bestimmte Situation in Form einer unscharfen Spezifikation der Werte der Messgrößen bzw. Informationen beschreibt, und einem Konsequens, das eine geeig nete Ausgabe, Reaktion bzw. Stellgröße für diese Situation angibt. Ein typisches Bei spiel für eine solche Regel ist Wenn die Temperatur sehr hoch ist und der Druck niedrig ist, dann sollte der Zufluss groß sein.
8.3 Unscharfes Wissen
| 333
Um diese Regeln auswerten zu können, sind die verwendeten sprachlichen Ausdrü cke sehr hoch, niedrig und groß geeignet zu modellieren. Oft werden aber auch weni ger an bestimmte Größen gebundene, neutralere Ausdrücke verwendet, die unscharfe numerische Angaben machen, wie z. B. ungefähr null oder negativ. In jedem Fall bie tet sich zur Modellierung die Verwendung von Fuzzy-Mengen an [69], um mit solchen sprachlichen Ausdrücken in einem gewissen Sinne „rechnen“ zu können. Ein Fuzzy-Regelsystem ist eine Menge von Fuzzy-Regeln, die durch einen Schluss folgerungsmechanismus verarbeitet werden, der sowohl einzelne Regeln auswertet als auch die Auswertungsergebnisse mehrerer Regeln miteinander kombiniert. Typi scherweise werden Inferenzmethoden aus dem Bereich des approximativen Schlie ßens genutzt [31; 44]. 8.3.2.1 Annäherung von Funktionen durch Fuzzy Regeln Fuzzy-Regeln [44] kann man z. B. nutzen, um den Verlauf einer unbekannten Funktion f : X → Y näherungsweise zu beschreiben. Sind etwa k Fuzzy-Regeln Ri :
falls x i gleich A i , dann y gleich B i ,
i = 1, . . . , k ,
gegeben, so kann man diese Regeln relational interpretieren (d. h., jede Regel stellt eine Relation auf X × Y dar) und mit den zweidimensionalen Fuzzy-Mengen X×Y →ℝ,
Ci :
(x, y) → min{A i (x), B i (y)}
i = 1, . . . , k ,
auswerten. In Abbildung 8.25 sind einige Fuzzy-Mengen A i und B i unterhalb der x-Achse bzw. links der y-Achse eingezeichnet. Vereinigt man die zweidimensionalen y B3 B10 B2 B1 x 1 1
A1 A2
A3
A10
Abb. 8.25: Skizze einer Fuzzy-Funktion F , dargestellt durch einen Fuzzy-Funktionsgraphen, die eine scharfe Funktion f näherungsweise beschreibt. Unterhalb der x-Achse und links der y-Achse sind die Fuzzy-Mengen A i und B i , i = 1, . . . , k eingezeichnet
334 | 8 Unsicheres, impräzises und unscharfes Wissen Fuzzy-Mengen C i über die t-Norm ⊤max , so erhält man eine zweidimensionale Grau wertdarstellung eines „Flickenteppichs“, der den ungefähren Verlauf der Funktion beschreibt. Der Graph einer plausiblen scharfen Funktion ist ebenfalls eingezeichnet. 8.3.2.2 Fuzzy-Regelung Schon seit vielen Jahren werden Fuzzy-Regelsysteme erfolgreich im Bereich der Re gelungstechnik eingesetzt. Im Folgenden wird daher auch von Messwerten und Stell größen anstelle von Eingabe- und Ausgabeinformationen gesprochen. Abbildung 8.26 zeigt die Architektur eines Fuzzy-Reglers, der intern Fuzzy-Größen, nach außen aber Zahlenwerte verwendet. Ein Fuzzy-Regler besteht normalerweise aus folgenden Kom ponenten: – Die Fuzzifizierungsschnittstelle nimmt den aktuellen Messwert auf und prüft, ob dieser zu den Prämissen der anzuwendenden Regeln passt. – In der Wissensbasis sind die linguistischen Regeln gespeichert. Das beinhaltet auch Informationen über die Wertebereich der Mess- und Stellgrößen, Normie rungen und die den linguistischen Termen zugeordneten Fuzzy-Mengen. – Die Entscheidungslogik gewinnt aus den Messgrößen mithilfe der Wissensbasis Informationen über die Stellgröße, die oft unscharf dargestellt werden. – Die Defuzzifizierungsschnittstelle hat die Aufgabe, aus den von der Entscheidungs logik gegebenen (unscharfen) Informationen über die Stellgröße einen scharfen Stellwert bzw. einen Ausgabewert zu bestimmen. Fuzzy-Regelsysteme werden meistens dazu verwendet, eine nicht lineare Funktion zu definieren. Sie können aber auch problemlos in anderen Anwendungsgebieten, in de nen Expertenwissen vorliegt, eingesetzt werden. Es gibt eine Vielzahl von verschie denen Methoden, Fuzzy-Regler zu definieren. In realen Anwendungen der Regelungs technik wird oft der Takagi-Sugeno-Kang-Fuzzy-Controller genutzt [41].
Wissensbasis
Fuzzifizierungsschnittstelle
nicht fuzzy
fuzzy
Meßwerte
Entscheidungslogik
geregeltes System
fuzzy Defuzzifizierungsschnittstelle Stellgr¨oße
nicht fuzzy
Abb. 8.26: Architektur eines Fuzzy-Reglers
Bei dem alternativen Ansatz von Mamdani & Assilian formuliert ein Experte sein Wis sen in Form von linguistischen Regeln [30; 32; 39]. Wir verwenden das oben abstrakt
8.3 Unscharfes Wissen
| 335
beschriebene Approximationsverfahren für die unbekannte Funktion (das Kennfeld): Zunächst werden die linguistischen Terme festgelegt, die in den linguistischen Re geln auftreten können. Hierfür werden für jede der Wertemengen X1 , . . . , X n (für die Eingabewerte) und Y (für den Ausgabewert) geeignete linguistische Terme wie unge fähr null, positiv klein usw. bestimmt. Dabei kann ungefähr null bezogen auf die Ein gabegröße x1 durchaus etwas anderes bedeuten als für die Eingabegröße x2 . Abbil dung 8.27 zeigt eine Partitionierung, in der die linguistischen Terme negativ, ungefähr null und positiv verwendet werden. Jeder dieser drei linguistischen Terme wird durch eine Fuzzy-Menge modelliert.
negativ
positiv
1
ungefa ¨hr Null
negativ groß
negativ klein
1
negativ mittel
positiv klein
ungefa ¨hr Null
positiv groß
positiv mittel
Abb. 8.27: Eine grobe Partitionierung (links) und eine feinere (rechts)
Formal stellen linguistische Terme nur Namen für die Fuzzy-Mengen bzw. für die durch die Fuzzy-Mengen repräsentierten Konzepte dar. Daher werden im Folgenden zuerst die Fuzzy-Mengen festgelegt und anschließend mit passenden linguistischen Termen versehen. Hierzu wird jede der Mengen X1 , . . . , X n und Y in Fuzzy-Mengen (i) (i) μ 1 , . . . , μ p i partitioniert. Häufig werden Dreiecksfunktionen der Form μ x0 ,z :
[a, b] → [0, 1] ,
x → 1 − min{1, z ⋅ |x − x0 |}
verwendet. Der Wert x0 ∈ [a, b] gibt die Spitze des Dreiecks an. Der Parameter z be stimmt, wie spitz- oder stumpfwinklig das Dreieck ist. Für a < x1 < ⋅ ⋅ ⋅ < x p i < b (i) (i) werden meist nur die Fuzzy-Mengen μ 2 , . . . , μ p i −1 als Dreiecksmengen definiert. An den „Rändern“ des Intervalls verwendet man dagegen oft (i)
μ1 :
[a, b] → [0, 1] ,
{1, x → { 1 − min{1, z ⋅ (x − x1 )}, {
falls x ≤ x1 sonst
für die linke und (i)
μ pi :
[a, b] → [0, 1] ,
{1, x → { 1 − min{1, z ⋅ (x p1 − x)}, {
falls x p1 ≥ x sonst
für die rechte Grenze. Abbildung 8.27 zeigt eine grobe Partitionierung einer Menge in drei Fuzzy-Mengen, denen linguistische Terme negativ, ungefähr null und positiv zugeordnet sind. Rechts daneben ist eine feinere Partitionierung dargestellt.
336 | 8 Unsicheres, impräzises und unscharfes Wissen
Dreiecksfunktionen werden vor allem deswegen häufig verwendet, weil die durch den Fuzzy-Regler auszuführenden Berechnungen bei stückweise linearen Funktionen sehr einfach sind. Prinzipiell kann jedoch jede beliebige Funktion verwendet werden. Die Eingabewerte (x1 , . . . , x n ) ∈ X1 ×⋅ ⋅ ⋅×X n werden bei dem Ansatz von Mamdani & Assilian von der Fuzzifizierungsschnittstelle direkt an die Entscheidungslogik wei tergegeben. Die Entscheidungslogik wertet zunächst jede der k Regeln R r R r : falls x1 gleich A1,r und . . . , und x n gleich A n,r , dann y gleich B r , r = 1, . . . , k, einzeln aus. Zur Auswertung wird der Erfüllungs- oder Akzeptanzgrad bestimmt, zu dem das Antezedens bei den vorliegenden Eingabewerten erfüllt ist. Dazu wird für v = 1, . . . , n der Wert μ(x v ) berechnet, der angibt, inwieweit x v dem zu der FuzzyRegel gehörenden linguistischen Term entspricht. Die Werte μ(x v ) sind für die Aus wertung einer Prämisse geeignet zu verknüpfen. Da eine Schlussfolgerung nicht stär ker sein kann als ihre Voraussetzungen, wählt man üblicherweise als Erfüllungsgrad einer Regel das Minimum der Erfüllungsgrade der Voraussetzungen: α r = min{μ1r (x1 ), . . . , μ nr (x n )} . Als Ausgabe der Regel R r ergibt sich die Fuzzy-Menge von Stellwerten, die man durch horizontales „Abschneiden“ der Ausgabe-Fuzzy-Menge μ r der Regel R r bei dem gege benen Zugehörigkeitsgrad erhält. In formaler Beschreibung induziert die Regel R r bei gegebenen Messwerten (x1 , . . . , x n ) die Fuzzy-Menge μ output(R r ) (x1 , . . . , x n ) :
Y → [0, 1] , (1)
(n)
y → min{μ i1,r (x1 ), . . . , μ i n,r (x n ), μ i r (y)} . Wenn die Antezedenzen voll erfüllt sind, liefert die Regel ihre Konsequens-Fuzzy-Men ge. Ist der Erfüllungsgrad null, liefert die Regel eine Fuzzy-Menge, die identisch null ist. Abbildung 8.28 veranschaulicht die Auswertung zweier Fuzzy-Regeln R1 und R2 . Die waagerecht gestrichelten Linien geben den Akzeptanzgrad für das Antezedens der jeweiligen Regel an, sodass die Fuzzy-Menge für die Stellgröße auf dieser Höhe abzu schneiden ist. Die Ausgabe der Regel R1 bzw. R2 ist die graue Fläche. Nachdem die Entscheidungslogik jede Regel einzeln ausgewertet hat, werden die erhaltenen Fuzzy-Mengen mittels Maximumbildung zu einer Fuzzy-Menge μoutput ver einigt. μ output (x1 , . . . , x n ) : Y → [0, 1] , y →
(1)
(n)
max {min{μ i1,r (x1 ), . . . , μ i n,r (x n ), μ i r (y)}} .
r∈{1,...,k}
8.3 Unscharfes Wissen
positiv klein
1
ungefa ¨hr Null
1
|
337
positiv klein
1
min 0.5 0.3
θ˙
θ 0
15
25 30
45
−8 −4
positiv mittel
1
0
0.6
0
ungefa ¨hr Null
1
F
8
min
3
6
9
positiv mittel
1
0.5
θ˙
θ 0
15
25 30
45
−8 −4
0
F
8
0
3
6
9
max
1
F 0 1
4
7.5
9
COG MOM
Abb. 8.28: Regelauswertung bei einem Mamdani-Regler. Das Eingabetupel (25, −4) führt zu der rechts gezeigten unscharfen Ausgabe. Aus dieser Fuzzy-Menge wird der entsprechende Ausgabe wert durch Defuzzifikation, z. B. durch die Maxima-Mittelwertsmethode (MOM) oder die Schwer punktmethode (COG), bestimmt.
Die Entscheidungslogik liefert somit eine Abbildung, die jedem Tupel von Eingabe werten (x1 , . . . , x n ) ∈ X1 ×⋅ ⋅ ⋅×X n eine Fuzzy-Menge μ output von Y zuordnet. Aus dieser Fuzzy-Menge μ output wird durch die Defuzzifizierungsschnittstelle ein scharfer Ausga bewert bestimmt. Dafür gibt es eine Vielzahl von anwendungsspezifischen Verfahren zur Defuzzifizierung. Bei der Schwerpunktmethode (center of gravity, COG) wird z. B. als Ausgabewert y der Wert genommen, der unter dem Schwerpunkt der durch die Fuzzy-Menge μoutput und der y-Achse begrenzten Fläche liegt. Bei der Maxima-Mittel wert-Methode (mean of maxima, MOM) wird das arithmetische Mittel der Werte mit dem höchsten Zugehörigkeitsgrad gebildet.
8.3.3 Unsicheres unscharfes Wissen Wie hoch ist aus Sicht des Lesers die subjektive Wahrscheinlichkeit, dass der Rohöl preis in einem Jahr um (mindestens) 5 % gestiegen sein wird? Sollte es 0,80 sein? War um nicht 0,81? Warum nicht 0,8097? Wie sieht es für eine Steigerung um (mindestens) 3 % aus?
338 | 8 Unsicheres, impräzises und unscharfes Wissen
Es gibt viele Ereignisse, zu denen wir keine genauen Wahrscheinlichkeiten ange ben können (und sollten). Unsicherheit durch eine einzige Wahrscheinlichkeitsver teilung zu repräsentieren, ist oft eine unrealistische Idealisierung. Aus diesen Grund wächst das Interesse an Modellen, in denen impräzise Wahrscheinlichkeiten verwen det werden. Mittlerweile gibt es eine Vielzahl von Methoden wie Belief Functions [56], Possibilitätstheorie [16] oder Imprecise Probabilities [1]. Ähnliche Probleme gibt es bei der Modellierung von Daten [24]. Im Abschnitt 8.2 sind wir von Daten ausgegangen, die in Form von reellen Zahlen oder kategorischen Werten vorliegen. Implizit wird dabei häufig die Annahme gemacht, dass der zugrun de liegende Messprozess präzise Werte liefert. Diese Annahme ist jedoch oft nicht ge rechtfertigt. Denn in der Praxis stehen häufig nur grobe Informationen zur Verfügung, z. B. Unter- und Obergrenzen im Falle reeller Zahlen oder eine Menge von möglichen oder plausiblen Werten im Falle kategorischer Daten. Im Fall von impräzisen Daten ist eine natürliche Erweiterung des Konzepts der Zufallsvariablen hilfreich, die die Repräsentation von unsicherem Wissen und un präzisen Daten zulässt – die sog. Zufallsmengen [40; 43]. Es handelt sich dabei um mengenwertige Zufallsvariablen. Während im Fall einer klassischen Zufallsvariablen X : Ω → A das Ergebnis des Experiments ein Element der Menge A ist, erhält man im Falle einer zufälligen Menge X : Ω → 2A als Ergebnis eines Experiments eine Teilmen ge von A, also ein Element der Potenzmenge von A. In vielen Anwendungen hat man es allerdings nicht nur mit impräzisen (also men genwertigen) Daten, sondern mit unscharfen Daten zu tun. Diese kann man natürlich besser mithilfe von Fuzzy-Mengen modellieren. Anders als im Falle der Fuzzy-Rege lung, bei der ein intuitives Verständnis des Konzepts einer Fuzzy-Menge hinreichend ist, müssen wir uns im Falle der gleichzeitigen Modellierung unsicheren und unschar fen Wissens mit der Semantik von Fuzzy-Mengen befassen, da unterschiedliche Inter pretationen völlig unterschiedliche Ergebnisse liefern können [4; 12]. Wir unterschei den die sog. epistemische von der ontischen Interpretation einer Fuzzy-Menge [13]. In der ontischen Sicht werden Mengen und auch Fuzzy-Mengen als scharfe, komplexe Entitäten behandelt [51]. In der epistemischen Sicht werden Fuzzy-Mengen zur Dar stellung unvollständigen Wissens über den wahren, präzisen, jedoch nicht genau be kannten Wert eines Datums genutzt [33; 35]. Das Ziel ist die Modellierung von Vorwis sen über die Daten. Man modelliert dazu mithilfe von Möglichkeitswerten zwischen null und eins, welche Werte überraschend sind, welche erwartet werden, welche plau sibel sind und welche weniger plausibel sind. Die Möglichkeitsgrade stellen eine sub jektive, flexible Beschränkung des Istzustands dar. μ(u) = 0 bedeutet, dass u als un möglich abgelehnt wird, μ(u) = 1 bedeutet, dass u durchaus möglich ist und je größer μ(u) ist, desto plausibler ist u. Für beide Sichtweisen gibt es formale Theorien, die auf dem Konzept der Fuzzy-Zufallsvariablen [11] fußen.
Literaturverzeichnis
| 339
Literaturverzeichnis [1] [2] [3] [4] [5] [6] [7] [8] [9]
[10] [11]
[12]
[13]
[14] [15] [16] [17] [18] [19] [20] [21] [22]
Augustin, T., Coolen, F., de Cooman, G. und Troffaes, M. (Hrsg.). Introduction to Imprecise Prob abilities. J. Wiley & Sons, Chichester, Großbritannien, 2014. Beierle, C. und Kern-Isberner, G. Methoden wissensbasierter Systeme. Vieweg, Wiesbaden, Deutschland, 6. Aufl., 2019. Borgelt, C. und Kruse, R. Probabilistic Networks and Inferred Causation. Cardozo Law Review, 18(6):2001–2035, 1997. Cardozo School of Law, Yeshiva University, New York, NY, USA. Borgelt, C. und Kruse, R. Bedeutung von Zugehörigkeitsgraden in der Fuzzy-Technologie. Infor matik-Spektrum, 38(6):490–499, 2015. Springer, Berlin/Heidelberg, Deutschland. Borgelt, C., Steinbrecher, M. und Kruse, R. Graphical Models – Representations for Learning, Reasoning an Data Mining. J. Wiley & Sons, Chichester, Großbritannien, 2. Aufl., 2009. Buchanan, B. G. und Shortliffe, E. H. Rule-Based Expert Systems: The MYCIN Experiments of the Stanford Heuristic Programming Project. Addison-Wesley, Reading, MA, USA, 1984. Carnap, R. Introduction to Symbolic Logic and Its Applications. Dover, New York, NY, USA, 1958. Castillo, E., Gutierrez, J. M. und Hadi, A. S. Expert Systems and Probabilistic Network Models. Springer, New York, NY, USA, 1997. Chow, C. K. und Liu, C. N. Approximating Discrete Probability Distributions with Dependence Trees. IEEE Trans. on Information Theory, 14(3):462–467, 1968. IEEE Press, Piscataway, NJ, USA. Cooper, G. F. und Herskovits, E. A Bayesian Method for the Induction of Probabilistic Networks from Data. Machine Learning, 9:309–347, 1992. Kluwer, Dordrecht, Niederlande. Couso, I., Borgelt, C., Hüllermeier, E. und Kruse, R. Fuzzy Sets in Data Analysis: From Statis tical Foundations to Machine Learning. In Computational Intelligence Magazine. IEEE Press, Piscataway, NJ, USA, 2019. Couso, I. und Dubois, D. On the Variability of the Concept of Variance for Fuzzy Random Va riables. IEEE Transactions on Fuzzy Systems, 17:1070–1080, 2009. IEEE Press, Piscataway, NJ, USA. Couso, I. und Dubois, D. Statistical Reasoning with Set-valued Information: Ontic vs. Epistemic Views. Int. Journal of Approximate Reasoning, 55(7):1502–1518, 2014. Elsevier, Amsterdam, Niederlande. Date, C. J. An Introduction to Database Systems. Addison Wesley, Reading, MA, USA, 8. Aufl., 2020. Dawid, A. Conditional Independence in Statistical Theory. SIAM Journal on Computing, 41:1–31, 1979. Society of Industrial and Applied Mathematics, Philadelphia, PA, USA. Dubois, D. und Prade, H. Possibility Theory and Its Applications: Where do We Stand? In Hand book of Computational Intelligence, S. 31–60. Springer, 2015. Berlin/Heidelberg, Deutschland. Gärdenfors, P. Knowledge in Flux: Modeling the Dynamics of Epistemic States. MIT Press, Cam bridge, MA, USA, 1988. Gebhardt, J., Borgelt, C. und Kruse, R. Knowledge Revision in Markov Networks. Mathware and Softcomputing, 11(2–3):93–107, 2004. University of Granada, Granada, Spain. Geiger, D., Verma, T. S. und Pearl, J. Identifying Independence in Bayesian Networks. Networks, 20:507–534, 1990. J. Wiley & Sons, Chichester, Großbritannien. Hajek, P. Metamathematics of Fuzzy Logic. Kluwer, Dordrecht, Niederlande, 1998. Hammersley, J. M. und Clifford, P. E. Markov Fields on Finite Graphs and Lattices. Unveröffent lichtes Manuskript. Nach: [26], 1971. Hartley, R. V. L. Transmission of Information. The Bell Systems Technical Journal, 7:535–563, 1928. Bell Laboratories, Murray Hill, NJ, USA.
340 | 8 Unsicheres, impräzises und unscharfes Wissen
[23] Heckerman, D., Geiger, D. und Chickering, D. M. Learning Bayesian Networks: The Combination of Knowledge and Statistical Data. Machine Learning, 20:197–243, 1995. Kluwer, Dordrecht, Niederlande. [24] Hüllermeier, E. Learning from Imprecise and Fuzzy Observations: Data Disambiguation through Generalized Loss Minimization. Int. Journal of Approximate Reasoning, 55(7):1519–1534, 2014. Elsevier, Amsterdam, Niederlande. [25] Hüllermeier, E., Kruse, R. und Hoffmann, F. Computational Intelligence for Knowledge-Based Systems Design. In Proc. 13th Conf. Information Processing and Management of Uncertainty, Berlin/Heidelberg, Deutschland, 2010. Springer. [26] Isham, V. An Introduction to Spatial Point Processes and Markov Random Fields. Int. Statistical Review, 49:21–43, 1981. Int. Statistical Institute, Voorburg, Niederlande. [27] Jensen, F. V. An Introduction to Bayesian Networks. UCL Press, London, Großbritannien, 1996. [28] Jordan, M. I. (Hrsg.). Learning in Graphical Models. MIT Press, Cambridge, MA, USA, 1998. [29] Klement, E.-P., Mesiar, R. und Pap, E. Triangular Norms. Kluwer, Dordrecht, Niederlande, 2000. [30] Klir, G. J. und Yuan, B. Fuzzy Sets and Fuzzy Logic. Prentice Hall, Englewood Cliffs, NJ, USA, 1995. [31] Kruse, R., Borgelt, C., Braune, C., Mostaghim, S. und Steinbrecher, M. Computational Intelli gence: A Methodological Introduction. Springer, London, Großbritannien, 2. Aufl., 2016. [32] Kruse, R., Gebhardt, J. und Klawonn, F. Fuzzy Systeme. Teubner, Stuttgart, Deutschland, 2. Aufl., 1995. [33] Kruse, R. und Meyer, K. D. Statistics with Vague Data. Reidel, Dordrecht, Niederlande, 1987. [34] Kullback, S. und Leibler, R. A. On Information and Sufficiency. Annals of Mathematical Statis tics, 22:79–86, 1951. Institute of Mathematical Statistics, Hayward, CA, USA. [35] Kwakernaak, H. Fuzzy Random Variables I. Definitions and Theorems. Information Sciences, 15(1):1–29, 1978. Elsevier, Amsterdam, Niederlande. [36] Lauritzen, S. L. Graphical Models. Oxford University Press, Oxford, Großbritannien, 1996. [37] Lauritzen, S. L. und Spiegelhalter, D. J. Local Computations with Probabilities on Graphical Structures and Their Application to Expert Systems. Journal of the Royal Statistical Society, Series B, 2(50):157–224, 1988. Blackwell, Oxford, Großbritannien. [38] Maier, D. The Theory of Relational Databases. Computer Science Press, Rockville, MD, USA, 1983. [39] Mamdami, E. H. und Assilian, S. An Experiment in Linguistic Synthesis with a Fuzzy Logic Con troller. Int. J. of Man Machine Studies, 7:1–13, 1975. Academic Press, London, Großbritannien. [40] Matheron, G. Random Sets and Integral Geometry. J. Wiley & Sons, New York, NY, USA, 1975. [41] Michels, K., Klawonn, F., Kruse, R. und Nürnberger, A. Fuzzy Control: Fundamentals, Stability and Design of Fuzzy Controllers. Springer, 2006. Berlin/Heidelberg, Deutschland. [42] von Mises, R. Wahrscheinlichkeit, Statistik und Wahrheit. Springer, Berlin, Deutschland, 1928. [43] Molchanov, I. Theory of Random Sets. Springer Science & Business Media, Berlin, Deutsch land, 2006. [44] Novák, V., Perfilieva, I. und Dvorak, A. Insight into Fuzzy Modeling. J. Wiley & Sons, Chichester, Großbritannien, 2016. [45] Pearl, J. Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference. Mor gan Kaufmann, San Mateo, CA, USA, 1988 (2. Aufl. 1992). [46] Pearl, J. Causality: Models, Reasoning, and Inference. Cambridge University Press, Cambridge, Großbritannien, 2000. [47] Pearl, J. und MacKenzie, D. The Book of Why: The New Science of Cause and Effect. Basic Books, New York, NY, USA, 2018. [48] Pearl, J. und Paz, A. Graphoids: A Graph Based Logic for Reasoning about Relevance Relations. Technical Report CSD-850038, University of California, Los Angeles, CA, USA, 1985.
Literaturverzeichnis
| 341
[49] Pearl, J. und Verma, T. S. A Theory of Inferred Causation. In Proc. 2nd Int. Conf. on Principles of Knowledge Representation and Reasoning, S. 441–452. Morgan Kaufman, San Mateo, CA, 1991. [50] Peters, J., Janzing, D. und Schölkopf, B. Elements of Causal Inference: Foundations and Learn ing Algorithms. MIT Press, Cambridge, MA, USA, 2017. [51] Puri, M. L. und Ralescu, D. A. Fuzzy Random Variables. Journal of Mathematical Analysis and Applications, 114(2):409–422, 1986. Elsevier, Amsterdam, Niederlande. [52] Reichenbach, H. Elements of Symbolic Logic. Macmillan, New York, NY, USA, 1947. [53] Salmon, W. C. Logic. Prentice Hall, Englewood Cliffs, NJ, USA, 1963. [54] Savage, L. J. The Foundations of Statistics. J. Wiley & Sons, New York, NY, USA, 1954. Reprinted by Dover Publications, New York, NY, USA 1972. [55] Schöning, U. Logik für Informatiker. BI Wissenschaftsverlag, Mannheim, Deutschland, 5. Aufl., 2000. [56] Shafer, G. A Mathematical Theory of Evidence. Princeton University Press, Princeton, NJ, USA, 1976. [57] Shannon, C. E. The Mathematical Theory of Communication. The Bell Systems Technical Jour nal, 27:379–423, 1948. Bell Laboratories, Murray Hill, NJ, USA. [58] Sies, H. A New Parameter for Sex Education. Nature, 332:495, 1988. Nature Publishing Group, London, Großbritannien. [59] Simpson, E. H. The Interpretation of Interaction in Contingency Tables. Journal of the Royal Statistical Society Series B, 13:238–241, 1951. Blackwell, Oxford, Großbritannien. [60] Steck, H. Constraint-Based Structural Learning in Bayesian Networks using Finite Data Sets. Dissertation, Technische Universität München, Deutschland, 2001. [61] Studený, M. Conditional Independence Relations have no Finite Complete Characterization. In Trans. 11th Prague Conf. on Information Theory, Statistical Decision Functions, and Random Processes, S. 377–396. Academia, Prague, Tschechoslowakei, 1992. [62] Ullman, J. D. Principles of Database and Knowledge-Base Systems, Vol. 1 & 2. Computer Sci ence Press, Rockville, MD, USA, 1988. [63] Verma, T. S. und Pearl, J. Causal Networks: Semantics and Expressiveness. In Machine Intelli gence and Pattern Recognition, S. 69–76. Elsevier, Amsterdam, Niederlande, 1990. [64] Weizsäcker, C. F. Zeit und Wissen. Hanser, 1992. München, Deutschland. [65] Whittaker, J. Graphical Models in Applied Multivariate Statistics. J. Wiley & Sons, Chichester, Großbritannien, 1990. [66] Wittgenstein, L. Philosophische Untersuchungen. Suhrkamp, Frankfurt am Main, Deutschland, 1984. (Erstveröffentlichung: Blackwell, Oxford, England 1953). [67] von Wright, G. H. Explanation and Understanding. Cornell University Press, Ithaca, NY, USA, 1974. [68] Zadeh, L. A. Fuzzy Sets. Information and Control, 8:338–353, 1965. Academic Press, San Diego, CA, USA. [69] Zadeh, L. A. The Concept of a Linguistic Variable and Its Application to Approximate Reasoning. Information Sciences, 9:43–80, 1975. Elsevier, Amsterdam, Niederlande.
9 Fallbasiertes Schließen Ralph Bergmann, Mirjam Minor, Kerstin Bach, Klaus-Dieter Althoff und Héctor Muñoz-Avila Fallbasiertes Schließen (engl. case-based reasoning, CBR) beschäftigt sich damit, wie man mithilfe von Erfahrungswissen Probleme lösen kann und es ist damit die Grund lage zum Bau erfahrungsbasierter intelligenter Systeme. Erfahrungswissen wird hier bei in Form von sog. Fällen formalisiert, die in einer Fallbasis als spezielle Form ei ner Wissensbasis gespeichert werden. Das CBR begründet damit eine spezielle Form der Wissensrepräsentation und -verarbeitung, bei der die Analogie das grundlegende Schlussfolgerungsprinzip ist. Die dem CBR zugrunde liegende Methodik, Probleme zu lösen, ist dem Menschen sehr vertraut und geht auf den Ansatz des „Dynamic Memory“ von Schank [113; 119] zurück. Hierbei wird ein kognitionspsychologisches Modell über das menschliche Problemlösen durch Lernen und Erinnern damit verbunden, wie die menschliche Intelligenz in einem Computerprogramm dargestellt werden kann. Der Dynamic Memory ist dabei eine Gedächtnisstruktur, die sich über die Zeit als Ergebnis von gemachter Erfahrung kontinuierlich anpasst. Im Kontext des CBR versteht man den Erfahrungsbegriff wie folgt: „Experience is valuable, stored, specific knowledge that was acquired by an agent in a pervious pro blem-solving situation“ [21]. Erfahrung ist somit episodisches Wissen, das ein speziel les Ereignis (z. B. einen Problemlösungsvorgang) mit allen dazugehörigen relevanten Informationen repräsentiert. Erfahrung findet immer in einem spezifischen Kontext statt und stellt spezifisches Wissen dar. Die Gewinnung von Erfahrungswissen bedarf daher keines (induktiven) Erkenntnisprozesses, da auf validiertes allgemeines Wissen verzichtet wird. Somit ist Erfahrungswissen in vielen praktischen Anwendungen ein facher zu gewinnen und zu formalisieren als allgemeines Wissen. Dennoch lässt sich Erfahrungswissen zum Lösen neuer Probleme einsetzen, und zwar durch Wiederver wendung im Sinne analoger Schlüsse. Erfahrungsbasierte (oder auch fallbasierte) Systeme implementierten das CBR zur Realisierung intelligenter Systeme. Sie sind somit eine spezielle Ausprägung wis sensbasierter Systeme, die im Gegensatz zu den klassischen Expertensystemen der 1980er- und 1990er-Jahre nicht überwiegend mit generalisiertem Wissen in Regelform arbeiten und damit das klassische Problem des Flaschenhalses der Wissensakqui sition [58], ähnlich wie viele heutige auf Maschinellem Lernen basierende datenge triebene KI-Systeme, deutlich abmindern. Im Gegensatz zu diesen wiederum arbeitet das CBR in der Regel auf der Nutzung weniger Einzelfälle und ist nicht auf große Datenmengen zur Generalisierung angewiesen. Fallbasiertes Schließen ist nicht als ein Algorithmus oder eine Familie verwandter Algorithmen zu verstehen. Fallbasiertes Schließen ist vielmehr eine Problemlöseme thodik [135], die eine Menge von Prinzipien bereitstellt, mit denen erfahrungsbasierte https://doi.org/10.1515/9783110659948-009
344 | 9 Fallbasiertes Schließen
Systeme entwickelt werden können. Hierbei werden spezielle fallbasierte Methoden genutzt, die jedoch mit Methoden aus den Bereichen der Wissensrepräsentation und -verarbeitung (Kapitel 2), des Maschinellen Lernens (Kapitel 11) und der semantischen Technologien (Kapitel 18) verknüpft sind. In diesem Kapitel werden die grundlegen den Prinzipien des CBR und die dabei auftretenden wichtigsten Methoden skizziert.
9.1 Grundprinzip des fallbasierten Schließens Den Grundgedanken des CBR kann man als „Faustregel“ ausdrücken: Ähnliche Pro bleme haben ähnliche Lösungen. In der Fallbasis ist eine Menge gelöster Problemfälle gespeichert. Taucht ein neuer Problemfall auf, wird dieser als Anfrage an die Fallbasis gestellt. Die Ähnlichkeit der Fälle zur Anfrage wird in einem paarweisen Vergleich zwi schen gespeichertem Fall und Anfrage berechnet, sodass im Ergebnis die Fälle nach ihrem Ähnlichkeitswert bezüglich der Anfrage sortiert sind. Die Fälle, die auf den ers ten Plätzen der Sortierung gelandet sind (die sog. best matching cases), bieten das höchste Potenzial zur Wiederverwendung. Bei Bedarf kann die Lösung eines gefunde nen Falls angepasst werden, um das neue Problem aus der Anfrage lösen zu können. Ein (fiktives) Anwendungsszenario aus der Medizin soll dies verdeutlichen. Dabei geht es um die Behandlung von Patientinnen und Patienten mit einer Herzkrankheit, denen zusätzlich zu einer medikamentösen Therapie eine Veränderung des Lebens stils empfohlen werden soll. Die Fallbeschreibung enthält im Problemteil alle relevan ten Informationen für die Diagnose, einschließlich der ärztlichen Diagnose für eine Patientin oder einen Patienten. Im Lösungsteil sind die therapeutischen Maßnahmen beschrieben. Zur Vereinfachung wird eine möglicherweise vorangegangene herzchir urgische Therapie, wie z. B. der Einbau eines Stents, nicht in den Falldaten erfasst. Der Übersichtlichkeit halber wird auch nur eine Auswahl an Risikofaktoren und Me dikamenten gezeigt. In Abbildung 9.1 ist der Fall einer Beispielpatientin beschrieben¹. Kommt eine neue Patientin zur Behandlung, die ebenfalls raucht und ähnliche Merkmale wie die oben beschriebene Patientin hat, kann die Lösung aus dem ge fundenen Fall als Blaupause für die Medikamentierung und die Empfehlungen zum Lebensstil für die neue Patientin verstanden werden. Gegebenenfalls muss die neue Lösung noch angepasst werden. Falls die Patientin beispielsweise Übergewicht² hat, kann dies zu einer Anpassung der Empfehlung für die Anzahl der Schritte pro Tag führen. Die Ärztin sollte die generierte Lösung selbstverständlich überprüfen und bei Bedarf modifizieren. Dadurch entsteht ein neuer Fall, der in die Fallbasis aufgenom men werden kann. So lernt das CBR-System online neues Erfahrungswissen dazu. Im
1 Medizinisch fundierte Informationen finden sich in den Leitlinien der Deutschen Gesellschaft für Kardiologie im Internet: https://leitlinien.dgk.org/, letzter Abruf am 11.12.2019. 2 Der Body-Mass-Index (BMI) lässt sich aus Körpergewicht und Größe berechnen: BMI = Körperge wicht (kg) / Größe (m2 ). Circa 27 kg/m2 sind ideal für Personen über 60 Jahren.
9.1 Grundprinzip des fallbasierten Schließens
| 345
Problem • • • • • • • •
Geschlecht: weiblich Alter: 67 Größe (in m): 1,64 Körpergewicht (in kg): 70 Blutdruck (in mmHg): 120/90 Rauchen: ja Bewegungsmangel: ja Diagnose (ICD-Code): I.25.21 (Abgeheilter Myokardinfarkt, 4 Monate bis unter 1 Jahr zurückliegend)
Lösung • • • •
Medikamentöse Therapie: 125 mg Acetylsalicylsäure, … Bewegung (Empfohlene Anzahl der Schritte pro Tag): 7.000 Ernährung: fettarm Allgemeine Lebensstiländerungen: weniger oder gar nicht mehr rauchen
Abb. 9.1: Fallbeschreibung für eine Beispielpatientin
Unterschied zu regelbasierten Systemen, bei denen allgemeingültige Zusammenhän ge im Vordergrund stehen, liegt die Stärke des CBR darin, dass auf Einzelfälle einge gangen werden kann. Zwei Referenzmodelle haben sich etabliert, die die fallbasierte Problemlöseme thodik beschreiben. 1. Der CBR-Zyklus nach Aamodt & Plaza [4] ist ein Referenzmodell für den Problem löseprozess. 2. Die Wissenscontainer nach Richter [111; 112] bilden ein Referenzmodell für die Struktur des Wissens im Problemlöser. Die beiden Modelle liefern eine Rahmenarchitektur für die Gestaltung fallbasierter Systeme und werden im Folgenden genauer beschrieben.
9.1.1 CBR-Zyklus Das grundlegende Prozessmodell des CBR wird durch ein Phasenmodell, den sog. CBR-Zyklus (auch R4 -Zyklus genannt) [4] beschrieben. Das Modell ist ein Referenz modell, das die für CBR relevanten Schritte beschreibt. Abbildung 9.2 zeigt die vier Phasen des CBR-Zyklus Retrieve, Reuse, Revise und Retain. Das Modell wurde für den
346 | 9 Fallbasiertes Schließen Problemformulierung
Neuer Fall
Gelernter Fall Fälle aus der Vergangenheit
Gefundener Gefundener Fall Fall
Neuer Fall
Hintergrundwissen
Getesteter/ modifizierter Fall
Gelöster Fall REVISE
Bestägte Lösung
Lösungsvorschlag
Abb. 9.2: Der CBR-Zyklus als Referenzmodell für den Problemlöseprozess [4, eigene Übersetzung].
Entwurf zahlreicher CBR-Systeme eingesetzt, häufig auch in erweiterter oder auf die erste oder die ersten beiden Phasen beschränkter Form. Problemformulierung Vor der ersten Phase kommt die Problemformulierung. Das Problem muss so repräsen tiert werden, dass das CBR-System es verarbeiten kann (Abschnitt 9.2). Ist das Problem in natürlicher Sprache oder mithilfe von Bildern beschrieben, muss die Darstellung so transformiert werden, dass sie dem Anfrageformat des CBR-Systems entspricht. Diese Transformation kann mit einigem Aufwand verbunden sein. Des Weiteren sind die Be nutzer oft gar nicht in der Lage, das Problem ad hoc richtig zu formulieren. In solchen Fällen kann ein interaktiver Prozess gestartet werden, z. B. ein Arztgespräch, in des sen Verlauf die Probleme, die eine Patientin oder ein Patient hat, klar werden. Hierzu sind Techniken unter dem Stichwort „Conversational CBR“ (Abschnitt 9.2) entwickelt worden. Die Anfrage wird als neuer Fall interpretiert, bei dem die Lösung noch fehlt. Die Retrieve-Phase Nach der Formulierung des Problems als neuer Fall wird dann ein geeigneter Fall in der Fallbasis gesucht, wobei die Ähnlichkeit der gespeicherten Fälle zum neuen
9.1 Grundprinzip des fallbasierten Schließens |
347
Fall berechnet werden muss (Abschnitt 9.3). Das Retrieval (von engl. retrieve, Wieder finden) ist schwieriger zu implementieren als die Suche bei einem Datenbankabruf (Abschnitt 9.4). Für ein effizientes Retrieval wird die Fallbasis häufig mit einer Index struktur hinterlegt. Die einfachste Struktur ist die Sequenz. Ein sequenzieller Retrie val-Algorithmus ist einfach zu implementieren, hat aber eine Laufzeitkomplexität von O(n), was bei einer großen Fallbasis problematisch ist. Die Reuse-Phase Der durch Retrieval erhaltene Fall wird in der Reuse-Phase wiederverwendet. Dabei ist nicht garantiert, dass die Lösung aus dem gefundenen Fall zufriedenstellend ist. Aus diesem Grund erfolgt eine Anpassung, also eine Lösungsadaption (Abschnitt 9.5). Die Revise-Phase In der Revise-Phase wird der Lösungsvorschlag auf das Problem angewendet und ge testet. Gegebenenfalls wird die Lösung dabei weiter modifiziert, wobei eine teilwei se Überlappung mit der Reuse-Phase bestehen kann. Das Anwenden der Lösung ge schieht in der Realität oder in einer Simulation. Die Retain-Phase Die evtl. erhaltene neue Lösung wird dann in der Retain-Phase wieder in das System eingebracht (Abschnitt 9.6). In der einfachsten Form geschieht das durch Speicherung eines neuen Falles. Die neue Erfahrung kann aber auch einem Lernprozess übergeben werden, wodurch grundsätzlich sämtliche Formen des Wissens, die ein CBR-System nutzt, (Abschnitt 9.1.2) verbessert werden können.
9.1.2 Wissenscontainer Die Wissenscontainer³ nach Richter [111; 112] beschreiben die Formen des Wissens, die in CBR-System Verwendung finden. Hierbei lassen sich vier Container unterscheiden (siehe Abbildung 9.3): 1. die Repräsentationssprache und das Vokabular, 2. die Fallbasis, 3. das Ähnlichkeitsmaß, 4. das Adaptionswissen.
3 Wissenscontainer haben nichts mit dem Containerbegriff der Containertechnologien im DevOpsBereich zu tun.
348 | 9 Fallbasiertes Schließen
Abb. 9.3: Die Wissenscontainer als Referenzmodell für die Struktur des Wissens im CBR
Die Wissensstrukturierung unterscheidet sich somit von der Wissensrepräsentation mit regelbasierten Systemen, bei denen Fakten und Regeln als Wissenscontainer vor zufinden sind. Die Container sind eng mit dem Prozessmodell verknüpft. Die Reprä sentationssprache und das Vokabular werden vor allem während der Problemformu lierung und in der Retain-Phase benötigt, aber auch als Grundlage für das Ähnlich keitsmaß im Retrieval und für das Adaptionswissen im Reuse benutzt. Im Prinzip kann das Wissen zur Problemlösung mit einem CBR-System in gewis sen Grenzen flexibel auf die Container verteilt werden, sodass vorliegendes Wissen eines Gegenstandsbereichs optimal formalisiert werden kann. Auch kann das Wis sen (z. B. in der Retain-Phase) von einem Container in einen anderen „verschoben“ werden, beispielsweise zur Optimierung der Systemperformance. Ist beispielsweise jeder denkbare Fall in der Fallbasis gespeichert, wird kein Adaptionswissen für die Lö sungstransformation benötigt. Umgekehrt könnte die Lösungstransformation durch einen allgemeinen Problemlöser implementiert sein, der Fälle gar nicht in Betracht zu ziehen braucht. Auch das Ähnlichkeitsmaß kann schon Adaptionswissen berücksich tigen. Zum Beispiel kann im oben beschriebenen Anwendungsszenario das Attribut „Übergewicht“ schon als Teil des Ähnlichkeitsmaßes aus der Fallbeschreibung ermit telt werden. Oder das Übergewicht kann während der Problemformulierung als neues Attribut des Falles abgeleitet werden. Damit wird Adaptionswissen in das Vokabular und in die Fallbasis eingebracht.
9.2 Fallrepräsentation Traditionell ist ein Fall eine Problemlösungsepisode, basierend auf der kognitionswis senschaftlichen Unterscheidung zwischen semantischem und episodischem Gedächt nis [67]. Ein Fall ist eine kontextualisierte Erfahrungseinheit, die spezifisches Wissen zur Erreichung der Ziele eines Problemlösers in einer ganz spezifischen Situation er fasst. Die Fallrepräsentation im CBR nutzt bekannte Repräsentationsformalismen der KI, um die in den Fällen enthaltene Erfahrung zum Schließen zu formalisieren [25].
9.2 Fallrepräsentation
| 349
9.2.1 Struktur von Fällen Die Erfahrung, die ein Fall darstellt, kann auf verschiedene Weise strukturiert werden. Zunächst kann ein Fall in eine Problem- und eine zugehörige Lösungsbeschreibung unterteilt werden. Optional kann Qualitätsinformation zur Bewertung der Güte der Lösung hinzukommen. Die Problembeschreibung beinhaltet das Ziel der Problemlö sung bzw. die relevanten Details der Problemstellung. Hinzu kommt die Beschreibung des Kontextes, in dem das Problem aufgetreten ist sowie etwaige Randbedingungen (Constraints), die beachtet werden mussten. Die Lösungsbeschreibung beinhaltet zu mindest alle relevanten Lösungsangaben, aber kann ergänzend auch Angaben zum Lösungsweg (Herleitung) mit Hinweisen zur Rechtfertigung/Erklärung der Lösungs schritte beinhalten. Die optionalen Qualitätsinformationen im Fall können ergänzend Informationen (z. B. aus der Revise-Phase) darüber repräsentieren, ob die Lösung kor rekt war, bzw. welche Lösungsgüte sie besitzt oder was das Ergebnis ihrer Durchfüh rung ist (z. B. welche Kosten eine Lösung verursacht). Formal können wir damit einen Fall c als ein Tupel c = (p, l) oder c = (p, l, u) darstellen, wobei p eine Problembeschreibung aus einem Problemraum p ∈ P ist, l eine Lösungsbeschreibung aus einem Lösungsraum l ∈ L und optional u eine Quali tätsangabe u ∈ U aus einem Qualitätsraum repräsentiert. Eine Fallbasis (engl. case base, CB) ist nun eine endliche Menge solcher Fälle CB ⊆ P × L bzw. CB ⊆ P × L × U.
9.2.2 Grundlegende Ansätze zur Fallrepräsentation Bei der Fallrepräsentation geht es nun darum, mit welchen Ansätzen wir die Anga ben zu p, l und u formalisieren bzw. speichern. Traditionelle Ansätze der Fallreprä sentation lassen sich in drei Hauptkategorien einteilen: textuelle Fallrepräsentation, dialogorientierte Fallrepräsentation und strukturelle Fallrepräsentation [22]. Die textuelle Fallrepräsentation [74] stellt die Fallinformation in rein textueller Form dar, also als Strings, die das Problem sowie Lösung des Falls verbalisiert. So mit sind Fälle vergleichbar mit „Frequently Asked Questions (FAQ)“, was die Fallerhe bung in Anwendungen vereinfacht, in denen bereits große Dokumentensammlungen vorhanden sind, die Problemlöseerfahrungen dokumentieren (z. B. Serviceberichte). Zum Schließen werden die textuellen Informationen dann in einzelne Informations einheiten zerlegt, die die für die Wiederverwendbarkeit des Falls relevanten Worte oder Phrasen darstellen. Die textuelle Fallrepräsentation führt dann auch zu Metho den für den Retrieve-Schritt, die große Parallelen mit Methoden des Information Re trievals [37] aufweisen. Bei der dialogorientierten Fallrepräsentation [6] wird die Problembeschreibung im Fall durch eine Liste von Fragen mit zugehörigen Antworten dargestellt, wobei die verwendeten Fragen von Fall zu Fall unterschiedlich sein können. Es gibt kein fest gelegtes Vokabular und keine einheitliche Struktur für alle Fälle. Dieser Ansatz (auch
350 | 9 Fallbasiertes Schließen
conversational CBR genannt) wurde ursprünglich für den Bereich von Callcenteran wendungen entwickelt, in denen der Kundendialog im Vordergrund steht. Fälle liefern hier nicht nur einen Lösungsvorschlag, sondern auch eine Fragestrategie, mit der die relevanten Merkmale der aktuellen Problemstellung durch ein Dialogsystem ermittelt werden können. Die strukturelle Fallrepräsentation nutzt ein vordefiniertes Domänenmodell ver gleichbar einer Ontologie, um Fälle unter Bezugnahme auf das Vokabular dieses Mo dells darzustellen. Zentral ist hierbei, dass die Fallinformation im Sinne einer symbo lischen Wissensrepräsentation in einzelne „Bestandteile“ zerlegt dargestellt wird, die mit einer Semantik verbunden werden. Im einfachsten Fall werden hierbei Problem und Lösung in Form von domänenspezifisch festgelegten Attributen und zugehörigen Werten aus einem zugeordneten Wertebereich formalisiert [104]. Es können jedoch auch reichhaltigere Repräsentationssprachen verwendet werden, wie beispielsweise objektorientierte oder graphbasierte Ansätze [21], Ausdrücke einer Beschreibungslo gik [62; 102] oder auch RDF-Tripel [54]. Dieser Ansatz ist nützlich in Bereichen, in de nen neben den Fällen zusätzliches Wissen genutzt werden kann oder muss, sodass die fallbasierte Verarbeitung mit anderen Methoden der Wissensverarbeitung verbunden werden kann. Die strukturelle Fallrepräsentation ist heute aufgrund der vielfältigen Möglichkeiten der Verschränkung mit anderen Methoden der KI am weitesten verbrei tet und wird nachfolgend detaillierter dargestellt.
9.2.3 Attribut-Wert Repräsentation Bei der Verwendung der Attribut-Wert-Darstellung werden alle Informationen im Fall durch Mengen von Attributwerten dargestellt. Die Menge der Attribute, die verwendet werden, um den Fall darzustellen, kann entweder fest sein oder kann von Fall zu Fall variieren. Jedem Attribut ist ein bestimmter Typ zugeordnet, der den zulässigen Wer tebereich für das Attribut festlegt. Wie in Programmiersprachen, bei denen Typen zu lässige Werte für Variablen festlegen, legen sie bei der Falldarstellung die zulässigen Werte für Attribute fest. Hierbei können als Basistypen numerische Typen (Integer, Real), Zeittypen (Time, Date), Strings, oder auch Symboltypen, bestehend aus einer Aufzählung einer Menge von zulässigen Symbolen (in Stringdarstellung) vorkommen. Symboltypen können außerdem in Form einer Taxonomie (oder allgemein einer On tologie) strukturiert sein, sodass zwischen den Wertausprägungen Ober- und Unter begriffsrelationen vorkommen können. Darüber hinaus sind auch komplexere Typen möglich, die mehrere Elemente eines Basistypen beinhalten können. Dazu können Mengen oder Listentypen gebildet werden, aber auch diskrete Zeitreihen als chrono logisch geordnete Zeitpunkt-Wert-Paare. Formal besteht der Vokabularcontainer bei der Attribut-Wert-Darstellung somit aus: – einer Menge von Attributen (bzw. Attributbezeichnern) A1 , . . . , A n und
9.2 Fallrepräsentation
–
| 351
einer Menge von Typen T1 , . . . , T n , die für jedes Attribut A i den zulässigen Be reich für die Ausprägung a i des Attributes als Menge festlegt, d. h., a i ∈ T i .
Ein Fall c kann dann als n-dimensionaler Vektor c = (a1 , . . . , a n ) ∈ T1 × ⋅ ⋅ ⋅ × T n repräsentiert werden, wobei die n Attribute auf Problem, Lösung und Qualitätsangabe aufgeteilt werden können. Im Beispielszenario in Abbildung 9.1 wird die Attribut-Wert-Darstellung zur Fall beschreibung benutzt. Hier kommen zwölf Attribute (Geschlecht, Alter, . . . ) vor, wobei die ersten acht Attribute zur Problembeschreibung und die letzten vier Attribute zur Lösungsbeschreibung gehören. Für jedes Attribut ist hier ein geeigneter Typ festzu legen, wie z. B. für das Attribut Geschlecht ein Symboltyp mit der Menge { weiblich, männlich, divers }, für das Attribut Alter ein Integertyp, für das Attribut Blutdruck eine Liste von Integerwerten oder für das Attribut Diagnose eine ICD-Taxonomie oder On tologie. Das Attribut allgemeine Lebensstiländerungen könnte durch einen Stringtyp die Erfassung eines Freitextes ermöglichen.
9.2.4 Objektorientierte Repräsentation Die objektorientierte Fallrepräsentation nutzt den Datenmodellierungsansatz des ob jektorientierten Paradigmas, mit dem die Prinzipien Klassifikation und Vererbung um gesetzt werden. Bergmann [21] führt dazu eine Fallrepräsentation ein, bei der Fälle als vernetzte Mengen von Objekten dargestellt werden, die jeweils durch Attribut-WertPaare beschrieben sind. Die Struktur eines Objekts, also die zulässigen Attribute und deren Wertebereiche werden durch die Objektklasse beschrieben. Ein Objekt ist somit eine Instanz einer Klasse und legt für die dort festgelegten Attribute entsprechende Werte fest. Die Objektklassen sind darüber hinaus in einer Klassenhierarchie orga nisiert, die zwischen zwei Klassen eine Spezialisierungs- bzw. Verallgemeinerungsre lation vorgibt. Diese geht mit der Vererbung der Attribute (sowie der Definition der Wertebereiche) von der allgemeineren zur spezielleren Klasse einher. Darüber hin aus sind wie in der objektorientierten Programmierung auch Attribute möglich, deren Wert selbst wieder ein Objekt einer Klasse der Fallrepräsentation ist. Wir nennen die se Attribute relationale Attribute, da sie es erlauben, beliebige Relationen zwischen Objekten zu repräsentieren. Formal besteht der Vokabularcontainer bei der objektorientierten Fallrepräsenta tion somit aus: – einer Menge von Klassen (bzw. Klassenbezeichnern) C1 , . . . , C m zusammen mit einer Generalisierungsrelation C i ⊑ C j , die die Klassenhierarchie (im CBR typi scherweise ein Baum) definiert, – für jede Klasse C i einer Menge von Attributen C i .A1 , . . . , C i .A n i sowie – für jedes Attribut C i .A j die Festlegung des zulässigen Bereichs für die Ausprägung c i .a j des Attributes. Der zulässige Bereich kann dabei sowohl ein Datentyp (wie
352 | 9 Fallbasiertes Schließen
in der Attribut-Wert-Repräsentation) als auch eine Klasse C k im Fall eines relatio nalen Attributes sein. Ein Fall c ist dann eine Menge von Objekten c = {o1 , . . . , o k }, wobei ein Objekt o als ein Tupel (o class , o id , o attr ) aufgefasst werden kann. Hierbei ist o class die Klasse des Objektes, o id eine eindeutige Objektidentifikation und o attr eine Menge von AttributWert-Paaren, wobei hier Attribute der Klasse o class sowie aller generelleren Klassen zulässig sind. Die Attributwerte müssen dem Wertebereich des Attributtypen entstam men. Bei relationalen Attributen wird statt eines Wertes die Objektidentifikation eines passenden (anderen) Objektes aus c angegeben. Damit wird die Vernetzung der Ob jekte im Fall ermöglicht. Das Beispielszenario aus Abbildung 9.1 könnte auch in Form einer objektorien tierten Fallrepräsentation umgesetzt werden. Hierzu wird eine Fallklasse mit den zwölf Attributen definiert werden, wobei einzelne Attribute als relationale Attribute umgesetzt werden. Das Attribut Blutdruck kann z. B. als Instanz einer Klasse Blut druckmesswert gebildet werden, die ihrerseits die mit Integertyp versehenen Attribu te diastolischer Wert und systolischer Wert beinhaltet. Auch für das Attribut Medika mentöse Therapie bietet sich ein mengenwertiges relationales Attribut einer Klasse Medikamentengabe an, die ihrerseits z. B. die Attribute Medikament, Dosierung, Ein nahmeplan und Therapiedauer beinhaltet.
9.2.5 Graphbasierte Repräsentation Die graphbasierte Fallrepräsentation [21; 23; 36] ist dadurch gekennzeichnet, dass ein Fall in Form eines attributierten Graphen, bestehend aus Knoten und Kanten, repräsentiert wird. Hierbei können sowohl gerichtete als auch ungerichtete Gra phen verwendet werden. Knoten oder auch Kanten sind dabei mit Markierungen versehen, die es erlauben, jedem Knoten bzw. jeder Kante detaillierte Informatio nen zuzuordnen. Dies kann eine Menge von Attribut-Wert-Paaren einer zugeordneten Attribut-Wert-Repräsentation sein oder auch eine Menge von Objekten einer zuge ordneten objektorientierten Repräsentation. Die zugeordneten Repräsentationen mit ihren Attributen, Typen und ggf. Klassen definieren dabei den Vokabularcontainer. Ein Fall c = (N, E, α, β) ist somit ein Graph mit Knotenmenge N und Kantenmenge E ⊆ N × N und der Knotenmarkierungen α : N → V N sowie der Kantenmarkierung β : E → V E . Die Beschreibungsmengen V N bzw. V E sind dabei Fallbeschreibun gen, also Attribut-Wert-Paare oder Objektmengen. Graphbasierte Fallrepräsentatio nen sind dann besonders gut geeignet, wenn die Fallstruktur im Anwendungsbe reich von Natur aus einen Graphcharakter besitzt. Dies ist beispielsweise bei Pro zess- und Workflow-Beschreibungen der Fall, wie sie im prozessorientierten CBR (Abschnitt 9.7.3) vorkommen, aber auch beim Design von netzwerkartigen Verbin dungsstrukturen.
9.2 Fallrepräsentation
| 353
9.2.6 Fallrepräsentation für die Planung Fallbasierte Ansätze im Bereich der Planung [34] basieren auf der Wiederverwendung von Planungserfahrung, wobei ein Fall ein Planungsproblem, einen Plan als Lösung sowie zusätzliche Informationen über erfolgreiche und/oder gescheiterte Planungs entscheidungen im Rahmen der Planung umfasst [133]. Ein Problem wird dabei typi scherweise durch einen Ausgangszustand und einen Zielzustand beschrieben. Eine Lösung ist eine ganz oder partiell geordnete Abfolge von Aktionen. Die in der allge meinen KI-Planung verwendeten Repräsentationsformalismen beeinflussen die dabei verwendeten Fallrepräsentationen maßgeblich. Zustände werden in der Regel durch prädikatenlogische Aussagen formalisiert und Pläne bestehen aus instanziierten Ope ratoren, deren Verhalten über Vor- und Nachbedingungen spezifiziert ist. Somit be steht der Vokabularcontainer in der fallbasierten Planung aus der Domänenspezifika tion der Planungsdomäne, z. B. in Form einer PDDL-Beschreibung [55].
9.2.7 Weiterführende Aspekte Die Auswahl eines geeigneten Ansatzes zur Fallrepräsentation für einen speziellen Ge genstandsbereich erfordert eine detaillierte Analyse der zu repräsentierenden Erfah rung. Hierbei muss identifiziert werden, welche Grundstruktur die zu repräsentieren de Erfahrung besitzt bzw. welche Struktur die Objekte der realen Welt haben, auf die sich die Erfahrung bezieht. Davon hängt ab, welche der zuvor eingeführten Repräsen tationsformen geeignet ist. Darauf aufbauend müssen die für den Gegenstandsbereich relevanten Informationen bestimmt und in Form von Attributen (und ggf. Klassen) formalisiert werden. Dies ist dann das Wissen, das im Vokabularcontainer repräsen tiert ist. Hierbei muss natürlich auch berücksichtigt werden, welche Informationen aus bestehenden Datenquellen überhaupt verfügbar sind bzw. mit vertretbaren Auf wand akquiriert werden können. Bei dieser Modellierungsaufgabe stellt sich häufig die Frage nach der geeigneten Abstraktionsebene für die Falldarstellung. Es muss dabei ein geeigneter Abstraktions grad gefunden werden, sodass darauf aufbauend die nachfolgenden Schritte des CBR zielführend durchgeführt werden können. Dies erfordert unter Umständen auch eine Datenvorverarbeitung zur Ableitung relevanter abstrakter Merkmale. Dies ist vor al lem bei komplexen Ausgangsdaten (wie z. B. Zeitreihen, Bild oder Videoinformation) erforderlich. So könnte im Beispielszenario aus Abbildung 9.1 auch eine EKG-Kurve als Zeitreihe in die Fallrepräsentation aufgenommen werden oder lediglich daraus ab geleitete relevante Merkmale, wie die Herzfrequenzvariabilität. Für synthetische Auf gabenstellungen (z. B. für Planung und Konfigurationsaufgaben) ist es dabei häufig hilfreich, mehrere Abstraktionsebenen für die Falldarstellung zu verwenden. Soge nannte hierarchische Fallrepräsentationen nach Bergmann [31; 32] erlauben es, Fälle auf mehreren miteinander in Verbindung stehenden Abstraktionsebenen zu repräsen
354 | 9 Fallbasiertes Schließen
tieren, so wie dies bereits in Schanks Dynamic Memory Ansatz [119] vorgeschlagen wurde. Dies erlaubt ein effizientes Retrieval, z. B. mit einem MAC-FAC-Modell [51] (Ab schnitt 9.4), sowie eine flexible Wiederverwendung und Adaption durch Nutzung der Erfahrung auf der am besten passenden Abstraktionsebene [20]. In der vorangegangenen Diskussion wird ein Fall immer als eine einzige Erfah rung betrachtet, d. h. formal als ein Punkt im Problem-Lösungs-Raum. Fallbasierte Systeme können jedoch auch mit generalisierter Erfahrung arbeiten, bei der ein einzi ger Fall eine Menge von „ähnlich gelagerten“ Erfahrungen zusammenfassend reprä sentiert. Ein solcher generalisierter Fall [30; 144] kann dadurch repräsentiert werden, dass als Attributwerte Mengen von möglichen Wertausprägungen oder eine verallge meinerte Ausprägung aus einer Taxonomie verwendet werden. Auch ist die Nutzung von Variablen in der Fallrepräsentation möglich, die über Constraints miteinander in Verbindung gebracht werden [90].
9.3 Ähnlichkeit im fallbasierten Schließen Die Grundidee des CBR besteht darin, dass ähnliche Probleme ähnliche Lösungen be sitzen. Daher werden neue Probleme gemäß des CBR-Zyklus dadurch gelöst, dass in der Fallbasis ein zum neuen Problem ähnlicher Fall gesucht wird (Retrieve), dessen Lösung dann zur Lösung des neuen Problems angepasst wird (Reuse). Ähnlichkeit ist daher ein zentraler Begriff im CBR, da sie bestimmt, welcher Fall (bzw. welche Fälle) Ausgangspunkt der Problemlösung sind. Nachfolgend wird die Bedeutung der Ähn lichkeit für das CBR näher analysiert. Danach werden Formalisierung und Modellie rung von Ähnlichkeit thematisiert sowie verschiedene Ansätze für Ähnlichkeitsmaße beschrieben, die für die in Abschnitt 9.2 eingeführten Fallrepräsentationen geeignet sind.
9.3.1 Bedeutung der Ähnlichkeit Die Ähnlichkeit dient im Retrieval dazu, Fälle mit Lösungen auszuwählen, die sich (möglichst leicht) auf das aktuelle Problem übertragen lassen. Die auszuwählenden Fälle müssen somit eine möglichst hohe Nützlichkeit für die Problemlösung aufwei sen. Je nützlicher ein Fall für die Lösung des aktuellen Problems ist, desto höher sollte daher dessen Ähnlichkeit zum Problem sein. Somit besteht das Ziel bei der Definition eines geeigneten Ähnlichkeitsmaßes darin, möglichst gut die spätere Nützlichkeit zu approximieren [21; 27]. Um dies zu ermöglichen, muss das Ähnlichkeitsmaß Wissen über die Nützlichkeit von Fällen codieren. Hierbei kann das Ähnlichkeitsmaß mehr oder weniger gut in der Lage sein, die Nützlichkeit zu approximieren. Wir differenzie ren hier auch grob zwischen wissensintensiven und wissensarmen Ähnlichkeitsmaßen, je nachdem wie viel Wissen über die Nützlichkeit berücksichtigt ist. Bei der Gestaltung
9.3 Ähnlichkeit im fallbasierten Schließen
| 355
von Ähnlichkeitsmaßen ergibt sich generell ein gewisser Zielkonflikt bei der Berück sichtigung von drei Aspekten: 1. der Qualität des Ähnlichkeitsmaßes hinsichtlich seiner Fähigkeit, die Nützlichkeit zu approximieren, 2. des Wissensakquisitions- und -modellierungsaufwandes, der für das Maß erfor derlich ist, und 3. des Berechnungsaufwandes zur Ermittlung der Ähnlichkeit während des Re trievals. Wissensarme Ähnlichkeitsmaße haben keine gute Qualität, sind aber dafür ohne gro ßen Wissensakquisitionsaufwand zu erstellen und verursachen üblicherweise einen geringen Berechnungsaufwand. Wissensintensive Ähnlichkeitsmaße hingegen haben in der Regel eine gute Qualität, erfordern aber einen größeren Entwicklungsaufwand (was die Kosten der Systementwicklung erhöht) und häufig auch einen höheren Be rechnungsaufwand (was das Retrieval verlangsamt oder höhere Hardwareanforde rungen verursacht). Wichtig ist daher eine gute Abwägung zwischen diesen beiden Extrempunkten, insbesondere unter Berücksichtigung der Menge der vorhandenen Fälle und deren Abdeckung des angestrebten Problemlösungsbereichs. Das Wissens containermodell (Abschnitt 9.1) besagt nämlich, dass sich das erforderliche Problem lösungswissen in gewissen Grenzen auf die Container aufteilen lässt. Das bedeutet, dass bei datenintensiven Anwendungen (große Fallbasen) auf wissensintensive Ähn lichkeitsmaße eher verzichtet werden kann. Sind hingegen Fälle rar oder nur mit gro ßem Aufwand zu gewinnen, kann ein wissensintensives Ähnlichkeitsmaß dieses De fizit kompensieren.
9.3.2 Formalisierung und Modellierung von Ähnlichkeitsmaßen Zur Nutzung in einem fallbasierten System müssen Ähnlichkeitsmaße formalisiert und im Hinblick auf eine zuvor bestimmte Fallrepräsentation modelliert werden. Formal betrachten wir ein Ähnlichkeitsmaß im Sinne des CBR als eine Funktion sim : P × P → [0, 1], die für ein aktuelles Problem q ∈ P und einen Fall c = (p, l) der Fallbasis den Ähnlichkeitswert sim(q, p) als reellwertige Größe im Intervall [0, 1] ermittelt. Der Wert eins ist dabei die maximale Ähnlichkeit und der Wert null die minimale Ähnlichkeit. Daraus abgeleitet kann man das Ähnlichkeitsmaß auch als Funktion sim : P × CB → [0, 1] verstehen, mit sim (q, (p, l)) = sim(q, p)⁴. Ein Ähn lichkeitsmaß sim induziert für ein Problem q auf der Fallbasis CB eine Präferenzord sim c :⇔ sim(q, c ) ≤ sim(q, c ), für c , c ∈ CB. nung ⪯sim j i j i j q über den Fällen durch c i ⪯q Ziel des Retrieval ist es dann, das oberste Element oder die obersten Elemente bzgl. 4 Nachfolgend differenzieren wir nicht zwischen sim und sim , da in der Regel aus dem Kontext klar ist, welche Form gemeint ist.
356 | 9 Fallbasiertes Schließen
dieser Präferenzordnung zu bestimmen. Eine zur Ähnlichkeit duale Formalisierung ist die der Distanz, wie sie beispielsweise auch bei der k-Nearest-Neighbour-Klassi fikation zum Einsatz kommt. Ein Distanzmaß ist eine Funktion dist : P × P → [0, 1] oder dist : P × P → ℝ+0 . Hierbei ist die Bedeutung des Zahlenwertes umgekehrt, d. h., eine Distanz von null bedeutet hohe Ähnlichkeit (häufig Gleichheit), wo hingegen ein hoher Distanzwert eine geringe Ähnlichkeit ausdrückt. Auch ein Distanzmaß in duziert für ein Problem q auf der Fallbasis CB eine Präferenzordnung ⪯dist über den q dist Fällen durch c i ⪯q c j :⇔ dist(q, c i ) ≥ dist(q, c j ), für c i , c j ∈ CB. Da es beim CBR immer nur auf die Präferenzordnung ankommt und nicht auf den Wert von Ähnlich keit oder Distanz, können wir ein Ähnlichkeitsmaß sim und ein Distanzmaß dist als dist äquivalent ansehen, falls ⪯sim q =⪯q . Im CBR gilt es zu beachten, dass die für Distanz maße in der Mathematik in der Regel geforderten Eigenschaften von Metriken hier nicht zwingend vorgeschrieben sind. Bei der Modellierung von Ähnlichkeitsmaßen muss im Einzelfall ermittelt werden, ob Eigenschaften wie Reflexivität, Symmetrie oder Dreiecksungleichung gelten müssen oder nicht.
9.3.3 Traditionelle Ähnlichkeitsmaße Aufgrund der Dualität von Ähnlichkeitsmaßen und Distanzmaßen liegt es nahe, klas sische Distanzmaße aus der Mathematik auch im CBR zur Ähnlichkeitsbestimmung einzusetzen (siehe [21; 112] für eine umfassendere Darstellung). Für homogene Fallre präsentationen in Attribut-Wert-Darstellung, also im Fall, dass alle Attribute den glei chen Wertebereich besitzen, sind prinzipiell folgende klassische Ähnlichkeits- oder Distanzmaße denkbar. Hierbei sind q = (q1 , . . . , q n ) und p = (p1 , . . . , p n ) zwei Pro blembeschreibungen mit n Attributen. Wir betrachten zunächst rein binäre Attribute, d. h. q i , p i ∈ {0, 1}. Beispielhaft kommen folgende traditionelle Maße infrage: – Der Simple Matching Coefficient (SMC) sim H (q, p) = 1n ⋅ | { i | q i = p i } | misst die Ähnlichkeit anhand der Anzahl der übereinstimmenden Attribute. – Der Weighted SMC sim H,ω (q, p) = ∑i=1...n,q i =p i ω i erlaubt die Einführung von Ge wichten für jedes Attribut im SMC. – Das Tversky-Ähnlichkeitsmaß aus der Psychologie ist über die Parameter f, α, β und γ bestimmt und nicht symmetrisch, falls β ≠ γ gilt: sim T,f,α,β,γ(q, p) = α ⋅ f(|{ i | x i = y i = 1 } |) − β ⋅ f(|{ i | x i = 1 ∧ y i = 0 } |) − γ ⋅ f(|{ i | x i = 0 ∧ y i = 1 } |). Etablierte Distanzmaße für reellwertige Attribute, d. h. für q i , p i ∈ ℝ, sind beispiels weise die Folgenden: – Die City-Block-Metrik: dist|⋅| (q, p) = 1n ⋅ ∑ni=1 | q i − p i |. – –
Der euklidische Abstand: distEuklid (q, p) = √ 1n ⋅ ∑ni=1 (q i − p i )2 . Die gewichtete Minkowski-Norm, die über den Parameter α parametrierbar ist und attributspezifische Gewichte ω i ermöglicht, ist eine Generalisierung der beiden zuvor beschriebenen Maße: distMinkowski,α,ω (q, p) = ( ∑ ni=1 ω i ⋅ | q i − p i |α )1/α .
9.3 Ähnlichkeit im fallbasierten Schließen |
357
Diese Nutzung dieser Maße ist im CBR durchaus gebräuchlich, jedoch nur für homo gene Fallrepräsentationen möglich. Auch gibt es bei diesen Maßen nur wenige Pa rameter für die Anpassung zur möglichst guten Approximation der Nützlichkeit. Die gewichteten Maße bieten hier aber zumindest die Möglichkeit, die spezifische Bedeu tung der einzelnen Attribute für die Wiederverwendbarkeit der Fälle berücksichtigen zu können.
9.3.4 Lokal-Global-Prinzip In praktischen, fallbasierten Systemen reichen homogene Fallrepräsentationen sel ten aus. In der Regel muss für jedes Attribut ein individueller Wertebereich festgelegt werden. Dies erfordert entsprechende Ähnlichkeitsmaße, die damit umgehen können. Das Lokal-Global-Prinzip für Ähnlichkeitsmaße nach Richter [111; 112] ist dazu ein An satz, der auf dem in der Informatik etablierten Teile-und-herrsche-Verfahren basiert. Hierbei wird zwischen der globalen Ähnlichkeit für Fälle sim(q, p) (wie bereits ein geführt) und der lokalen Ähnlichkeit für einzelne Attribute sim A i (q i , p i ) : T i × T i → [0, 1] unterschieden. Das Problem der globalen Ähnlichkeitsbestimmung wird dabei in die Bestimmung von lokalen Ähnlichkeiten für jedes Attribut der Fallrepräsentation und deren Aggregation zur globalen Ähnlichkeit zerlegt. Dieser Ansatz erlaubt es, die lokalen Ähnlichkeitsmaße entsprechend des Wertebereichs des Attributs bedarfsge recht zu bestimmen. Alle lokalen Ähnlichkeitsmaße liefern lokale Ähnlichkeitswerte im Intervall [0, 1], die dann durch eine Aggregationsfunktion Φ zur globalen Ähn lichkeit zusammengeführt werden. Formal ergibt sich das Ähnlichkeitsmaß dann wie folgt: sim(q, p) = Φ(sim A 1 (q1 , p1 ), . . . , sim A n (q n , p n )). Für die Aggregationsfunkti on Φ : [0, 1]n → [0, 1] wird dabei üblicherweise verlangt, dass Φ(0, . . . , 0) = 0 und Φ(1, . . . , 1) = 1 gilt und dass sie monoton steigend in jedem Argument ist. 9.3.4.1 Lokale Ähnlichkeitsmaße Lokale Ähnlichkeitsmaße bewerten die Nützlichkeit eines Falls unter lokaler Betrach tung der Werte eines einzelnen Attributes. Dabei wird die Abweichung des Attribut wertes zwischen Anfrage q i und Problem im Fall p i bewertet. Der Ähnlichkeitswert soll dann ausdrücken, wie weit der Unterschied zwischen beiden Werten die Gesamt nützlichkeit des Falls beeinträchtigt. In Abhängigkeit des Attributtyps kommen hierzu verschiedene Funktionen zum Einsatz. Bei numerischen Attributen wird die Ähnlich keit häufig gemäß folgender Formel bestimmt: f(δ(q, p)) { { sim A i (q, p) = { 1 { g(δ(p, q)) {
: : :
q>p, q=p, p>q.
Hierbei ist δ eine Differenzfunktion auf dem Typ des Attributs, z. B. δ(q, p) = q − p. Die Funktionen f und g, die in der Regel monoton fallend sind, ermöglichen es, den
358 | 9 Fallbasiertes Schließen
Abb. 9.4: Basisfunktionen f, g für lokale Ähnlichkeitsmaße
genauen Verlauf der Ähnlichkeit festzulegen. Für f = g handelt es sich um ein sym metrisches Maß, für f ≠ g um ein asymmetrisches Maß. In Abbildung 9.4 sind bei spielhaft mögliche Funktionen abgebildet. Sie unterscheiden sich darin, wie mit grö ßer werdendem Abstand der Wertausprägungen die Ähnlichkeit abnimmt. Für f und g können hierbei unterschiedliche Verläufe angemessen sein. Häufig werden dafür spe zielle asymmetrische Ähnlichkeitsmaße eingesetzt, bei denen f(x) = 1 oder g(x) = 1 ist, also eine Unter- bzw. Überschreitung des Attributwertes der Anfrage durch den Fall vollständig toleriert wird. Auch für nicht numerische Attributtypen sind in der Literatur diverse Ansät ze entwickelt worden, mit denen lokale Ähnlichkeitsmaße modelliert werden kön nen [21; 112]. Total geordnete symbolische Wertebereiche können z. B. wie numeri sche Attribute behandelt werden. Für taxonomisch geordnete Wertebereiche werden Ähnlichkeitsmaße genutzt, die den Abstand der Knoten im Baum messen. Für sym bolische Wertebereiche ohne vorgegeben Ordnung sind Ähnlichkeitstabellen oft die einzige Möglichkeit der Modellierung. Für Stringattribute kommen Ähnlichkeitsma ße aus dem Information Retrieval infrage, wie z. B. die Levenshtein-Distanz, die Cosi nus-Ähnlichkeit im Vektorraummodell des Information Retrieval, oder auch die Nut zung von Wort- oder Satz-Embeddings und damit verbundene Ähnlichkeitsmaße [75]. Im Beispielszenario aus Abbildung 9.1 müssen für alle acht Attribute der Problem beschreibung lokale Ähnlichkeitsmaße definiert werden. Für das Attribut Alter könn te beispielsweise ein Ähnlichkeitsmaß genutzt werden, dass Patienten mit einem Al tersunterschied von bis zu fünf Jahren als maximal ähnlich betrachtet, Patienten mit einem Altersunterschied von 15 oder mehr Jahren als maximal unähnlich betrachtet und dazwischen eine linear abgestufte Ähnlichkeit wie folgt festlegt: 1 { { simAlter (q, p) = { 1 − (|q − p| − 5)/10 { 0 {
: |q − p| ≤ 5 , : 5 < |q − p| < 15 , : |q − p| ≥ 15 .
9.3.4.2 Aggregationsfunktionen Die Aggregationsfunktion hat die Aufgabe, die lokalen Ähnlichkeitswerte zur globa len Fallähnlichkeit zusammenzuführen. Hierbei wird die unterschiedliche Bedeutung der einzelnen Attribute in der Regel durch geeignete Gewichtungen ausgedrückt. Die
9.3 Ähnlichkeit im fallbasierten Schließen
| 359
einfachste und dabei auch gebräuchlichste Form der Aggregation ist die Nutzung ei ner gewichteten Mittelwertbildung, d. h., Φ(s1 , . . . s m ) = ∑i=1...n ω i ⋅s i , mit Gewichten ω i , sodass ∑i=1...n ω i = 1; aber auch andere Funktionen sind möglich [21; 112]. Neben dem hier formalisierten Modell der globalen Gewichte, die für alle Anfragen und Fäl le den gleichen Gewichtsvektor nutzen, sind auch Gewichtsmodelle möglich, die es erlauben, anfrage- oder fallspezifisch die Gewichte festzulegen. Die Aggregationsfunktion für das Beispiel Abbildung 9.1 muss die lokalen Ähn lichkeitswerte der acht Attribute zusammenführen, z. B. mit einer gewichteten Mit telwertbildung. Hierzu muss für jedes Attribut ein Gewicht bestimmt werden, dass die Bedeutung des Attributes für die Diagnose festlegt. So könnten z. B. die Gewichte für die Attribute Diagnose, Blutdruck, Körpergewicht und Größe hoch bewertet werden (z. B. mit dem Wert 0,16) die Gewichte für Alter, Rauchen und Bewegungsmangel nied riger (z. B. mit dem Wert 0,1) und das Gewichte für Geschlecht sehr niedrig (z. B. mit dem Wert 0,06).
9.3.5 Ähnlichkeitsmaße für die objektorientierte Repräsentation Für die Modellierung von Ähnlichkeitsmaßen bei objektorientierten Fallrepräsenta tionen kann das Lokal-Global-Prinzip nach Bergmann & Stahl [28] erweitert werden. Lokale Ähnlichkeitsmaße werden wie bei der Attribut-Wert-Repräsentation für alle nicht relationalen Attribute C i .A j der Klassen definiert. Diese werden dann durch klassenspezifische Aggregationsfunktionen Φ C i zu einer Objektähnlichkeit zusam mengeführt, also einer globalen Ähnlichkeit auf der Ebene von Objekten einer Klas se. Hierbei sind die ererbten Attribute einer Klasse ebenfalls durch die Aggregations funktion zu berücksichtigen. Im Fall von relationalen Attributen ist die Angabe einer lokalen Ähnlichkeit nicht notwendig, da der Ähnlichkeitswert für das Attribut ge mäß der Objektähnlichkeit des zugeordneten Objektes bestimmt werden kann. Erwei terungen dieses Grundansatzes sind nötig, falls Objekte unterschiedlicher Klassen miteinander verglichen werden müssen. In diesem Fall kann die Aggregationsfunkti on der gemeinsamen Oberklasse herangezogen werden, die dann auf den gemeinsa men Attributen beider Objekte eine Ähnlichkeit bestimmt. Mit berücksichtigt werden muss dabei jedoch üblicherweise außerdem der Unterschied, der sich aufgrund der unterschiedlichen Klassenzugehörigkeit der Objekte ergibt, z. B. durch Modellierung eines taxonomischen Ähnlichkeitsmaßes über der Klassenhierarchie.
9.3.6 Ähnlichkeitsmaße für graphbasierte Repräsentation Ähnlichkeitsmaße für Fälle in Graphrepräsentation machen sich Ansätze aus der Gra phentheorie zunutze, um einen Vergleich von Graphen durchzuführen. Graph- oder Subgraphisomorphie erlaubt z. B. die Definition eines rein binären Ähnlichkeitsma
360 | 9 Fallbasiertes Schließen
ßes auf der Graphstruktur. Zudem können die Knoten- und Kantenlabels der bei dieser Isomorphie zugeordneten Knoten und Kanten von Query- und Fallgraph mithilfe der zuvor eingeführten Ähnlichkeitsmaße verglichen und deren Werte zur Fallähnlichkeit aggregiert werden. Ein weiterer Ansatz ist der sog. Graph-Editier-Abstand nach Bun ke & Messmer [36], ein Abstandsmaß, welches die Kosten für die Anpassung (Editie rung) des Anfragegraphen hin zum Fallgraphen misst. Hierbei können Kostenfunk tionen für das Einfügen, Löschen und Ändern von Knoten und Kanten vorgegeben werden, mit denen das Maß anwendungsspezifisch gestaltet werden kann. Alterna tiv dazu kann die Bestimmung der Ähnlichkeit zwischen zwei Graphen auch als ein Optimierungsproblem aufgefasst werden, bei dem versucht wird, eine optimale Abbil dung von den Knoten und Kanten des Querygraphen auf die Knoten und Kanten des Fallgraphen zu finden [23]. Die Abbildung wird durch die Aggregation der Ähnlichkeit der Knoten- und Kantenmarkierungen der durch die Abbildung zugeordneten Knoten und Kanten bewertet.
9.3.7 Ähnlichkeitsmaße für die fallbasierte Planung In der fallbasierten Planung [34] steht die Ähnlichkeit in besonders engem Zusam menhang mit der Methode zur Wiederverwendung der Lösung, woraus sich eine Vielzahl unterschiedlicher Ansätze herausgebildet hat. Das Hauptziel der Ähnlich keitsbewertung ist die Approximation der Nützlichkeit des Falles, die hier den er forderlichen Berechnungsaufwand für die Problemlösung durch Wiederverwendung widerspiegelt [20; 26; 61]. Daher sollte ein Fall als sehr ähnlich angesehen werden, wenn nur wenig Aufwand für die Anpassung der Lösung erforderlich ist und weni ger ähnlich, falls die Anpassung rechenintensiv ist. Die Wiederverwendbarkeit eines Planungsfalles ist jedoch sehr stark von der jeweiligen Lösung bestimmt und nicht nur von der Problembeschreibung. Die Ähnlichkeitsbewertung nach Veloso [133] er mittelt daher die Teile der Problembeschreibung im Fall, die für eine erfolgreiche Wiederverwendung der Lösung relevant sind. Grundsätzlich kann dies erreicht wer den, indem auf der Grundlage der Domänenbeschreibung die schwächste Vorbedin gung berechnet wird, die sicherstellt, dass der Plan erfolgreich angewendet werden kann. Der Grad der Übereinstimmung der darin vorkommenden prädikatenlogischen Formeln zwischen der aktuellen Anfrage und dem Problem im Fall bestimmt dann die Ähnlichkeit.
9.3.8 Weiterführende Aspekte Der für die fallbasierte Planung diskutierte Zusammenhang zwischen Ähnlichkeit und Wiederverwendbarkeit ist von grundsätzlicher Bedeutung für das CBR und wird un ter dem Begriff „adaptation-guided retrieval“ [125] von Smyth & Keane in der Literatur
9.4 Retrieval
| 361
diskutiert. Mit verschiedenen Ansätzen wird dabei versucht, die individuelle Wieder verwendbarkeit von Fällen unter Berücksichtigung des benutzten Adaptionsansatzes (Abschnitt 9.5) abzuschätzen und dies entweder beim Retrieval oder bereits bei der Definition der Ähnlichkeitsmaße zu berücksichtigen [72]. Grundsätzlich ist die Erstellung eines wissensintensiven Ähnlichkeitsmaßes für einen Anwendungsbereich aufwendig. Je komplexer die Fallrepräsentation desto mehr Parameter müssen im Ähnlichkeitsmaß bestimmt werden. Die manuelle Erstel lung von Ähnlichkeitsmaßen erfordert Experteninterviews, in denen versucht wird, die für die Wiederverwendung relevanten Attribute zu identifizieren sowie die Auswir kung von Unterschieden zu quantifizieren. Das Lokal-Global-Prinzip hilft hierbei die Analyse fokussiert durchzuführen. Dennoch stellt sich am Ende des Modellierungs prozesses häufig die Frage nach der Qualität des modellierten Ähnlichkeitsmaßes. Eine Möglichkeit diese zu ermitteln besteht darin, für eine Testmenge von potenzi ellen Anfragen durch ein Experteninterview einen „Goldstandard“ für das Ranking der besten N (z. B. N = 10) Fälle der Fallbasis zu bestimmen und dann die durch das Ähnlichkeitsmaß bestimmte Präferenzrelation für die Testmenge mit diesem Ranking mithilfe eines Rankingmaßes zu vergleichen. Neben der manuellen Erstellung von Ähnlichkeitsmaßen bietet es sich jedoch auch an, das Ähnlichkeitsmaß mithilfe von Methoden des Maschinellen Lernens zu bestimmen oder zu verbessern. Dies fällt dann in die Retain-Phase und wird in Ab schnitt 9.6 diskutiert.
9.4 Retrieval Das Retrieval von Fällen ist die erste der 4R-Phasen des CBR-Zyklus (Abschnitt 9.1). Ausgehend von einer Fallbasis CB, einem Ähnlichkeitsmaß sim und einer Anfrage bzw. neuem Problem q wird entweder der ähnlichste Fall gesucht, die m ähnlichsten Fälle oder alle Fälle, die zur Anfrage eine Mindestähnlichkeit besitzen. Das adressierte Hauptproblem ist dabei die Effizienz, woraus sich direkt die Frage ergibt, wie eine Fallbasis zu organisieren ist, damit Fälle effizient aufgefunden werden können. Im Folgenden werden wir drei verschiedene Retrieval-Arten vorstellen.
9.4.1 Sequenzielles Retrieval Beim sequenziellen Retrieval gibt es keine besondere Organisation der Fallbasis. Es wird auf jeden Fall in der Fallbasis c ∈ CB einmal zugegriffen, die Ähnlichkeit sim(q, c) zur Anfrage berechnet und der Fall gemäß seiner Ähnlichkeit in eine Ergeb nisliste einsortiert. Die Komplexität des sequenziellen Retrievals ist somit O(|CB|). Neben der einfachen Implementierung sind weitere Vorteile, dass keine Indexstruk turen aufgebaut und gepflegt werden müssen sowie dass beliebige Ähnlichkeitsmaße
362 | 9 Fallbasiertes Schließen
verwendet werden können. Trotz seiner niedrigen Komplexitätsklasse ist sequenziel les Retrieval aber problematisch, wenn die Fallbasis sehr groß ist oder die Berechnung der Ähnlichkeit selbst sehr komplex ist. Weitere Nachteile sind, dass der RetrievalAufwand auch für einfache Anfragen immer gleich bleibt, auch wenn z. B. nur der ähnlichste Fall, statt die m ähnlichsten Fälle, angefragt wird.
9.4.2 Zweistufiges Retrieval Das zweistufige Retrieval basiert auf dem MAC-FAC-Modell (many are called, few are chosen) von Gentner und Forbus [51] und besteht aus den folgenden beiden Schritten: 1. Vorauswahl von möglichen Lösungskandidaten M q = {c ∈ CB | SIM(q, c)}, 2. Anordnung der Lösungskandidaten M q durch das Ähnlichkeitsmaß sim durch Anwendung des sequenziellen Retrievals. Hierbei ist SIM(q, c) kein Ähnlichkeitsmaß, sondern ein Prädikat, das nur verein facht zwischen ähnlich und unähnlich unterscheidet. Das Finden eines geeigneten Prädikats SIM ist in der Regel schwierig, da dieses einerseits eine gute Approximation des eigentlichen Ähnlichkeitsmaßes sim sein muss, andererseits gewährleisten muss, dass die Berechnung von M q sehr effizient möglich ist (z. B. durch eine Datenbankab frage via SQL). Beispiele für solche Prädikate sind: – Partielle Gleichheit: SIM(q, c) genau dann, wenn q und c in mindestens einem Attribut übereinstimmen. – Lokale Ähnlichkeit: SIM(q, c) genau dann, wenn q und c bezüglich jedes Attributs hinreichend ähnlich sind. – Partielle lokale Ähnlichkeit: SIM(q, c) genau dann, wenn q und c bezüglich eines Attributs hinreichend ähnlich sind. Wenn die Vorauswahl sehr schnell wenige Fälle selektiert, hat das zweistufige Re trieval einen Performanzvorteil. Allerdings kann die Vollständigkeit des Retrievals in der Regel nicht gewährleistet werden, da sog. Ω-Retrieval-Fehler möglich sind. Dies bedeutet nämlich, dass ein Fall, der zur Anfrage zwar hinreichend ähnlich ist, nicht ausgewählt wird, da er durch die Vorauswahl nicht berücksichtigt wurde.
9.4.3 Indexorientiertes Retrieval Ausgehend von Fallbasis und Ähnlichkeitsmaß generieren indexorientierte RetrievalVerfahren zuvor in einer Offlinephase eine Indexstruktur, die wiederum zum effizien ten Zugriff auf die Fälle in der Fallbasis verwendet wird.
9.4 Retrieval |
363
9.4.3.1 Retrieval mit kd-Bäumen Ein k-dimensionaler binärer Suchbaum zur effizienten Suche in Datensätzen, kurz kd-Baum, wurde ursprünglich von Bentley [19] vorgeschlagen. Die zugrunde liegende Idee ist dabei die Zerteilung des Datensatzes (hier: Fallbasis) in immer kleinere Inter valle. Die Anordnung in diesem binären Baum ist ähnlich zu einem Entscheidungs baum. Beim Retrieval wird er bis zum Blattknoten durchlaufen. Im Gegensatz zum Entscheidungsbaum ist hier jedoch Backtracking möglich. Formal ist ein kd-Baum wie folgt definiert: Definition 9.4.1. Gegeben seien n geordnete Wertebereiche T1 , . . . , T n der Attribute A1 , . . . , A n , eine Fallbasis CB ⊆ T1 × ⋅ ⋅ ⋅ × T n und ein Parameter b (Bucketgröße). Ein kd-Baum T(CB) für die Fallbasis CB ist ein binärer Baum, der wie folgt definiert ist: – Ist |CB| ≤ b : T(CB) ist ein Blattknoten (sog. Bucket), der mit CB markiert ist. – Ist |CB| > b : T(CB) ist ein Baum, dessen Wurzel, die mit einem Attribut A i und einem Wert v i ∈ T i markiert ist und die zwei kd-Bäume T≤ (CB≤ ) und T> (CB> ) als Nachfolger besitzt, wobei CB≤ := {(x1 , . . . , x n ) ∈ CB | x i ≤ v i } und CB> := {(x1 , . . . , x n ) ∈ CB | x i > v i }. Ein kd-Baum partitioniert eine Fallbasis (Abbildung 9.5). Die Wurzel repräsentiert die gesamte Fallbasis, ein Blattknoten (Bucket) repräsentiert eine Teilmenge der Fallba sis, die nicht weiter partitioniert werden soll, bei jedem inneren Knoten wird die Fall basis weiter partitioniert, wobei die Fallbasis bzgl. eines Wertes eines Attributs ge teilt wird. Während der Generierung eines kd-Baums wird typischerweise dasjenige Attribut als nächstes ausgewählt, das den Interquartilsabstand maximiert. Für die Auswahl des jeweiligen Attributwertes werden entweder der Median oder das Maxi mumsplitting verwendet [139].
Abb. 9.5: Beispiel eines kd-Baums
364 | 9 Fallbasiertes Schließen
Algorithmus 9.1: Retrieval mit kd-Baum T(CB) zur Anfrage q
4
if T ist Blattknoten then for jeden Fall c von T do if sim(q, c) > scq[m].similarity then füge c in scq ein (sortiert)
5
else
1 2 3
11
/* innerer Knoten */ Sei A i das Attribut und v i der Wert, mit dem T markiert ist if q i ≤ v i then Retrieve(T≤ ) if BOB-Test ist erfüllt then Retrieve(T> )
12
else
6 7 8 9 10
13 14 15 16 17 18 19
Retrieve(T> ) if BOB-Test ist erfüllt then Retrieve(T≤ ) if BWB-Test ist erfüllt then terminiere Retrieval mit Ergebnis scq else RETURN /* mache mit dem Elternknoten weiter */
Algorithmus 9.1 beschreibt das Vorgehen beim Retrieval der m-ähnlichsten Fäl le für eine Anfrage q = (q1 , . . . , q n ). Hierbei wird der Baum zunächst bis zu dem Blattknoten durchlaufen, in den die Anfrage hineinfällt. Die dort enthaltenen Fälle werden bzgl. ihrer Ähnlichkeit bewertet und in eine sortierte Ergebnisliste scq einge tragen. Der BWB-Test (Ball-Within-Bounds) überprüft sodann, ob die Hyperkugel⁵ um den Anfragepunkt vollständig in dem dem jeweiligen Blattknoten zugehörigen Hyper raum enthalten ist. Falls ja, können keine ähnlicheren Fälle mehr gefunden und die Suche mit der Ergebnisliste scq beendet werden. Der BOB-Test (Bounds-Overlap-Ball) prüft, ob in dem aktuell betrachteten Teilbaum noch ähnlichere Fälle enthalten sein könnten. Falls ja, wird die Suche in diesem Teilbaum fortgesetzt. Durch den Aufbau der kd-Baum-Indexstruktur fallen erhöhte Kosten an, die aber offline entstehen. Der kd-Baum erfordert geordnete Wertebereiche und monotone Ähnlichkeitsmaße, die mit der jeweiligen Ordnung verträglich sind. Zudem bestehen Probleme bei der Verarbeitung unbekannter Werte in der Query oder den Fällen. Ein kd-Baum erlaubt ein effizienteres Retrieval, falls die Anzahl der Dimensionen nicht
5 Dies geschieht unter der Annahme, dass das Ähnlichkeitsmaß dem geometrischen Abstand ent spricht. Andernfalls ergeben sich statt der Hyperkugel entsprechende andere geometrische Objekte.
9.4 Retrieval |
365
übermäßig groß ist. Dies beinhaltet auch, dass Anfragen, die nur wenige Fälle liefern sollen (kleiner Wert für m), schneller beantwortet werden als Anfragen, die große Ergebnislisten zurückgeben sollen. Wess [139] hat aufbauend auf dem kd-Baum den INRECA-Baum entwickelt, der verschiedene Erweiterungen und Verbesserungen u. a. für ungeordnete Wertebereiche und für unbekannte Werte beinhaltet. 9.4.3.2 Retrieval mit Case-Retrieval-Netzen Case-Retrieval-Netze nutzen ein Netz zur Unterstützung des Zugriffs auf die Fälle in der Fallbasis (Abbildung 9.6). Die Fallinformationen werden dabei in Informationsein heiten (IE) zerlegt (z. B. Attribut-Wert-Paare). Jede Informationseinheit wird zu einem Netzknoten. Auch jeder Fall wird durch einen Netzknoten repräsentiert. Informations einheiten, zwischen denen eine Ähnlichkeit echt größer null besteht, werden mitein ander verbunden. Die Verbindungsstärke entspricht dabei der Ähnlichkeit. Zum Re trieval werden die Informationseinheiten der Anfrage aktiviert. Die Aktivierung wird durch das Netzwerk bis zu den Fallknoten mithilfe einer Propagierungsfunktion pro pagiert. Die Aktivierung an den Fallknoten spiegelt dann die Ähnlichkeit zur Anfrage wider.
Abb. 9.6: Schema eines Case-Retrieval-Netzes
Abbildung 9.6 zeigt das Schema eines Case-Retrieval-Netzes. Es ist ein gerichteter gela belter Graph mit zwei Arten von Knoten und Kanten. Bidirektionale Ähnlichkeitskan ten drücken die Ähnlichkeit zwischen den IE aus, z. B. σ(IE1 , IE2 ). Relevanzkanten von IE zu den Fallknoten bestimmen die Relevanz dieser IE für einen Fall, z. B. ρ(IE2 , C1 ) – sie entsprechen also einem fallspezifischen Gewicht in der Aggregationsfunk tion des Ähnlichkeitsmaßes. π IE2 bzw. π C1 sind Bezeichnungen für Propagierungs funktionen von IE- bzw. Fallknoten. Die Propagierungsfunktion eines Falls berechnet die globale Ähnlichkeit, für Attribut-Wert-Paare entspricht dies also der Aggregations funktion.
366 | 9 Fallbasiertes Schließen
Case-Retrieval-Netze erlauben ein effizienteres Retrieval, falls aufgrund der für eine Query erforderlichen Aktivierungen nicht alle Fallknoten aktiviert werden und somit Ähnlichkeitsberechnungen eingespart werden können. Wie bei indexbasierten Verfahren üblich, fallen für den Aufbau des Netzes Kosten an, die jedoch überwiegend offline vor dem eigentlichen Retrieval entstehen. Bei numerischen Attributen müssen jedoch ggf. neue Anfrageknoten zur Retrieval-Zeit erzeugt werden. Insgesamt sind Re trieval-Netze geeignet, wenn der Vernetzungsgrad der IE eher niedrig ist, wie dies bei spielsweise bei textuellen Fallrepräsentationen häufig der Fall ist. Auch lassen sich Anfragen mit wenigen IE schneller beantworten als solche mit vielen. Weitere Details und Verbesserungen dieses Grundansatzes werden von Lenz [73] dargelegt. 9.4.3.3 Retrieval mit „Fish and Shrink“ Der Fish-and-Shrink-Retrieval-Ansatz wurde von Schaaf [117] zur Behandlung kom plexer Ähnlichkeitsmaße, deren Ähnlichkeitsberechnung sehr aufwendig ist (z. B. Be rechnung der Ähnlichkeit zwischen Graphstrukturen), entwickelt. Der Ansatz besteht in der Offlinevorberechnung der Ähnlichkeit zwischen Fällen. Dazu wird ein Netzwerk aufgebaut und kontinuierlich verfeinert, das die Fälle als Knoten und die vorberech neten Ähnlichkeiten zwischen Fällen als Kanten enthält. Zum Retrieval wird in der Fish-Phase die Ähnlichkeit zwischen der Anfrage und einem ausgewählten Testfall ermittelt. In der folgenden Shrink-Phase werden dann Ober- und Untergrenzen für die Ähnlichkeit der anderen Fälle der Fallbasis zur Anfrage berechnet, unter Nutzung der Dreiecksungleichung, deren Gültigkeit für das Ähnlichkeitsmaß angenommen wird. Es erfolgt damit ein Rückschluss auf die Ähnlichkeit für andere verbundene Fälle oh ne die Ähnlichkeit selbst berechnen zu müssen, wodurch Berechnungsaufwand ein gespart wird. Dieser Fish-and-Shrink-Prozess wird mit weiteren Testfällen wiederholt, solange bis genügend genaue Information über die Ähnlichkeit der Fälle vorliegt, um die Retrieval-Aufgabe abschließend zu lösen. Der Ansatz erlaubt ein effizientes Retrieval, wenn durch die Abschätzung der Ähn lichkeit viele Ähnlichkeitsberechnungen eingespart werden können. Die Gültigkeit der Dreiecksungleichung ist jedoch eine signifikante Einschränkung der Anwendbar keit des Verfahrens; sollte sie nicht erfüllt sein, kann die Vollständigkeit des Retrievals nicht mehr sichergestellt werden. Weitere Details und Verbesserungen dieses Grund ansatzes werden von Schaaf [118] dargelegt.
9.5 Adaption Nachdem in der Retrieval-Phase des CBR-Zyklus ähnliche Fälle zur Anfrage gesucht wurden, können die gefundenen Lösungen nicht immer unverändert auf das in der Anfrage beschriebene Problem angewandt werden. Sie müssen in der Wiederverwen dungsphase (Reuse) auf das neue Problem angepasst werden. Aus kognitionspsycho
9.5 Adaption |
367
logischer Sicht bezeichnet Adaption „die kognitive Fähigkeit, sich eine Lösung für eine Problemsituation auszudenken, die sich von allen bisher bekannten Lösungen unter scheidet“ [17]. Die Aufgabe der Adaption im CBR besteht darin, gefundene Fälle so zu verändern, dass sie das neue Problem lösen. Diese Lösungsanpassung benutzt Adap tionswissen.
Abb. 9.7: Lösungsanpassung in der Wiederverwendungsphase (Reuse)
Beispielsweise kann ein Cloud-Angebot über fünf Desktop-as-a-Service-Instanzen, das für eine Firma mit fünf Mitarbeitern passt, an eine Firma mit zehn Mitarbeitern angepasst werden, indem die Anzahl der Instanzen verdoppelt wird. Wird die Lösung eines einzigen Falls adaptiert, spricht man von Einzelfalladaption (single case adapt ation). Werden Lösungen aus mehreren Fällen miteinander kombiniert, um eine neue Lösung zu schaffen, handelt es sich um eine kompositorische Adaption (multiple case adaptation [99] oder compositional adaptation [141]). Die kompositorische Adaption ist eine schwierigere Aufgabe als die Einzelfalladaption, da sie mit Abhängigkeiten und ggf. widersprüchlichen Lösungsanteilen umgehen muss.
9.5.1 Adaptionsansätze Es gibt verschiedene grundlegende Adaptionsansätze im CBR. Der populärste Ansatz ist die sog. Null-Adaption, bei der die Lösungsanpassung nicht automatisch unter stützt wird, sondern den Benutzern überlassen bleibt. Eleganter sind natürlich die automatisierten Ansätze, die sich in die transformationsbasierte Adaption und die ge nerative Adaption untergliedern lassen. Bei der transformationsbasierten Adaption wird ein aus der Fallbasis stammender Lösungsvorschlag so lange modifiziert, bis er das aktuelle Problem bestmöglich löst. Werden nur einzelne Lösungsbestandteile verändert, handelt es sich um eine Substi tution. Sind hingegen mehrere Lösungskomponenten von der Änderung betroffen, so dass Abhängigkeiten zwischen Komponenten berücksichtigt werden müssen, ist es eine strukturübergreifende Transformation. Ein Beispiel für Substitution ist der Aus
368 | 9 Fallbasiertes Schließen
tausch einer App für ein Desktop-as-a-Service-Angebot, etwa das Ersetzen der analo gen Uhranzeige durch eine digitale. Ein Beispiel für eine strukturübergreifende Trans formation ist der Umstieg auf eine neue Speicherlösung für ein Multi-Cloud-Angebot. Alle Komponenten im Angebot, die die Speicherlösung nutzen sollen, müssen dabei auf ihre Kompatibilität geprüft und ggf. umkonfiguriert oder ausgetauscht werden. Die generative Adaption benötigt einen generativen Problemlöser, der allgemein gültiges Wissen besitzt, um eine Lösung neu zu erstellen. Generative Problemlöser könnten sogar ganz ohne Fallbasis auskommen. Die Fälle aus der Fallbasis dienen lediglich dazu, den Problemlöseprozess zu steuern oder abzukürzen, indem Wissen über den Lösungsweg (problem solving traces) wiederverwendet wird. Generative Ad aption hat ihre Wurzeln im Gebiet der derivational analogy und ist seltener als die transformationsbasierten Ansätze anzutreffen. Ein Beispiel für generative Adaption ist der genetische Algorithmus für semantische Netze [18], der semantische Netze zufällig um Konzepte und Relationen aus WordNet [48] erweitert und das generierte Ergebnis dann mit einer Fitnessfunktion bewertet, die ein Strukturmapping zu be stehenden semantischen Netzen in der Fallbasis durchführt. Auch im Bereich der fallbasierten Planung (Abschnitt 9.7.2) ist die generative Adaption das Verfahren der Wahl, da hier in der Regel ein generativer Problemlöser in Form eines Planungsalgo rithmus zur Verfügung steht.
9.5.2 Repräsentationsformen für Adaptionswissen Adaptionswissen kann in sehr unterschiedlichen Formen repräsentiert werden. Adap tionsregeln beschreiben Adaptionswissen in WENN-DANN-Form und sind besonders gut für die Substitution geeignet. Folgendes Beispiel beschreibt eine einfache Adapti onsregel, die die Anzahl der empfohlenen Schritte für einen Herzpatienten reduziert, falls sein Body-Mass-Index höher als bei dem Patienten im gefundenen Fall ist: WENN query.bmi > (retrieved.bmi * 1,2) DANN target.empfohleneSchritte := (retrieved.empfohleneSchritte − 5.000).
Formal kann eine Adaptionsregel wie folgt beschrieben werden [112, S. 106]: φ1 ∧ φ2 ∧ . . . ∧ φ n ⇒ A . Die linke Seite der Regel beschreibt die Vorbedingungen φ1 bis φ n , die rechte Seite die Aktion A. Ein Beispiel für etwas komplexere Adaptionsregeln sind die Transformati onsregeln für SPARQL-Anfragen in der Sprache SQTRL [35]. Der Fall, der geändert wer den soll, besteht also aus einer gespeicherten Anfrage. Eine SQTRL-Regel substituiert RDF-Tripel in SPARQL-Anfragen (. . . durch . . . ), falls ein bestimmter Kontext () an weiteren RDF-Tripeln gilt, spezifiziert die Kosten () für diese Substitution und speichert eine Erklärung der Substitution
9.5 Adaption | 369
() in natürlicher Sprache. In folgendem Beispiel wird in einer Anfra ge nach Kochrezepten die gesuchte Zutat Butter durch Margarine ersetzt, sodass die geänderte Suchanfrage Rezepte für die cholesterinarme Ernährung finden kann:
?r type DessertRecipe ?r ingredient ?x . ?x type Butter ?r ingredient ?x . ?x type Margarine 0.1 Replace butter with margarine.
Eine regelbasierte Transformationsvorschrift kann aus einer oder mehreren Re geln bestehen und ggf. ein Abbruchkriterium enthalten. Ein Beispiel für eine mehrstu fige, regelbasierte Adaption sind die Adaptionspfade [71]. In einem Rezept für Pfann kuchen kann das Backpulver durch Buttermilch ersetzt werden und dann, falls keine Buttermilch verfügbar ist, Kuhmilch und Essig stattdessen genommen werden. Adaptionsoperatoren bilden eine Alternative zu Adaptionsregeln. Ein Adaptions operator ist eine partielle Funktion, die einen Fall in einen Folgefall transformiert [21, S. 149]. In Anlehnung an Planungskalküle mit Zustandsräumen (vgl. die Planungs sprache STRIPS [49]) besteht eine Operatorbeschreibung für Fälle aus folgenden Ele menten: – einem Operatornamen, – den Vorbedingungen, die gelten müssen, damit der Operator anwendbar ist, – den Zielbedingungen, die den Adaptionswunsch ausdrücken (z. B. die Fallattri bute, die geändert werden sollen, ggf. mit Einschränkungen (Constraints), die für die Werte dieser Attribute gelten sollen), – den Aktionen, die durch Löschen, Hinzufügen und Modifizieren von Teilen der Fallrepräsentation den Fall in einen neuen Fall überführen sollen, der die Zielbe dingungen erfüllt. Operatoren lassen sich zu Operatorketten zusammenfügen. Eine Operatorkette op = op n ∘ . . . ∘ op2 ∘ op1 ist eine Sequenz von Operatoren, bei der die Vorbedingungen eines Operators nicht durch das Ergebnis der vorherigen Operatoren verletzt werden dürfen [112, S. 200]. Formale Ansätze für Adaptionsoperatoren werden z. B. unter der Bezeichnung Revisionsoperatoren (belief revision operators) [44; 76], die aus dem Ge biet der logikorientierten Wissensrepräsentation stammen, untersucht. Adaptionsfälle speichern episodisches Adaptionswissen in Form von Fällen [80]. Dies lohnt sich, wenn komplexe Adaptionsvorschriften wiederverwendet werden sol len. Ein Beispiel ist die Anpassung des experimentellen Aufbaus für Gensequenzana lysen, wenn ein neues Datenformat aufkommt [82]. Die Adaptionsvorschrift wird für ein Objekt (Experiment) gelernt oder modelliert und kann dann auf viele Zielobjekte
370 | 9 Fallbasiertes Schließen
(weitere Experimente) übertragen werden. Das Adaptionswissen muss dafür natür lich in geeigneter Form im Adaptionsfall repräsentiert werden. Eine Möglichkeit sind Ketten von Editieroperationen [79], die bei der Adaption eines Objekts gespeichert wurden und in einem Replay-Verfahren für die Adaption eines Zielobjekts angewen det werden. add(e i ) bezeichnet die Einfügeoperation des Elements e i in das Objekt, delete(e j ) steht für das Löschen des Elements e j . Um solch einen Lösungstransfer auch für Zielobjekte mit komplexerer Struktur wie z. B. Graphen oder hierarchische Objekte zu ermöglichen, muss die passende Stelle für die Anwendung der Editierkette im Zielobjekt bestimmt werden. Dafür wird eine Menge von sog. Ankern ermittelt, die die Position der Editierkette im alten Objekt markieren. Vor dem Replay der Editier kette wird die Position der Anker im Zielobjekt bestimmt. Die hierarchische Lösungsanpassung ist ebenfalls für Objekte mit komplexer Struktur geeignet und erfordert weitere Repräsentationsformen für das Adaptions wissen. Generalisierte Fälle [21] und hierarchische Fälle (Abschnitt 9.2.7) besitzen inhärentes Adaptionswissen. Generalisierte Fälle decken nicht nur einen einzigen Problemfall, sondern eine Menge eng miteinander verwandter Problemfälle ab. Die Generalisierung selbst liefert einen Ansatzpunkt für die Adaption [93]. Wenn z. B. die Kochzutaten Spinat und Mangold zu grünem Gemüse generalisiert werden, können aus der Generalisierung und anschließenden Spezialisierung zwei Substitutions regeln abgeleitet werden, nämlich Spinat ⇒ Mangold und Mangold ⇒ Spinat. Die formale Konzeptanalyse nutzt Abstraktion und kann für die hierarchische Textanpas sung [46] eingesetzt werden. Mithilfe linguistischer Vorverarbeitung können z. B. die Zutaten eines Teigs erkannt und Bestandteile des Teigs substituiert werden.
9.5.3 Adaptionsprozess Der Adaptionsprozess kann als Suche im Raum der Lösungen verstanden werden, die in einer Folge von Adaptionsschritten resultiert. Die Suche kann durch die sog. Diffe renzialadaption [52] gesteuert werden, indem der Beitrag eines Adaptionsschritts zur Lösung des Problems bestimmt wird. Es können sogar die Retrieve- und Reuse-Phase miteinander verschränkt werden. Dazu wird die Anpassbarkeit eines Falls an die aktu elle Situation schon beim Retrieval berücksichtigt (adaptation-guided retrieval) [124]. Der Problem- und der Lösungsraum werden so als zwei unterschiedliche Suchräume aufgefasst.
9.6 Lernen und Wartung Nachdem die ersten beiden Phasen des CBR-Zyklus – das Problemlösen – abgeschlos sen sind, können die dritte und vierte Phase gemeinsam als Lernphasen zusammen gefasst werden. In der Revise-Phase wird die vorgeschlagene Lösung dahingehend
9.6 Lernen und Wartung
| 371
getestet, ob diese das formulierte Problem löst. Diese Phase kann entweder durch Simulation, durch das Einbinden von Experten oder innerhalb der realen Umgebung erfolgen. Für die Simulation ist es notwendig, eine entsprechende Simulationsum gebung zur Verfügung zu haben. Außerdem müssen vorab klare Test- und Evaluati onskriterien beschrieben werden, die nach der Simulation entscheiden, ob ein Fall passend ist oder nicht. Falls CBR-Systeme über einen Revise-Schritt verfügen, wird dieser meist von Experten durchgeführt oder die Lösung wird direkt an den Nutzer weitergegeben. Falls die Lösung direkt an den Nutzer weitergegeben wird, können entweder direktes Feedback oder Akzeptanztests zeigen, ob die vorgeschlagene Lö sung passend war. Bei der Einbindung von Experten werden die Fälle den Experten vorgelegt und auf ihre Anwendbarkeit hin begutachtet, bevor sie in die Retain-Pha se, das Abspeichern, übergehen. Je nach Detaillierungsgrad kann das von Nutzern oder Experten gewonnene Feedback dazu dienen, Wissen über die Anwendbarkeit der Lösung zu gewinnen. Dieses Feedback kann wiederum dazu verwendet werden, die Inhalte der Wissenscontainer zu aktualisieren. Die vierte Phase des CBR-Zyklus, die Retain-Phase, beschreibt das Lernen von neuen Fällen und damit die Erweiterung der Fallbasis. CBR wird als Teilbereich des Maschinellen Lernens auch als instanzen basiertes Lernen beschrieben, denn die Falldaten werden in der Lernphase ledig lich gespeichert (evtl. indexiert; Abschnitt 9.4) und erst während des Problemlösens benutzt. Das Lernen neuer Fälle wie auch des Hintergrundwissens ist eng mit War tungsaufgaben eines CBR-Systems verknüpft, denn die Veränderungen haben einen Einfluss auf die Arbeitsweise des Systems. Daher werden ebenfalls Wartungsaufga ben in diesem Kapitel adressiert.
9.6.1 Lernen von Fällen Die grundlegenden Strategien des fallbasierten Lernens (engl. Case-Based Learning, CBL) wurden von Aha et al. [7] beschrieben. Darin werden drei Varianten vorgestellt, in denen ein neuer Fall einer Fallbasis hinzugefügt wird: – CBL1: Alle Fälle werden hinzugefügt. – CBL2: Ein Fall wird nur dann hinzugefügt, wenn sich ohne ihn eine falsche Klas sifizierung ergibt. – CBL3: Fälle werden wie bei CBL2 hinzugefügt, ungeeignete Fälle (widersprüchli che oder irreführende Fälle) darüber hinaus gelöscht. Die Motivation neue Fälle zu einer Fallbasis hinzuzufügen besteht darin, die Problem lösekompetenz der Fallbasis zu erweitern oder den Problemlöseprozess effizienter zu machen. Auf der anderen Seite können Fälle im Lernprozess ignoriert werden, um das Retrieval weiterhin effizient zu halten und die Speicherkapazität der Fallbasis nicht zu überschreiten. Stetiges Lernen kann auch dazu führen, dass Fälle gelöscht werden müssen. Gründe dafür können eine Verschlechterung der Retrieval-Zeit oder zu we
372 | 9 Fallbasiertes Schließen
nig Speicherkapazität sein. Zudem können Fälle im Lauf der Zeit irrelevant werden oder es können redundante Fälle in der Fallbasis auftreten. In der Variante CBL2 wer den Fälle getestet, bevor sie in die Fallbasis hinzugefügt werden. Dazu kann eine vor handene, validierte Fallbasis genutzt werden: Der neu hinzuzufügende Fall wird mit seinem ähnlichsten Nachbarn in der Fallbasis verglichen. Sollten die Lösungen ab weichen, kann der Fall hinzugefügt werden, sollten sie übereinstimmen, ist der Fall unnötig und wird abgelehnt. Dieser Ansatz verhindert, dass Fälle gespeichert werden, die die Kompetenz der Fallbasis nicht erhöhen. Der Nachteil besteht allerdings darin, dass fehlerhafte Fälle bevorzugt hinzugefügt werden, was bei verrauschten Falldaten problematisch ist. Dieses Problem soll durch den CBL3-Ansatz erkannt werden, so dass gewährleistet ist, dass solche Fälle in der Fallbasis verbleiben. Dafür wird ein Maß für die Klassifikationsgüte einzelner Fälle herangezogen. Dieses Maß wird für al le Fälle der Fallbasis kontinuierlich bestimmt. Wenn ein Fall eine Mindestschwelle unterschreitet, wird er aus der Fallbasis gelöscht. Für das Beispielszenario in Abbildung 9.1 können diese Lernansätze zum Tragen kommen, wenn wir mehrere Fälle vorliegen haben, deren Behandlungsempfehlun gen (Lösungen) übereinstimmen, wogegen die Patientenprofile beispielsweise in Al ter und Geschlecht variieren. Mit CBL1 würden alle diese Fälle hinzugefügt werden, sodass wir eine Fallbasis mit vielen ähnlichen Problembeschreibungen bei gleichblei benden Lösungen erhalten. CBL2 würde hingegen feststellen, dass die Lösungen der neuen Fälle mit denen der ähnlichsten Fälle, die schon in der Fallbasis sind, überein stimmen und daher weitere gleichartige Fälle ignorieren.
9.6.2 Lernen von Ähnlichkeitswissen Die Aufgabe der Ähnlichkeit (Abschnitt 9.3) ist es, die Nützlichkeit eines Falls zum Lö sen eines Problems zu approximieren, wobei die Nützlichkeit häufig ungenau oder un bekannt ist, da sie vom Nutzer selbst abhängig ist. Nichtsdestotrotz können die Infor mationen in einer Fallbasis dazu verwendet werden, um lokale und globale Ähnlich keitsmaße durch Feedback zu lernen [127]. Um Ähnlichkeitswissen zu lernen, kann eine Fallbasis statistisch analysiert oder es kann das Feedback von Experten genutzt werden. In der Literatur gibt es dazu verschiedene Ansätze. Diese dienen entweder zum Lernen der Distanzfunktion für k-Nearest-Neighbour (kNN)-Klassifikatoren [66], der Anwendung von neuronalen Netzwerken und der Nutzung des Gradientenab stiegsverfahrens [53; 78] oder dem Lernen von globalen oder fallspezifischen Ge wichten [140]. Die Lernverfahren können dabei nach den folgenden fünf Kriterien klassifiziert werden: – Feedback: Benutzerfeedback zur Ähnlichkeit von Fällen für das Lernen ist verfüg bar, – Granularität: Detaillierungsgrad des Hypothesenraums für das Lernen von Ge wichten,
9.6 Lernen und Wartung
– – –
|
373
Repräsentation: Art der Fallrepräsentation, Generalisierbarkeit: Typ des Gewichtmodells (global vs. fallspezifisch), Einbeziehung von Wissen: Grad, in dem Hintergrundwissen verfügbar ist und ein bezogen werden kann.
9.6.2.1 Lernen von Gewichten Ein Ansatz zum Lernen von klassenspezifischen Gewichten für eine binäre Repräsen tation aller Attribute wird von Creecy [41] vorgestellt. Für numerische oder symboli sche Wertebereiche müssen diese zuerst in eine binäre Repräsentation transformiert werden. Im Anschluss werden zwischen Attributausprägungen und Lösungen (Fall klassen) bedingte Wahrscheinlichkeiten ermittelt, die beschreiben, wie gut die Attri butausprägung und Klasse zusammenpassen. Daraus kann im Anschluss eine Attri butgewichtung ermittelt werden. Darüber hinaus können introspektive Ansätze benutzt werden, um Feedback di rekt aus der Fallbasis zu generieren. So kann z. B. durch den Leave-One-Case-Out-Test überprüft werden, ob das CBR-System den ausgelassenen Fall korrekt klassifiziert, und je nach Ergebnis die Gewichte angepasst werden. Das Hinzufügen dieses Lern schrittes wurde von Aha auch als CBL4 beschrieben [7]. 9.6.2.2 Lernen von lokalen Ähnlichkeitsmaßen Stahl und Gabel [127; 128] beschreiben, dass lokale wie auch globale Ähnlichkeits maße mithilfe von Feedback gelernt werden können. Aus dem Feedback werden In formationen über die Nützlichkeit der vorgeschlagenen Fälle für das Problemlösen, z. B. durch die Evaluation des Rankings durch einen Experten („Ähnlichkeitslehrer“), gewonnen. Dieses kann wiederum dazu genutzt werden, den Retrieval-Fehler zu be stimmen und damit in einem Lernschritt die lokalen Ähnlichkeitsmaße zu optimieren. Ebenso können genetische Algorithmen zur Optimierung von Ähnlichkeitsmaßen be nutzt werden, die dazu geeignet als Individuen einer Population repräsentiert werden. Die Funktion zur Bestimmung des Retrieval-Fehlers kann hierbei als Fitnessfunktion eingesetzt werden.
9.6.3 Lernen von Adaptionswissen Grundlegende Arbeiten zum Lernen von Adaptionswissen (Abschnitt 9.5) wurden von Craw et al. [40] vorgestellt. Darin beschreiben die Autoren wie Adaptionswissen aus der Fallbasis selbst gelernt und somit die Lösungsanpassung verbessert werden kann. Da das Wissen in einer Fallbasis repräsentativ zum Lösen des gegebenen Problems ist, kann das daraus gelernte Wissen ebenso als repräsentativ gesehen werden. Um Ad aptionswissen zu generieren, wird hier ebenfalls der Leave-One-Case-Out-Ansatz ge nutzt. Das notwendige Adaptionswissen um den herausgenommen Fall mit der übri
374 | 9 Fallbasiertes Schließen
gen Fallbasis darzustellen, wird als potenzielles Adaptionswissen für das CBR-System erfasst. Dieses Wissen um einzelne Attributwerte anzupassen, wird im ersten Schritt direkt mit dem Fall gekoppelt und kann im Anschluss generalisiert werden. Dabei ist es einfacher, Adaptionswissen für numerische Attribute zu extrahieren, da die Un ähnlichkeit durch z. B. Distanzfunktionen berechnet werden kann, während diese Art von Funktionen für symbolische Wertebereiche nicht zwingend verfügbar ist. Müller und Bergmann [92] haben aufbauend auf diesem Prinzip Methoden zum Lernen von Adaptionsoperatoren im Kontext des prozessorientierten CBR entwickelt.
9.6.4 Transferlernen Normalerweise lernen CBR-Systeme online während der Revise- und Retain-Phase (Abschnitt 9.1) oder durch Wartung. Neuere Forschungsarbeiten untersuchen Trans ferlernen für CBR-Systeme [65; 81]. Transferlernen heißt, dass Wissen aus einem Anwendungsgebiet D S (source domain) auf ein Zielanwendungsgebiet D T (target do main) übertragen wird [100]. Dieser Trend aus dem Maschinellen Lernen wird im CBR aufgegriffen, um die Fähigkeiten des Problemlösers für die Zielanwendung zu ver bessern [65]. Transferlernen lohnt sich vor allem, wenn noch wenig Wissen für die Zieldomäne erhoben wurde, das CBR-System also unter dem sog. „Kaltstartproblem“ leidet. Dies kann die Fallbasis betreffen, deren Population mit übertragenen Fällen angereichert werden kann. Es können aber auch Inhalte anderer Wissenscontainer, wie z. B. Adaptionswissen, transferiert werden. Ist die Transferdistanz groß, weil die Anwendungsgebiete sich signifikant unterscheiden, wird ein analoges Mapping [68] zwischen dem Vokabular zur Beschreibung von Fällen in D S und D T benötigt. Die ses Mapping kann durch Modellierungs- oder Lernmethoden gewonnen werden und liefert quasi eine Übersetzungsvorschrift, die beim Transfer der Inhalte von einem Gebiet in ein anderes angewendet wird. Zum Beispiel kann aus den Fällen, die die Passagierabfertigung am Flughafen beschreiben (Abbildung 9.9), Wissen auf das An wendungsgebiet Lagerlogistik übertragen werden [59].
9.6.5 Wartung von CBR-Systemen Sobald ein CBR-System lernt, ist es wichtig, die Wissenscontainer zu warten, um die Konsistenz, Effizienz und Kompetenz zu wahren. Smyth und Keane [123] definieren dafür Kompetenzkategorien für Fälle, die dafür genutzt werden können, die Fallbasis zu analysieren und evtl. Wartungsschritte einzuleiten. Um diese Kategorien zu defi nieren, werden zwei Eigenschaften genutzt, die die Kompetenz der Fälle der Fallbasis charakterisieren: – Coverage(c) eines Falls beschreibt die Menge aller Probleme des Problemraums, die durch Fall c unter Berücksichtigung von Adaption gelöst werden können.
9.7 Anwendungsgebiete |
–
375
Reachability(c) eines Falls c = (p, l) beschreibt die Menge aller Fälle, die zur Lösung von p, unter Berücksichtigung von Adaption, herangezogen werden kön nen.
Coverage und Reachability können nicht berechnet werden, da die Menge der mög lichen Probleme in der Regel zu groß ist, jedoch können sie für die in der Fallbasis vorkommenden Fälle und Probleme ermittelt werden. Aus diesen beiden Eigenschaf ten lassen sich die folgenden Kompetenzkategorien für Fälle ableiten: – Pivot-Fälle sind solche Fälle c, für die gilt, dass Reachability(c) = {c} ist. Dies sind daher „Kernfälle“ in einer Fallbasis, deren Löschung dazu führen würde, dass ein Teil des Problemraums nicht mehr abgedeckt ist und somit die Kompe tenz verringert wird. – Hilfsfälle sind Fälle, deren Coverage vollständig in der Coverage eines anderen Falls der Fallbasis enthalten sind. Sie haben daher keinen Einfluss auf die Kom petenz der Fallbasis. – Supportgruppenfälle sind mehrere Fälle der Fallbasis, die die gleiche Coverage be sitzen. Werden nur einzelne Fälle dieser Gruppe gelöscht, bleibt die Kompetenz der Fallbasis unverändert. Wird jedoch die gesamte Gruppe gelöscht, verliert die Fallbasis an Kompetenz. Basierend auf diesen Kriterien können Wartungsstrategien erarbeitet werden. Smyth und Keane [123] stellen beispielsweise die „Footprint Deletion Policy“ vor, bei der die Fälle nach Wichtigkeit für die Erhaltung der Fallbasiskompetenz gruppiert werden. Im Anschluss können iterativ Fälle entfernt werden – beginnend bei Hilfsfällen, über einzelne Fälle einer Supportgruppe, bis hin zu Pivot-Fällen (deren Löschen dann doch die Kompetenz reduziert). Einen umfassenden Ansatz zur Wartung aller Wissenscontainer haben Roth-Berg hofer und Reinartz [115] im Rahmen der SIAM-Methode beschrieben, die das Hinzufü gen von neuem Wissen in drei Schritten vorsieht: Zuerst muss sichergestellt werden, dass das neu hinzuzufügende Wissen vollständig ist. Im nächsten Schritt sollen Quali tätsinformationen über das neu gewonnene Wissen erhoben und hinzugefügt werden, bevor es im dritten Schritt integriert wird. Während die ersten beide Schritte Vorberei tungen darstellen, wird im letzten Schritt das Wissen in die Wissenscontainer einge fügt. Dabei muss darauf geachtet werden, dass keine Konsistenzverletzungen entste hen.
9.7 Anwendungsgebiete Nachfolgend werden ausgewählte Anwendungsgebiete für CBR-Systeme beschrieben. Weitere Anwendungsbereiche sowie konkrete erfolgreiche CBR-Anwendungen sind in der Literatur ausführlich dokumentiert [12; 22; 85; 86].
376 | 9 Fallbasiertes Schließen
9.7.1 Diagnose technischer Systeme Die Aufgabe der Klassifikation ist die Zuordnung von Objekten oder Situationen zu vorgegebenen Klassen. Diagnoseaufgaben sind ein Spezialfall von Klassifikationsauf gaben: gegebenen Symptom-/Messwerten wird mindestens ein Fehler (genannt: Dia gnose) zugeordnet. Diagnostische Aufgabenstellungen unterscheiden sich von allge meinen Klassifikationsproblemen im Wesentlichen durch die unvollständige Informa tion, d. h., zum Zeitpunkt der Klassifikation eines Fehlers sind im Normalfall viele Messwerte eines technischen Systems noch unbekannt. In der Diagnostik ist daher als eine wesentliche Teilaufgabe noch die Erhebung weiterer Information, d. h. die Auswahl und Anordnung von durchzuführenden Tests, zu betrachten. In der Diagnose technischer Systeme sind die Hauptwissensquellen üblicherwei se generelles Wissen über das technische System, das zu diagnostizieren ist, generel les Wissen eines (oder mehrerer) Experten, z. B. eines langjährigen Mitarbeiters aus der Instandsetzung, sowie fallspezifisches Wissen, z. B. eines Servicetechnikers, der regelmäßig solche technischen Systeme diagnostiziert und repariert. Es bietet sich somit an, das Diagnoseproblem mit fallbasiertem Schließen zu lösen. Entsprechend zeigt Abbildung 9.8 den grundsätzlichen Ablauf einer fallbasierten Diagnose, d. h. der Anwendung fallbasierten Schließens auf die Aufgabe der Diagnose.
Abb. 9.8: Fallbasierte Diagnose (nach Stadler und Wess [126])
Es ist die aktuelle Situation zu erfassen, d. h., die initial bekannten Symptome sind zu erheben und dem fallbasierten Diagnosesystem zugänglich zu machen. Das System sucht dann nach dem ähnlichsten Fall. Findet es keinen Fall, der ähnlich genug ist, dann bricht das System hier ab und teilt dem Benutzer mit, dass es leider nicht kom petent genug ist, für die eingegebenen Symptome eine Diagnose zu stellen. Findet es aber mindestens einen ähnlichen Fall, ist dieser Fall ähnlich genug, um als Diagnose hypothese akzeptiert zu werden und erweist sich die gestellte Diagnose als korrekt, so wurde das Diagnoseproblem erfolgreich gelöst. Erweist sich die gestellte Diagnose als inkorrekt oder wurde der Fall nicht als Diagnosehypothese akzeptiert, dann werden weitere Symptomwerte erhoben. Dies setzt sich fort, bis das Diagnoseproblem erfolg reich gelöst wurde oder der Algorithmus abbricht, weil es keinen ähnlichen Fall gibt.
9.7 Anwendungsgebiete |
377
Wess [139] beschreibt einen Ansatz zur fallbasierten Diagnose für technische Systeme und wie dieser durch die Nutzung weiteren Wissens und durch Benutzer interaktion für die Lösung von Problemen der Entscheidungsunterstützung genutzt werden kann. Diese sind, im Gegensatz zu Diagnoseproblemen, durch eine Kombi nation mehrerer Zielattribute charakterisiert. Pfeifer und Richter [101] stellen neben der fallbasierten Diagnose weitere Ansätze zur Diagnose technischer Systeme vor. Althoff [9] zeigt auf, wie fallbasierte und weitere Diagnoseverfahren miteinander kombiniert werden können – mit dem Schwerpunkt auf dem Lernen aus Fallwissen. Bach [14] beschreibt wie Informationsextraktion genutzt werden kann, um das für die fallbasierte Diagnose erforderliche Wissen mit weniger Aufwand zu beschaffen. Anwendung findet dies in der Diagnose von Problemen bei Landmaschinen. Die An wendung von fallbasierter Diagnose in der Luftfahrt beschreibt Reuss [110]. Dabei findet eine Weiterentwicklung des Informationsextraktionsansatzes von Bach [14] – mit einem Schwerpunkt auf Wartung des verteilten Wissens – Anwendung. Weitere Systeme zur fallbasierten Diagnose finden sich z. B. auch in Göker et al. [56].
9.7.2 Planung Die KI-Planung (Kapitel 10) beschäftigt sich damit, eine zeitliche Abfolge von Aktio nen zu finden, die es erlauben, ausgehend von einem Ausgangszustand s0 ein Ziel g zu erreichen. Hierbei ist die Menge der verfügbaren Aktionen A vorgegeben. Formal kann ein Planungsproblem P somit als ein Tripel P = (s0 , g, A) beschrieben werden, wobei s0 eine Menge von Fakten ist, die als wahr in der Welt, d. h. im Ausgangszustand, angenommen werden. Das Ziel g ist ebenfalls eine Menge von Fakten, deren Gültig keit angestrebt wird. Die Aktionen in A werden durch Regeln beschrieben, die festle gen, welche Auswirkung das Ausführen einer Aktion auf den aktuellen Zustand hat. Aktionen beschreiben somit einen Zustandsübergang von einem Zustand s i in einen Folgezustand s i+1 . Aktionen können dabei sowohl deterministisch (d. h., jede Aktion besitzt ein eindeutiges Ergebnis) oder nicht deterministisch, wenn mehrere Nachfol gezustände möglich sind (z. B. jeweils mit bestimmten Wahrscheinlichkeiten), sein. Im deterministischen Fall ist die Lösung eines Planungsproblems eine Folge von Aktionen π, die, wenn man sie der Reihe nach ausgehend vom Ausgangszustand s0 ausführt, in einem Zustand s n resultiert, der das Ziel g erfüllt. Im nicht deterministi schen Fall ist die Lösung eine Funktion π : S → A, die beschreibt, welche Aktion π(s i ) im aktuellen Zustand s i ausgeführt soll, um am Ende das Ziel g zu erreichen. Dies soll anhand eines einfachen Beispiels nun kurz erläutert werden. Dazu betrachten wir ein Transportproblem bestehend aus verschiedenen Orten und Trans portmöglichkeiten zwischen diesen. Eine Person, Markus, befindet sich am Ort Kai serslautern und möchte gerne zum Flughafen Frankfurt reisen. Der Ausgangszu stand s0 spezifiziert (mittels Fakten) die bekannten Orte sowie die Positionen von Markus. Das Ziel besteht darin, einen Zustand zu erreichen, in dem Markus am Ort
378 | 9 Fallbasiertes Schließen
Flughafen Frankfurt ist. Die Aktionen beschreiben dabei die Reisemöglichkeiten. Eine mögliche Lösung π ist dann eine Folge von Aktionen, die z. B. angibt, dass Markus einen Bus zum Bahnhof Kaiserslautern nehmen muss, dann den Zug zum Haupt bahnhof Frankfurt und danach die S-Bahn zum Flughafen. Im deterministischen Fall nimmt man an, dass keine Störungen bei der Reise auftreten können. Wenn jedoch die erfolgreiche Durchführbarkeit einer Aktion nicht immer gewährleistet ist, weil z. B. ein Zug ausfallen kann, muss die nicht deterministische Planung verwendet werden. Hier beschreibt dann die Funktion π, welches Transportmittel zu wählen ist. Wenn also der Zug in der Situation nicht verfügbar ist, liefert π z. B. die Aktion Fernbus. Mit Methoden der KI-Planung lassen sich Planungsprobleme der beschriebenen Form lösen. Dennoch gibt es wichtige Gründe, hierbei zusätzlich Erfahrungswissen zu nutzen. In der fallbasierten Planung (Case-Based Planning, CBP) [26; 34; 57; 133] wird daher ein Planungsproblem P unter Zuhilfenahme einer Fallbasis CB von Pla nungsfällen (Abschnitt 9.2.6) gelöst. Dabei gibt es verschiedene Rollen, die Fälle dabei spielen können. Fälle als strategisches Wissen Obwohl Planungsprobleme direkt durch Suchverfahren gelöst werden können (falls die Menge der Aktionen vollständig bekannt ist), kann CBP zu zwei verschiedenen Zwecken eingesetzt werden. Fälle können den Suchprozess steuern und damit als Kon trollwissen den für die Suche notwendigen Berechnungsaufwand reduzieren. Hier bei werden die erfolgreichen Suchpfade vom Fall mittels generativer Lösungsadaption (Abschnitt 9.5) auf das aktuelle Suchproblem übertragen [31; 134]. Fälle bewirken al so eine Beschleunigung des Planungsprozesses. Des Weiteren können Fälle eingesetzt werden, um Lösungen zu bestimmen, die ähnlich zu bereits bekannten Lösungen frü herer Probleme sind. Hierdurch können auch Präferenzen für bestimmte Lösungsva rianten berücksichtigt werden, die sich in den Fällen der Fallbasis niederschlagen. Im Beispiel könnten günstige Verkehrsmittel gegenüber schnellen Verkehrsmitteln be vorzugt werden. Fälle als Domänenwissen Ein schwieriges Problem in der Planung besteht in der Voraussetzung, dass die Men ge der verfügbaren Aktionen vollständig bekannt sein muss. In vielen Domänen ist die Voraussetzung jedoch nicht gegeben, da der Wissensakquisitionsaufwandes zu groß ist. Jedoch liegen häufig Erfahrungen in Form von Planungsfällen vor, in denen bestimmte Aktionen erfolgreich durchgeführt wurden, ohne dass deren formale Ak tionsbeschreibung bekannt ist. Im Beispiel könnte das zum Tragen kommen, wenn Markus versucht einen Ort zu erreichen, der nicht über den bekannten öffentlichen Personennahverkehr angebunden ist. Dann gibt es keine Aktion, die es erlaubt, das Ziel zu erreichen. Jedoch könnte ein Planungsfall (beispielsweise gewonnen aus einer Schilderung in einem sozialen Netzwerk) verfügbar sein, der die Reise einer Person
9.7 Anwendungsgebiete | 379
beschreibt, die diesen Ort mit einem Uber-Fahrzeug erreicht hat. Dann kann die Er fahrung dieser Aktionsausführung als spezifisches Domänenwissen bei der Planung berücksichtigt werden [57]. Fälle als strategisches Wissen und Domänenwissen Fälle können gleichzeitig Domänenwissen als auch strategisches Wissen liefern. Hier bei werden Lösungen teils durch Aktionen aus A und teils durch Aktionen aus der Fallbasis erstellt. Gleichzeitig dienen die Fälle der Steuerung der Suche, einerseits um diese zu beschleunigen sowie anderseits um frühere Präferenzen zu übernehmen. Hierbei würden im Beispiel sowohl überwiegend günstige Verkehrsmittel ausgewählt, aber auch ein Uber-Fahrzeug in Betracht gezogen, falls dies notwendig ist.
9.7.3 Prozessorientierte Informationssysteme Mit dem Trend zur digitalen Transformation entwickeln sich Geschäftsprozesse zu ei nem wesentlichen Erfolgsfaktor für Unternehmen. Geschäftsprozess- und Workflow management eignen sich hervorragend für die digitale Unterstützung von Wertschöp fungsketten und als Grundlage für die Flexibilisierung von Kernprozessen. Prozessorientiertes CBR (process-oriented CBR, PO-CBR) beschäftigt sich mit der Anwendung und Erweiterung von Methoden des fallbasierten Schließens für Ge schäftsprozess- und Workflowmanagement [83]. Laut Workflow Management Coalition sind Workflows „die Automatisierung ei nes Geschäftsprozesses im Ganzen oder in Teilen, wodurch Dokumente, Information oder Aufgaben in einer durch Regeln festgelegten Reihenfolge von einem Bearbeiter zu einem anderen gereicht werden können“ [142, eig. Übersetzung]. Die Prozesslogik eines Workflows wird durch ein prozedurales Modell mit Tasks (Aktivität, Aufgabe), die eine logische Arbeitseinheit repräsentieren, und ihrem Kontrollfluss beschrieben, der die Reihenfolge angibt, in der die Tasks ausgeführt werden sollen. Abbildung 9.9 zeigt ein Beispiel eines Workflows in der grafischen Modellierungs sprache Business Process Modeling Notation (BPMN) [109]. Der Workflow beschreibt den Prozess der Passagierabfertigung am Flughafen [59]. Ein Passagier betritt den Flughafen, trifft dann die Entscheidung, ob Gepäck am Gepäckannahmeschalter aufgegeben werden soll, und geht anschließend zum Sicherheitsbereich, wo die Si cherheitskontrolle in einem Sub-Workflow „Prozess Sicherheitsbereich“ durchgeführt wird. In manchen Workflowmanagementsystemen kann in Ergänzung zum Kontroll fluss auch der Datenfluss [138] beschrieben werden. Er gibt den Fluss der Daten von einem Workflow-Element zu einem anderen an. Oft besteht dieser aus Datenobjekten, die in Tasks eingehen oder von diesen produziert werden. Für verschiedene Teilaufgaben im CBR wie Fallakquisition, Retrieval und Adapti on gibt es PO-CBR-spezifische Methoden [83]. Die Fälle enthalten in den meisten PO-
Gepäckannahmeschalter
Passagier
Gepäck vorhanden? Terminal betreten Start
X
Nein
X
Zum Sicherheitsbereich gehen
Ja Zum Gepäckannahmeschalter gehen
Prozess Gepäckabfertigung
Sicherheitsbereich
03_Passagierabfertigung andere Medien und Gepäckschalter
380 | 9 Fallbasiertes Schließen
Prozess Sicherheitsbereich Ende
Abb. 9.9: Workflow-Beispiel für die Passagierabfertigung am Flughafen
CBR-Ansätzen Workflows oder Adaptionswissen über Workflows. Die Fallakquisition kann durch Workflow-Extraktion aus Texten [45; 120; 122] oder durch fallbasierte Mo dellierungsunterstützung [60; 96; 107] erleichtert werden. Durch die Analyse von Pro zess-Repositories [43; 82] können prozessorientierte Fälle vollautomatisch gewonnen werden. Mit Process Mining [3; 88] werden Muster in Ausführungsprotokollen (execu tion traces) von Workflows entdeckt, aus denen sich Workflows oder Workflow-Frag mente generieren lassen. Das Workflow-Retrieval wird häufig durch Ähnlichkeitsmaße für Graphen (Ab schnitt 9.3), execution-trace-basiert [87; 121], durch Abstraktion [80] oder dialogori entiert [136; 143] realisiert. Es gibt viele Forschungsansätze zur Flexibilisierung von Workflows [109], die eine Adaption der Workflows benötigen. Die Adaption von Workflows ist schon wäh rend der Modellierungsphase (build time), aber auch zur Laufzeit der Workflows (run time) interessant. Exception-Handling-Ansätze können vorhersehbare Änderungen an bestimmten Stellen im Workflow vornehmen, die Ausnahmen (exceptions) zum normalen Prozessverlauf während der Laufzeit behandeln. Dazu werden in der Mo dellierungsphase die Ausnahmen spezifiziert und kompensierende Maßnahmen für den Fall ihres Auftretens angegeben. Zum Beispiel kann ein Task wiederholt wer den, falls seine Ausführung fehlgeschlagen ist. Oder es kann ein kleiner Workflow mit kompensierenden Maßnahmen in den laufenden Workflow eingefügt werden. Ad-hoc-Change-Ansätze ermöglichen die freie Adaption der Workflows zur Laufzeit. Im Beispiel-Workflow aus Abbildung 9.9 kann etwa eine Information über die Ver spätung des Flugzeugs eintreffen, wenn der Passagier bereits das Terminal betreten
9.7 Anwendungsgebiete | 381
hat, schon am Gepäckannahmeschalter steht oder das Gepäck bereits abgefertigt ist. Im Allgemeinen entstehen zu viele Adaptionsvarianten, um sie alle in der Mo dellierungsphase zu beschreiben. Deshalb sind Adaptionsfälle (Abschnitt 9.5) eine elegantere Lösung für Ad-hoc-Changes. Die in den Falldaten gespeicherten Änderun gen können an verschiedenen Stellen im Zielworkflow wiederverwendet werden. Alle strukturellen Änderungen an Workflows zur Laufzeit erfordern ein adaptives oder agiles Workflow-Managementsystem [84; 108]. Die Repräsentationsformen für das Adaptionswissen reichen von einfachen Ad aptionsregeln für einzelne Workflow-Elemente über Editierketten mit Ankern [80], ge neralisierten Fällen [93] bis hin zu Workflow-Streams für strukturübergreifende Ände rungen an Workflows [91].
9.7.4 Computerspiele Im Anwendungsgebiet der Computerspiele kann CBR zu verschiedenen Zwecken ein gesetzt werden, um bessere automatische Spieler zu schaffen, um einem Menschen beizubringen, wie man besser spielt oder um ein Modell der Spieler zu erstellen. Da es enge Beziehungen zwischen diesen Richtungen gibt, werden diese im Folgenden zusammenhängend diskutiert. Die Frage, was ein guter automatischer Spieler ist, ist nicht so einfach zu beant worten. Als ersten Gedanken stellt man sich wohl einen automatischen Spieler vor, der so gut wie möglich spielen kann [8]. Das könnte zwar in manchen Situationen ei ne gute Antwort sein, z. B. wenn der Spieler ein Turnier gewinnen muss. In anderen Situationen ist es aber nicht nur nicht notwendig, sondern sogar von Nachteil, einen automatischen Spieler zu haben, der immer gewinnt. Wenn der automatische Spie ler zu gut ist, werden menschliche Spieler schnell frustriert sein und das Spiel be enden [95]. In solchen Situationen ist es besser, wenn das Niveau des automatischen Spielers an das Niveau der menschlichen Spieler angepasst wird. Dazu wird ein Modell des menschlichen Spielers benötigt. Zum Beispiel kann man Fälle (P, L) verwenden, bei denen das Problem P Messwerte über den menschlichen Spieler beschreibt. Ein solcher Messwert kann die durchschnittliche Punktzahl sein, die der Spieler in den letzten 90 s im Spiel erreicht hat. Darauf aufbauend kann man Ähnlichkeitsmaße be nutzen, um Spieler mit ähnlichem Spielniveau zu identifizieren. Die Lösung L kann dabei verschiedenen Informationen beinhalten: – eine Einstufung des Spielers (z. B. Anfänger); – Parameter für den automatischen Spieler, damit dieser auf einem bestimmten Ni veau spielt; zum Beispiel kann im Schach die Begrenzung der „Look-ahead“-Tiefe im Suchbaum genutzt werden, um die Spielstärke zu bestimmen: z. B. Tiefe eins für den Anfänger, Tiefe acht oder mehr für Experten; – Parameter zur Beeinflussung der Spielstrategie, um diese für Experten und An fänger differenziert gestalten zu können.
382 | 9 Fallbasiertes Schließen
Ähnlich wie in der Planung (Abschnitt 9.7.2) können Fälle drei verschiedene Rollen bei der Entwicklung eines automatischen Spielers einnehmen. Die Fälle können stra tegisches Wissen [42], Spielregeln [137] oder beides repräsentieren [98]. Im Schach z. B. sind die Spielregeln bekannt, aber es wird strategisches Wissen gebraucht, um einen Spieler zu steuern. In modernen Echtzeit-Strategiespielen wie Starcraft hinge gen werden die Regeln nicht direkt als planbare Aktionen dargestellt, weil diese Spiele zu komplex sind. Planung oder Spielbaumtechniken können in solchen Spielen kaum eingesetzt werden. Hier repräsentieren Fälle Wissen darüber wie zu spielen ist, d. h., welche Aktionen in welchen Situationen zielführend durchgeführt werden können. Abschließend kann man feststellen, dass zum derzeitigen Stand der Wissenschaft die automatischen Spieler, die am besten spielen können (hier geht es um Spieler, die das Ziel haben immer zu gewinnen), meistens „Deep Learning“ einsetzen, wie z. B. das AlphaGo-System [38] für das Brettspiel Go. Dennoch gibt es genügend Raum für CBR-Ansätze in diesem Bereich wie z. B. für die Anpassung an das menschliche Spiel niveau [11]. Da hier oft unklar ist, wie die Qualität einer Lösung generell zu bewerten ist, ist „Deep Learning“ kaum nützlich, hingegen sind Spielfälle leicht verfügbar, die für CBR verwendet werden können [105]. Andere Nutzungsszenarien für CBR sind die automatische Erkennung der Strategien anderer Spieler [47], das Imitieren mensch licher Spieler [50] und die automatische Generierung von Erklärungen für die Strate gien eines automatischen Spielers [94].
9.8 CBR-Tools und Frameworks 9.8.1 myCBR – Rapid Prototyping von CBR-Anwendungen myCBR⁶ [129] ist ein Open-Source-Tool, welches vom Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI)⁷ und der Norwegischen Universität für Wissenschaft und Technik (NTNU)⁸ entwickelt wird. myCBR besteht im Kern aus zwei Komponen ten: einer grafischen Benutzeroberfläche (Workbench) sowie einem Software Devel opment Kit (SDK). myCBR ist in Java implementiert und unterstützt hauptsächlich die Entwicklung von strukturellen CBR-Systemen. Dabei können flache wie auch objekt orientierte Fallrepräsentationen erstellt werden. Das Tool wurde mit dem Fokus ent wickelt, CBR-Systeme einfach und schnell zu entwickeln. Die Workbench unterstützt die Erstellung von Fallrepräsentationen, lokalen und globalen Ähnlichkeitsmaßen sowie ermöglicht sie das Testen dieser an verschiedener Fallbasen. Das Tool wurde zur Entwicklung verschiedenartiger CBR-Anwendungen, wie beispielsweise zur tech nischen Diagnose [15] oder dem Selbstmanagement chronischer Krankheiten [89],
6 http://mycbr-project.org/ 7 www.dfki.de 8 www.ntnu.edu
9.8 CBR-Tools und Frameworks |
383
genutzt. Durch die Trennung der Workbench vom SDK können komplexere Anwen dungen mithilfe des SDK in Java entwickelt werden. Dabei stellt myCBR den Kern mit Fallrepräsentationen, Ähnlichkeitsmaßen, Retrieval und Erklärungsfunktionen bereit, während komplexere Ähnlichkeitsberechnungen oder Adaptionsansätze inte griert werden können. Darüber hinaus wurde eine REST API zu myCBR implemen tiert [13], welche es erlaubt, mit dem CBR-System in anderen Programmiersprachen wie z. B. Python zu interagieren.
9.8.2 ProCAKE – Process-Oriented Case-Based Knowledge Engine Process-Oriented Case-Based Knowledge Engine (ProCAKE)⁹ [24] ist ein Open-SourceFramework für strukturelles und insbesondere prozessorientiertes fallbasiertes Schlie ßen, das an der Universität Trier¹⁰ entwickelt wird. ProCAKE dient der Entwicklung erfahrungsbasierter, lernender Systeme und ermöglicht die Integration von Prozessund Wissensmanagement. Das ProCAKE-Framework ist in Java implementiert und nutzt XML-Technologien zur Konfiguration und Persistenz der Daten. Sowohl objekt orientierte als auch graphbasierte Fallrepräsentationen werden durch ProCAKE un terstützt. Hierzu bietet ProCAKE eine Vielzahl erweiterbarer Datentypen, welche be liebig zur Erstellung komplexer Objekte kombiniert werden können. Diese umfassen elementare Datentypen, wie Symbole, Strings und numerische Angaben, aber auch komplexe Datentypen, wie z. B. Aggregate, Listen und Mengen. Ergänzend zur Attri but-Wert- und objektorientierten Repräsentation können durch die Graphrepräsenta tion auch Prozesse und Workflows als semantische Graphen abgebildet werden [23]. Verschiedene syntaktische und semantische Ähnlichkeitsmaße [21] sind in ProCAKE implementiert. Um die Ähnlichkeit zwischen Graphen zu berechnen, kann ein GraphMatching auf Basis des A*-Suchalgorithmus [23] durchgeführt werden. Neben einem sequenziellen Retrieval können sowohl verschiedene MAC/FAC-Ansätze [29; 64; 97] als auch ein paralleler A*-Retriever verwendet werden, um insbesondere das Retrieval von komplexen Graphen zu beschleunigen. Ein generisches Adaptionsframework er laubt zudem die Integration von domänenspezifischen Adaptionsmethoden.
9.8.3 COLIBRI COLIBRI¹¹ [106] ist ein Open-Source-Framework zur Entwicklung von CBR-Systemen in Java. Das Framework wurde von der GAIA-Gruppe der Complutense Universität in Madrid entwickelt. Das COLIBRI-Framework stellt Komponenten bereit, die zur Im
9 http://procake.uni-trier.de 10 http://wi2.uni-trier.de 11 http://gaia.fdi.ucm.es/research/colibri/
384 | 9 Fallbasiertes Schließen
plementierung eines CBR-Systems kombiniert werden können. Es gibt beispielsweise Komponenten, um eine strukturelle, textuelle oder ontologiebasierte Fallstruktur und die dazugehörigen Ähnlichkeitsmaße zu erstellen. Ebenso sind Module für die Persis tenz von Fällen, Implementierung von Retrieval-Ansätzen sowie der Evaluierung der Systeme enthalten. Das COLIBRI-Framework kann ähnlich einem Baukastenprinzip genutzt werden. In der Vergangenheit wurde es hauptsächlich für die Entwicklung von Empfehlungssystemen, sog. Recommender Systems, benutzt.
9.8.4 IAS – Empolis Information Access System Das Empolis Information Access System (IAS) ist ein CBR-System und mehr. Ausge hend von Forschungsergebnissen der Arbeitsgruppe von Michael M. Richter an der TU Kaiserslautern wird das IAS seit 1991 kontinuierlich kommerziell weiterentwickelt. Ge startet als CBR-Works, dann Orenge und heute IAS wurde es zweimal vollständig neu implementiert, um dem Fortschritt der Architekturen und der Informatik Rechnung zu tragen. Das System kann lokal betrieben werden und steht auch als Platform-asa-Service (PaaS) in der Cloud¹² zur Verfügung. Empolis selbst bietet auf dieser Basis die mandantenfähige Cloud-Lösung Service Express¹³ an, die professionelles CBR und technische Diagnose für Service und Kundendienst bietet. Technologisch wurde IAS ständig erweitert, um die vielfältigen Kundenanforderungen erfüllen zu können. Ent scheidungsbäume dienen der geführten Suche und Diagnose. Sie können zusätzlich auch als Chatbots, z. B. in Skype, oder als Alexa Skill für die Sprachinteraktion genutzt werden. Früh wurde Natural Language Processing (NLP) für textuelles CBR und Infor mationsextraktion integriert. Domänenmodelle können in IAS strukturierte ontologi sche Repräsentationen gleichzeitig mit unstrukturiertem Freitext enthalten. Dies re flektiert auch die Retrieval Engine, die in einem Zugriff aus einem Index gemischt ähn lichkeitsbasierte, volltextbasierte und relationale Anfragen erlaubt. Dabei skaliert IAS elastisch entsprechend Anfragevolumen und Indexgröße. Durch seine verteilte Clus terarchitektur sind auch hochverfügbare Anwendungen möglich. In der öffentlichen Verwaltung¹⁴ werden mit IAS Millionen von Fällen in Sekundenbruchteilen durch sucht. In der Industrie dominieren Anwendungen im Service. Jedoch gewinnen spezi elle Bereiche wie das Rezeptmanagement, d. h. die optimale Einstellung von Prozessund Maschinenparametern hinsichtlich Material und Zielqualität, zunehmend an Be deutung.
12 https://www.empolis.ai 13 https://www.service.express 14 https://www.bva.bund.de/SharedDocs/Downloads/DE/Aufgaben/IT/RegisterFactory/Infoblatt_ IAS.pdf
9.9 Aktuelle Aspekte |
385
9.9 Aktuelle Aspekte 9.9.1 Erklärfähigkeit von CBR-Systemen (XAI) CBR wird seit Langem als eine KI-Methodik angesehen, welche Erklärungen in Form von Fällen implizit mitliefert, aber auch einen Erklärungsprozess für andere sog. Blackbox-Methoden unterstützen kann. Darüber hinaus werden CBR-Anwendungen aufgrund ihrer Erklärbarkeit und Transparenz im Entwicklungsprozess von Benutzern intuitiv bevorzugt [130]. Einen Überblick von Aufgaben und Zielen von Erklärungen hat Leake [70] gegeben, worin er sechs Aspekte von Erklärungen aufzeigt und deren Anwendungsmöglichkeiten diskutiert. In der Folge hat Roth-Berghofer [114] allgemei ne Fragen der CBR-basierten Erklärbarkeit und eine Reihe zukünftiger Forschungs richtungen präsentiert, während Sørmo et al. [131] Ziele von Erklärungen in CBR-Syste men aufzeigen und Ansätze präsentieren, wie diese umgesetzt werden können. Dabei beschreiben die Autoren Erklärungsaspekte wie das Lernen von Domänenwissen, Bereitstellen von Konzeptbeschreibungen sowie Relevanz, Transparenz und Recht fertigung der Empfehlung. Wenn Nutzer aktiv in die Entwicklung von CBR-Systemen eingebunden werden, kann die Qualität des Systems wie auch die Benutzerakzeptanz nachweislich erheblich gesteigert werden. Die Akzeptanz der Technologie durch den Benutzer kann zudem erhöht werden, wenn das Tool selbst erstellte Erklärungen zu seinen Funktionen und/oder Schlussfolgerungen bereitstellt [10]. Bichindaritz [33] beschreibt die Synergien zwischen der Argumentation in Einzelfällen und anderen Technologien des Maschinellen Lernens und stellt die Erklärbarkeit und Transparenz der identifizierten Themen in den Vordergrund. Ein Beispiel zur Verwendung eines erklärbaren CBR-Systems im medizinischen Bereich wurde von Lamy et al. [69] vorge stellt. Darüber hinaus stellen die Arbeiten von Keane et al. [63] die Rolle von CBR als „Erklärer“ für die Ergebnisse von neuronalen Netzen vor.
9.9.2 CBR und Deep Learning In den vergangenen Jahren ist die Integration von CBR mit verschiedenen Deep-Learn ing (DL)-Techniken in den Fokus der Forschung gerückt. Insbesondere die Abbildung und das Lernen von Ähnlichkeiten durch DL-Ansätze wurde durch Gabel et al. [53], Mathisen et al. [78] oder Martin et al. [77] untersucht. Alle drei Ansätze nutzen die Falldaten, um Ähnlichkeitsmaße zu lernen. Während die ersten beiden Arbeiten an hand von Attribut-Werte-Paaren die Ähnlichkeitsmaße lernen, beschreibt Martin eine Architektur, in der zwei parallele Netzwerke trainiert und deren Unterschied zur Be stimmung der Ähnlichkeit genutzt wird. Parallel zu den Ansätzen, in denen CBR und DL integriert werden, gibt es auch Arbeiten, in denen CBR und DL zusammenarbeiten: So können Embeddings für tex tuelle Ähnlichkeiten oder neuronale Netze zur Approximation von Ähnlichkeiten ge
386 | 9 Fallbasiertes Schließen
nutzt werden, um die MAC-Phase im MAC-FAC-Retrieval zu unterstützen [64]. Um die Interpretierbarkeit der Bilderkennung durch neuronale Netze zu ermöglichen, haben Chen et al. ein CBR-System in ein neuronales Netzwerk integriert, welches Prototypen von Bildern bereitstellt [39].
9.9.3 CBR und Agenten Ein vielschichtiges Zusammenspiel zwischen fallbasiertem Schließen einerseits und Agenten bzw. Multi-Agenten-Systemen andererseits realisiert die SEASALT-Architek tur [16]. Bach [14] beschreibt die erste Instanziierung von SEASALT mit Anwendungen u. a. zur Entscheidungsunterstützung in der Reisemedizin und der Diagnose von Landma schinen. Roth-Berghofer et al. [116] stellen eine konzeptuelle Erweiterung von SEA SALT für erklärfähige Systeme vor. Reuss [110] realisiert mit SEASALT ein verteiltes CBR-System zur Diagnose und Wartung in der Luftfahrt mit dem besonderen Schwer punkt auf der Case-Factory-basierten Wartungsunterstützung für die Wissenscontai ner der vielen unterschiedlichen beteiligten fallbasierten Systeme. Plaza und McGinty [103] stellen eine Reihe von wissenschaftlichen Arbeiten zu CBR und Agenten vor. Schwerpunkte sind dabei verteilte Fallbasen sowie die Lern fähigkeit von Agenten. Vattam und Aha [132] sowie Aha und Floyd [5] stellen die Er gebnisse zweier Workshops über fallbasierte Agenten mit besonderem Fokus auf die Nutzung in den Bereichen Spiele, Simulation komplexer Abläufe mit mehreren Betei ligten sowie Diagnose vor.
9.10 Schlussbemerkung Fallbasiertes Schließen ist inzwischen eine etablierte Problemlösemethodik der KI zum Bau intelligenter Systeme mit einer Vielzahl verschiedener praktischer Anwen dungsmöglichkeiten. In diesem Kapitel konnten nur die grundlegenden Aspekte von CBR thematisiert werden. Verschiedene Publikationen [1; 2; 21; 22; 85; 86; 112] können als ergänzende bzw. weiterführende Literatur zur Vertiefung des Stoffs dieses Kapitels herangezogen werden. Es gibt eine sehr aktive deutsche und internationale wissen schaftliche CBR-Community, die den Stand der Forschung kontinuierlich weitertreibt. Die zentrale Tagung ist dabei die jährlich stattfindende „International Conference on Case-Based Reasoning“ (ICCBR)¹⁵, aber auch auf übergreifenden KI-Tagungen – na tional wie international – finden sich regelmäßig Beiträge zum CBR. Auch regelmäßi ge Workshops zum Thema CBR finden statt, wie das „UK Symposium on Case-Based
15 http://iccbr.org/
Literaturverzeichnis
| 387
Reasoning“ (UKCBR)¹⁶, der jährlich organisierte CBR Track der „Florida Artificial Intel ligence Research Society Conference“ (FLAIRS) oder auch die jährlichen Workshops der deutschsprachigen GI-Fachgruppe „Wissensmanagement“(FGWM)¹⁷.
Literaturverzeichnis [1] [2] [3] [4] [5] [6] [7] [8] [9]
[10] [11] [12] [13] [14] [15]
[16] [17]
Special Issue on Case-Based Reasoning, Band 20(3) von The Knowledge Engineering Review. Cambridge University Press, New York, NY, USA, 2005. Special Issue on Case-Based Reasoning, Band 23(1) von Künstliche Intelligenz. Springer, 2009. van der Aalst, W. M. P. Process Mining. Springer Berlin Heidelberg, Berlin, Heidelberg, 2011. Aamodt, A. und Plaza, E. Case-based reasoning: Foundational issues, methodological varia tions, and system approaches. AI communications, 7(1):39–59, 1994. Aha, D. und Floyd, M. Case-based Agents. In ICCBR Workshop on Case-based Agents (ICCBRCBA-15), ICCBR, Frankfurt am Main, Germany., 2015. Aha, D. W., Breslow, L. A. und Muñoz-Avila, H. Conversational case-based reasoning. Applied Intelligence, 14(1):9–32, 2001. Aha, D. W., Kibler, D. und Albert, M. K. Instance-Based Learning Algorithms. Machine Learn ing, 6(1):37–66, 1991. Aha, D. W., Molineaux, M. und Ponsen, M. Learning to win: Case-based plan selection in a real-time strategy game. In Proc. ICCBR 2005, S. 5–20. Springer, 2005. Althoff, K. D. Eine fallbasierte Lernkomponente als integraler Bestandteil der MOLTKE-Werk bank zur Diagnose technischer Systeme, Band 23 von DISKI. Infix Verlag, St. Augustin, Ger many, 1993. Althoff, K. D. Evaluating Case-Based Reasoning Systems: The INRECA Case Study. Doktorar beit, Universität Kaiserslautern, 1997. Ariza, D. S., Sánchez-Ruiz, A. A. und González-Calero, P. A. Time series and case-based rea soning for an intelligent tetris game. In Proc. ICCBR 2017, S. 185–199. Springer, 2017. Avramenko, Y. und Kraslawski, A. Case based design: applications in process engineering, Band 87. Springer, 2007. Bach, B., Mathisen, B. M. und Jaiswal, A. Demonstrating the myCBR Rest API. In Workshop Proceedings ICCBR 2019, 2019. Bach, K. Knowledge Acquisition for Case-Based Reasoning Systems. Doktorarbeit, Heidelberg University, 2013. Bach, K., Althoff, K. D., Newo, R. und Stahl, A. A Case-Based Reasoning Approach for Provid ing Machine Diagnosis from Service Reports. In Ram, A. und Wiratunga, N. (Hrsg.), Proc. of the 19th Intl. Conference on Case-Based Reasoning (ICCBR-2011), London, UK, Band 6880 von LNCS, S. 363–377. Springer Verlag, Heidelberg, September 2011. Bach, K., Reichle, M. und Althoff, K. D. A Domain Independent System Architecture for Sharing Experience. In LWA 2007 Workshop Proceedings, S. 296–303, 2007. Badra, F., Sedki, K. und Ugon, A. On the Role of Similarity in Analogical Transfer. In Proc. ICCBR 2018, LNCS 11156, S. 499–514. Springer, 2018.
16 http://ukcbr.org.uk/ 17 http://fgwm.de/
388 | 9 Fallbasiertes Schließen
[18]
[19] [20] [21] [22]
[23] [24] [25] [26]
[27]
[28] [29] [30] [31] [32]
[33] [34] [35]
[36] [37] [38]
Baydin, A. G., de Mántaras, R. L. und Ontanón, S. A semantic network-based evolutionary algorithm for modeling memetic evolution and creativity. Neural and Evolutionary Computing, 2014. Bentley, J. L. Multidimensional Binary Search Trees Used for Associative Searching. Commun. ACM, 18(9):509–517, 1975. Bergmann, R. Effizientes Problemlösen durch flexible Wiederverwendung von Fällen auf ver schiedenen Abstraktionsebenen. Nr. 138 in DISKI. Infix, 1996. Bergmann, R. Experience Management: Foundations, Development Methodology, and Inter net-Based Applications. LNAI 2432. Springer, 2002. Bergmann, R., Althoff, K., Breen, S., Göker, M., Manago, M., Traphöner, R. und Wess, S. De veloping industrial case-based reasoning applications: The INRECA methodology. Springer, 2003. Bergmann, R. und Gil, Y. Similarity Assessment and Efficient Retrieval of Semantic Workflows. Information Systems, 40:115–127, 2014. Bergmann, R., Grumbach, L., Malburg, L. und Zeyen, C. ProCAKE: A Process-Oriented CaseBased Reasoning Framework. In Workshop Proceedings ICCBR 2019, 2019. Bergmann, R., Kolodner, J. und Plaza, E. Representation in case-based reasoning. The Know ledge Engineering Review, 20(3):209–213, 2005. Bergmann, R., Munoz-Avila, H., Veloso, M. und Melis, E. Case-based reasoning applied to planning tasks. In Case-Based Reasoning Technology from Foundations to Applications, LNAI 1400, S. 169–199. Springer, 1998. Bergmann, R., Richter, M. M., Schmitt, S., Stahl, A. und Vollrath, I. Utility-Oriented Matching: A New Research Direction for Case-Based Reasoning. In 9th German Workshop on Case-Based Reasoning (GWCBR’2001), 2001. Bergmann, R. und Stahl, A. Similarity Measures for Object-Oriented Case Representations. In Proc. EWCBR-98, LNCS 1488, S. 25–36. Springer, 1998. Bergmann, R. und Stromer, A. MAC/FAC Retrieval of Semantic Workflows. In Proc. FLAIRS 2013. AAAI Press, 2013. Bergmann, R. und Vollrath, I. Generalized Cases: Representation and Steps Towards Efficient Similarity Assessment. In Proc. KI 1999, LNAI 1701, S. 195–206. Springer, 1999. Bergmann, R. und Wilke, W. Building and refining abstract planning cases by change of repre sentation language. Journal of Artificial Intelligence Research, 3:53–118, 1995. Bergmann, R. und Wilke, W. On the Role of Abstraction in Case-Based Reasoning. In Advances in Case-Based Reasoning, Third European Workshop, EWCBR-96, LNCS 1168, S. 28–43. Sprin ger, 1996. Bichindaritz, I., Marling, C. R. und Montani, S. Recent Themes in Case-Based Reasoning and Knowledge Discovery. In FLAIRS Conference, 2017. Borrajo, D., Roubíčková, A. und Serina, I. Progress in Case-Based Planning. ACM Comput. Surv., 47(2):35:1–35:39, 2015. Bruneau, O., Gaillard, E., Lasolle, N., Lieber, J., Nauer, E. und Reynaud, J. A SPARQL Query Transformation Rule Language—Application to Retrieval and Adaptation in Case-Based Rea soning. In Proc. ICCBR 2017, LNCS 10339, S. 76–91. Springer, 2017. Bunke, H. und Messmer, B. T. Similarity measures for structured representations. In European Workshop on Case-Based Reasoning, S. 106–118. Springer, 1993. Büttcher, S., Clarke, C. L. A. und Cormack, G. V. Information retrieval: Implementing and evalu ating search engines. Mit Press, 2016. Chang, H. S., Fu, M. C. und Hu, J.and Marcus, S. I. Google Deep Mind’s AlphaGo. OR/MS To day, 43(5):24–29, 2016.
Literaturverzeichnis
[39]
[40] [41] [42] [43] [44] [45] [46] [47] [48] [49] [50] [51] [52]
[53] [54] [55]
[56] [57] [58] [59] [60]
|
389
Chen, C., Li, O., Tao, D., Barnett, A., Rudin, C. und Su, J. K. This Looks Like That: Deep Learning for Interpretable Image Recognition. In Advances in Neural Information Processing Systems 32, S. 8928–8939. Curran Associates, Inc., 2019. Craw, S., Wiratunga, N. und Rowe, R. C. Learning Adaptation Knowledge to Improve Casebased Reasoning. Artificial Intelligence, 170(16-17):1175–1192, November 2006. Creecy, R. H., Masand, B. M., Smith, S. J. und Waltz, D. L. Trading MIPS and Memory for Know ledge Engineering. Commun. ACM, 35(8):48–64, 1992. Dannenhauer, D. und Munoz-Avila, H. Goal-driven autonomy with semantically-annotated hierarchical cases. In Proc. ICCBR 2015, S. 88–103. Springer, 2015. Dijkman, R., Rosa, M. L. und Reijers, H. A. Managing large collections of business process models—Current techniques and challenges. Computers in Industry, 63(2):91–97, 2012. Dufour-Lussier, V., Le Ber, F., Lieber, J. und Martin, L. Adapting spatial and temporal cases. In Proc. ICCBR 2012, LNCS 7466, S. 77–91. Springer, 2012. Dufour-Lussier, V., Le Ber, F., Lieber, J. und Nauer, E. Automatic case acquisition from texts for process-oriented case-based reasoning. Information Systems, 2014. Dufour-Lussier, V., Lieber, J., Nauer, E. und Toussaint, Y. Text adaptation using formal concept analysis. In Case-Based Reasoning. Research and Development, S. 96–110, 2010. Fagan, M. und Cunningham, P. Case-based plan recognition in computer games. In Proc. IC CBR 2003, S. 161–170. Springer, 2003. Fellbaum, C. WordNet: An electronic lexical database. MIT press, 1998. Fikes, R. E. und Nilsson, N. J. STRIPS: A new approach to the application of theorem proving to problem solving. Artificial intelligence, 2(3-4):189–208, 1971. Floyd, M. W., Esfandiari, B. und Lam, K. A Case-Based Reasoning Approach to Imitating Robo Cup Players. In FLAIRS Conference, S. 251–256, 2008. Forbus, K. D., Gentner, D. und Law, K. MAC/FAC: A Model of Similarity-Based Retrieval. Cogni tive Science, 19(2):141–205, 1995. Fuchs, B., Lieber, J., Mille, A. und Napoli, A. Differential adaptation: An operational ap proach to adaptation for solving numerical problems with CBR. Knowledge-Based Systems, 68:103–114, 2014. Gabel, T. und Godehardt, E. Top-Down Induction of Similarity Measures Using Similarity Clouds. In Proc. ICCBR 2015, S. 149–164. Springer International Publishing, 2015. Gaillard, E., Infante-Blanco, L., Lieber, J. und Nauer, E. Tuuurbine: A Generic CBR Engine over RDFS. In Lamontagne, L. und Plaza, E. (Hrsg.), Proc. ICCBR 2014, S. 140–154. Springer, 2014. Ghallab, M., Knoblock, C., Wilkins, D., Barrett, A., Christianson, D., Friedman, M., Kwok, C., Golden, K., Penberthy, S., Smith, D., Sun, Y. und Weld, D. PDDL - The Planning Domain Defi nition Language. Forschungsbericht, Yale Center for Computational Vision and Control Tech Report CVC TR-98-003/DCS TR-1165, 08 1998. Göker, M. H., Howlett, R. J. und Price, J. E. Case-based reasoning for diagnosis applications. Knowledge Eng. Review, 20(3):277–281, 2005. Hammond, K. J. Case-based planning: A framework for planning from experience. Cognitive science, 14(3):385–443, 1990. Hayes-Roth, F., Waterman, D. A. und Lenat, D. B. Building Expert Systems. Addison-Wesley Longman Publishing Co., Inc., Boston, MA, USA, 1983. Herold, M. und Minor, M. Ontology-based transfer learning in the airport and warehouse logistics domains. In Workshop Proceedings of ICCBR 2019, Otzenhausen, Germany, 2019. Ivanova, M. und Minor, M. Case-based Workflow Modeling in Support of the Teachers’ Per sonal and Social Behavior. In Proc. PLE’2013, S. 276 – 287, Berlin, 2013. Beuth University of Applied Sciences.
390 | 9 Fallbasiertes Schließen
[61] [62] [63]
[64]
[65] [66] [67] [68] [69]
[70] [71] [72]
[73] [74] [75] [76] [77]
[78] [79] [80] [81] [82]
Kambhampati, S. und Hendler, J. A. A validation-structure-based theory of plan modification and reuse. Artificial Intelligence, 55(2-3):193–258, 1992. Kamp, G. Using description logics for knowledge intensive case-based reasoning. In Euro pean Workshop on Advances in Case-Based Reasoning, S. 204–218. Springer, 1996. Keane, M. und Kenny, E. How Case-Based Reasoning Explains Neural Networks: A Theoretical Analysis of XAI Using Post-Hoc Explanation-by-Example from a Survey of ANN-CBR Twin-Sys tems. In Proc. ICCBR 2019, LNCS 11680, S. 155–171. Springer, 2019. Klein, P., Malburg, L. und Bergmann, R. Learning Workflow Embeddings to Improve the Per formance of Similarity-Based Retrieval for Process-Oriented Case-Based Reasoning. In Proc. ICCBR 2019, LNCS 11680, S. 188–203. Springer, 2019. Klenk, M., Aha, D. W. und Molineaux, M. The Case for Case-Based Transfer Learning. AI Maga zine, 32(1):54–69, 2011. Kohavi, R., Langley, P. und Yun, Y. The utility of feature weighting in nearestneighbor algo rithms. In Poster Papers: 9th European Conference on Machine Learning, 1997. Kolodner, J. Case-based reasoning. Morgan Kaufman, San Mateo, CA, 1993. Könik, T., O’Rorke, P., Shapiro, D. G., Choi, D., Nejati, N. und Langley, P. Skill transfer through goal-driven representation mapping. Cognitive Systems Research, 10(3):270–285, 2009. Lamy, J. B., Sekar, B., Guezennec, G., Bouaud, J. und Séroussi, B. Explainable artificial intel ligence for breast cancer: A visual case-based reasoning approach. Artificial Intelligence in Medicine, 94, 2019. Leake, D. Abduction, Experience, and Goals: A Model of Everyday Abductive Explanation. J Exp Theor Artif Intell, 7, 09 1995. Leake, D. und Ye, X. On Combining Case Adaptation Rules. In Proc. ICCBR 2019, LNCS 11680, S. 204–218. Springer, 2019. Leake, D. B., Kinley, A. und Wilson, D. Case-based similarity assessment: Estimating adapt ability from experience. In Proceedings of the Fourteenth National Conference on Articial Intelligence, AAAI, S. 674–679. AAAI Press, 1997. Lenz, M. Case retrieval nets as a model for building flexible information systems, Band 236 von DISKI. Infix, 2000. Lenz, M., Hübner, A. und Kunze, M. Textual CBR. In Case-based Reasoning Technology, S. 115–137. Springer, 1998. Lenz, M., Ollinger, S., Sahitaj, P. und Bergmann, R. Semantic Textual Similarity Measures for Case-Based Retrieval of Argument Graphs. In Proc. ICCBR 2019, S. 219–234. Springer, 2019. Lieber, J. Application of the revision theory to adaptation in case-based reasoning: The con servative adaptation. In Proc. ICCBR 2007, LNCS 4626, S. 239–253. Springer, 2007. Martin, K., Wiratunga, N., Massie, S. und Clos, J. Informed Pair Selection for Self-paced Metric Learning in Siamese Neural Networks. In Artificial Intelligence XXXV, S. 34–49. Springer Inter national Publishing, 2018. Mathisen, B. M., A., A., Bach, K. und Langseth, H. Learning similarity measures from data. Progress in Artificial Intelligence, 2019. Minor, M., Bergmann, R. und Görg, S. Case-based adaptation of workflows. Information Sys tems, 40:142–152, 2014. Minor, M., Bergmann, R., Görg, S. und Walter, K. Towards Case-Based Adaptation of Work flows. In Proc. ICCBR 2010, LNAI 6176, S. 421–435. Springer, 2010. Minor, M., Bergmann, R., Müller, J. M. und Spät, A. On the Transferability of Process-Oriented Cases. In Proc. ICCBR 2016, LNCS 9969, S. 281–294. Springer, 2016. Minor, M. und Görg, S. Acquiring Adaptation Cases for Scientific Workflows. In Proc. ICCBR 2011, LNCS 6880, S. 166–180. Springer, 2011.
Literaturverzeichnis
[83] [84]
[85] [86] [87] [88]
[89] [90]
[91] [92] [93]
[94]
[95]
[96] [97] [98] [99] [100] [101] [102] [103] [104]
| 391
Minor, M., Montani, S. und Recio-García, J. A. Editorial: Process-oriented Case-based Reason ing. Inf. Syst., 40:103–105, 2014. Minor, M., Tartakovski, A. und Schmalen, D. Agile workflow technology and case-based change reuse for long-term processes. International Journal of Intelligent Information Techno logies (IJIIT), 4(1):80–98, 2008. Montani, S. und Jain, L. C. Successful case-based reasoning applications-1, Band 305. Sprin ger, 2010. Montani, S. und Jain, L. C. Successful Case-based Reasoning Applications-2, Band 494. Sprin ger, 2014. Montani, S. und Leonardi, G. Retrieval and clustering for supporting business process adjust ment and analysis. Information Systems, 40:128–141, 2014. Montani, S., Leonardi, G., Quaglini, S., Cavallini, A. und Micieli, G. Mining and Retrieving Me dical Processes to Assess the Quality of Care. In Proc. ICCBR 2013, LNCS 7969, S. 233–240. Springer, 2013. Mork, P. J. und Bach, K. A Decision Support System to Enhance Self-Management of Low Back Pain: Protocol for the selfBACK Project. JMIR Res Protoc, 7(7):e167, Jul 2018. Mougouie, B. und Bergmann, R. Similarity Assessment for Generalized Cases by Optimization Methods. In Craw, S. und Preece, A. (Hrsg.), European Conference on Case-Based Reasoning (ECCBR’02), Band 2416, S. 249–263. Springer, 2002. Müller, G. und Bergmann, R. Workflow Streams: A Means for Compositional Adaptation in Process-Oriented CBR. In Proc. ICCBR 2014, LNCS 8765, S. 315–329. Springer, 2014. Müller, G. und Bergmann, R. Learning and Applying Adaptation Operators in Process-Oriented Case-Based Reasoning. In Proc. ICCBR 2015, LNAI 9394, S. 259–274. Spinger, 2015. Müller, G., Bergmann, R., Russel, I. und Eberle, W. Generalization of Workflows in ProcessOriented Case-Based Reasoning. In 28th International FLAIRS Conference, S. 391–396. AAAI Press, 2015. Muñoz-Avila, H. und Aha, D. On the role of explanation for hierarchical case-based planning in real-time strategy games. In Proc. of ECCBR-04 Workshop on Explanations in CBR, S. 1–10. Citeseer, 2004. Muñoz-Avila, H., Bauckhage, C., Bida, M., Congdon, C. B. und Kendall, G. Learning and Game AI. In Artificial and Computational Intelligence in Games, S. 33–43. Schloss Dagstuhl - Leib niz-Zentrum für Informatik, 2013. Müller, G. Workflow Modeling Assistance by Case-based Reasoning. Springer, 2018. Müller, G. und Bergmann, R. A Cluster-Based Approach to Improve Similarity-Based Retrieval for Process-Oriented Case-Based Reasoning. In Proc. ECAI 2014, S. 639–644. IOS Press, 2014. Ontañón, S., Mishra, K., Sugandh, N. und Ram, A. Case-based planning and execution for real-time strategy games. In Proc. ICCBR 2007, S. 164–178. Springer, 2007. Ontañón, S. und Plaza, E. Amalgams: A formal approach for combining multiple case solu tions. In Proc. ICCBR 2010, LNCS 6176, S. 257–271. Springer, 2010. Pan, S. J. und Yang, Q. A survey on transfer learning. Knowledge and Data Engineering, IEEE Transactions on, 22(10):1345–1359, 2010. Pfeifer, T. und Richter, M. M. Diagnose von technischen Systemen. Deutscher UniversitätsVerlag, 1993. Plaza, E. Cases as terms: A feature term approach to the structured representation of cases. In Proc. ICCBR 1995, S. 265–276. Springer, 1995. Plaza, E. und McGinty, L. Distributed case-based reasoning. Knowledge Eng. Review, 20(3):261–265, 2005. Porter, B. W., Bareiss, R. und Holte, R. C. Concept learning and heuristic classification in weaktheory domains. Artificial Intelligence, 45(1-2):229–263, 1990.
392 | 9 Fallbasiertes Schließen
[105] Ram, A., Ontañón, S. und Mehta, M. Artificial Intelligence for Adaptive Computer Games. In FLAIRS Conference, S. 22–29, 2007. [106] Recio-García, J. A., Díaz-Agudo, B. und González-Calero, P. A. The COLIBRI Platform: Tools, Fea tures and Working Examples, Band 494 von Studies in Computational Intelligence, S. 55–85. Springer Berlin Heidelberg, 2014. [107] Recio-García, J. A., González-Calero, P. A. und Díaz-Agudo, B. Template-Based Design in COLI BRI Studio. Information Systems, S. 168–178, 2014. [108] Reichert, M. Enabling Flexible and Robust Business Process Automation for the Agile Enterpri se. In The Essence of Software Engineering, S. 203–220. Springer, Cham, 2018. [109] Reichert, M. und Weber, B. Enabling Flexibility in Process-Aware Information Systems: Chal lenges, Methods, Technologies. Springer, 2012. [110] Reuss, P. Case Factories: A Maintenance Cockpit for distributed structural Case-Based Rea soning Systems - Maintenance with Case Factories in a SEASALT-based multi-agent system with heterogenous Case-Based Reasoning systems. Doktorarbeit, Universität Hildesheim, 2019. [111] Richter, M. M. Introduction. In Case-Based Reasoning Technology-From Foundations to Appli cations, S. 1–15. Springer Verlag, 1998. [112] Richter, M. M. und Weber, R. O. Case-Based Reasoning: A Textbook. Springer Publishing Com pany, Incorporated, 2013. [113] Riesbeck, C. K. und Schank, R. C. Inside Case-Based Reasoning. L. Erlbaum Associates Inc., Hillsdale, NJ, USA, 1989. [114] Roth-Berghofer, T. Explanations and Case-Based Reasoning: Foundational Issues. In Proc. ECCBR 2004, Band 3155, S. 389–403, 2004. [115] Roth-Berghofer, T. und Reinartz, T. MaMa: A Maintenance Manual for Case—Based Reasoning Systems. In Proc. ICCBR 2001, S. 452–466. Springer, 2001. [116] Roth-Berghofer, T., Sauer, C. S., Althoff, K. D., Bach, K. und Newo, R. SEASALTexp- An Explana tion-aware Architecture for Extracting and Case-Based Processing of Experiences from Inter net Communities. In Workshop Proc. LWA 2011, S. 274–277, 2011. [117] Schaaf, J. W. Fish and Shrink. A next step towards efficient case retrieval in large scaled case bases. In Smith, I. und Faltings, B. (Hrsg.), Advances in Case-Based Reasoning (EWCBR 1996), S. 362–376. Springer, 1996. [118] Schaaf, J. W. Über die Suche nach situationsgerechten Fällen im fallbasierten Schließen, Band 179 von DISKI. Infix, 1998. [119] Schank, R. C. Dynamic Memory: A Theory of Reminding and Learning in Computers and Peo ple. Cambridge University Press, New York, NY, USA, 1983. [120] Schumacher, P. Workflow extraction from textual process descriptions. Doktorarbeit, Goethe University Frankfurt am Main, 2015. [121] Schumacher, P. und Minor, M. Towards a Trace Index Based Workflow Similarity Function. In Proc. KI 2014. Springer, 2014. [122] Schumacher, P., Minor, M. und Schulte-Zurhausen, E. Extracting and enriching workflows from text. In Proceedings IEEE IRI 2013, S. 285–292, 2013. [123] Smyth, B. und Keane, M. T. Remembering to Forget: A Competence-preserving Case Deletion Policy for Case-based Reasoning Systems. In IJCAI-1995, S. 377–382. Morgan Kaufmann, 1995. [124] Smyth, B. und Keane, M. T. Using adaptation knowledge to retrieve and adapt design cases. Knowledge-Based Systems, 9(2):127–135, 1996. [125] Smyth, B. und Keane, M. T. Adaptation-guided retrieval: questioning the similarity assump tion in reasoning. Artificial intelligence, 102(2):249–293, 1998.
Literaturverzeichnis
| 393
[126] Stadler, M. und Wess, S. Konzept und Implementierung eines fallbasierten, analogieorientier ten Inferenzmechanismus und dessen Integration in ein regelbasiertes Expertensystem zur Diagnose eines CNC-Bearbeitungszentrums. . In Projektarbeit, FB Informatik, TU Kaiserslau tern, 1989. [127] Stahl, A. Learning Similarity Measures: A Formal View Based on a Generalized CBR Model. In ICCBR 2005, S. 507–521. Springer, 2005. [128] Stahl, A. und Gabel, T. Using Evolution Programs to Learn Local Similarity Measures. In Proc. ICCBR 2003, S. 537–551. Springer Berlin Heidelberg, 2003. [129] Stahl, A. und Roth-Berghofer, T. Rapid prototyping of CBR applications with the open source tool myCBR. In European conference on case-based reasoning, S. 615–629. Springer, 2008. [130] Sørmo, F., Cassens, J. und Aamodt, A. Explanation in Case-Based Reasoning–Perspectives and Goals. Artif. Intell. Rev., 24:109–143, 10 2005. [131] Sørmo, F., Cassens, J. und Aamodt, A. Explanation in Case-Based Reasoning–Perspectives and Goals. Artif. Intell. Rev., 24:109–143, 10 2005. [132] Vattam, S., Aha, D. W. und Floyd, M. W. Case-Based Plan Recognition Using Action Sequence Graphs. In Proc. ICCBR 2014, S. 495–510, 2014. [133] Veloso, M. M. Planning and learning by analogical reasoning, Band 886. Springer Science & Business Media, 1994. [134] Veloso, M. M. und Carbonell, J. G. Derivational analogy in PRODIGY: Automating case acquisi tion, storage, and utilization. In Case-Based Learning, S. 55–84. Springer, 1993. [135] Watson, I. Case-based reasoning is a methodology not a technology. In Research and Devel opment in Expert Systems XV, S. 213–223. Springer, 1999. [136] Weber, B., Wild, W. und Breu, R. CBRFlow: Enabling Adaptive Workflow Management Through Conversational Case-Based Reasoning. In Proc. ECCBR 2004, S. 434–448. Springer, 2004. [137] Weber, B. G. und Mateas, M. Case-Based Reasoning for Build Order in Real-Time Strategy Games. In AIIDE, 2009. [138] Weske, M. Business Process Management Concepts, Languages, Architectures. Springer Berlin Heidelberg, 2012. [139] Wess, S. Fallbasiertes Problemlösen in wissensbasierten Systemen zur Entscheidungsun terstützung und Diagnostik - Grundlagen, Systeme und Anwendungen, Band 126 von DISKI. Infix, 1996. [140] Wettschereck, D. und Aha, D. W. Weighting features. In Case-Based Reasoning Research and Development. Springer Berlin Heidelberg, 1995. [141] Wilke, W. und Bergmann, R. Techniques and knowledge used for adaptation during basecased problem solving. In Proc. IEA/AIE-98, LNCS 1416, S. 497–506. Springer, 1998. [142] Workflow Management Coalition. Workflow management coalition glossary & terminology, 1999. last access 05-23-2007. [143] Zeyen, C., Müller, G. und Bergmann, R. A Conversational Approach to Process-oriented Casebased Reasoning. In Proc. IJCAI 2018, S. 5404–5408, 2018. [144] Zito-VVolf, R. J. und Alterman, R. Multicases: A Case-Based Representation for Procedural Knowledge. In Proceedings of the Fourteenth Annual Conference of the Cognitive Science Society, S. 331. Psychology Press, 1992.
10 Planen Jörg Hoffmann, Malte Helmert, Daniel Gnad und Florian Pommerening Die Fähigkeit vorausschauend zu handeln, wird oft als intelligentes Verhalten be zeichnet. Wir beschäftigen uns in diesem Kapitel mit dem Gebiet der Handlungspla nung, das solch vorausschauendes Handeln untersucht. Wir geben einen Überblick und erklären kurz einige der wichtigsten Algorithmen. Für eine ausführliche Abhand lung verweisen wir auf das Lehrbuch von Ghallab et al. [47].
10.1 Überblick Ausgehend von einem Modell der Welt und unserem Verständnis unserer Einfluss möglichkeiten auf diese Welt versuchen wir einen Plan zu finden – eine Handlungs anweisung, mit der wir ein Ziel erreichen können. Das Forschungsgebiet der Hand lungsplanung untersucht Techniken, die solche Pläne finden, ohne an eine konkrete Anwendung gebunden zu sein. Es wird also nach sog. domänenunabhängigen Algo rithmen gesucht, die das Modell der Welt und mögliche Aktionen und Ziele als Einga be nehmen und einen Plan als Ausgabe generieren. Als Beispiel verwenden wir in diesem Kapitel eine Logistikaufgabe. Als Leiter eines Logistikunternehmens müssen wir eine Menge von Paketen ausliefern. Dafür stehen mehrere LKW zur Verfügung. Sowohl die Pakete als auch die LKW sind im Moment an verschiedenen Orten, die durch Straßen verbunden sind. Das Ziel ist es, mit möglichst wenigen Fahrten alle Pakete auszuliefern. Zusätzlich zu diesem stark vereinfachten Kern der Aufgabe können wir weitere Aspekte modellieren. Zum Beispiel könnten wir noch beachten, dass nicht beliebig viele Pakete in einen LKW geladen werden können, dass Tankstellen angefahren werden müssen, dass mit einer bestimmten Wahrscheinlichkeit beim Fahren ein Reifen platzt oder dass ein LKW am Ende des Tages möglichst gut für den nächsten Tag positioniert ist. Für den Kern der Beispielaufgabe kann der aktuelle Zustand der Welt modelliert werden, indem für jedes Paket und jeden LKW eine Variable verwendet wird, die des sen aktuellen Ort angibt. Als Aktionen verwenden wir das Ein- und Ausladen eines Pakets und das Bewegen eines LKW an einen anderen Ort. Diese Aktionen sind nur in bestimmten Zuständen anwendbar. Beispielsweise kann ein Paket P nur in einen LKW L geladen werden, wenn beide am gleichen Ort sind; dies bezeichnet man als Vorbedingung (engl. precondition) der Aktion. Aktionen verändern den Zustand der Welt. Beispielsweise ist der Ort von P nach dem Laden in L; dies bezeichnet man als Effekt der Aktion. In diesem einfachen Fall können wir die Aktionen als diskret und se quenziell anwendbar betrachten, d. h., es ist nicht nötig, die Situation zu betrachten, in der das Paket halb eingeladen ist. Die Aktionen sind außerdem alle deterministisch
https://doi.org/10.1515/9783110659948-010
396 | 10 Planen
Diese Erweiterungen sind prinzipiell or thogonal, d. h. beliebig kombinierbar. Allerdings wird es im Allgemeinen um so komplexer eine Lösung zu finden, je mehr unterschiedliche Aspekte in ei ner Planungsaufgabe modelliert wer
Unsicherheit
und voll beobachtbar: Nachdem eine Aktion ausgeführt ist, können wir den Nachfol gezustand mit Sicherheit beschreiben. Wir suchen nach einer Folge von Aktionen, die alle Pakete an ihre Bestimmungs orte bringt. Einen Zustand, in dem das der Fall ist, nennen wir Zielzustand (unabhän gig davon, wo die LKW stehen). Eine optimale Lösung dieser Aufgabe minimiert dabei die Anzahl der Aktionen, die einen LKW bewegen, und erlaubt eine beliebige Anzahl von Ein- und Ausladeaktionen. Der einfachste Fall der Handlungsplanung sind Aufgaben wie die gerade be schriebene: Zustände können mit endlich vielen Variablen mit endlichem Wertebe reich beschrieben werden, Aktionen sind alle deterministisch, voll beobachtbar und diskret, und alle Ziele müssen erreicht werden. Aufgaben dieser Art sind klassische Planungsaufgaben und werden typischerweise in der Planning Domain Definition Language (PDDL) [57; 90] formalisiert. PDDL erlaubt die entsprechenden Variablen, Aktionen, den Startzustand und die Zielbedingungen in einer standardisierten Form zu definieren, die dann von domänenunabhängigen Algorithmen, sog. Planern gele sen werden können. Einige fortgeschrittene Aspekte unserer Beispielaufgabe können nicht als klas sische Planungsaufgabe formalisiert werden. Wenn z. B. mit einer bestimmten Wahr scheinlichkeit ein Reifen platzt, ist das Fahren eines LKW keine deterministische Akti on mehr. Um solche Aktionen und komplexere Aufgaben modellieren zu können, sind ausdrucksstärkere Planungsformalismen nötig. Diese erweitern klassisches Planen in verschiedene Dimensionen. Drei wesentliche Dimensionen sind: – Sprachmächtigkeit: Erweiterungen von PDDL erlauben numerische Variablen (z. B. für den Benzinstand jedes LKW), temporale Aktionen unterschiedlicher Dauer, die parallel ausgeführt werden (z. B. um die Gesamtzeit des Transports zu optimieren), externe Ereignisse (z. B. um mögliche Lieferzeiten darzustellen) oder Ziele, die nicht notwendigerweise erfüllt werden müssen (z. B. um Präferenzen für den Zielort eines LKW auszudrücken). – Unsicherheit: Alternativen zu PDDL erlauben die Spezifikation von Aufgaben, bei denen Aktionen nicht notwendigerweise deterministische oder beobachtbare Effekte haben. – Domänenspezifisches Wissen: Weitere Alternativen zu PDDL erlauben es in ei nem gewissen Rahmen domänenspezifisches Wissen auszudrücken. Zum Beispiel können damit Strategien definiert oder komplexere Ziele in kleinere Aufgaben zer legt werden.
än m Do
Klassisches Planen
e sp en
z
n se is .W
Sprachmächtigkeit
10.1 Überblick | 397
den sollen. Dementsprechend sind Kombinationen über mehrere der genannten Di mensionen hinweg eher die Ausnahme. Häufiger sind Kombinationen innerhalb der selben Dimension, so wird z. B. temporales Planen oft mit numerischem Planen kom biniert. Die folgenden drei Abschnitte geben einen Überblick über die drei Dimensionen und diskutieren anschließend kurz andere Spracherweiterungen. Danach betrachten wir verschiedene Algorithmen für die Lösung von Planungsaufgaben, der Einfachheit halber im Kontext des klassischen Planens.
10.1.1 Sprachmächtigkeit Die Beschreibungssprache PDDL wurde (u. a.) erweitert, um numerische Variablen, Aktionsdauern, externe Ereignisse und Präferenzen zu erlauben. Wir besprechen die se Erweiterungen kurz im Folgenden. Numerische Ausdrücke. In klassischen Planungsaufgaben werden Zustände mit Va riablen beschrieben, die einen endlichen Wertebereich haben. PDDL 2.1 [42] erlaubt zusätzlich auch Variablen, die beliebige Zahlen als Werte haben können. In unserem Logistikbeispiel könnten wir z. B. den Benzinstand jedes LKW als Zahl modellieren. Aktionen können den Wert von Variablen verändern, z. B. würde das Fahren von ei nem Ort zum anderen den Benzinstand entsprechend der Strecke verringern und eine Aktion zum Volltanken würde den Wert auf einen festen Wert setzen. Die Variablen können außerdem in Vorbedingungen von Aktionen oder in Zielbedingungen verwen det werden, z. B. um auszudrücken, dass es nur mit ausreichend Benzin im Tank mög lich ist, eine bestimmte Strecke zu fahren, oder dass am Ende des Tages alle Tanks mindestens halb voll sein sollen. Im Allgemeinen ist es unentscheidbar, ob eine Planungsaufgabe mit numerischen Variablen eine Lösung hat [59], aber es existieren Semientscheidungsverfahren, die für alle lösbaren Aufgaben in endlicher Zeit Lösungen erzeugen können. Der am wei testen verbreitete Ansatz ist die heuristische Suche. Wir besprechen diesen Ansatz für klassisches Planen in Abschnitt 10.3.1. Für die Erweiterung auf numerisches Planen muss das komplexere Verhalten numerischer Variablen in der Berechnung von Heu ristiken geeignet approximiert werden [1; 40; 65; 113]. Eine alternative Möglichkeit ist das Verwenden linearer Programme, welche die numerischen Aspekte der Planungs aufgabe direkt abbilden können [25; 75; 98]. Temporales Planen. Die Planungsaufgaben, die wir bis jetzt besprochen haben, kön nen nur sehr eingeschränkt über Zeit reden: Ein Plan ist eine Folge von Aktionen, die nacheinander ausgeführt werden und so schrittweise den Zustand der Welt ändern. In unserem Logistikbeispiel reicht das aus, wenn wir die Summe der LKW-Fahrten mini mieren wollen. Wollen wir stattdessen die Zeit minimieren, bis alle Pakete ausgeliefert sind, benötigen wir ausdrucksstärkere Modelle.
398 | 10 Planen
PDDL 2.1 [42] führt Aktionen ein, die parallel ausgeführt werden können und eine bestimmte Dauer haben. Das gesuchte Ergebnis für so eine temporale Planungsauf gabe ist keine Folge von Aktionen mehr, sondern ein Zeitplan, der sagt wann welche Aktion gestartet wird. In unserem Beispiel können wir damit modellieren, dass sich LKW auf verschiedenen Straßen gleichzeitig bewegen. Die Zeit vom Start der ersten Aktion bis zum Ende der letzten wird makespan genannt und ist das Optimierungsziel von temporalen Planungsaufgaben. Zum Lösen temporaler Planungsaufgaben ist wiederum heuristische Suche eine beliebte Methode [26; 29; 40]. Hier enthalten Suchknoten (u. a.) Warteschlangen für Aktionen, die gestartet aber noch nicht beendet wurden. In der Suche wird dann ent schieden, ob eine neue Aktion gestartet wird oder zum nächsten Zeitpunkt in der War teschlange gesprungen wird. Erfolgreiche alternative Ansätze sind Kompilierungen als CSP [129], lineares Programm [9], logische Formel [103; 108] oder als Model-Check ing-Problem [58]. Externe Ereignisse. Bis jetzt gingen wir davon aus, dass sich der Zustand der Welt nur durch unsere Aktionen ändert. Dies ist jedoch oft nicht der Fall. Im Logistikbei spiel können Nachtfahrverbote und die Verkehrslage wichtig sein: externe Ereignisse, über die wir keine Kontrolle haben. Die Verkehrslage ist nichtdeterministisch, worauf wir in Abschnitt 10.1.2 eingehen. Hier besprechen wir deterministische Ereignisse, von denen wir wissen, dass und wann sie eintreten werden. PDDL 2.2 [37] führt timed initial literals (TIL) ein, Variablenwerte, die zu einer ge gebenen Zeit gesetzt werden. In unserem Beispiel kann eine Variable ausdrücken, ob eine Straße befahren werden darf. Um ein Nachtfahrverbot auszudrücken, können wir diese Variable dann mit einem TIL am Abend auf „nein“ und mit einem weiteren TIL am Morgen wieder auf „ja“ setzen. TILs können in Lösungsalgorithmen als Aktio nen betrachtet werden, die zu einem bestimmten Zeitpunkt in einem Plan auftauchen müssen [40; 99]. Präferenzen. Es ist oft sinnvoll zu verlangen, dass ein Teil der Ziele unbedingt er füllt werden muss, während andere nur so weit wie möglich erfüllt werden sollten. Zum Beispiel könnten wir beim Planen einer Route für unsere LKW berücksichtigen, dass sie möglichst gut für den nächsten Tag positioniert sein sollen. Letzteres ist aber untergeordnet: Wenn es unvermeidbar ist, geben wir uns auch mit einer schlechteren Position zufrieden. PDDL 3.0 [45] führt Präferenzen über Plänen ein, die als Formeln in linearer tem poraler Logik (LTL) beschrieben werden. Nicht erfüllte Präferenzen können mit zu sätzlichen Kosten belegt werden. Präferenzen, die eine Aussage über den Zielzustand machen, werden auch soft goals genannt, weil es Ziele sind, die nicht unbedingt erfüllt werden müssen. Unterschieden werden Net-Benefit-Planung [35; 78; 128], wo die Kos ten einer Präferenzverletzung mit Aktionskosten vergleichbar sind und addiert wer den sowie Oversubscription-Planung [32; 119], wo Aktions- und Präferenzkosten nicht
10.1 Überblick
| 399
miteinander verrechnet werden. Stattdessen sind innerhalb eines festen Aktionskos tenbudgets die Kosten von Präferenzverletzungen zu minimieren.
10.1.2 Unsicherheit Es gibt verschiedene Quellen von Unsicherheit, die sich in der klassischen Planung nicht ausdrücken lassen. Aktionen können probabilistische Effekte haben, d. h. eine Wahrscheinlichkeitsverteilung über die möglichen Ausgänge wie beim Werfen eines Würfels. In unserem Logistikbeispiel könnte z. B. das Fahren mit einer Aktion model liert werden, die mit 1 % Wahrscheinlichkeit fehlschlägt, falls ein Reifen platzt, d. h. der Lastwagen stattdessen in der Werkstatt endet. Es gibt Erweiterungen von PDDL, in denen solche probabilistische Aktionen modelliert werden können [132] und in de nen externe probabilistische Ereignisse (wie z. B. das Verkehrsaufkommen an einer Ampel) modelliert werden können [112]. In Planungsaufgaben mit probabilistischen Effekten können wir Pläne nicht mehr als Aktionsfolgen darstellen, sondern benötigen eine Policy, die für jeden möglicher weise erreichten Zustand eine Aktion festlegt. Im Gegensatz zu deterministischen Ak tionen wird ein Ziel nicht mehr mit bestimmten Kosten garantiert erreicht. Stattdes sen sprechen wir über die erwarteten Kosten der Policy unter einer gegebenen Wahr scheinlichkeitsverteilung über die Effekte. In manchen Fällen will man garantieren, dass das Ziel erreicht wird, obwohl der Ausgang der Aktionen unsicher ist. Dann spielt die Wahrscheinlichkeitsverteilung der Ausgänge keine Rolle mehr, denn wir wollen auf alle möglichen Ausgänge einer Akti on vorbereitet sein. Wir gehen dann davon aus, dass der Ausgang der Aktion nichtde terministisch aus einer Menge von Möglichkeiten gewählt wird. Unsicherheit kann auch durch partielle Beobachtbarkeit entstehen. Wenn z. B. in einem Pokerspiel Karten verteilt werden, ist das aus Sicht einer Spielerin nur partiell beobachtbar: Sie kann aus ihren eigenen Karten Rückschlüsse auf die Karten der an deren ziehen, hat aber keine perfekte Information darüber. In unserem Logistikbei spiel sind z. B. die den Tag über auftretenden Verkehrssituationen beim morgendli chen Planen der Touren nicht bekannt, können aber anhand beobachtbarer Aspekte wie Wochentag und Baustelleninformationen eingeschätzt werden. Aus den zwei Varianten von Beobachtbarkeit (vollständig oder partiell) und den zwei Varianten unsicherer Aktionsausgänge (nichtdeterministisch, probabilistisch) ergeben sich vier Fälle.¹ Diese unterscheiden sich in Bezug darauf, wie Policys de finiert sind und wie sie bewertet, repräsentiert und gefunden werden können. Wir fassen dies im Folgenden kurz zusammen. 1 Es gibt auch weitere Kombinationen, beispielsweise partielle Beobachtbarkeit mit deterministi schen Aktionsausgängen. Wir beschränken uns hier auf die vier relevantesten Fälle.
400 | 10 Planen
Vollständig beobachtbare nichtdeterministische Planungsaufgaben. Im nichtdeter ministischen Fall liegt die Qualität einer Policy darin, inwieweit sie garantiert, das Ziel zu erreichen. Man unterscheidet schwache Pläne, die das Ziel bei günstigen Aktions ausgängen erreichen; starke Pläne, die das Ziel unabhängig von den Aktionsausgängen erreichen; und starke zyklische Pläne, die nur garantieren, dass das Ziel immer erreich bar bleibt, und daher irgendwann erreicht wird, sofern die Wahl der Aktionsausgänge fair ist [24]. Fairness bedeutet in diesem Fall vereinfacht gesagt, dass bei unendlich häufiger Ausführung einer Aktion jeder mögliche Ausgang unendlich oft auftritt. Bei vollständiger Beobachtbarkeit (im sog. FOND-Fall) ist eine Policy eine Abbil dung von Weltzuständen auf Aktionen. Methoden für das Finden von starken zykli schen Policys sind z. B. das iterative Erweitern einer schwachen Policy [93] oder eine LAO*-Suche im Zustandsraum [53; 86]. Partiell beobachtbare nichtdeterministische Planungsaufgaben. In partiell beob achtbaren Aufgaben können wir Policys nicht als Funktionen von Weltzuständen de finieren, da der genaue Weltzustand ja nicht bekannt ist. Stattdessen ist eine Policy eine Funktion von belief states (Wissenszuständen), welche das derzeitige Wissen des Planers über den Weltzustand beinhalten. Im nichtdeterministischen Fall ist ein Wis senszustand die Menge der derzeit für möglich gehaltenen Weltzustände. Wissen wir in unserem Logistikbeispiel z. B. nicht, ob in der Zamoniengasse immer noch eine Bau stelle ist, so umfasst unser Wissenszustand zwei mögliche Zustände – mit bzw. ohne diese Baustelle. Dieselben drei Varianten von schwachen, starken und starken zyklischen Policys sind hier möglich. Eine weit verbreitete Variante ist contingent planning [97], wo Be obachtbarkeit in Form von Sensoraktionen vorliegt und starke Policys als Bäume von Aktionen repräsentiert werden. Methoden für contingent planning suchen im Raum der Wissenszustände [12; 20; 66] oder kompilieren nach QBF (Erfüllbarkeitsproblem für quantifizierte boolesche Formeln) [105]. Vollständig beobachtbare probabilistische Planungsaufgaben. In diesem Fall ist der Zustandsraum der Planungsaufgabe ein Markov Decision Process (MDP), was diese Form des Planens eng mit anderen Bereichen der KI (und der Informatik im Allgemeinen) verbindet [13]. Die Qualität einer Policy ist hier durch ihren Erwartungs wert definiert. Dafür gibt es zahlreiche verschiedene Varianten. Eine Standardva riante definiert eine Reward-Funktion und maximiert erwartete Rewards (oft unter einem Discount-Faktor), siehe Abschnitt 12.6.1 und 12.6.2. Andere wichtige Varian ten im Planen definieren statt einer Reward-Funktion ein Ziel und maximieren die Wahrscheinlichkeit das Ziel zu erreichen oder minimieren die erwarteten Kosten bei Garantie einer Mindestzielwahrscheinlichkeit [87]. Policys können dann durch Standardverfahren wie Value Iteration und Policy Ite ration gefunden werden [13], welche in Abschnitt 12.6.3 ausführlicher besprochen wer den. Erfolgreich im Planen sind vor allem Varianten heuristischer Suche [17; 81; 121; 124] und von Monte Carlo Tree Search [76; 77].
10.1 Überblick |
401
Partiell beobachtbare probabilistische Planungsaufgaben. In diesem Fall ist der Zu standsraum der Planungsaufgabe ein Partially Observable Markov Decision Process (POMDP). Wissenszustände sind hier Wahrscheinlichkeitsverteilungen über Zustän den. Die Qualität einer Policy ist genau wie für MDPs definiert, nun aber über den Wissenszuständen. Standardverfahren wie Value Iteration können theoretisch direkt auf diesen Raum angewendet werden, allerdings ist dies typischerweise nicht hand habbar und im Allgemeinen unentscheidbar. Effizientere Verfahren setzen stückweise lineare Wertefunktionen voraus [118] und/oder berechnen die Wertefunktion nur an ausgewählten Stellen [84; 100; 116].
10.1.3 Domänenspezifisches Wissen Klassisches Planen und alle bislang besprochenen Erweiterungen sind darauf ausge legt, dass der Benutzer des Planungswerkzeugs keinerlei domänenspezifisches Wis sen im Planungsmodell formuliert – „physics, not advice“ [89]. Dies entspricht dem Grundgedanken der Automation, das Planungswerkzeug soll vollkommen selbststän dig agieren. Allerdings ist es so, dass in vielen Anwendungen relevantes domänen spezifisches Wissen vorhanden ist. Warum sollte man dem Benutzer verbieten, dieses dem Planungswerkzeug mitzugeben? Planen mit domänenspezifischem Wissen erlaubt es, solches Wissen im Einga bemodell zu spezifizieren. Der Charakter der Modellierungssprache und die Tätigkeit des Modellierens rücken mithin näher an die Programmierung heran. Allerdings sind die Sprachen weiterhin spezifisch für die Handlungsplanung strukturiert; Zustände, Aktionen und Ziele bleiben die wesentlichen Elemente. Im Folgenden umreißen wir kurz die am weitesten verbreiteten Ansätze. Kontrollwissen. Eine einfache Art und Weise, domänenspezifisches Wissen anzu geben, sind Regeln zum Prunen von Aktionen. Dem Benutzer wird hier eine Model lierungssprache zur Verfügung gestellt, in der formuliert werden kann, unter welchen Bedingungen welche Aktionen nicht sinnvoll sind. In der Suche nach einem Plan wer den dann solche Aktionen ignoriert, was die Suche beschleunigt. Temporale Logiken bieten sich für die Formulierung von solchem Kontrollwissen an. Das Pruning wird in der Regel in eine Zustandsraumsuche (Abschnitt 10.3) eingebettet [4; 7; 85].² Hierarchisches Planen. Hierarchisches Planen weicht weiter von der Modellierung im klassischen Planen und seinen Erweiterungen ab. Die Idee besteht darin, Aktio nen hierarchisch zu gliedern, wie dies auch im menschlichen Planen oft der Fall ist (eine Reise beginnt z. B. mit einer Zugfahrt, welche wiederum selbst aus der Fahrt zum
2 Interessanterweise kann diese Art von Wissen auch weitgehend implizit durch Aktionsvorbedin gungen codiert werden [106]. Insofern ist „physics, not advice“ eher eine Philosophie als eine mathe matische Eigenschaft.
402 | 10 Planen
Bahnhof, Finden des Sitzplatzes etc. besteht) [10]. Gleichzeitig kann mithilfe der Hier archie der Raum der zu durchsuchenden Pläne strukturiert und eingegrenzt werden. Im Allgemeinen hat hierarchisches Planen eine hohe Komplexität [3; 39], in der Pra xis kann man aber sehr effektiv damit modellieren und planen [94]. Die heuristische Suche (Abschnitt 10.3.1) kann angewendet werden, um das Planungssystem auch oh ne strikte Vorgaben effizienter zu machen [2], d. h., die hierarchische Planungsaufgabe kann in eine (Reihe von) klassische(n) Planungsaufgabe(n) kompiliert werden. Außer dem können Heuristiken direkt in der hierarchischen Plan- bzw. Zustandsraumsuche verwendet werden [11; 69]. Golog. Dieser Ansatz weicht am weitesten vom klassischen Planen ab und ist am nächsten zur Programmierung. Der Plan wird als imperative Programmstruktur vorge geben, in der aber noch offene Entscheidungspunkte vorhanden sind, die von einem Planer aufgelöst werden müssen (nichtdeterministische Auswahl zwischen Alternati ven oder Auswahl von in Aktionen verwendeten Objekten [51; 52]). Klassischerweise werden solche Programme in logikbasierten Sprachen formalisiert. Naheliegende An wendungen gibt es in der Robotik, wenn ein Großteil des Verhaltens eines Roboters festgelegt ist.
10.1.4 Andere Erweiterungen Handlungsplanung ist eines der ältesten Teilgebiete der KI, und viele Varianten wur den erforscht. Nicht alle davon passen in die hier verwendete Kategorisierung in Sprachmächtigkeit, Unsicherheit und domänenspezifisches Wissen. Wir stellen im Folgenden drei weitere prominente Richtungen vor. In den bislang diskutierten Erweiterungen sind Zustandsübergänge, auch bei nu merischen Variablen und temporalen Aktionen, immer diskret. Hybrides Planen er laubt hingegen die Modellierung von Prozessen, in denen sich numerische Variablen stetig über die Zeit verändern. Zum Beispiel kann so die Entwicklung des Füllstands einer Batterie modelliert werden [44]. Hybrides Planen ist in PDDL+ formalisiert [43] und gut unterstützt [21; 25]. In der Multiagentenplanung wird eine Menge von planenden Agenten angenom men, die zwar gemeinsam eine Aufgabe lösen möchten, aber separat planen und da bei vertrauliche Informationen (wie etwa die internen Kosten eines bestimmten Trans ports) nicht nach außen geben. Multiagentenplanung ist in MA-PDDL formalisiert [18; 82] und ebenfalls gut unterstützt [95; 125]. Es ist nicht immer sinnvoll, alles innerhalb der Planungssprache modellieren und lösen zu wollen. Erstens können feingranulare Phänomene wie die kontinuierliche Steuerung eines Roboterarms ggf. besser durch ein externes Submodul gesteuert wer den, welches in der Suche nach einem Plan aufgerufen wird. Dies ist als semantic attachments bekannt [33]. Zweitens macht es ggf. Sinn, ähnlich wie in SMT [8] dem
10.2 Klassisches Planen | 403
Planungsverfahren spezialisierte Löser unterzuordnen, z. B. um mit komplexen Da tenstrukturen in der Zustandsdarstellung umzugehen. Dieser Ansatz heißt planning modulo theories [50].
10.2 Klassisches Planen Klassisches Planen ist die einfachste Form des Planens. Dieser Einfachheit halber wid men wir uns dem klassischen Planen im Folgenden im Detail. Im klassischen Planen sind die Zustände voll beobachtbar, und die Aktionen sind deterministisch. Die An wendung einer Aktion in einem Zustand führt also zu einem eindeutigen und bekann ten Nachfolgezustand. Es gibt zwei weit verbreitete Varianten, um Zustände im klassischen Planen dar zustellen. STRIPS³ basiert (in der heute gängigen Form) auf Aussagenlogik und wird bis heute verwendet, um Planungsaufgaben zu formulieren. STRIPS ist konzeptuell einfach, was es jedoch manchmal etwas umständlich macht, bestimmte Konzepte zu modellieren. Hier verwenden wir daher, wie im Überblick bereits angedeutet, die Beschreibung von Zuständen als Belegungen von Variablen mit endlichem Wertebe reich, finite-domain representation (FDR), in der Literatur auch bekannt unter dem Na men SAS+ [5; 60]. Eine Planungsaufgabe ist dann wie folgt definiert: Definition 10.2.1 Klassische Planungsaufgabe. Eine klassische Planungsaufgabe Π ist ein Tupel Π = ⟨V, A, I, G⟩ bestehend aus einer endlichen Menge von Variablen V, je de mit endlichem Wertebereich, einer endlichen Menge von Aktionen A, dem Startzu stand I (einer Belegung von V) und dem Ziel G (einer partiellen Belegung von V). Der Wertebereich einer Variable v ∈ V wird als Domäne D(v) von v bezeichnet. Ein Paar v=d mit v ∈ V und d ∈ D(v) bezeichnet man als Atom. Ein Zustand ist eine Bele gung von V. Mit S bezeichnen wir die Menge aller Zustände einer Planungsaufgabe Π; mit s(v) = d für v ∈ V bezeichnen wir den Wert d ∈ D(v), den v in einer (partiellen) Be legung s annimmt. Eine Aktion a ∈ A ist ein Tupel ⟨pre(a), eff(a), cost(a)⟩ bestehend aus Vorbedingung (engl. precondition) pre(a), Effekt eff(a), beides partielle Belegun gen von V, und den nicht negativen Kosten cost(a) ∈ ℝ+0 . Eine Aktion a ∈ A ist in einem Zustand s ∈ S anwendbar, wenn ihre Vorbedingung pre(a) von s erfüllt wird, s pre(a), d. h., für alle Vorbedingungen v=p in pre(a) gilt s(v) = p. Die Anwendung einer Aktion a in Zustand s führt zum Folgezustand s = s[[a]], in dem die Werte der in eff(a) belegten Variablen v zu eff(a)(v) geändert werden und der ansonsten mit s übereinstimmt.
3 STRIPS (Stanford Research Institute Problem Solver) bezeichnete ursprünglich einen Planer [41] und später dessen Eingabesprache.
404 | 10 Planen
Ein Plan für einen Zustand s ist eine Folge von Aktionen, die der Reihe nach in s anwendbar sind und deren Endzustand s das Ziel erfüllt, also s G. Ein Plan für s ist optimal, wenn die Summe seiner Aktionskosten unter allen Plänen für s minimal ist. Die (optimale) Lösung einer Planungsaufgabe ist ein (optimaler) Plan für I. Eine Planungsaufgabe ist unlösbar, wenn kein Plan für I existiert. Das Planexistenzproblem ist die Beantwortung der Frage, ob für eine Planungsaufgabe Π ein Plan existiert oder nicht.
L
1 p1
2
3
p2
Abb. 10.1: Darstellung der Planungsaufgabe aus Beispiel 10.2.1.
Beispiel 10.2.1. Eine einfache Variante unseres Logistikbeispiels mit einem LKW L und zwei Paketen p1 , p2 kann wie folgt als klassische Planungsaufgabe definiert werden: V = {L, p1 , p2 }, mit D(L) = {1, 2, 3}, D(p1 ) = D(p2 ) = {1, 2, 3, L}. A = {fahre(a, b) | a, b ∈ {1, 2, 3}, |a − b| = 1} ∪ {lade(a, p i ) | a ∈ {1, 2, 3}, i ∈ {1, 2}} ∪ {entlade(a, p i ) | a ∈ {1, 2, 3}, i ∈ {1, 2}}. Die Aktion „fahre(a, b)“ bewegt den LKW von a nach b mit Vorbedingung pre(fahre(a, b)) = {L=a} und Effekt eff(fahre(a, b)) = {L=b}. Zum Laden eines Pakets müssen LKW und Paket an demselben Standort sein: pre(lade(a, p i )) = {L=a, p i =a}, und anschließend ist das Paket im LKW: eff(lade(a, p i )) = {p i =L}. Die Ak tion „entlade(a, p i )“ ist analog spezifiziert. Der Startzustand I = {L=1, p1 =1, p2 =1} ist in Abbildung 10.1 veranschaulicht, im Ziel G = {p1 =3, p2 =3} sollen beide Pakete am Ort 3 sein. Anwenden der Aktion lade(1, p2 ) im Startzustand führt uns zum Folgezu stand s1 = {L=1, p1 =1, p2 =L}. Ein Plan für diese Aufgabe ist ⟨lade(1, p1 ), lade(1, p2 ), fahre(1, 2), fahre(2, 3), entlade(3, p1 ), entlade(3, p2 )⟩. Diese Beispielaufgabe ist einfach lösbar, da es insgesamt nur 48 Zustände gibt. Ihre praktische Schwierigkeit bezieht die klassische Handlungsplanung aus dem Problem der Zustandsraumexplosion, d. h. dem Umstand, dass die Zahl der Zustände exponen tiell in der Anzahl Variablen anwächst. Praktisch relevante Planungsaufgaben haben oft 1020 , 10100 oder sogar noch mehr Zustände, sodass eine erschöpfende Suche im Raum der Zustände nicht machbar ist. Im Folgenden betrachten wir typische Verfahren, mit denen klassische Planungs aufgaben gelöst werden. Abschnitt 10.3 widmet sich der Zustandsraumsuche mit Heu ristiken und Pruning-Methoden. Abschnitt 10.4 behandelt die Suche mit symbolischen Zustandsdarstellungen. In Abschnitt 10.5 betrachten wir die Kompilierung von klassi schem Planen nach SAT, dem Erfüllbarkeitsproblem in Aussagenlogik.
10.3 Zustandsraumsuche | 405
10.3 Zustandsraumsuche Die derzeit am weitesten verbreitete Methode, klassische Planungsaufgaben zu lösen, ist die Zustandsraumsuche. Hier wird beginnend vom Startzustand durch systemati sche Anwendung von Aktionen der Zustandsraum der Planungsaufgabe aufgebaut, bis ein Zielzustand (und damit ein Plan) gefunden wird oder die Suche fehlschlägt, weil keine weiteren Zustände mehr erreicht werden können. Der Zustandsraum einer Planungsaufgabe Π ist wie folgt definiert: Definition 10.3.1 Zustandsraum. Der Zustandsraum einer klassischen Planungsaufga be Π = ⟨V, A, I, G⟩ ist das Tupel Θ Π = ⟨S, A, c, T, I, SG ⟩, mit: – Zustandsmenge: Menge aller Zustände S von Π, – Aktionen: die Aktionen A von Π, – Transitionskosten: c entspricht den Aktionskosten cost(a) von Π, – Transitionen: ⟨s, a, s ⟩ ∈ T gdw. s pre(a) und s[[a]] = s , – Startzustand: der Startzustand I von Π, – Zielzustände: s ∈ SG gdw. s G.
(ent-)lade
{L=1, p=L}
fahre fahre
{L=3, p=L}
(ent-)lade
{L=1, p=1}
{L=2, p=L}
{L=3, p=3}
fahre {L=2, p=1}
(ent-)lade {L=2, p=2} fahre fahre
fahre {L=2, p=3}
fahre {L=3, p=1}
{L=1, p=2}
{L=3, p=2}
fahre {L=1, p=3}
Abb. 10.2: Zustandsraum einer Vereinfachung des Beispiels mit nur einem Paket. Der Startzustand ist mit einer eingehenden Kante markiert und die Zielzustände sind doppelt umrandet.
Beispiel 10.3.1. Der Zustandsraum einer Vereinfachung unseres Beispiels ist in Abbil dung 10.2 dargestellt. Der Startzustand I ist oben links abgebildet (markiert mit einge hendem Pfeil), die Zielzustände sind doppelt umrandet. Aus Platzgründen wurden die Argumente der Aktionen weggelassen. Die soeben beschriebene Suche ist als Progression (Vorwärtssuche) bekannt. Eine Al ternative zur Progression ist die Regression (Rückwärtssuche). Hier beginnt die Suche am Ziel und wendet Aktionen „rückwärts“ an, wobei vereinfacht gesagt Vorbedingun gen zu Effekten werden und umgekehrt. Beide Verfahren haben Vor- und Nachteile; es ist nicht eines „besser“ als das andere. Allerdings ist die Progression leichter zu ver stehen und darzustellen und zudem derzeit weit mehr verbreitet als die Regression. Daher gehen wir im Folgenden nicht weiter auf die Regression ein.
406 | 10 Planen
Blinde Suche (siehe Abschnitt 3.2.2), wie beispielsweise Breiten- oder Tiefensu che, ist im Allgemeinen weitaus weniger effizient als informierte (also heuristische) Suchverfahren (siehe Abschnitt 3.2.3). Daher gehen wir nur auf letztere ein. Eine Aus nahme bildet die symbolische Suche (Abschnitt 10.4), die auch ohne Heuristik effizient eingesetzt werden kann.
10.3.1 Heuristische Suche Seit Ende der 1990er-Jahre gehört die heuristische Suche zu den erfolgreichsten Ver fahren zum Lösen von (klassischen) Planungsaufgaben [16; 30; 46; 60; 61; 67; 88; 104]. Heuristische Suchalgorithmen können in zwei Klassen unterteilt werden: solche, die zum optimalen Planen geeignet sind, d. h. die Optimalität der gefundenen Lösung ga rantieren, und Suchalgorithmen ohne diese Garantie. Prominentester Vertreter der op timalen Suchalgorithmen ist A∗ [54]. Neben A∗ betrachten wir in diesem Abschnitt auch Greedy Best-First Search (GBFS, gierige Bestensuche). Heuristiken werden in Suchalgorithmen benutzt, um den Abstand – bzw. die Kos ten eines Pfades – zum nächsten Zielzustand zu approximieren. Dies kann auf viel fältige Weise geschehen. Eine sehr einfache Heuristik zählt beispielsweise die Anzahl der noch nicht erreichten Ziele im Zustand s, also |G \ s|. Die Suche priorisiert dann Zustände mit niedriger Heuristik, um den Suchraum, d. h. den von der Suche betrach teten Teil des Zustandsraums, möglichst klein zu halten. Definition 10.3.2 Heuristik. Eine Heuristik h für eine Planungsaufgabe Π und deren Zu standsraum Θ Π = ⟨S, A, c, T, I, SG ⟩ ist eine Funktion h : S → ℝ+0 ∪ {∞}, die jedem Zustand von Π einen nicht negativen reellen Wert oder ∞ zuordnet. Die perfekte Heuristik h∗ ordnet jedem Zustand s ∈ S die Kosten eines optimalen Plans für s zu (∞, wenn kein Plan für s existiert). Einige wichtige Eigenschaften von Heuris tiken sind: – Zulässigkeit: h(s) ≤ h∗ (s) für alle s ∈ S. – Zielerkennung: h(s) = 0 für alle s ∈ SG . – Konsistenz: h(s) ≤ h(s ) + cost(a) für alle ⟨s, a, s ⟩ ∈ T. a
→ s um Konsistenz einer Heuristik bedeutet, dass ihr Wert entlang einer Transition s höchstens die Aktionskosten von a abnimmt, während Zulässigkeit ausdrückt, dass die Heuristik die tatsächlichen Kosten eines optimalen Plans nie überschätzt. Heuris tiken, die zielerkennend und konsistent sind, sind auch zulässig [96], und zulässige Heuristiken sind zielerkennend. Während der Suche kann es oft vorkommen, dass derselbe Zustand mehrmals auf verschiedenen Wegen erreicht wird. Deshalb betrachtet man während der Suche Such knoten statt Zustände. Wird mit einer expliziten Zustandsdarstellung gesucht – im Ge gensatz zur symbolischen Darstellung (Abschnitt 10.4) – entspricht ein Knoten meist einem Zustand sowie zusätzlichen Informationen darüber, wie der Zustand erreicht
10.3 Zustandsraumsuche | 407
wurde. Um am Ende der Suche einen Plan extrahieren zu können, speichert man in jedem Suchknoten den Vorgänger, von dem aus er erreicht wurde. Damit kann man sich vom Zielzustand Transition für Transition zurück zum Startzustand hangeln und so den Plan aufbauen. Der A∗ -Algorithmus benötigt zusätzlich für jeden erreichten Zustand die Kosten des Pfades, auf dem er erreicht wurde, den sog. g-Wert des Zu standes. Wenn der Zustand später nochmals auftaucht, jedoch auf einem günstigeren Pfad, muss er erneut betrachtet werden (Reopening), anderenfalls kann das Dupli kat verworfen werden. Wenn in A∗ eine konsistente Heuristik verwendet wird, kann ein Reopening nie eintreten [28]. Bei GBFS sind Reopening und das Mitführen von g-Werten optional: sie verbessern die Qualität der gefundenen Lösung auf Kosten hö herer Laufzeit. Unser Pseudocode verwendet eine sog. verzögerte Duplikatelimina tion, was gegenüber anderen Algorithmusvarianten die benötigten Datenstrukturen vereinfacht, dafür aber zu einem leicht erhöhten Speicheraufwand führt. Zustände mit unendlichem Heuristikwert werden von gängigen Implementierungen komplett ignoriert, was im Pseudocode nicht dargestellt ist. Je nach Eigenschaften der Heuristik und des Suchalgorithmus eignet sich ein Suchverfahren für unterschiedliche Aufgaben. GBFS und A∗ gehören beide zur Fa milie der Bestensuchen. In Algorithmus 10.1 unterscheiden sich GBFS und A∗ nur in der zur Anordnung der Open-Liste⁴ benutzten Kostenfunktion f . Die Suche beginnt
Algorithmus 10.1: Pseudocode von GBFS und A∗ . Mit f(n) = h(n) ergibt sich GBFS, mit f(n) = g(n) + h(n) ergibt sich A∗ . 1 2 3 4 5 6 7 8 9 10 11 12
HeuristicSearch(Π = ⟨V, A, I, G⟩): n ← Knoten n mit n.state = I und n.parent = none open ← priority queue aufsteigend nach f geordnet; enthält anfangs n closed ← Hash-Tabelle, bildet Zustand auf g-Wert ab; anfangs leer while not Empty(open) do n ← Pop(open) if n.state ∉ closed or g(n) < closed[n.state] then if n.state G then return Plan(n) closed[n.state] ← g(n) foreach a ∈ A with n.state pre(a) do n ← Knoten n mit n .state = n.state[[a]] und n .parent = n Insert(open, n , f(n )) end
13 14 15 16
end end return unlösbar
4 Der Begriff „Open-Liste“ für diese Datenstruktur hat sich eingebürgert, obwohl für die Effizienz des Algorithmus sehr wichtig ist, dass sie nicht als Liste implementiert wird, sondern als Prioritätswarte schlange (priority queue).
408 | 10 Planen im Startzustand I und erzeugt alle direkten Nachfolgezustände. Für jeden dieser Zu stände wird die Heuristik ausgewertet, und sie werden in die Open-Liste eingefügt. Diese ist anhand des heuristischen Werts h (bzw. bei A∗ anhand von g + h) geordnet. Anschließend werden so lange Knoten aus der Open-Liste genommen und wieder deren Nachfolger betrachtet, bis entweder ein Zielzustand gefunden wird (dann kann ein Plan extrahiert werden) oder alle Knoten abgearbeitet wurden (dann existiert keine Lösung). Wenn eine Lösung existiert, garantiert A∗ mit zulässiger Heuristik, dass der gefundene Plan optimal ist. GBFS hat keine solche Garantie, garantiert aber wenigstens, dass ein Plan gefunden wird, wenn die Planungsaufgabe lösbar ist. Eine Alternative zur Bestensuche ist die lokale Suche, wo im Suchraum nicht systematisch alle Möglichkeiten ausgewertet werden, sondern die Suche sich iterativ auf mehr und mehr Entscheidungen festlegt. Eine einfache Variante ist Hill-Climb ing, wo beginnend vom Startzustand immer ein Nachfolgezustand mit bester heu ristischer Bewertung ausgewählt wird und die zugehörige Aktion zur Ausführung festgelegt wird. Eine in der Handlungsplanung erfolgreichere Variante ist Enforced Hill-Climbing [67], wo jeder Schritt eine Breitensuche nach einem Zustand mit echt besserer heuristischer Bewertung durchführt. Dies lindert das Problem des einfa chen Hill-Climbing, welches in sog. lokalen Minima „stecken bleiben“ kann, wo keine Nachfolger mit besserer heuristischer Bewertung mehr erreichbar sind.
10.3.2 Heuristiken Planungsheuristiken lösen, vereinfacht gesagt, eine einfachere Form der gegebenen Planungsaufgabe, um dann die Lösung dieser vereinfachten Aufgabe als Heuristik wert für die ursprüngliche Aufgabe zu verwenden. Sie können in fünf Familien ein geordnet werden, die sich darin unterscheiden, wie die Aufgabe vereinfacht wird (basierend auf Abstraktionen, Relaxierungen, Landmarken, kritischen Pfaden und Netzwerkfluss). Wir werden die Heuristikfamilien im Folgenden genauer beschrei ben, jedoch nur bei Abstraktionen ins Detail gehen. Abstraktionen. Abstraktionen bilden den Zustandsraum der Planungsaufgabe auf einen kleineren Zustandsraum ab und suchen dann dort eine optimale Lösung. Eine Abstraktionsfunktion α bildet dabei die Zustände der Planungsaufgabe auf abstrak te Zustände ab. Wenn es zwischen zwei Zuständen im ursprünglichen Zustandsraum eine Transition gibt, dann gibt es auch zwischen deren zugehörigen abstrakten Zu ständen eine Transition. So ist garantiert, dass eine Folge von Aktionen, die in der ursprünglichen Aufgabe angewendet werden kann, auch in der abstrakten Aufgabe angewendet werden kann. Da das insbesondere für alle Pläne gilt, ist jeder Plan auch eine Lösung für die abstrakte Aufgabe. Der billigste Plan im abstrakten Zustandsraum kann daher die Kosten des billigsten Plans im ursprünglichen Zustandsraum nicht überschätzen. Seine Kosten bilden eine zulässige Heuristik.
10.3 Zustandsraumsuche | 409
Formal induziert die Abstraktionsfunktion den abstrakten Zustandsraum: Definition 10.3.3 Abstrakter Zustandsraum. Sei Π eine Planungsaufgabe mit Zustands raum Θ Π = ⟨S, A, c, T, I, SG ⟩ und α : S → Sα eine Abstraktionsfunktion. Dann ist α Θ Π α = ⟨Sα , A, c, T α , Iα , Sα G ⟩ mit den Transitionen T = {⟨α(s), a, α (s )⟩ | ⟨s, a, s ⟩ ∈ α T}, dem Initialzustand Iα = α(I) und den Zielzuständen SG = {α(s) | s ∈ SG } der von α induzierte abstrakte Zustandsraum.
(ent-)lade
{L=1, p=L}
fahre fahre
{L=3, p=L}
(ent-)lade
{L=1, p=1}
{L=2, p=L}
{L=3, p=3}
fahre {L=2, p=1}
(ent-)lade {L=2, p=2} fahre fahre
fahre {L=2, p=3}
fahre {L=3, p=1}
{L=1, p=2}
{L=3, p=2}
fahre {L=1, p=3}
fahre {p=1}
(ent-)lade
fahre
{p=L}
(ent-)lade
(ent-)lade fahre
{p=3} fahre
{p=2}
Abb. 10.3: Abstraktion des Zustandsraums aus Abbildung 10.2 für die Abstraktionsfunktion, die jeden Zustand auf die Position des Pakets projiziert. Das obere Bild zeigt die Abstraktionsfunktion im ursprünglichen Zustandsraum; das untere den induzierten Zustandsraum.
Beispiel 10.3.2. Abbildung 10.3 zeigt den induzierten Zustandsraum der Abstraktions funktion, die in jedem Zustand nur die Position des Pakets beachtet. Wie man sieht, ist der optimale Plan der ursprünglichen Aufgabe, ⟨lade(1, p), fahre(1, 2), fahre(2, 3), entlade(3, p)⟩, auch im abstrakten Zustandsraum anwendbar. Allerdings ist hier zu sätzlich ein billigerer Plan, ⟨lade(1, p), entlade(3, p)⟩, anwendbar. Die Heuristik unter schätzt also mit einem Wert von h(I) = 2 die tatsächlichen Kosten von h∗ (I) = 4. Die im Beispiel 10.3.2 verwendete Abstraktionsfunktion ist der oft verwendete Spezial fall einer Projektion, bei der Zustände auf eine Teilmenge der Variablen (engl. pattern) projiziert werden. Projektionsheuristiken können billig berechnet werden, indem die Planungsaufgabe syntaktisch projiziert wird: Alle Effekte und Bedingungen auf Va riablen außerhalb des Patterns werden einfach ignoriert. Der Zustandsraum der so entstehenden Planungsaufgabe ist nur noch exponentiell in der Größe des Patterns
410 | 10 Planen
und kann daher für kleine Patterns explizit aufgebaut werden. Vor der Suche wird dabei der komplette abstrakte Zustandsraum generiert, und für alle abstrakten Zu stände wird der abstrakte Zielabstand ausgerechnet. Diese Werte werden dann in ei ner Look-up-Tabelle (der sog. Pattern Database, PDB) gespeichert. Zur Suchzeit muss dann für jeden Zustand s nur der abstrakte Zustand α(s) berechnet werden, und der Heuristikwert kann schnell aus der Tabelle abgelesen werden [27; 34]. Neben PDB-Heuristiken gibt es weitere Typen von Abstraktion, bei denen die opti male abstrakte Lösung effizient berechnet werden kann: Die Domänenabstraktion [64] fasst mehrere Werte einer Variable zusammen; kartesische Abstraktionen [114] ver allgemeinern Domänenabstraktion und PDBs; und in Merge&Shrink-Heuristiken [62; 117] wird der abstrakte Zustandsraum iterativ durch Kombination (merge) von kleine ren Zustandsräumen aufgebaut, in denen zwischendurch abstrakte Zustände kombi niert werden, um die Größe der Abstraktion zu begrenzen (shrink). Delete-Relaxierung. Durch Anwendung von Aktionen verändern Variablen ihre Werte, und neue Aktionen können anwendbar werden. Da die alten Werte überschrie ben werden, können allerdings auch anwendbare Aktionen im Nachfolgezustand ihre Anwendbarkeit verlieren. Die sog. Delete-Relaxierung betrachtet für jede Variable die Menge der möglichen Werte, zu der durch Effekte nur Werte hinzugefügt werden können. Dies vereinfacht die Planungsaufgabe, denn Aktionen, die einmal anwend bar sind, bleiben nun auch im Nachfolgezustand anwendbar, d. h., die Menge der anwendbaren Aktionen wächst monoton. Der Name Delete-Relaxierung kommt von STRIPS-Planungsaufgaben, die nur binäre Variablen aufweisen. Effekte können dort Variablen wahr machen (hinzufügen) oder falsch machen (löschen). Diese Aufgaben können so umformuliert werden, dass keine negativen Vorbedingungen vorkommen und deswegen das Löschen einer Variable nie einen Vorteil bringt. Die Delete-Relaxie rung ignoriert dann alle Effekte, die eine Variable löschen. Das Ergebnis ist ebenfalls, dass die möglichen Werte jeder Variable und die Menge der anwendbaren Aktionen monoton wachsen. Wie bei Abstraktionen ist jeder tatsächliche Plan auch ein Plan in der Delete-Rela xierung, daher bilden die optimalen Plankosten nach Relaxierung eine zulässige Heu ristik, die man h+ nennt. Diese bietet oft eine gute Abschätzung der tatsächlichen Kos ten, ist aber schwer zu berechnen (NP-äquivalent) [14; 22]. In der Praxis verwendet man daher weitere Vereinfachungen von h+ [16; 71], wie z. B. die Heuristik hmax , die nur die teuerste Vorbedingung jeder Aktion beachtet. Für Suchverfahren wie GBFS, in denen die Zulässigkeit der Heuristik nicht wichtig ist, werden ebenfalls billig berechenbare Alternativen zu h+ verwendet. So macht z. B. hadd [16] die Annahme, dass alle Vorbedingungen einer Aktion unabhängig vonein ander hergestellt werden müssen. Die Kosten aller Vorbedingungen werden bei hadd addiert, was oft zu einer starken Überschätzung der Kosten führt. Eine genauere Ab schätzung bietet hFF [67], welches einen konkreten Plan für die Delete-Relaxierung findet (nicht notwendigerweise optimal) und dessen Kosten als Heuristikwert verwen
10.3 Zustandsraumsuche | 411
det. In Fällen, in denen die Delete-Relaxierung zu stark vereinfacht, kann auch nur ein Teil der Variablen relaxiert werden [30]. Landmarken. Als Landmarken werden in der Handlungsplanung Formeln bezeich net, die in einem Zustand entlang jedes Plans erfüllt sein müssen, bzw. Aktionen, die in jedem Plan vorkommen müssen. Im Zustandsraum aus Abbildung 10.2 sieht man z. B. schnell, dass es unmöglich ist, einen Zielzustand zu erreichen, ohne fahre(1, 2) zu verwenden (Aktionslandmarke) und dass jeder Plan zu einem Zeitpunkt die Formel p = L wahr macht (Formellandmarke). Wäre Ort 3 auch direkt von Ort 1 erreichbar, dann wäre fahre(1, 2) keine Aktionslandmarke. Allerdings wüssten wir in diesem Fall trotzdem, dass mindestens eine der Aktionen, die Ort 1 verlassen, in jedem Plan ver wendet werden muss. Die Menge dieser Aktionen bildet eine so genannte disjunktive Aktionslandmarke, d. h. eine Menge von Aktionen, von denen jeder Plan mindestens eine verwendet. Landmarken können effizient aus der Beschreibung von Planungsaufgaben abge leitet werden. Gleichzeitig können partielle Ordnungen gefunden werden, die Infor mationen darüber enthalten, in welcher Reihenfolge die Landmarken erreicht werden müssen [68; 104]. Aus diesen Ordnungen kann dann für eine Menge von Landmarken für den Startzustand abgeleitet werden, wie viele noch erreicht werden müssen. Deren Anzahl ist allerdings keine zulässige Heuristik, da es möglich ist, dass zwei Landmar ken gleichzeitig erreicht werden. Eine wichtige zulässige Heuristik, die auf Landmarken basiert, ist LM-cut [61]. Hier werden iterativ disjunktive Aktionslandmarken durch Schnitte (cuts) in einem Graphen gefunden. Die Kosten der billigsten Aktion in so einer Landmarke müssen von jedem Plan gezahlt werden. Sie werden also zum Heuristikwert addiert und die Kosten aller Aktionen in der Landmarke werden für zukünftige Iterationen um diese Kosten reduziert, um keine Kosten doppelt zu zählen. Kritische Pfade. Die schon besprochene Heuristik hmax kann als Spezialfall h1 einer größeren Familie von Planungsheuristiken (h m für m ≥ 1) gesehen werden [56]. Die Heuristik h m betrachtet von allen Aktionen nur Teilmengen der Vorbedingungen, die maximal die Größe m haben. Die Heuristikberechnung nimmt an, dass nur die teuers te dieser Teilmengen benötigt wird, um die Aktion anwendbar zu machen. Die Kette an Aktionen, die diesen Heuristikwert rechtfertigen, wird kritischer Pfad genannt. Die Heuristikwerte können als Lösung eines Gleichungssystems berechnet werden oder als hmax -Werte einer veränderten Aufgabe, in der der Anwendungskontext von Aktio nen für verschiedene Teilmengen unterschieden wird [55]. Der Berechnungsaufwand von h m ist exponentiell in m und für m > 2 oft zu teuer. Ein Kompromiss bilden die Heuristiken h C , bei denen nur eine gegebene Menge C von Teilmengen der Vorbedin gungen unterschieden wird [79]. Netzwerkfluss. Atome der Art v=d können von einem Plan mehrmals wahr gemacht (produziert) und von anderen Werten überschrieben (konsumiert) werden. Am Ende
412 | 10 Planen
eines Plans sollen jedoch die im Ziel erwähnten Atome gelten. Wenn sie nicht schon im Startzustand gelten, müssen sie also einmal häufiger produziert als konsumiert wer den. Atome, die im Startzustand, aber nicht im Ziel wahr sind, müssen entsprechend einmal häufiger konsumiert werden; Atome mit demselben Wahrheitswert im Start zustand und Ziel müssen gleich oft produziert und konsumiert werden. So muss das Paket in unserem Beispiel genau sooft eingeladen werden, wie es ausgeladen wird, d. h., das Atom p=L wird genau sooft produziert wie konsumiert. Betrachtet man solche Bedingungen für alle Atome einer Variable, beschreiben sie einen Netzwerkfluss [83] im Transitionssystem der Projektion auf diese Variable. Ähnlich wie bei Abstraktionen induziert jeder tatsächliche Plan einen gültigen Netz werkfluss, und daher sind die Kosten des billigsten Netzwerkflusses eine zulässige Heuristik. Durch Formulierung als lineares Programm können wir die Flussproble me für mehrere Projektionen in der Heuristikberechnung kombinieren [15; 127]. Diese Grundidee kann auf komplexere Abstraktionen als Projektionen auf einzelne Varia blen erweitert werden [101]. Heuristikkombination. Oft reicht eine einzelne Heuristik nicht aus, um die Suche im gesamten Suchraum gut einzuschränken. Bei GBFS hat sich eine Suche mit mehreren Priority Queues als hilfreich herausgestellt [111]. Für A∗ müssen die Heuristikwerte jedoch zu einem einzigen Wert kombiniert werden, von dem garantiert werden kann, dass er zulässig bleibt. Das Maximum mehrerer zulässiger Werte ist zwar immer zuläs sig, erhält aber nur die Information aus einer Heuristik. Kostenpartitionierung [72; 102] ist ein allgemeinerer Ansatz, um zulässige Heuristiken zu kombinieren. Dabei werden die Kosten jeder Aktion auf alle Heuristiken aufgeteilt. Jede Heuristik wird dann unter ihrer eigenen (reduzierten) Kostenfunktion berechnet. Da die Summe der Kostenfunk tionen die ursprüngliche Kostenfunktion nicht überschreitet, kann garantiert werden, dass die Summe der Heuristikwerte zulässig ist. Es gibt eine Vielzahl verschiedener Varianten [115]. Eine alternative Art, zulässige Heuristiken zu kombinieren, ist das Operator Counting [102]. Dabei werden Bedingungen aufgestellt, die von jedem Plan erfüllt sein müssen und mit reellwertigen Variablen ausgedrückt werden können, welche besagen, wie oft eine gegebene Aktion in einem gegebenen Plan verwendet wird. Die billigste Art, diese Bedingungen zu erfüllen, liefert eine zulässige Heuristik. Die Bedingungen mehrerer Heuristiken lassen sich so auf natürliche Art kombinieren. Mit Ausnahme der Kritische-Pfade-Heuristiken lassen sich alle hier besprochenen Heuristiken als Operator-Counting-Heuristiken ausdrücken und somit kombinieren. Dies entspricht einer Form von Kostenpartitionierung.
10.3.3 Pruning Komplementär zu heuristischer Suche existieren verschiedene Methoden, welche den Suchraum optimalitätserhaltend beschneiden (engl. pruning). Dies ist immens wich
10.3 Zustandsraumsuche | 413
tig für effizientes optimales Planen, weil selbst in sehr einfachen Planungsaufgaben und selbst mit „fast perfekten“ Heuristiken, die nur konstant von h∗ abweichen, der Suchraum von A∗ exponentiell groß sein kann [63]. Eine mögliche Quelle solcher Kom plexität ist die Permutierbarkeit von Aktionen, deren Reihenfolge im Plan keine Rolle spielt (wie z. B. das Abfahren separater Touren mit mehreren Lastwagen). Sogenannte Partial-Order-Reduction-Methoden erkennen eine Permutierbarkeit und nutzen diese aus, um Teile des Suchraums abzuschneiden [48; 49; 126; 130]. Eine andere Quelle von Redundanz sind Symmetrien zwischen gleichwertigen Ob jekten (wie z. B. identischen Lastwagen). Symmetriereduktion erkennt symmetrische Teile des Suchraums und reduziert die Suche auf Symmetrieklassen [31; 38; 120]. Oft treten auch Dominanzrelationen zwischen Zuständen auf, d. h. manche Zustän de sind „besser“ als andere (z. B. der gleiche Zustand, aber mit unterschiedlich viel Treibstoff im Tank). Dominance-Pruning-Methoden analysieren solche Dominanzre lationen und erkennen, wenn ein bereits gesehener Zustand besser ist als ein neu erzeugter [122]. Selbst eine oberflächliche Besprechung all dieser Methoden würde den Rahmen dieses Kapitels sprengen. Wir greifen stattdessen im Folgenden eine einzige PartialOrder-Reduction-Methode heraus, nämlich Strong Stubborn Sets (SSS) [126; 130]. Diese Methode ist sowohl einfach zu beschreiben als auch empirisch sehr erfolgreich. Die SSS-Methode betrachtet jeweils einen gegebenen Zustand s und findet eine Teilmenge SSS(s) von Aktionen, deren Betrachtung für Optimalität genügt, d. h. al le anderen Aktionen können in s optimalitätserhaltend ignoriert werden. Intuitiv ist SSS(s) zum einen notwendig für Fortschritt zu einem Teilziel und enthält zum anderen alle hiermit nicht permutierbaren Aktionen. Aktionen außerhalb SSS(s) können dann später betrachtet werden. In diesem Sinne wird eine Reihenfolge für die Bearbeitung permutierbarer Teilziele festgelegt. Sei konkret Π = ⟨V, A, I, G⟩ eine klassische Planungsaufgabe. Wir benötigen zwei Konzepte. Necessary enabling sets (NES) sorgen für Fortschritt zu einem Teilziel. Ein NES für eine partielle Belegung p in einem Zustand s ist eine Menge A p von Aktio nen, sodass jede Aktionsfolge, die von s aus p erreicht, mindestens eine Aktion aus A p benutzen muss. Die Menge A p ist also eine disjunktive Aktionslandmarke für p in s. Solch ein A p kann z. B. gefunden werden, indem man eine Variable v mit s(v) ≠ p(v) auswählt und für A p die Menge aller Aktionen mit Effekt v = p(v) wählt. Außerdem be nötigen wir, um über Permutierbarkeit von Aktionen zu reden, das Konzept der Interfe renz bzw. Kompatibilität. Zwei partielle Variablenbelegungen p, q heißen kompatibel, falls p(v) = q(v) für alle v im gemeinsamen Definitionsbereich gilt. In unserem Bei spiel sind die Vorbedingungen der Aktionen fahre(1, 2), also {L=1}, und lade(2, p1 ), also {L=2, p1 =2}, nicht kompatibel (sie widersprechen sich für L), die von fahre(1, 2) und lade(1, p1 ) hingegen schon. Aktionen a, a ∈ A interferieren, geschrieben a ∦ a , falls a die Vorbedingung von a überschreibt oder umgekehrt (⟨eff(a), pre(a )⟩ bzw. ⟨pre(a), eff(a )⟩ sind inkompatibel) oder die Aktionen inkompatible Effekte haben. Nicht interferierende Aktionen können in der Suche in beliebiger Reihenfolge ausge
414 | 10 Planen
führt werden, und alle Reihenfolgen führen zu demselben Endzustand. Ein SSS ist nun wie folgt definiert: Definition 10.3.4 Strong Stubborn Set. Sei Π = ⟨V, A, I, G⟩ eine klassische Planungs aufgabe, sei s ein Zustand mit s ̸ G, und sei A(s) die Menge der in s anwendbaren Aktionen. Eine Aktionsmenge SSS(s) ⊆ A ist ein Strong Stubborn Set für s, falls sie fol gende Bedingungen erfüllt: (i) SSS(s) enthält ein NES für G in s. (ii) Für jede Aktion a ∈ SSS(s) \ A(s) enthält SSS(s) ein NES für pre(a) in s. (iii) Für jede Aktion a ∈ SSS(s) ∩ A(s) enthält SSS(s) alle a mit a ∦ a. Man kann sich wie folgt klar machen, dass die Einschränkung der Suche auf SSS(s) in der Tat optimalitätserhaltend ist. Teil (i) der Definition garantiert, dass mindestens eine Aktion a jedes optimalen Plans in SSS(s) enthalten ist. Falls a selbst nicht in s an wendbar ist, sorgt Punkt (ii) dafür, dass es eine anwendbare Aktion a in SSS(s) gibt, die vor a auf einem optimal Plan liegen muss. Das heißt, SSS(s) enthält mindestens eine Aktion a des optimalen Plans, die in s anwendbar ist, sowie wegen Punkt (iii) alle mit diesem a interferierenden Aktionen. Die erste solche anwendbare Aktion, die in dem optimalen Plan enthalten ist, kann nun an den Anfang des Plans geschoben werden, da keine vorhergehende Aktion mit ihr interferiert. SSS(s) enthält also min destens eine Aktion, die eine Umsortierung des optimalen Plans in s beginnt. Natürlich ist dies eine recht einfache Variante der SSS-Methode. Diverse Verbes serungen sind möglich, und es ist wichtig, die Teilprobleme gut zu lösen, insbeson dere die Auswahl der NESs in Definition 10.3.4. Wir verweisen hierfür auf die Litera tur [130; 131].
10.4 Symbolische Suche Bei den oben beschriebenen Suchverfahren werden Zustände einzeln ausgewertet und expandiert. Die symbolische Suche arbeitet stattdessen mit Zustandsmengen. Wenn Mengen von Zuständen kompakt beschrieben und Operationen auf diesen Mengen effizient ausgeführt werden können, muss die Suche nicht mehr einzelne Zustände repräsentieren. Stattdessen arbeitet sie direkt mit Konzepten wie der Menge aller in einem Schritt erreichbaren Zustände, der Menge aller Zustände, die von einer anderen Menge in einem Schritt erreichbar sind oder der Menge aller Zielzustände. Wir werden im Folgenden zeigen, wie solche Mengen kompakt beschrieben und wie Operationen auf Zustandsmengen zu einem Suchverfahren kombiniert werden können. Zur Darstellung von Zustandsmengen werden am häufigsten binäre Entschei dungsdiagramme (engl. binary decision diagram, BDDs) verwendet [19]. Alternativen dazu sind beispielsweise algebraische Entscheidungsdiagramme (ADDs) [6], Ent scheidungsdiagramme mit impliziter Null (ZDDs) [92] oder Entscheidungsdiagramme mit gewichteten Kanten (EVMDDs) [23]. Wir beschränken uns hier jedoch auf BDDs.
10.4 Symbolische Suche | 415
Entscheidungsdiagramme dienen oft als Grundlage verschiedener Suchalgorithmen im Model Checking, wo sie ursprünglich eingeführt wurden [91], und in der Hand lungsplanung [36; 80; 123]. Definition 10.4.1 BDD. Ein BDD für eine Menge von Variablen V ist ein gerichteter, azy klischer Graph mit beschrifteten Knoten und Kanten, der genau eine Wurzel (Knoten oh ne eingehende Kanten) hat, bei dem alle Blätter (Knoten ohne ausgehende Kanten) die Beschriftung null oder eins haben und bei dem alle inneren Knoten mit einer Variable aus V beschriftet sind und genau zwei ausgehende Kanten haben, welche mit null und eins beschriftet sind. Ein BDD ist geordnet, wenn eine Ordnung über V existiert, sodass auf jedem Pfad von der Wurzel zu einem Blatt die Knotenbeschriftungen sortiert sind. Ein BDD ist reduziert, wenn es keine isomorphen Teilgraphen enthält und in keinem Knoten die beiden ausgehenden Kanten auf den gleichen Nachfolger zeigen. Im Folgenden sind alle BDDs reduziert und geordnet. Die L=1 Abbildung rechts zeigt ein Beispiel für ein BDD, das die 1 Atome unserer Logistikaufgabe als BDD-Variablen ver p=1 wendet. Solche BDDs können als Zustandsmengen auf 0 0 gefasst werden: Um zu testen, ob ein gegebener Zustand p=L 1 in der Menge ist, starten wir bei der Wurzel und folgen in 0 1 jedem Knoten der 1-Kante, wenn das Atom, mit dem der Knoten beschriftet ist, im Zustand wahr ist, und sonst der 0 1 0-Kante. Wenn wir dadurch im 1-Blatt landen, ist der Zu stand Teil der Menge, ansonsten nicht. Dieses Beispiel beschreibt daher die Menge aller Zustände, in denen der LKW an Ort 1 und das Paket entweder an Ort 1 oder im LKW ist. Ein BDD kann auch als Repräsentation einer logischen Formel gesehen werden, wobei die Modelle der Formel den Pfaden entsprechen, die im 1-Blatt enden. Reduzier te und geordnete BDDs sind dabei eine eindeutige Darstellung, d. h., zu einer Formel gibt es (mit einer festen Variablenordnung) genau ein reduziertes geordnetes BDD. Daher ist es bei geeigneter Implementierung in konstanter Zeit möglich, zu testen, ob zwei BDD dieselbe Formel repräsentieren oder ob ein BDD die Formel ⊥ (die leere Menge von Zuständen) repräsentiert. Auch das Konstruieren von BDDs, die den Start zustand oder die Menge aller Zielzustände repräsentieren, ist effizient möglich. Ein BDD für die Vereinigung oder den Schnitt von zwei durch BDD repräsentierte Mengen kann in linearer Zeit in der Zahl der resultierenden BDD-Knoten berechnet werden. Diese ist im schlimmsten Fall das Produkt der Knotenzahlen der beiden Ein gabe-BDDs, in der Praxis jedoch oft kleiner. Das sind schon fast alle Operationen, die für eine symbolische Suche benötigt werden. Es fehlt noch eine Möglichkeit, Aktio nen anzuwenden. Dafür berechnen wir für eine Aktion a die sog. Transitionsrelation TRa = {⟨s, s ⟩ | a ist in s anwendbar und s = s[[a]]}, die alle Paare von Zuständen enthält, zwischen denen eine Transition mit a möglich ist. Um solch eine Menge von
416 | 10 Planen Paaren darzustellen, werden alle BDD-Variablen v ∈ V verdoppelt, wobei eine Kopie v für den Wert in s und eine Kopie v für den Wert in s verwendet wird. Das BDD für TRa wird dann aus Formeln erstellt, die garantieren, dass (i) pre(a) auf den Variablen V erfüllt ist, dass (ii) die Variablen V mit eff(a) konsistent sind und dass (iii) alle nicht in eff(a) erwähnten Variablen ihren Wert nicht verändern. Um eine Transitionsrelation TR a auf eine Menge von Zuständen S anzuwenden, wird zuerst der Schnitt von TR a und S berechnet. Das Ergebnis sind alle Paare ⟨s, s ⟩, für die s ∈ S gilt und die Aktion a in s anwendbar ist und zu s führt. Um von einer Menge von Paaren wieder zu einer Menge von Zuständen zu kommen, ist eine weitere BDD-Operation nötig: das Vergessen von Variablen, eine Form von Existenzquantifi zierung. Für eine Formel φ und eine Variable v bezeichnet ∃v φ die Formel, die sich aus φ durch Wegprojizieren von v ergibt. Über Cofaktoren ausgedrückt ist dies die For mel φ[v = 1] ∨ φ[v = 0]. Die Modelle von ∃v φ sind genau die Modelle von φ, aber ohne die Variable v. In der Menge von Paaren ⟨s, s ⟩ führt das Vergessen aller Varia blen v zur Menge aller Zustände s , für die im vorigen Schritt ein Paar ⟨s, s ⟩ existierte. Diese Menge von Zuständen ist allerdings noch mit den Variablen v repräsentiert und nicht mit den Variablen v. In einem letzten Schritt müssen wir daher die Variablen v in v umbenennen. Das Umbenennen von Variablen in BDD ist wegen der festen Va riablenordnung schwieriger als es klingt, kann aber effizient durchgeführt werden, wenn für alle Zustandsvariablen v die BDD-Variablen v und v in der Ordnung direkt aufeinanderfolgen. Beispiel 10.4.1. Betrachten wir wieder unsere Beispielaufgabe, diesmal mit einem LKW, zwei Paketen und zwei Orten. Das BDD für die Formel (p1 = L) repräsentiert die Menge aller Zustände S, in denen das erste Paket eingeladen ist. Das BDD TRfahre(1,2) repräsen tiert die Formel (L = 1)∧(L = 2)∧¬(L = 1)∧⋀ i∈{1,2} ⋀ x∈{1,2,L}((p i = x) ↔ (pi = x)) und damit die Menge aller Zustandspaare ⟨s, s ⟩, sodass fahre(1, 2) in s anwendbar ist und s = s[[fahre(1, 2)]]. Das BDD S∩TRfahre(1,2) schränkt diese Paare dann auf solche ein, in denen s(p1 ) = L gilt. Mit der Vergessensoperation erhalten wir das BDD ∃x ⃗ (S∩TR a ), das die Menge {s | ∃s ∈ S (fahre(1, 2) ist in s anwendbar und s = s[[fahre(1, 2)]])} repräsentiert, also die Menge der Nachfolgezustände von Zuständen aus S. Durch Umbenen nen von x⃗ → x⃗ erhalten wir die gleiche Menge mit den normalen Variablen. Algorithmus 10.2 zeigt den Pseudocode für eine symbolische Breitensuche, die mit diesen Operationen ausgeführt werden kann. Das BDD reached i beschreibt dabei die Menge aller Zustände, die mit bis zu i Schritten erreichbar sind. Für i = 0 enthält die Menge nur den Startzustand (Zeile 3). Sobald eine Menge erreichbar ist, in der auch ein Zielzustand liegt (Zeile 5), ist die Aufgabe gelöst. Der Plan kann extrahiert werden, indem wir einen beliebigen Zustand aus dem Schnitt wählen und dann einen Vorgän ger dieses Zustands in reachedi−1 suchen und auswählen usw., bis wir beim Startzu stand angekommen sind (im Pseudocode nicht gezeigt). Wurde das Ziel nicht erreicht, wird die Menge reachedi+1 durch Anwenden aller Aktionen berechnet (Zeile 7). Wenn dadurch keine neuen Zustände erreichbar sind (Zeile 8), ist die Planungsaufgabe un lösbar.
10.5 SAT-Planen | 417
Algorithmus 10.2: Pseudocode von symbolischer Breitensuche. 1 2 3 4 5 6 7 8 9 10
SymbolicBreadthFirstSearch(Π = ⟨V, A, I, G⟩): goalstates ← BDD(G) reached0 ← BDD({I}) for i = 0, 1, 2, . . . do if reached i ∩ goalstates ≠ 0 then return plan found reached i+1 ← reached i ∪ ⋃a∈A image(reached i , a) if reached i+1 = reached i then return unlösbar end
11 12 13 14
image(S, a): TR a ← BDD(⋀x∈pre(a) x ∧ ⋀x∈eff(a) x ∧ ⋀x∈del(a) ¬x ∧ ⋀x∉eff(a)∪del(a) x ↔ x ) return (∃ x⃗ (S ∩ TR a ))[ x⃗ → x]⃗
Die Funktion image enthält das oben beschriebene Verfahren, um die Transitions relation zu berechnen und zu verwenden und die Nachfolger zu bestimmen. Dabei bezeichnet del(a) im Pseudocode alle Atome, die durch Anwendung von a falsch wer den, d. h. alle Atome v=d, für die v=d mit d ≠ d ein Effekt von a ist. Natürlich müssen die Transitionsrelationen nicht in jedem Schritt neu berechnet werden, sondern kön nen am Anfang der Suche vorberechnet werden. Außerdem ist es möglich, die Vereini gung mehrerer Transitionsrelationen zu berechnen und als ein BDD zu speichern. Die BDD werden dadurch potenziell größer, jedoch sind weniger Schritte zum Anwenden aller Aktionen nötig.
10.5 SAT-Planen Als letzten algorithmischen Ansatz beschreiben wir Planen als aussagenlogisches Er füllbarkeitsproblem (SAT), auch bekannt als SAT-Planen. Die Idee besteht hier darin, die Planungsaufgabe in eine aussagenlogische Formel zu übersetzen und somit von der Effizienz moderner SAT-Solver zu profitieren. Ein ähnlicher Ansatz ist in der Verifi kation als „bounded model checking“ bekannt. Genau wie dort müssen wir eine Ober grenze B für die Lösungslänge festlegen (daher bounded). Das Gesamtverfahren ergibt sich dann dadurch, dass für verschiedene Werte von B Erfüllbarkeitstests durchge führt werden, bis ein Plan gefunden ist. (Um die Unlösbarkeit einer Planungsaufgabe festzustellen, ist der Ansatz in dieser einfachen Form in der Praxis nicht geeignet.) Diese Methode wurde in der Handlungsplanung bereits 1992 vorgeschlagen [73]; spä tere Arbeiten brachten erhebliche Effizienzverbesserungen [74; 107].
418 | 10 Planen
Eine Kernfrage im SAT-Planen ist naturgemäß das Design der Formel. Wir müssen eine aussagenlogische Formel (in konjunktiver Normalform) erstellen, welche genau dann erfüllbar ist, wenn ein Plan der Länge ≤ B existiert. Hierfür gibt es viele Mög lichkeiten. Wir schauen uns jetzt eine einfache Lösung im Detail an. Wir zählen explizit alle Zeitschritte t von 0 bis B auf, wobei t = 0 für den Start zustand steht und t = B für den Zustand am Ende des zu findenden Plans. Wir füh ren aussagenlogische Variablen für alle möglichen (Zustands-)Variablenwerte der Pla nungsaufgabe in allen möglichen Zeitschritten ein. Weiterhin führen wir aussagenlo gische Variablen für alle Aktionen in allen Zeitschritten von 1 bis B ein, wobei eine solche Variable im Schritt t genau dann wahr sein soll, wenn im Schritt t des Plans diese Aktion benutzt wird. Schlussendlich benutzen wir „No-op“-Aktionen, um Varia blenwerte über Zeitschritte hinweg zu erhalten, wenn diese von der gewählten Aktion nicht betroffen sind. Nun erstellen wir eine Formel über diese Variablen, welche die intendierte Semantik sicherstellt: Definition 10.5.1 Einfache SAT-Codierung. Sei Π = ⟨V, A, I, G⟩ eine klassische Pla nungsaufgabe, und sei B ∈ ℕ unser Zeithorizont. Sei N = {no-op(v, d) | v ∈ V, d ∈ D(v)} mit pre(no-op(v, d)) = eff(no-op(v, d)) = {v=d} die Menge der No-op-Aktionen für Π. Die einfache SAT-Codierung (ESC) mit Horizont B ist eine Formel über den Aussageva riablen {P tv,d | v ∈ V, d ∈ D(v), 0 ≤ t ≤ B} ∪ {P ta | a ∈ A ∪ N, 1 ≤ t ≤ B}, bestehend aus der Konjunktion der folgenden Teilformeln: (i) Startzustand und Ziel: ⋀(v=d)∈I P0v,d ∧ ⋀(v=d)∉I ¬P0v,d ∧ ⋀(v=d)∈G P Bv,d . (ii) Vorbedingungen: ⋀1≤t≤B,a∈A∪N,(v=d)∈pre(a) (¬P ta ∨ P t−1 v,d ). (iii) Wertunterstützung: ⋀1≤t≤B,v∈V,d∈D(v)(¬P tv,d ∨ ⋁ a∈A∪N,(v=d)∈eff(a) P ta ). (iv) Interferierende Aktionen: ⋀1≤t≤B,a,a∈A∪N mit a∦a (¬P ta ∨ ¬P ta ). Gehen wir diese Definition Schritt für Schritt durch. Die Aussagevariablen der Formel sind wie oben bereits beschrieben. Startzustand und Ziel werden in Teilformel (i) in den entsprechenden Zeitschritten fixiert. Teilformel (ii) spezifiziert, dass entweder die Aktion nicht ausgewählt wird oder jede Vorbedingung im vorangehenden Zeitschritt wahr ist; sprich, dass das Auswählen der Aktion ihre Vorbedingungen impliziert. Man könnte nun erwarten, dass für Aktionseffekte eine analoge Festlegung erfolgt; dies kann man machen, es ist aber hier nicht notwendig. Stattdessen legen wir in Teilfor mel (iii) fest, dass ein Variablenwert (zu einem Zeitschritt t > 0) nur wahr sein kann, wenn er durch einen Aktionseffekt unterstützt wird: Wenn ein Variablenwert wahr ge macht wird, muss mindestens eine Aktion mit diesem Effekt ausgewählt werden. Ohne diese Festlegung könnten wir die Formel erfüllen, indem wir z. B. einfach die Werte aus G im Schritt B auf wahr setzen, aber überhaupt keine Aktionen auswählen. Die No-ops dienen dazu, Unterstützung für Variablenwerte zu erhalten, die von den aus gewählten „echten“ Aktionen in einem Schritt t nicht berührt werden. Mit (iv) wird abschließend festgelegt, dass in jedem Zeitschritt nur nicht interferierende Aktionen ausgewählt werden können. Die Definition von Interferenz ist hier dieselbe wie bei Strong Stubborn Sets (Abschnitt 10.3.3) und führt dazu, dass ausgewählte Aktionen
10.5 SAT-Planen |
419
weder konfligierende Effekte haben können noch sich gegenseitig die Vorbedingun gen zerstören können. Beispiel 10.5.1. Greifen wir wieder unser einfaches Logistikbeispiel auf, namentlich Bei spiel 10.3.1 mit nur einem Paket p. Die ESC-Formel für B = 4 setzt sich wie folgt zusam men: (i) Startzustand und Ziel: P0L,1 ∧ P0p,1 ∧ ⋀d=1̸ (¬P0L,d ∧ ¬P0p,d ) ∧ P4p,3 . t−1 t t ∨ P t−1 (ii) Vorbedingungen: Alle Formeln der Formen ¬Pfahre(a,b) L,a und ¬P lade(a,p) ∨ P L,a t−1 t−1 t t t und ¬Plade(a,p) ∨ P t−1 p,a und ¬P entlade(a,p) ∨ P L,a und ¬P entlade(a,p) ∨ P p,L . t t t (iii) Wertunterstützung: Alle Formeln der Formen ¬P L,b ∨ Pno-op(L,b) ∨ Pfahre(a,b) und t t t t t t ¬P p,L ∨ Pno-op(p,L) ∨ ⋁1≤a≤3 Plade(a,p) und ¬P p,a ∨ Pno-op(p,a) ∨ Pentlade(a,p). (iv) Interferierende Aktionen: t t Zum Beispiel alle Formeln der Formen ¬Pfahre(a,b) ∨ ¬Plade(a,p) , weil fahre(a, b) die t t Vorbedingung von lade(a, p) zerstört; ¬Pfahre(2,1) ∨ ¬Pfahre(2,3) , weil diese Aktionen t t inkompatible Effekte haben; und ¬Pfahre(a,b) ∨ ¬Pno-op(L,a) , weil diese Aktionen in kompatible Effekte haben.
Man überzeugt sich leicht, dass die ESC-Formel genau dann erfüllbar ist, wenn ein Plan mit höchstens B parallelen Zeitschritten existiert. Eine erfüllende Wahrheitsbe legung identifiziert einen Plan durch die ausgewählten Aktionen in jedem Zeitschritt. Man beachte hier den Plural „Aktionen“: Mehrere Aktionen dürfen in demselben Zeit schritt ausgewählt sein. Da diese aber per (iv) nicht interferieren, sind sie permutier bar, können also in einer beliebigen Reihenfolge ausgeführt werden. In unserem ein fachen Beispiel tritt so etwas nicht auf, aber z. B. könnten in einem größeren Beispiel mehrere Pakete gleichzeitig geladen werden oder mehrere Lastwagen gleichzeitig fah ren. In einer klassischen Planungsaufgabe (im Gegensatz zum temporalen Planen, Ab schnitt 10.1.1) ist diese Form von Gleichzeitigkeit künstlich. Für die Effizienz eines SATPlaners ist sie aber von großer Bedeutung. Um dies zu verstehen, betrachten wir jetzt noch einmal kurz das Gesamtverfahren. Wie bereits gesagt, führt dieses Verfahren für verschiedene Werte von B Erfüllbar keitstests durch, bis ein Plan gefunden ist. Aber in welcher Reihenfolge sollen welche B getestet werden? Die naheliegende Methode [74] durchläuft eine einfache Schlei fe B = 0, 1, 2, 3, . . . , bis die Formel das erste Mal erfüllbar ist. Wir finden also das kleinste B, für welches ein Plan existiert. Die Gleichzeitigkeit von Aktionen wie in der ESC-Formel sorgt dafür, dass dieses B möglichst klein ist und daher wenige Erfüllbar keitstests nötig sind. In der Regel gilt: Je größer B, desto größer ist die Formel und desto schwieriger ist der Erfüllbarkeitstest. Also lohnt es sich, B klein zu halten. Dementsprechend wurde viel Fortschritt im SAT-Planen mit cleveren Übersetzun gen erzielt, die die Parallelität von Aktionen erhöhen [74; 109], aber auch durch kom paktere Codierungen [70; 110]. Große Effizienzsteigerungen sind auch durch eine in telligentere Auswahl der zu testenden Werte von B möglich [109]. Ein weiterer Effizi
420 | 10 Planen
enzgewinn konnte durch Modifikation der Auswahlheuristiken in einem SAT-Solver erreicht werden [107]. Wenn diese speziell für SAT-Planungsformeln angepasst wer den, ist die Skalierbarkeit mit starken heuristischen Suchverfahren (Abschnitt 10.3.1) vergleichbar.
Literaturverzeichnis [1]
Aldinger, J. und Nebel, B. Interval Based Relaxation Heuristics for Numeric Planning with Action Costs. In Proceedings of the 40th Annual German Conference on Artificial Intelligence (KI 2017), Band 10505 von Lecture Notes in Artificial Intelligence, S. 15–28. Springer-Verlag, 2017.
[2]
Alford, R., Behnke, G., Höller, D., Bercher, P., Biundo, S. und Aha, D. W. Bound to Plan: Ex ploiting Classical Heuristics via Automatic Translations of Tail-Recursive HTN Problems. In Proceedings of the Twenty-Sixth International Conference on Automated Planning and Sched uling (ICAPS 2016), S. 20–28. AAAI Press, 2016.
[3]
Alford, R., Bercher, P. und Aha, D. Tight Bounds for HTN Planning. In Proceedings of the Twenty-Fifth International Conference on Automated Planning and Scheduling (ICAPS 2015), S. 7–15. AAAI Press, 2015.
[4]
Bacchus, F. und Kabanza, F. Using Temporal Logics to Express Search Control Knowledge for Planning. Artificial Intelligence, 116(1–2):123–191, 2000.
[5]
Bäckström, C. und Nebel, B. Complexity Results for SAS+ Planning. Computational Intelli gence, 11(4):625–655, 1995.
[6]
Bahar, R. I., Frohm, E. A., Gaona, C. M., Hachtel, G. D., Macii, E., Pardo, A. und Somenzi, F. Algebraic Decision Diagrams and Their Applications. Formal Methods in System Design, 10(2–3):171–206, 1997.
[7]
Baier, J. A., Fritz, C. und McIlraith, S. A. Exploiting Procedural Domain Control Knowledge in State-of-the-Art Planners. In Proceedings of the Seventeenth International Conference on Automated Planning and Scheduling (ICAPS 2007), S. 26–33. AAAI Press, 2007.
[8]
Barrett, C. W., Sebastiani, R., Seshia, S. A. und Tinelli, C. Satisfiability Modulo Theories. In Biere, A. (Hrsg.), Handbook of Satisfiability, S. 825–885. IOS Press, 2009.
[9]
Benton, J., Coles, A. und Coles, A. Temporal Planning with Preferences and Time-Dependent Continuous Costs. In Proceedings of the Twenty-Second International Conference on Automa ted Planning and Scheduling (ICAPS 2012), S. 2–10. AAAI Press, 2012.
[10]
Bercher, P., Alford, R. und Höller, D. A Survey on Hierarchical Planning – One Abstract Idea, Many Concrete Realizations. In Proceedings of the 28th International Joint Conference on Artificial Intelligence (IJCAI 2019), S. 6267–6275. IJCAI, 2019.
[11]
Bercher, P., Behnke, G., Höller, D. und Biundo, S. An Admissible HTN Planning Heuristic. In Proceedings of the 26th International Joint Conference on Artificial Intelligence (IJCAI 2017), S. 480–488. IJCAI, 2017.
[12]
Bertoli, P., Cimatti, A., Roveri, M. und Traverso, P. Strong planning under partial observability. Artificial Intelligence, 170:337–384, 2006.
[13]
Bertsekas, D. P. und Tsitsiklis, J. N. Neuro-Dynamic Programming. Athena Scientific, 1996.
[14]
Betz, C. und Helmert, M. Planning with h + in Theory and Practice. In Proceedings of the 32nd Annual German Conference on Artificial Intelligence (KI 2009), Band 5803 von Lecture Notes in Artificial Intelligence, S. 9–16. Springer-Verlag, 2009.
Literaturverzeichnis
[15]
[16] [17]
[18]
[19] [20]
[21]
[22]
[23]
[24] [25] [26]
[27] [28] [29]
[30] [31]
[32] [33]
| 421
Bonet, B. An Admissible Heuristic for SAS+ Planning Obtained from the State Equation. In Proceedings of the 23rd International Joint Conference on Artificial Intelligence (IJCAI 2013), S. 2268–2274. AAAI Press, 2013. Bonet, B. und Geffner, H. Planning as Heuristic Search. Artificial Intelligence, 129(1):5–33, 2001. Bonet, B. und Geffner, H. Labeled RTDP: Improving the Convergence of Real-Time Dynamic Programming. In Proceedings of the Thirteenth International Conference on Automated Plan ning and Scheduling (ICAPS 2003), S. 12–21. AAAI Press, 2003. Brafman, R. I. und Domshlak, C. From One to Many: Planning for Loosely Coupled Multi-Agent Systems. In Proceedings of the Eighteenth International Conference on Automated Planning and Scheduling (ICAPS 2008), S. 28–35. AAAI Press, 2008. Bryant, R. E. Graph-Based Algorithms for Boolean Function Manipulation. IEEE Transactions on Computers, 35(8):677–691, 1986. Bryce, D. POND: The Partially-Observable and Non-Deterministic Planner. In Proceedings of the Sixteenth International Conference on Automated Planning and Scheduling (ICAPS 2006), S. 58–60. AAAI Press, 2006. Bryce, D., Gao, S., Musliner, D. J. und Goldman, R. P. SMT-Based Nonlinear PDDL+ Planning. In Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence (AAAI 2015), S. 3247–3253. AAAI Press, 2015. Bylander, T. A Linear Programming Heuristic for Optimal Planning. In Proceedings of the Four teenth National Conference on Artificial Intelligence (AAAI 1997), S. 694–699. AAAI Press, 1997. Ciardo, G. und Siminiceanu, R. Using Edge-Valued Decision Diagrams for Symbolic Generation of Shortest Paths. In Proceedings of the 4th International Conference on Formal Methods in Computer-Aided Design (FMCAD 2002), Band 2517 von Lecture Notes in Computer Science, S. 256–273. Springer-Verlag, 2002. Cimatti, A., Pistore, M., Roveri, M. und Traverso, P. Weak, strong, and strong cyclic planning via symbolic model checking. Artificial Intelligence, 147:35–84, 2003. Coles, A., Coles, A., Fox, M. und Long, D. A Hybrid LP-RPG Heuristic for Modelling Numeric Resource Flows in Planning. Journal of Artificial Intelligence Research, 46:343–412, 2013. Coles, A., Fox, M., Long, D. und Smith, A. Planning with Problems Requiring Temporal Coor dination. In Proceedings of the Twenty-Third AAAI Conference on Artificial Intelligence (AAAI 2008), S. 892–897. AAAI Press, 2008. Culberson, J. C. und Schaeffer, J. Pattern Databases. Computational Intelligence, 14(3):318–334, 1998. Dechter, R. und Pearl, J. Generalized Best-First Search Strategies and the Optimality of A∗ . Journal of the ACM, 32(3):505–536, 1985. Do, M. B. und Kambhampati, S. Sapa: A Domain-Independent Heuristic Metric Temporal Plan ner. In Proceedings of the Sixth European Conference on Planning (ECP 2001), S. 57–68. AAAI Press, 2001. Domshlak, C., Hoffmann, J. und Katz, M. Red-black Planning: A New Systematic Approach to Partial Delete Relaxation. Artificial Intelligence, 221:73–114, 2015. Domshlak, C., Katz, M. und Shleyfman, A. Enhanced Symmetry Breaking in Cost-Optimal Planning as Forward Search. In Proceedings of the Twenty-Second International Conference on Automated Planning and Scheduling (ICAPS 2012), S. 343–347. AAAI Press, 2012. Domshlak, C. und Mirkis, V. Deterministic Oversubscription Planning as Heuristic Search: Abstractions and Reformulations. Journal of Artificial Intelligence Research, 52:97–169, 2015. Dornhege, C., Eyerich, P., Keller, T., Trüg, S., Brenner, M. und Nebel, B. Semantic Attachments for Domain-Independent Planning Systems. In Proceedings of the Nineteenth International
422 | 10 Planen
[34] [35]
[36]
[37]
[38] [39] [40]
[41] [42] [43] [44]
[45] [46] [47] [48] [49]
[50]
[51] [52]
Conference on Automated Planning and Scheduling (ICAPS 2009), S. 114–121. AAAI Press, 2009. Edelkamp, S. Planning with Pattern Databases. In Proceedings of the Sixth European Confer ence on Planning (ECP 2001), S. 84–90. AAAI Press, 2001. Edelkamp, S. On the Compilation of Plan Constraints and Preferences. In Proceedings of the Sixteenth International Conference on Automated Planning and Scheduling (ICAPS 2006), S. 374–377. AAAI Press, 2006. Edelkamp, S. und Helmert, M. Exhibiting Knowledge in Planning Problems to Minimize State Encoding Length. In Recent Advances in AI Planning. 5th European Conference on Planning (ECP 1999), Band 1809 von Lecture Notes in Artificial Intelligence, S. 135–147. Springer-Verlag, 1999. Edelkamp, S. und Hoffmann, J. PDDL2.2: The Language for the Classical Part of the 4th Inter national Planning Competition. Forschungsbericht 195, University of Freiburg, Department of Computer Science, 2004. Emerson, E. A. und Sistla, A. P. Symmetry and Model Checking. Formal Methods in System Design, 9(1–2):105–131, 1996. Erol, K., Hendler, J. A. und Nau, D. S. Complexity results for HTN planning. Annals of Mathema tics and Artificial Intelligence (AMAI), 18(1):69–93, 1996. Eyerich, P., Mattmüller, R. und Röger, G. Using the Context-Enhanced Additive Heuristic for Temporal and Numeric Planning. In Proceedings of the Nineteenth International Conference on Automated Planning and Scheduling (ICAPS 2009), S. 130–137. AAAI Press, 2009. Fikes, R. E. und Nilsson, N. J. STRIPS: A New Approach to the Application of Theorem Proving to Problem Solving. Artificial Intelligence, 2:189–208, 1971. Fox, M. und Long, D. PDDL2.1: An Extension to PDDL for Expressing Temporal Planning Do mains. Journal of Artificial Intelligence Research, 20:61–124, 2003. Fox, M. und Long, D. Modelling Mixed Discrete-Continuous Domains for Planning. Journal of Artificial Intelligence Research, 27:235–297, 2006. Fox, M., Long, D. und Magazzeni, D. Automatic Construction of Efficient Multiple Battery Us age Policies. In Proceedings of the Twenty-First International Conference on Automated Plan ning and Scheduling (ICAPS 2011), S. 74–81. AAAI Press, 2011. Gerevini, A. E. und Long, D. Plan Constraints and Preferences in PDDL3. Forschungsbe richt R. T. 2005-08-47, University of Brescia, Department of Electronics for Automation, 2005. Gerevini, A. E., Saetti, A. und Serina, I. Planning Through Stochastic Local Search and Tempo ral Action Graphs in LPG. Journal of Artificial Intelligence Research, 20:239–290, 2003. Ghallab, M., Nau, D. und Traverso, P. Automated Planning: Theory and Practice. Morgan Kauf mann, 2004. Gnad, D. und Hoffmann, J. Star-Topology Decoupled State Space Search. Artificial Intelli gence, 257:24–60, 2018. Godefroid, P. Partial-Order Methods for the Verification of Concurrent Systems – An Approach to the State-Explosion Problem, Band 1032 von Lecture Notes in Computer Science. SpringerVerlag, 1996. Gregory, P., Long, D., Fox, M. und Beck, J. C. Planning Modulo Theories: Extending the Plan ning Paradigm. In Proceedings of the Twenty-Second International Conference on Automated Planning and Scheduling (ICAPS 2012), S. 65–73. AAAI Press, 2012. Grosskreutz, H. und Lakemeyer, G. cc-Golog – An Action Language with Continuous Change. Logic Journal of the IGPL, 11(2):179–221, 2003. Hähnel, D., Burgard, W. und Lakemeyer, G. GOLEX - Bridging the Gap between Logic (GOLOG) and a Real Robot. In Proceedings of the 22nd Annual German Conference on Artificial Intelli gence (KI’98), S. 165–176, 1998.
Literaturverzeichnis
[53] [54]
[55]
[56]
[57]
[58]
[59]
[60] [61]
[62]
[63] [64]
[65] [66]
[67] [68] [69]
[70]
| 423
Hansen, E. A. und Zilberstein, S. LAO∗ : A heuristic search algorithm that finds solutions with loops. Artificial Intelligence, 129(1–2):35–62, 2001. Hart, P. E., Nilsson, N. J. und Raphael, B. A Formal Basis for the Heuristic Determination of Minimum Cost Paths. IEEE Transactions on Systems Science and Cybernetics, 4(2):100–107, 1968. Haslum, P. h m (P) = h 1 (P m ): Alternative Characterisations of the Generalisation from h max to h m . In Proceedings of the Nineteenth International Conference on Automated Planning and Scheduling (ICAPS 2009), S. 354–357. AAAI Press, 2009. Haslum, P. und Geffner, H. Admissible Heuristics for Optimal Planning. In Proceedings of the Fifth International Conference on Artificial Intelligence Planning and Scheduling (AIPS 2000), S. 140–149. AAAI Press, 2000. Haslum, P., Lipovetzky, N., Magazzeni, D. und Muise, C. An Introduction to the Planning Do main Definition Language, Band 13(2) von Synthesis Lectures on Artificial Intelligence and Machine Learning. Morgan & Claypool, 2019. Heinz, A., Wehrle, M., Bogomolov, S., Magazzeni, D., Greitschus, M. und Podelski, A. Tem poral Planning as Refinement-Based Model Checking. In Proceedings of the Twenty-Ninth International Conference on Automated Planning and Scheduling (ICAPS 2019), S. 195–199. AAAI Press, 2019. Helmert, M. Decidability and Undecidability Results for Planning with Numerical State Varia bles. In Proceedings of the Sixth International Conference on Artificial Intelligence Planning and Scheduling (AIPS 2002), S. 303–312. AAAI Press, 2002. Helmert, M. The Fast Downward Planning System. Journal of Artificial Intelligence Research, 26:191–246, 2006. Helmert, M. und Domshlak, C. Landmarks, Critical Paths and Abstractions: What’s the Dif ference Anyway? In Proceedings of the Nineteenth International Conference on Automated Planning and Scheduling (ICAPS 2009), S. 162–169. AAAI Press, 2009. Helmert, M., Haslum, P., Hoffmann, J. und Nissim, R. Merge-and-Shrink Abstraction: A Method for Generating Lower Bounds in Factored State Spaces. Journal of the ACM, 61(3):16:1–63, 2014. Helmert, M. und Röger, G. How Good is Almost Perfect? In Proceedings of the Twenty-Third AAAI Conference on Artificial Intelligence (AAAI 2008), S. 944–949. AAAI Press, 2008. Hernádvölgyi, I. T. und Holte, R. C. Experiments with Automatically Created Memory-Based Heuristics. In Proceedings of the 4th International Symposium on Abstraction, Reformula tion and Approximation (SARA 2000), Band 1864 von Lecture Notes in Artificial Intelligence, S. 281–290. Springer-Verlag, 2000. Hoffmann, J. The Metric-FF Planning System: Translating ‘Ignoring Delete Lists’ to Numeric State Variables. Journal of Artificial Intelligence Research, 20:291–341, 2003. Hoffmann, J. und Brafman, R. I. Contingent Planning via Heuristic Forward Search with Implicit Belief States. In Proceedings of the Fifteenth International Conference on Automated Planning and Scheduling (ICAPS 2005), S. 71–80. AAAI Press, 2005. Hoffmann, J. und Nebel, B. The FF Planning System: Fast Plan Generation Through Heuristic Search. Journal of Artificial Intelligence Research, 14:253–302, 2001. Hoffmann, J., Porteous, J. und Sebastia, L. Ordered Landmarks in Planning. Journal of Artifi cial Intelligence Research, 22:215–278, 2004. Höller, D., Bercher, P., Behnke, G. und Biundo, S. A Generic Method to Guide HTN Progression Search with Classical Heuristics. In Proceedings of the Twenty-Eighth International Confer ence on Automated Planning and Scheduling (ICAPS 2018), S. 114–122. AAAI Press, 2018. Huang, R., Chen, Y. und Zhang, W. SAS+ Planning as Satisfiability. Journal of Artificial Intelli gence Research, 43:293–328, 2012.
424 | 10 Planen
[71]
[72] [73] [74]
[75]
[76]
[77]
[78] [79]
[80]
[81]
[82] [83] [84] [85]
[86]
[87]
[88] [89]
Imai, T. und Fukunaga, A. On a Practical, Integer-Linear Programming Model for Delete-Free Tasks and its Use as a Heuristic for Cost-Optimal Planning. Journal of Artificial Intelligence Research, 54:631–677, 2015. Katz, M. und Domshlak, C. Implicit Abstraction Heuristics. Journal of Artificial Intelligence Research, 39:51–126, 2010. Kautz, H. und Selman, B. Planning as Satisfiability. In Proceedings of the 10th European Con ference on Artificial Intelligence (ECAI 1992), S. 359–363. John Wiley and Sons, 1992. Kautz, H. und Selman, B. Pushing the Envelope: Planning, Propositional Logic, and Stochastic Search. In Proceedings of the Thirteenth National Conference on Artificial Intelligence (AAAI 1996), S. 1194–1201. AAAI Press, 1996. Kautz, H. A. und Walser, J. P. State-space Planning by Integer Optimization. In Proceedings of the Sixteenth National Conference on Artificial Intelligence (AAAI 1999), S. 526–533. AAAI Press, 1999. Keller, T. und Eyerich, P. PROST: Probabilistic Planning Based on UCT. In Proceedings of the Twenty-Second International Conference on Automated Planning and Scheduling (ICAPS 2012), S. 119–127. AAAI Press, 2012. Keller, T. und Helmert, M. Trial-based Heuristic Tree Search for Finite Horizon MDPs. In Pro ceedings of the Twenty-Third International Conference on Automated Planning and Schedul ing (ICAPS 2013), S. 135–143. AAAI Press, 2013. Keyder, E. und Geffner, H. Soft Goals Can Be Compiled Away. Journal of Artificial Intelligence Research, 36:547–556, 2009. Keyder, E., Hoffmann, J. und Haslum, P. Improving Delete Relaxation Heuristics Through Ex plicitly Represented Conjunctions. Journal of Artificial Intelligence Research, 50:487–533, 2014. Kissmann, P. und Edelkamp, S. Improving Cost-Optimal Domain-Independent Symbolic Plan ning. In Proceedings of the Twenty-Fifth AAAI Conference on Artificial Intelligence (AAAI 2011), S. 992–997. AAAI Press, 2011. Kolobov, A., Mausam, Weld, D. S. und Geffner, H. Heuristic Search for Generalized Stochastic Shortest Path MDPs. In Proceedings of the Twenty-First International Conference on Automa ted Planning and Scheduling (ICAPS 2011), S. 130–137. AAAI Press, 2011. Komenda, A., Štolba, M. und Kovacs, D. L. The International Competition of Distributed and Multiagent Planners (CoDMAP). AI Magazine, 37(3):109–115, 2016. Korte, B. und Vygen, J. Combinatorial Optimization: Theory and Algorithms. Springer, 2. Aufl., 2001. Kurniawati, H., Hsu, D. und Lee, W. S. SARSOP: Efficient Point-Based POMDP Planning by Ap proximating Optimally Reachable Belief Spaces. In Robotics: Science and Systems IV, 2008. Kvarnström, J. und Magnusson, M. TALplanner in the Third International Planning Competi tion: Extensions and Control Rules. Journal of Artificial Intelligence Research, 20:343–377, 2003. Mattmüller, R., Ortlieb, M., Helmert, M. und Bercher, P. Pattern Database Heuristics for Fully Observable Nondeterministic Planning. In Proceedings of the Twentieth International Confer ence on Automated Planning and Scheduling (ICAPS 2010), S. 105–112. AAAI Press, 2010. Mausam und Kolobov, A. Planning with Markov Decision Processes: An AI Perspective. Syn thesis Lectures on Artificial Intelligence and Machine Learning. Morgan & Claypool Publish ers, 2012. McDermott, D. Using Regression-Match Graphs to Control Search in Planning. Artificial Intelli gence, 109(1–2):111–159, 1999. McDermott, D. The 1998 AI Planning Systems Competition. AI Magazine, 21(2):35–55, 2000.
Literaturverzeichnis
[90]
[91] [92] [93]
[94] [95] [96] [97]
[98]
[99]
[100] [101]
[102]
[103] [104] [105] [106] [107] [108] [109] [110]
| 425
McDermott, D., Ghallab, M., Howe, A., Knoblock, C., Ram, A., Veloso, M., Weld, D. und Wil kins, D. PDDL – The Planning Domain Definition Language – Version 1.2. Forschungsbe richt CVC TR-98-003/DCS TR-1165, Yale Center for Computational Vision and Control, Yale University, 1998. McMillan, K. L. Symbolic Model Checking. Kluwer Academic Publishers, 1993. Minato, S. Zero-suppressed BDDs and their applications. International Journal on Software Tools for Technology Transfer, 3(2):156–170, 2001. Muise, C. J., McIlraith, S. A. und Beck, J. C. Improved Non-Deterministic Planning by Exploiting State Relevance. In Proceedings of the Twenty-Second International Conference on Automated Planning and Scheduling (ICAPS 2012), S. 172–180. AAAI Press, 2012. Nau, D. S., Au, T. C., Ilghami, O., Kuter, U., Murdock, J. W., Wu, D. und Yaman, F. SHOP2: An HTN Planning System. Journal of Artificial Intelligence Research, 20:379–404, 2003. Nissim, R. und Brafman, R. Distributed Heuristic Forward Search for Multi-Agent Planning. Journal of Artificial Intelligence Research, 51:293–332, 2014. Pearl, J. Heuristics: Intelligent Search Strategies for Computer Problem Solving. Addison-Wes ley, 1984. Peot, M. A. und Smith, D. E. Conditional Nonlinear Planning. In Proceedings of the 1st Interna tional Conference on Artificial Intelligence Planning Systems (AIPS 1992), S. 189–197. Morgan Kaufmann, 1992. Piacentini, C., Castro, M. P., Cire, A. A. und Beck, J. C. Compiling Optimal Numeric Planning to Mixed Integer Linear Programming. In Proceedings of the Twenty-Eighth International Confer ence on Automated Planning and Scheduling (ICAPS 2018), S. 383–387. AAAI Press, 2018. Piacentini, C., Fox, M. und Long, D. Planning with Numeric Timed Initial Fluents. In Proceed ings of the Twenty-Ninth AAAI Conference on Artificial Intelligence (AAAI 2015), S. 4196–4197. AAAI Press, 2015. Pineau, J., Gordon, G. J. und Thrun, S. Anytime Point-Based Approximations for Large POMD Ps. Journal of Artificial Intelligence Research, 27:335–380, 2006. Pommerening, F., Helmert, M. und Bonet, B. Abstraction Heuristics, Cost Partitioning and Network Flows. In Proceedings of the Twenty-Seventh International Conference on Automated Planning and Scheduling (ICAPS 2017), S. 228–232. AAAI Press, 2017. Pommerening, F., Helmert, M., Röger, G. und Seipp, J. From Non-Negative to General Operator Cost Partitioning. In Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelli gence (AAAI 2015), S. 3335–3341. AAAI Press, 2015. Rankooh, M. F. und Ghassem-Sani, G. ITSAT: An Efficient SAT-Based Temporal Planner. Journal of Artificial Intelligence Research, 53:541–632, 2015. Richter, S. und Westphal, M. The LAMA Planner: Guiding Cost-Based Anytime Planning with Landmarks. Journal of Artificial Intelligence Research, 39:127–177, 2010. Rintanen, J. Constructing conditional plans by a theorem-prover. Journal of Artificial Intelli gence Research, 10:323–352, 1999. Rintanen, J. Incorporation of Temporal Logic Control into Plan Operators. In Proceedings of the 14th European Conference on Artificial Intelligence (ECAI 2000), S. 526–530. IOS Press, 2000. Rintanen, J. Planning as Satisfiability: Heuristics. Artificial Intelligence, 193:45–86, 2012. Rintanen, J. Temporal Planning with Clock-Based SMT Encodings. In Proceedings of the 26th International Joint Conference on Artificial Intelligence (IJCAI 2017), S. 743–749. IJCAI, 2017. Rintanen, J., Heljanko, K. und Niemelä, I. Planning as satisfiability: parallel plans and algo rithms for plan search. Artificial Intelligence, 170(12–13):1031–1080, 2006. Robinson, N., Gretton, C., Pham, D. N. und Sattar, A. SAT-Based Parallel Planning Using a Split Representation of Actions. In Proceedings of the Nineteenth International Conference on Automated Planning and Scheduling (ICAPS 2009), S. 281–288. AAAI Press, 2009.
426 | 10 Planen
[111] Röger, G. und Helmert, M. The More, the Merrier: Combining Heuristic Estimators for Sat isficing Planning. In Proceedings of the Twentieth International Conference on Automated Planning and Scheduling (ICAPS 2010), S. 246–249. AAAI Press, 2010. [112] Sanner, S. Relational Dynamic Influence Diagram Language (RDDL): Language Description, 2010. [113] Scala, E., Haslum, P., Thiebaux, S. und Ramirez, M. Interval-Based Relaxation for General Numeric Planning. In Proceedings of the 22nd European Conference on Artificial Intelligence (ECAI 2016), S. 655–663. IOS Press, 2016. [114] Seipp, J. und Helmert, M. Counterexample-Guided Cartesian Abstraction Refinement for Clas sical Planning. Journal of Artificial Intelligence Research, 62:535–577, 2018. [115] Seipp, J., Keller, T. und Helmert, M. A Comparison of Cost Partitioning Algorithms for Optimal Classical Planning. In Proceedings of the Twenty-Seventh International Conference on Auto mated Planning and Scheduling (ICAPS 2017), S. 259–268. AAAI Press, 2017. [116] Shani, G., Pineau, J. und Kaplow, R. A survey of point-based POMDP solvers. Autonomous Agents and Multi-Agent Systems, 27(1):1–51, 2013. [117] Sievers, S., Wehrle, M. und Helmert, M. Generalized Label Reduction for Merge-and-Shrink Heuristics. In Proceedings of the Twenty-Eighth AAAI Conference on Artificial Intelligence (AAAI 2014), S. 2358–2366. AAAI Press, 2014. [118] Smallwood, R. D. und Sondik, E. J. The Optimal Control of Partially Observable Markov Pro cesses over a Finite Horizon. Operations Research, 21(5):1071–1088, 1973. [119] Smith, D. E. Choosing Objectives in Over-Subscription Planning. In Proceedings of the Four teenth International Conference on Automated Planning and Scheduling (ICAPS 2004), S. 393–401. AAAI Press, 2004. [120] Starke, P. H. Reachability Analysis of Petri Nets Using Symmetries. Systems Analysis Model ling Simulation, 8(4–5):293–303, 1991. [121] Steinmetz, M., Hoffmann, J. und Buffet, O. Goal Probability Analysis in MDP Probabilistic Planning: Exploring and Enhancing the State of the Art. Journal of Artificial Intelligence Re search, 57:229–271, 2016. [122] Torralba, Á. From Qualitative to Quantitative Dominance Pruning for Optimal Planning. In Proceedings of the 26th International Joint Conference on Artificial Intelligence (IJCAI 2017), S. 4426–4432. IJCAI, 2017. [123] Torralba, Á., Alcázar, V., Kissmann, P. und Edelkamp, S. Efficient Symbolic Search for Costoptimal Planning. Artificial Intelligence, 242:52–79, 2017. [124] Trevizan, F. W., Thiébaux, S., Santana, P. H. und Williams, B. I-dual: Solving Constrained SSPs via Heuristic Search in the Dual Space. In Proceedings of the 26th International Joint Confer ence on Artificial Intelligence (IJCAI 2017), S. 4954–4958. IJCAI, 2017. ˘ [125] Stolba, M., Fi˘ser, D. und Komenda, A. Potential Heuristics for Multi-Agent Planning. In Pro ceedings of the Twenty-Sixth International Conference on Automated Planning and Schedul ing (ICAPS 2016), S. 308–316. AAAI Press, 2016. [126] Valmari, A. Stubborn sets for reduced state space generation. In Proceedings of the 10th In ternational Conference on Applications and Theory of Petri Nets (APN 1989), Band 483 von Lecture Notes in Computer Science, S. 491–515. Springer-Verlag, 1989. [127] van den Briel, M., Benton, J., Kambhampati, S. und Vossen, T. An LP-Based Heuristic for Op timal Planning. In Proceedings of the Thirteenth International Conference on Principles and Practice of Constraint Programming (CP 2007), Band 4741 von Lecture Notes in Computer Sci ence, S. 651–665. Springer-Verlag, 2007. [128] van den Briel, M., Sanchez, R., Do, M. B. und Kambhampati, S. Effective Approaches for Par tial Satisfaction (Over-Subscription) Planning. In Proceedings of the Nineteenth National Conference on Artificial Intelligence (AAAI 2004), S. 562–569. AAAI Press, 2004.
Literaturverzeichnis
| 427
[129] Vidal, V. und Geffner, H. Branching and pruning: An optimal temporal POCL planner based on constraint programming. Artificial Intelligence, 170(3):298–335, 2006. [130] Wehrle, M. und Helmert, M. Efficient Stubborn Sets: Generalized Algorithms and Selection Strategies. In Proceedings of the Twenty-Fourth International Conference on Automated Plan ning and Scheduling (ICAPS 2014), S. 323–331. AAAI Press, 2014. [131] Wilhelm, A., Steinmetz, M. und Hoffmann, J. On Stubborn Sets and Planning with Resources. In Proceedings of the Twenty-Eighth International Conference on Automated Planning and Scheduling (ICAPS 2018), S. 288–297. AAAI Press, 2018. [132] Younes, H. L. S. und Littman, M. L. PPDDL1.0: An Extension to PDDL for Expressing Planning Domains with Probabilistic Effects. Forschungsbericht CMU-CS-04-167, Carnegie Mellon Uni versity, School of Computer Science, 2004.
11 Grundlagen des Maschinellen Lernens Christian Bauckhage, Wolfgang Hübner, Ronny Hug, Gerhard Paaß und Stefan Rüping
11.1 Wozu braucht man Maschinelles Lernen? 11.1.1 Der Begriff des Maschinellen Lernens Zu definieren, was die menschliche Intelligenz sowie intelligentes Handeln – und da mit auch die Künstliche Intelligenz – ausmacht, ist außerordentlich schwer und be schäftigt Philosophen und Psychologen seit Jahrtausenden. Allgemein anerkannt ist aber, dass die Fähigkeit zu lernen ein zentrales Merkmal von Intelligenz ist. So ist auch das Forschungsgebiet des Maschinellen Lernens (engl. machine learning, ML) ein zen traler Teil der Künstlichen Intelligenz, das hinter vielen aktuellen Erfolgen von KI-Sys temen steckt. Das Maschinelle Lernen als Teilgebiet der Informatik kann seine Wur zeln dabei bis auf den Pionier der Computer Alan Turing zurückverfolgen, der – vom Autor frei übersetzt – gesagt hat [89]: Wenn wir versuchen, eine intelligente Maschine herzustellen, und dabei dem Modell des Menschen so genau wie möglich folgen, sollten wir mit einer Maschine beginnen, die nur in einem sehr gerin gen Maß die Fähigkeit besitzt, komplizierte Operationen auszuführen (. . . ). Durch die Anwendung geeigneter Interferenz, die einen Erziehungsprozess nachahmt, dürfen wir hoffen, die Maschine so zu modifizieren, (. . . ) dass sie in bestimmter Weise auf gewissen Befehle reagiert.
Die wissenschaftlichen Fundamente und Anwendungen des Maschinellen Lernens wurden über die Jahrzehnte in verschiedenste Richtungen weiterentwickelt. Einen we sentlichen Schub in die breite Anwendung erlebte das Maschinelle Lernen aber durch die technologische Entwicklung hin zu Big Data, d. h. der breiten Verfügbarkeit großer Datenmengen aus vielen gesellschaftlichen, wissenschaftlichen und wirtschaftlichen Bereichen. Erst als sehr viele relevante Daten vorhanden waren, konnte das Maschi nelle Lernen seine Vorteile voll ausspielen und mittlerweile auch komplexe Probleme lösen und Fähigkeiten erlangen, für die bisher wesentlich menschliche Intelligenz nö tig war. Maschinelle Lernverfahren erkennen Verkehrssituationen in autonomen Fahr zeugen, diagnostizieren Krankheiten, beantworten Fragen oder lernen, den Menschen in Spielen zu schlagen. Historisch entwickelte sich Maschinelles Lernen aus der Statistik, dem Data Mining und der Wissensentdeckung in Datenbanken. Maschinelles Lernen steckt wesentlich hinter dem Begriff der Datenwissenschaft (engl. Data Science). Diese umfasst Techni ken der Datenerhebung und des Datenmanagements sowie die Anwendung von ma schinellen Lernverfahren und Expertenwissen zur schnellen Umsetzung mittels ver fügbarer Tools zur Lösung von Anwendungsproblemen. Damit betont sie mehr den An wendungscharakter und weniger die wissenschaftlichen Grundlagen des Gebiets. https://doi.org/10.1515/9783110659948-011
430 | 11 Grundlagen des Maschinellen Lernens
Bevor in den folgenden Abschnitten tiefer auf die Eigenschaften, Verfahren und Prozesse des Maschinellen Lernens eingegangen wird, sollen im Folgenden die we sentlichen Grundbegriffe des Gebiets eingeführt und die wesentlichen Prinzipien vor gestellt werden. Eine klassische Definition des Maschinellen Lernens gibt der Pionier Tom Mitchell: Lernen ist das Konstruieren von Computerprogrammen, die sich automatisch durch Er fahrungen verbessern [62]. Ein Beispiel ist, wenn man durch eine Stadt läuft und sich merkt, wo sich die Bibliothek befindet. Obwohl diese Definition sicherlich sehr allgemein und wenig konstruktiv ist, charakterisiert sie doch zwei grundlegende Ei genschaften aller maschineller Lernverfahren. Erstens: (Maschinelle) Lernverfahren benötigen als Eingabe eine Menge von Daten (Mitchells Erfahrungen). Diese Daten, die ein maschinelles Lernverfahren als Eingabe bekommt, werden auch als Trai ningsdaten bezeichnet. Üblicherweise wird angenommen, dass die Trainingsdaten aus einer Menge gleichartiger Beispiele (eine einzelne von Mitchells Erfahrungen) bestehen. Zweitens: Lernen bedeutet hier, Erfahrungen aus den Trainingsdaten in einem sog. Modell (Mitchells Computerprogramm) zu repräsentieren. Oft hängt das konkrete Modell von einer weiteren Menge von wählbaren Parametern ab. Konkrete Lernverfahren lassen sich damit zum einen durch die Art der Eingabe daten unterscheiden. Auf zwei besondere Arten von Eingabedaten, Bilder und Texte, gehen wir im Laufe dieses Kapitels im Detail ein. Weiterhin lassen sich Lernverfah ren durch die Art ihrer Modelle bzw. die Weise, auf die sie die Modelle erzeugen, un terscheiden. Hier unterscheidet man weiter zwischen numerischen Verfahren – pro minentestes Beispiel sind die tiefen neuronalen Netze, auf die, genauso wie auf eine Reihe andere Verfahren, später in diesem Kapitel eingegangen wird – und die auf lo gischen Modellen basierenden Verfahren. Abseits von dieser Detailebene lassen sich maschinelle Lernverfahren aber auch über ihre Aufgabe konkretisieren. Hierzu betrachten wir eine weitere Definition des Begriffs Lernen von Herbert Simon: Lernen ist jeder Vorgang, der ein System in die Lage versetzt, bei der zukünftigen Bearbeitung derselben oder einer ähnlichen Aufgabe diese besser zu erledigen [81]. Auch diese Definition hat ihre Schwierigkeiten – ein geschärf tes Messer schneidet beispielsweise besser, hat aber nicht gelernt – führt aber zu dem nützlichen Begriff der Lernaufgabe, die es ermöglicht, verschiedene Lernalgorithmen, die dieselbe Aufgabe lösen, zu charakterisieren und zu vergleichen.
11.1.2 Unterschiedliche Lernaufgaben Die am meisten untersuchte und angewandte Lernaufgabe des Maschinellen Lernens ist das überwachte Lernen (engl. supervised learning). Hierbei ist es die Aufgabe des Lernalgorithmus, den Zusammenhang zwischen einem Beispiel und einer ausgezeich neten Eigenschaft, dem Label, aus den Trainingsdaten zu lernen, um später für neue Beispiele das Label vorherzusagen. Klassisches Beispiel ist der Erkennung von Spam
11.1 Wozu braucht man Maschinelles Lernen? |
431
mails, wobei ein Beispiel eine einzelne E-Mail ist und das Label die von einem Men schen von Hand gewählte Einteilung in Spam oder legitime E-Mails. Wesentliches Charakteristikum des überwachten Lernens ist, dass zwischen einer Trainings- und Anwendungsphase unterschieden wird. In der Trainingsphase lernt der Algorithmus ein Modell zur Vorhersage des Zusammenhangs zwischen Beispiel und Label, in der Anwendungsphase sagt das Modell das Label für neue, noch nicht gesehene Beispiele vorher. Das Training des Modells entspricht in der klassischen Lo gik der Induktion, d. h. dem Schluss von Einzelfällen auf eine allgemeine Erkenntnis, und die Modellanwendung der Deduktion, d. h. der Folgerung vom allgemeinen auf den Spezialfall. Unterscheidet man das überwachte Lernen weiter nach Art des Labels, kommt man schließlich zu den wesentlichen Unterkategorien der Klassifikation für den Fall weniger Labels (z. B. Spam oder nicht Spam) und der Regression für den Fall, dass kontinuierliche Größen (z. B. Skalare oder Vektoren) als Label dienen. Die zweite Lernaufgabe ist das unüberwachte Lernen (engl. unsupervised learn ing). Hier ist die Aufgabe des Lernalgorithmus, relevante bzw. interessante Struktu ren in den Daten zu finden. Welche Strukturen dabei genau als relevant angesehen werden, hängt dabei in der Regel von der Art des Algorithmus ab. Ein klassisches Beispiel ist hier die Clusteranalyse, die die Eingabedaten in verschiedene Gruppen einteilt, etwa zur Unterscheidung von Kundengruppen im Onlinehandel, ein ande res typisches Beispiel ist die Assoziationsregelanalyse mit der bekannten Anwendung der Empfehlungssysteme (Kunden, die Artikel A gekauft haben, haben auch Artikel B gekauft). Eine wesentliche für die praktische Anwendung von unüberwachten Lern verfahren wichtige Eigenschaft ist, dass die Qualität des aus den Trainingsdaten kon struierten Modells in der Regel nicht oder nur beschränkt objektiv bewertet werden kann. Während bei überwachten Lernverfahren die Anwendung des Modells statis tisch ausgewertet werden kann (sagt das Modell das richtige Label vorher oder nicht) wird beim unüberwachten Lernen die Qualität des Modells häufig über die Interes santheit und Verständlichkeit für den Menschen bestimmt. Interessiert man sich beim unüberwachten Lernen hingegen nicht für das Modell, sondern für Beispiele, die nicht dem Modell entsprechen, landet man bei der Aufgabe der Ausreißeranalyse. Zuletzt kann die Aufgabe des Algorithmus auch sein, neue Beispiele zu generieren, die den gesehenen Beispielen möglichst ähnlich sind. Dies führt zu sog. generativen Modellen, die eine bedingte Wahrscheinlichkeitsverteilung bzw. Dichte lernen (Abschnitte 12.4 und 12.5). Als dritte Lernaufgabe diskutieren wir das Bestärkungslernen (engl. reinforcement learning) (Abschnitt 12.6). Es behandelt das Problem des Erlernens optimaler Hand lungsvorschriften aus Erfahrungen, wie sie z. B. zum Spielen von Videospielen, zur Steuerung von Robotern und anderen autonomen Agenten, die erfolgreich in der Welt agieren sollen, gebraucht werden. Das Bestärkungslernen hat Ähnlichkeiten zum überwachten Lernen, da der Agent positive und negative Belohnungen für sein Ver halten erhält. Ein wesentlicher Unterschied ist jedoch, dass die Belohnungen nicht
432 | 11 Grundlagen des Maschinellen Lernens
einzelnen Beispielen zugeordnet sind, sondern das Ergebnis einer langen Folge von Aktionen sein können, die sukzessive Änderungen der Umgebungssituation bewir ken. So ergibt sich die Belohnung für eine Folge von Zügen in Brettspielen z. B. erst am Ende des Spiels, wenn klar ist, welche der Parteien gewonnen hat.
11.1.3 Die Prozesssicht des Maschinellen Lernens Wie bereits beschrieben wird aus wissenschaftlicher Sicht ein konkretes Anwen dungsproblem für maschinelle Lernverfahren durch die Lernaufgabe definiert. Sie abstrahiert von konkreten Details der Anwendung und macht so verschiedene Lern algorithmen vergleichbar und formalisierbar. In der praktischen Anwendung ist ein Problem aber in der Regel nicht sofort als klar formulierte Lernaufgabe vorhanden, stattdessen müssen viele Entscheidungen getroffen und Schritte unternommen wer den, um Maschinelles Lernen optimal einsetzen zu können. Das bekannteste Modell zur Beschreibung des Datenanalyseprozesses ist CRISPDM [79], das den Analyseprozess in sechs Phasen unterteilt: – Geschäftsverständnis (engl. business understanding) bezeichnet die Phase, das Anwendungsproblem zu verstehen und in ein maschinelles Lernproblem zu übersetzen. Beispielsweise könnte ein Anwendungsproblem sein, die Umsätze eines Onlineshops zu steigern. Dies kann aber bedeuten, relevante Kundengrup pen zu finden (Clustering), Empfehlungen für weitere Artikel zu geben (Asso ziationsregelanalyse), die Affinität der Kunden für Werbeaktionen vorherzusagen (Klassifikation) oder dynamisch Preise zu bestimmen (Regression). Auch die Qua litätskriterien, die an eine Lösung gestellt werden, und weitere Anforderungen, wie z. B. die Einhaltung von Datenschutz oder die Forderung von Transparenz der Lösung, können bestimmte Verfahren präferiert oder unbrauchbar machen. – Datenverständnis (engl. data understanding) bezeichnet die Aufgabe zu verste hen, welche Daten in welcher Qualität zur Verfügung stehen. Der weitaus über wiegende Teil der Informationen, die ein Lernalgorithmus verwendet, kommt aus den Daten. Daher ist gerade die Suche nach weiteren verfügbaren Daten ein wichtiger Schritt. Des Weiteren kann ein Lernverfahren auch strukturelle Infor mationen über die Daten verwenden und beispielsweise durch die Auswahl der Modellstruktur und durch A-priori-Verteilungen in das Lernverfahren einbrin gen. Solche strukturellen Informationen sind oft Invarianzen in den Daten, z. B. Verschiebungsinvarianzen in Bildern. Das Maschinelle Lernen im engeren Sinne betrachtet diese Herausforderung nicht, sondern geht von einer vorgegebenen Menge von Daten aus. Ein in der Praxis wichtiges Kriterium ist außerdem der Datenschutz, der eine Anonymisierung von Daten, etwa durch Entfernung von identifizierenden Merkmalen wie Namen oder Identifikationsnummern oder an dere Maßnahmen nötig machen kann.
11.1 Wozu braucht man Maschinelles Lernen? | 433
–
–
–
–
In der Datenvorverarbeitung (engl. data preparation) werden die Daten in eine für den Lernalgorithmus geeignete Form gebracht, gleichzeitig können ungeeignete Datenpunkte wie Ausreißer herausgefiltert, Variable auf vergleichbare Intervalle normiert und neue aussagekräftigere Merkmale gebildet werden. Komplexe Lern verfahren wie tiefe neuronale Netze sind bei Anwendung auf große Datenmengen erfahrungsgemäß selbst in der Lage, intern geeignete Repräsentationen zu finden und robust auf Ausreißer zu reagieren. Dagegen kann bei klassischen Lernverfah ren in Situationen mit wenigen Daten eine geeignete Repräsentation der Daten die Performanz eines Algorithmus deutlich steigern. Die Phase der eigentlichen Anwendung und Optimierung des maschinellen Lern verfahrens wird in CRISP-DM als Modellierung (engl. modeling) bezeichnet. Dies beinhaltet auch die automatische Optimierung von Parametern des Lernverfah rens. In der Evaluierungsphase wird das Modell getestet. Dies kann zum einen auf grund statistischer Kriterien anhand der Lernaufgabe geschehen, etwa indem die Korrektheit der Vorhersage eines überwachten Modells auf neuen Daten getestet wird. Im Unterschied zur wissenschaftlichen Formulierung einer Lernaufgabe, wo das statistische Maß zur Berechnung der Korrektheit als gegeben angenommen wird, sind hier mehrere Maße möglich, und die Auswahl des korrekten Maßes beeinflusst die praktische Nutzbarkeit der Ergebnisse stark. Als Beispiel sei hier die Schätzung des Abstands eines autonom fahrenden Autos zum vorherfahren den Fahrzeug genannt. Um einen Unfall zu vermeiden ist es wichtig, dass ein maschinelles Lernverfahren für diese Aufgabe den Abstand nicht überschätzt und gerade bei kleinen Abständen sehr präzise ist. Daher muss die Differenz zwi schen vorhergesagten und beobachteten Werten durch inhaltlich aussagekräftige Distanzmaße bewertet werden. Neben den statistischen Kriterien sind zum ande ren auch Kriterien wie die Verständlichkeit des Ergebnisses oder die Robustheit gegenüber potenziellen Fehlern in den Daten relevant. Die Umsetzung (engl. deployment) des Modells in den praktischen Betrieb kann ei ne ganze Reihe von Fehlerquellen beinhalten. Eine der wichtigsten ist, dass sich die im laufenden Betrieb anfallenden Daten von den für das Training des Modells unterscheiden, was mit dem Begriff Concept Drift bezeichnet wird. Concept Drift kann durch eine sich ändernde Welt entstehen, kann aber auch durch das Modell an sich verursacht sein, etwa wenn ein automatisches Betrugserkennungsverfah ren dafür sorgt, dass Betrüger sich anpassen und neue Betrugsmöglichkeiten fin den.
Die Auswahl des geeignetsten maschinellen Lernverfahrens unterliegt damit einer Reihe von Einflussfaktoren. Neben den genannten Kriterien wie Eignung für die zugrunde liegenden Daten, statistischer Qualität (gemäß bestimmter Fehlermaße), Transparenz und Robustheit ist bei der Analyse von sehr großen Datenmengen vor
434 | 11 Grundlagen des Maschinellen Lernens
allem oft die Skalierung des Algorithmus auf moderne, verteilte Rechnerarchitektu ren ein wichtiges Kriterium. Einer der Vorteile von tiefen neuronalen Netzen, die zu ihrem großen aktuellen Erfolg beigetragen haben, ist beispielsweise ihre Fähigkeit, effizient parallele Hardwarestrukturen auszunutzen. Aber auch die Ressourceneffizi enz bei der Anwendung von Lernverfahren und Modellen auf beschränkter Hardware, etwa in mobilen Endgeräten, kann ein wichtiges Auswahlkriterium sein. In fernerer Zukunft könnte es zudem möglich sein, maschinelle Lernverfahren auf Quantencom putern auszuführen. Einen detaillierten Überblick über tiefe neuronale Netze bieten Goodfellow et al. [33] sowie Paaß und Hecker [67]. Im Folgenden werden wir auf die hier vorgestellten Ansätze und Eigenschaften des Maschinellen Lernens weiter eingehen. Wir beginnen mit einem konkreten Bei spiel aus dem Bereich der Bilderkennung, dass die hier vorgestellten Prinzipien ver deutlichen soll. In den darauf folgenden drei Abschnitten werden verschiedene ma schinelle Lernverfahren anhand ihrer Modellklassen vorgestellt, nämlich die tiefen neuronalen Netze, logikbasierte Verfahren und weitere numerische Verfahren. Wir kommen schließlich zu den praktisch bedeutsamen Aspekten der automatischen Op timierung von Modellen und den Infrastrukturen und Modellen, die in der Praxis zum Maschinellen Lernen verwendet werden. Weitere Details zu tiefen neuronalen Netzen für die wichtigen Datenstrukturen der Bilder und Texte, zudem Ansätze neuronaler Netze zur Generierung von Beispielen und zum Bestärkungslernen, folgen in einem weiteren Kapitel. Im dritten Kapitel zu Themen des Maschinellen Lernens betrach ten wir aus Prozesssicht wichtige Anforderungen wie die Erklärbarkeit und Robust heit.
11.2 Ablauf des Maschinellen Lernens am Beispiel der logistischen Regression Überwachtes Lernen hat das Ziel, den Zusammenhang zwischen einer Eingabe x und einer Ausgabe y aus Daten zu rekonstruieren. Dies soll mit einem einfachen Beispiel erläutert werden. Betrachten wir die Bilder von handgeschriebenen Ziffern des MNISTDatensatzes [55] in Abbildung 11.1. Die Aufgabe besteht darin, jedem Bild einer Zif fer die darüber gedruckte zugehörige Ziffernklasse zuzuordnen. Gesucht wird also ein Klassifikator, der jedes Ziffernbild in eine der zehn Klassen 0, . . . , 9 einteilt. Im einfachsten Fall könnten wird davon ausgehen, dass es eine unbekannte Funk tion f0 (x) = y gibt, die jedem Ziffernbild x die „wahre“ Klassifikation y zuordnet. Diese Funktion soll aus den Daten rekonstruiert werden. Allerdings ist der Zusammenhang zwischen der Eingabe und der Klassifikation in manchen Fällen nicht deterministisch. In unserem Beispiel könnte es z. B. Ziffern bilder geben, die je nach Schreiber sowohl als null oder auch als neun interpretiert werden könnten. Daher nehmen wir an, dass es eine unbekannte gemeinsame Vertei lungsfunktion p0 (x, y) über x und y gibt. Wir nennen diese gemeinsame zugrunde lie
11.2 Ablauf des Maschinellen Lernens am Beispiel der logistischen Regression
| 435
Abb. 11.1: Bilder von Ziffern können mithilfe von maschinellen Lernverfahren den jeweiligen Ziffern zugeordnet werden. Die Grafik zeigt Bilder aus dem MNIST-Datensatz und die zugehörigen Ziffern klassen
gende Verteilung die datenerzeugende Verteilung. Gemäß der Definition der bedingten Verteilung gilt dabei immer die Beziehung p0 (x, y) = p0 (y|x)∗p0 (x). Dabei beschreibt p0 (x) die Verteilung der Eingaben (z. B. Ziffernbilder) und p0 (y|x) die bedingte Ver teilung der Ausgaben (Klassen) für ein gegebenes Ziffernbild x. Letztere kann dabei auch eine deterministische Funktion darstellen, wenn die Wahrscheinlichkeit einer der Klassen den Wert eins hat. Dieser probabilistische Rahmen ermöglichen es uns, die Beziehung zwischen x und y mathematisch zu untersuchen.
11.2.1 Trainings- und Testmenge Ziel ist es, aus einer Reihe von Beispielpaaren Ziffernbild–Ziffer die bedingte Ver teilung p0 (y|x) zu rekonstruieren. Ein solches Paar aus Eingabe und zugehöriger Ausgabe wird auch Instanz genannt. Wenn für jede Instanz eine andere datenerzeu gende Verteilung genutzt würde, so könnte man eine solche Rekonstruktion in der Regel nicht durchführen. Daher geht man typischerweise davon aus, dass die In stanzen identisch verteilt sind, d. h., alle Bilder und Ziffern entsprechen der gleichen Verteilung p0 (x, y). Zudem sollen auch die Instanzen stochastisch unabhängig sein. Das bedeutet u. a., dass man eine Instanz nicht besser prognostizieren kann, wenn man eine andere kennt. Diese Annahmen werden auch mit i. i. d. (independent and identically distributed) abgekürzt und müssen immer geprüft werden, bevor ein Lern verfahren angewendet wird. Wir gehen also davon aus, dass wir eine Trainingsmenge von n Instanzen 𝕊train = {(x(1) , y(1) ), . . . , (x(n) , y(n) )} haben, die statistisch unab hängig gemäß einer unbekannten datenerzeugenden Verteilung p0 (x, y) generiert wurde. Die Mengen der Ein- und Ausgaben werden durch X = {x(1) , . . . , x(n) } und Y = {y(1) , . . . , y(n) } bezeichnet.
436 | 11 Grundlagen des Maschinellen Lernens
Abb. 11.2: Darstellung einer Ziffer durch eine 28 × 28-Matrix von Grauwerten ∈ [0, 0, 1, 0]
In Abbildung 11.2 ist das Bild einer Ziffer genauer dargestellt. Es besteht aus ei ner 28 × 28-Matrix von Pixeln, welche jeweils durch einen Grauwert zwischen null (weiß) und eins (schwarz) gekennzeichnet sind. Diese Matrix ist die Beschreibung der jeweiligen Instanz. Der Einfachheit halber wird sie in einen Vektor x der Länge 784 = 28 ∗ 28 umgewandelt, der aus den aneinandergehängten Zeilen der Matrix besteht. Die Trainingsmenge 𝕊train von MNIST besteht aus 60.000 Paaren (x, y) von Ziffernbild x(i) und der zugehörigen Klasse y(i) ) ∈ {0, . . . , 9}. Weiter gibt es in MNIST eine zusätzliche Testmenge 𝕊test von weiteren 10.000 unabhängig und identisch ver teilten Paaren (x, y), die nicht beim Training genutzt wird. Mit ihrer Hilfe wird die Performanz des Lernverfahrens gemessen.
11.2.2 Das Modell der logistischen Regression Wir möchten nun die bedingte Verteilung p0 (y|x) durch eine andere Verteilung p(y|x) aus einer Menge H von bedingten Verteilungen approximieren. Diese Menge soll um fangreich genug sein, um den Zusammenhang zwischen x und y gut darstellen zu können, und andererseits aber auch nicht unnötig komplex. Hierzu definieren wir zunächst Funktionen, die Punktwerte u i für die zehn ver schiedenen Klassen i durch Skalarprodukte u i = b i + ∑784 j=1 w i,j x j berechnen. Je höher ein Punktwert u i ist, desto plausibler sollte die jeweilige Ziffernklasse i sein. Der Ko effizient w i,j gibt daher an, wie stark ein Pixel x j mit Grauwert 1.0 die Klassifikation in Klasse i unterstützt oder hemmt. Das Absolutglied b i , auch Bias genannt, reprä sentiert die von den Eingaben x unabhängige Tendenz, dass Klasse i zutrifft. Dieses Skalarprodukt wird für jede Klasse berechnet. Fasst man diese Berechnungen für alle Klassen zusammen, so erhält man eine lineare Transformation u=W∗x+b.
(11.1)
11.2 Ablauf des Maschinellen Lernens am Beispiel der logistischen Regression
|
437
Dabei ist x ein Vektor der Länge 784 mit den Pixelwerten, W eine 10 × 784 Matrix, b ein Vektor der Länge zehn und u der Vektor der Länge zehn der Punktwerte für jede der Klassen. Allerdings sind die Scores nicht gut interpretierbar, weil sie beliebige reelle Zahlen sein können. Daher werden sie mithilfe der Softmax-Funktion in einen Wahrschein lichkeitsvektor transformiert: 1 (11.2) ŷ = softmax(u) = (exp(u 1 ), . . . , exp(u k ))⊺ . exp(u 1 ) + ⋅ ⋅ ⋅ + exp(u k ) Die Transformation mit exp(⋅) wandelt alle Scores in positive Zahlen um. Die Normie rung durch die Summe garantiert, dass die Summe aller Vektorelemente 1.0 ergibt. Der Ausdruck ŷ = softmax(W ∗ x + b) kann daher als die bedingte Wahrscheinlichkeit der einzelnen Klassen für eine gegebene Instanz x interpretiert werden. Die Matrix W und der Vektor b sind frei wählbar und werden zu einem Vektor θ der Parameter zu sammengefasst. θ wird im Verlauf des überwachten Lernens so abgeändert, dass der Verlust möglichst gering ist. Damit haben wir auf einfache Weise eine Menge H von bedingten Verteilungen p(y|x; θ) konstruiert. Eine solche Hypothesenmenge mit unbekannten Parametern wird auch Modell genannt. Da (11.2) kontinuierliche Wahrscheinlichkeiten prognosti ziert, wird dieses Modell als logistische Regression bezeichnet. Es wird in sehr vielen fortgeschrittenen Modellen als Komponente verwendet und ist laut einer weltweiten Untersuchung von Kaggle [46] das am meisten genutzte maschinelle Lernverfahren. Im Laufe der langen Geschichte der Statistik und des Maschinellen Lernens wur den eine Vielzahl weiterer Modelle entwickelt. Sie müssen einerseits komplex genug sein, um die charakteristischen Zusammenhänge zwischen Eingabemerkmalen und Ausgaben zu erfassen, andererseits dürfen sie nicht zu viele Parameter besitzen, da diese auch viele Trainingsinstanzen erfordern. Die weiteren Abschnitte dieses und der nächsten Kapitel beschreiben ein großes Spektrum solcher Modelle mit unterschied lichen Anwendungsbereichen, insbesondere tiefe neuronale Netze, mit denen man in letzter Zeit bei sehr komplexen Lernproblemen eine hohe Performanz erzielt. Lehrbü cher zu diesem Thema sind [22] und [33].
11.2.3 Die Verlustfunktion: Maximum Likelihood Es gibt mehrere Möglichkeiten, ein Optimierungskriterium für das Modell der logis tischen Regression für eine Trainingsmenge 𝕊train = {(x(1) , y(1) ), . . . , (x(n) , y(n) )} zu definieren. Das am weitesten verbreitete Prinzip ist die Maximum-Likelihood-Schät zung [33, S. 128]. Das Maximum-Likelihood-Verfahren unterstellt, dass die Daten ge mäß einer bedingten Verteilung p(y|x; θ 0 ) aus H erzeugt wurden. Den zunächst un bekannten „wahren“ Parameter θ0 möchte man finden. Man kann nun häufig annehmen, dass die Paare (x(i) , y(i) ) der Trainingsmenge identisch verteilt sind und unabhängig voneinander erhoben wurden, dass also ein
438 | 11 Grundlagen des Maschinellen Lernens
Paar keine Informationen über ein anderes Paar enthält. Betrachtet man nun die ge meinsame Wahrscheinlichkeit zweier Ausgaben bei gegebenen Eingaben, so gilt p(y(1) , y(2) |x(1) , x(2) ; θ) = p(y(1) |x(1) , x(2) ; θ) ∗ p(y(2) |y(1) , x(1) , x(2) ; θ) . Der rechte Ausdruck ist aber gleich p(y(1) |x(1) ; θ) ∗ p(y(2) |x(2) ; θ), weil (x(1) , y(1) ) bei gegebenem θ keine Information über (x(2) , y(2) ) enthält und umgekehrt. Damit ergibt sich für für jeden Parameter θ in H und die gesamte Trainingsmenge p(y(1) , . . . , y(n) |x(1) , . . . , x(n) ; θ) = p(y(1) |x(1) ; θ) ∗ ⋅ ⋅ ⋅ ∗ p(y(n) |x(n) ; θ) .
(11.3)
Man sucht nun den Parameter θ∗ML aus H, für den die Wahrscheinlichkeit der Trai ningsmenge maximal ist. Dieser Maximum-Likelihood-Schätzwert θ∗ML ist definiert als θ∗ML = arg max θ
∏
p(y|x; θ) .
(11.4)
(x,y)∈𝕊train
Das Produkt über viele Wahrscheinlichkeiten hat unvorteilhafte numerische Ei genschaften. Zum Beispiel muss man auf einem Computer Bereichsunterschreitungen (underflow) erwarten. Um ein besser handhabbares, aber äquivalentes, Optimierungs problem zu erhalten, wendet man den Logarithmus an und bildet den Mittelwert über die Elemente von E θ∗ML = arg max θ
1 ∑ |E| (x,y)∈𝕊
log p(y|x; θ) .
(11.5)
train
Die Maximierung ist äquivalent, weil der Logarithmus eine streng monotone Funktion ist. Die Summe ergibt sich, weil der Logarithmus eines Produktes gleich der Summe der Logarithmen der Faktoren ist. Damit wird klar, dass man mit (11.5) eine sog. Ver lustfunktion definieren kann, die bezüglich θ minimiert werden muss L(𝕊train , θ) =
1 ∑ |E| (x,y)∈𝕊
− log p(y|x; θ) .
(11.6)
train
Das Maximum-Likelihood-Verfahren ist daher äquivalent zur Minimierung dieser Ver lustfunktion auf der Trainingsmenge. Das Konzept der Verlustfunktion erlaubt es nun, die in der Theorie der mathematischen Optimierung entwickelten Verfahren zur Be stimmung des optimalen Parameters θ ∗ML zu nutzen. Es hat sich gezeigt, dass das Maximum-Likelihood-Verfahren exzellente statisti sche Eigenschaften hat. Wenn die Trainingsmenge groß ist, so sind die Schätzwerte θ∗ML nahezu unverzerrt (d. h. asymptotisch im Mittel gleich dem wahren Parameter θ0 ) mit der kleinstmöglichen Varianz [22, S. 39]. Wenn die Anzahl n der Trainings daten gegen unendlich geht, so konvergiert der empirische Verlust (11.6) gegen den wahren Verlust des Parameters θ: L0 (θ) = ∫ − log p(y|x; θ)p0 (y, x)dydx .
(11.7)
11.2 Ablauf des Maschinellen Lernens am Beispiel der logistischen Regression
| 439
Ist die Trainingsmenge nicht sehr groß, so können sich empirischer und wahrer Ver lust unterscheiden, und die Optimierung liefert nicht den besten Parameter. Daher müssen oft zusätzliche Maßnahmen, z. B. Regularisierung, ergriffen werden, um die Abweichung zum wahren Verlust klein zu halten. Dies wird im Abschnitt 11.3.5 be schrieben.
11.2.4 Einige Verlustfunktionen Die konkrete Verlustfunktion orientiert sich meist an der Art der durch das Modell definierten bedingten Verteilung p(y|x; θ). – Ist die Ausgabe y des Modells eine reelle Zahl, so wird oft die Normalverteilung N(f(x; θ); σ 2 ) mit dem Erwartungswert f(x; θ) als bedingte Verteilung p(y|x; θ) gewählt. Der Erwartungswert wird auch oft als Modellprognose bezeichnet. Dies ergibt den Kleinstquadratverlust [33, S. 130] L(𝕊train , θ) = –
–
1 ∑ |𝕊train | (x,y)∈𝕊
2
(f(x; θ) − y) .
(11.8)
train
Bei einer Klassifikation prognostiziert man meist die Wahrscheinlichkeiten der einzelnen Klassen durch die bedingte Wahrscheinlichkeit p(y|x; θ). Im Fall der logistischen Regression ist p(y|x; θ) = softmax(W∗x+b) mit θ = vec(W, b). Auch diese berechneten Wahrscheinlichkeiten werden als Modellprognose bezeichnet. Für die resultierende Multinomialverteilung erhält man die Verlustfunktion (11.6). Man kann auch Verlustfunktionen definieren, ohne Verteilungsinformationen zu berücksichtigen. Für ein Klassifizierungsproblem mit zwei Klassen y = ±1 kann man beispielsweise einen linearen Prädiktor u = θ ⊤ x wählen und folgende Ver lustfunktion wählen 1 L(𝕊train , θ) = (11.9) ∑ max(0, 1 − y ∗ u) . |𝕊train | (x,y)∈𝕊 train
Dieser Hinge Loss (engl. hinge, Türangel) vergibt für richtig klassifizierte Einga ben x den Verlust null und einen positiven Verlust für falsch klassifizierte Ein gaben. Er führt in vielen Fällen zu einer besonders robusten Klassifikation (Ab schnitt 11.5.2). Die Minimierung einer Verlustfunktion L(𝕊train , θ) auf den Daten 𝕊train bezüglich des Parameters θ bezeichnet man auch als empirische Risikominimierung: θ ∗ = arg min L(𝕊train , θ) . θ
(11.10)
Im Zusammenhang mit diesem Begriff wurden viele theoretische Eigenschaften von Lernverfahren abgeleitet [90]. Die Verlustfunktion kann dabei auch nach anderen Kri terien formuliert werden als nach dem Maximum-Likelihood-Prinzip.
440 | 11 Grundlagen des Maschinellen Lernens
11.2.5 Optimierung durch Gradientenabstieg Die Bestimmung des optimalen Schätzwertes θ∗ML beim logistischen Regressionsmo dell ist leider nicht in einem Schritt analytisch lösbar, sondern man muss iterative Ver fahren zu Hilfe nehmen [33, S. 137]. Zur Minimierung der Verlustfunktion L(𝕊train , θ) kann man das Verfahren des Gradientenabstiegs nutzen. L(𝕊train , θ) ist eine Funktion mit einem Vektor θ als Eingabe und einer reellen Zahl als Ausgabe. Die partielle Ableitung ∂θ∂ i L(𝕊train , θ) misst, wie sich L(𝕊train , θ) ändert, wenn allein die Komponente θ i des Vektors θ um einen kleinen Betrag erhöht wird. Der Gradient generalisiert den Begriff der Ableitung auf den Fall, dass die Ableitung bezüglich eines Vektors θ berechnet wird. Der Gradient ist der Vektor mit allen par tiellen Ableitungen ∇θ L(𝕊train , θ) = (
∂L(𝕊train , θ) ∂L(𝕊train , θ) ⊺ ,..., ) , ∂θ1 ∂θ k
(11.11)
wobei θ = (θ1 , . . . , θ k ) und ⊺ die Transponierung bezeichnet. Der Gradient zeigt in die Richtung des steilsten Anstiegs der Funktion L(𝕊train , θ) im Punkt θ, und der mit −1.0 multiplizierte negative Gradient −∇θ L(𝕊train , θ) in Richtung des steilsten Abstiegs [33, S. 82]. Der Gradient der Verlustfunktion kann im Allgemeinen durch Formeln berechnet werden. Dabei werden unterschiedliche Regeln der Differenzialrechnung angewen det, u. a. die Summenregel und die Produktregel. Die wichtigste Regel ist die Ketten regel für geschachtelte Funktionen: Gilt u = f(θ) und y = g(u) und sind y, u, θ ∈ ℜ, so ist ∂g(u) ∂f(θ) ∂g(f(θ)) (θ) = (u) ∗ (θ) . ∂θ ∂u ∂θ Hierbei ist ∂g(u) ∂u (u) eine Funktion von u, die an der Stelle u = f(θ) ausgewertet wird. Mithilfe dieser Regeln kann man auch für multivariate Funktionen wie L(𝕊train , θ) den Gradienten (11.11) ausrechnen. Details werden später diskutiert (Abschnitt 11.3.3). In modernen Statistik-Toolboxen oder Programmierumgebungen für neuronale Net ze werden die Formeln für den Gradienten automatisch im Hintergrund berechnet, nachdem das Modell spezifiziert wurde. Definition 11.2.1 Optimierung durch Gradientenabstieg. Die Bestimmung eines Para meters mit möglichst geringem Verlust verläuft in folgenden Schritten: 1. Initialisiere den Parametervektor θ mit Zufallswerten, z. B. gleichverteilt im Bereich [−1.0, 1.0]. Initialisiere die Lernrate η > 0 mit einem kleinen Wert, z. B. η = 0.01. 2. Berechne den Gradienten ∇θ L(𝕊train , θ) für den aktuellen Wert von θ. 3. Ändere θ in die Richtung des negativen Gradienten θ ← θ − η ∗ ∇θ L(𝕊train , θ) .
(11.12)
4. Sind alle Elemente von ∇θ L(𝕊train , θ) gleich null oder nahe null, so stoppt das Ver fahren. Ansonsten geht es weiter mit Schritt 2.
11.2 Ablauf des Maschinellen Lernens am Beispiel der logistischen Regression
| 441
Dieses Optimierungsverfahren wird Gradientenabstieg (gradient descent) genannt. Endet das Verfahren, so ist der Gradientenvektor nahezu null, und der zugehörige Pa rameter θ∗ liegt meist nahe bei einem lokalen oder globalen Minimum. Neben dem Parametervektor θ gibt es noch weitere sog. Hyperparameter des Mo dells und des Lernverfahrens, welche nicht einfach durch Optimierungsverfahren an gepasst werden können. Dazu gehören Eigenschaften der Modellarchitektur (z. B. An zahl der Modellparameter) und Stellgrößen des Lernverfahrens. Die Lernrate η ist ein solcher Hyperparameter des Lernverfahrens. Ist η zu groß, so kann es sein, dass der Gradientenabstieg zu große Schritte macht und über das Ziel hinausschießt. Im Ab schnitt 11.6.6 wird diskutiert, wie man gute Werte für Hyperparameter finden kann. In der Praxis führt die Verwendung des Gradientenabstiegs insbesondere bei Modellen mit sehr vielen Parametern meist zu besseren Ergebnissen als die Nutzung komplexe rer Optimierungsverfahren.
11.2.6 Stochastischer Gradientenabstieg ML-Modelle haben heute viele Millionen Parameter und entsprechende Trainings mengen, die Millionen von Datenpaaren umfassen. Der Gradientenabstieg erfordert die Berechnung des Gradienten auf den kompletten Trainingsdaten und benötigt dabei sehr viel Rechenleistung. Zudem muss diese Berechnung sehr oft wiederholt werden, bis das Verfahren konvergiert. Aus diesem Grund berechnet man den Gradienten oft nicht in jeder Iteration für die gesamten Trainingsdaten 𝕊train , sondern nur für eine zufällig ausgewählte Teil menge M i ⊂ 𝕊train der Größe m, welche Minibatch genannt wird. Anschließend führt man einen Gradientenschritt (11.12) mit diesem Minibatch-Gradienten durch. Danach wählt man einen neuen Minibatch M i+1 aus und wiederholt den Gradientenschritt usw. Weil der Minibatch-Gradient ∇̃ θ L(𝕊train , θ) aus zufällig ausgewählten Teilmengen von 𝕊train berechnet wurde, schwankt er um den vollen Gradienten ∇θ L(M i , θ), der aus sämtlichen Trainingsdaten berechnet wurde, und ist im Mittel gleich dem vollen Gra dienten. Daher konvergiert das Optimierungsverfahren – mit Zufallsabweichungen – meist gegen ein lokales Minimum der Verlustfunktion. Folglich heißt es MinibatchGradientenabstieg oder auch stochastischer Gradientenabstieg (SGD). Der Umfang m des Minibatchs ist ein Hyperparameter, der festgelegt werden muss. Typische Werte sind zehn bis 500. Der Minibatch-Gradientenabstieg erreicht gerade für große Modelle ein Minimum mit einem um Größenordnungen geringeren Rechenaufwand als der normale Gra dientenabstieg. Das Training vieler Modelle wurde dadurch erst möglich. Der Mini batch-Gradientenabstieg wird mittlerweile bei sehr vielen ML-Modellen mit einer ho hen Anzahl von Parametern verwendet. Es gibt eine Reihe von Varianten. Sie werden mit ihren theoretischen Eigenschaften in Abschnitt 11.3.3 diskutiert.
442 | 11 Grundlagen des Maschinellen Lernens
11.2.7 Evaluation des Modells Für maschinelle Lernverfahren gibt es oft leider nicht die Garantie, dass sie immer das bestmögliche Prognoseergebnis erzielen. Daher muss man die Performanz eines Modells nachträglich anhand neuer Daten bewerten. Bei der Klassifikation ist die Ver lustfunktion L(𝕊train , θ) zwar ein guter Maßstab für die Optimierung des Modells, der erzielte Verlustwert lässt sich aber inhaltlich nicht gut interpretieren. Daher wurden eine Reihe zusätzlicher Performanzmaße definiert. Definition 11.2.2 Genauigkeit, Präzision und Recall. Gegeben ist eine zufällig ausge suchte Testmenge 𝕊test mit Elementen (x, y), die nicht beim Training verwendet wurden. korrekt klassifizierten x∈𝕊test . – Genauigkeit = Anzahl derAnzahl aller x∈𝕊test Die folgenden Maße werden für jede Klasse i definiert: der korrekt der Klasse i zugeordneten x∈𝕊test , – Precision i = Anzahl Anzahl aller der Klasse i zugeordneten x∈𝕊test Anzahl der korrekt der Klasse i zugeordneten x∈𝕊test Anzahl aller x∈𝕊test der Klasse i Precision i∗Recall i Precision i+Recall i .
–
Recall i =
–
Fi = 2 ∗
,
Die Genauigkeit auf 𝕊test ist dann ein unverzerrter Schätzwert der wahren Genauig keit, d. h. der Genauigkeit auf neuen Daten. Die Genauigkeit wird dabei als ein globa ler Maßstab verwendet, welcher anzeigt, wie gut die verschiedenen Klassen im Mittel klassifiziert wurden. Dabei ergibt sich das Problem, dass für einzelne Klassen mögli cherweise nur sehr wenige Instanzen in der Testmenge vorhanden sind. Hat man ein Problem mit zwei Klassen und umfasst die zweite Klasse nur 1 % der Instanzen der Testmenge, so kann man immer eine Genauigkeit von 99 % erzielen, wenn man alle Instanzen der ersten Klasse zuordnet. In diesem Fall ist offenbar die Genauigkeit als Performanzmaß nicht brauchbar.
Abb. 11.3: Genauigkeit der logistischen Regression für die MNIST-Daten auf der Trainingsmenge beim normalen Gradientenabstieg für 1.000 Epochen (links). Auf der rechten Seite ist dieser Wert für die Trainings- und Testmenge beim stochastischen Gradientenabstieg über 20 Epochen dargestellt
11.2 Ablauf des Maschinellen Lernens am Beispiel der logistischen Regression
| 443
Precision i und Recall i beziehen sich jeweils auf eine Klasse i und ermöglichen eine genauere Diagnose. Die Precision i misst, welcher Anteil der als Klasse i klas sifizierten Instanzen tatsächlich zu Klasse i gehören. Der Recall i bewertet, welcher Anteil der tatsächlich in der Testmenge vorhandenen Instanzen der Klasse i vom Klas sifikator „gefunden“ wurde. Der F-Wert F i ist das harmonische Mittel von Precision i und Recall i . Es ist näherungsweise der Mittelwert zwischen beiden Größen, und F i = Precision i falls Precision i = Recall i . Abbildung 11.3 zeigt den Verlauf der Genauigkeit eines logistischen Regressions modells für das MNIST-Problem während der Optimierung mit dem normalen Gra dientenabstieg (links) und dem Minibatch-Gradientenabstieg (rechts). Die Größe der Minibatches wurde dabei als m = 100 gewählt. Die Genauigkeit wurde nach einem Durchgang durch die Trainingsdaten jeweils neu berechnet. Ein solcher Durchgang durch die Trainingsdaten wird auch Epoche genannt. Die gestrichelte Kurve zeigt die Genauigkeit auf der Trainingsmenge an, während die durchgehende Kurve die Genau igkeit auf der Testmenge darstellt. Die Genauigkeit zeigt starke Schwankungen, weil wegen der zufälligen Zusammensetzung der Minibatches die Richtung der Gradienten zufällig variiert. Dabei ist die Genauigkeit auf den Trainingsdaten fast immer etwas größer als auf den Testdaten, welche zum Schluss nach 18 s Rechenzeit etwa 92,7 % beträgt. Abbildung 11.4 zeigt einige falsch klassifizierte Ziffern an. Verwendet man den vollen Gradientenabstieg (Abbildung 11.3 links), so hat man nach 1.000 Epochen im mer noch nicht das gleiche Genauigkeitsniveau erreicht. Der stochastische Gradien tenabstieg ist also wesentlich effizienter. Wichtig ist, dass die auf der Testmenge berechneten Performanzmaße im Mittel korrekt sind (erwartungstreu, unbiased). Dies gilt aber nicht mehr, wenn diese Be rechnungen mehrfach durchgeführt werden, d. h., das Modell zwischendurch abge ändert und neu trainiert wird. Dann sind die Performanzmaße zu optimistisch und nicht mehr zuverlässig, weil man ja gerade das Modell so abändert, dass es auf der Testmenge besser wird. Um solche Modelloptimierungen durchführen zu können, de finiert man daher eine weitere separate Validierungsmenge 𝕊val von annotierten In stanzen (x, y) und nutzt diese zur Optimierung der Modellstruktur. Die Testmenge 𝕊test darf nur einmal zum Schluss verwendet werden.
0
0
0
5
5
5
0 5
10
10
10
10
15
15
15
15
20
20
20
20
25
25 0
5
10 15 20 25
25 0
5
10 15 20 25
25 0
5
10 15 20 25
0
5
10 15 20 25
Abb. 11.4: Durch das logistische Regressionmodell falsch klassifizierte Ziffern des MNIST-Daten satzes. Die zugeordnete (bzw. wahre) Klasse war von links nach rechts: 5 (wahr = 1), 4 (wahr = 2), 0 (wahr = 4), 0 (wahr = 9)
444 | 11 Grundlagen des Maschinellen Lernens
Oft wird bei öffentlichen Benchmark-Daten die Testmenge von vielen unterschied lichen Forschern verwendet, um die Leistung verschiedener Algorithmen über viele Jahre hinweg zu bewerten. Dann sind auch diese Testmengen nicht mehr brauchbar, da die Ergebnisse zu optimistisch werden. Dann muss man zu neuen (und in der Regel ehrgeizigeren und umfangreicheren) Benchmark-Datensätzen übergehen.
11.2.8 Bayessche Modelle Der Maximum-Likelihood-Ansatz bestimmt den Parameterwert θ ∗ML , der auf der Trai ningsmenge 𝕊train = {(x(1) , y(1) ), . . . , (x(m) , y(m) )} die höchste Wahrscheinlichkeit be sitzt. Da sich aber der Trainingsverlust (11.6) vom wahren Verlust (11.7) unterscheidet, könnte auch ein anderer Parameter den minimalen wahren Verlust haben. Die bayes sche Statistik bietet nun eine Möglichkeit, gleichzeitig viele Parameter zu betrachten und nach ihrer Plausibilität zu gewichten. Hierbei geht man von der Annahme aus, dass die Ausgaben Y = {y(1) , . . . , y(n) } von einem Modell mit dem wahren Parameter θ0 aus den Eingaben X = {x(1) , . . . , x(n) } erzeugt wurden. Dann kann man mit der bayesschen Formel die Wahrscheinlichkeit berechnen, mit der ein Parametervektor θ der wahre Parameter ist [33, S. 132] p(θ|Y, X) =
p(Y|X; θ) p(θ|X) p(X) . p(Y, X)
(11.13)
Die zu dem kontinuierlichen Parametervektor θ gehörigen Wahrscheinlichkeitsdich ten werden im Folgenden als Verteilung bezeichnet. Hierbei ist p(Y|X; θ) die Likeli hood, die bedingte Wahrscheinlichkeitsverteilung, mit der die Ausgaben Y bei gegebe nen Eingaben X von einem Modell mit dem Parameter θ erzeugt wurden. Wie in (11.4) ist sie meist ein Produkt p(Y|X; θ) = ∏(x,y)∈𝕊train p(y|x; θ) von bedingten Wahrschein lichkeiten der beobachteten Instanzen. Es wird angenommen, dass die Eingaben X keine Information über die Parameter θ der bedingten Verteilung enthalten und daher p(θ) = p(θ|X) gilt. p(θ) ist die A-priori-Verteilung, also die Wahrscheinlichkeit der ein zelnen Parameterwerte, bevor die Daten verfügbar sind. p(X)/p(Y, X) ist nur ein ska larer Faktor. Das Ergebnis p(θ|Y, X) heißt A-posteriori-Verteilung und beschreibt die Wahrscheinlichkeit der Parameter, nachdem die Information aus den Trainingsdaten einbezogen wurden. Der Maximum-A-Posteriori-Schätzwert θ∗MAP ist nun definiert als θ ∗MAP = arg max p(Y|X; θ)p(θ) . θ
(11.14)
Der Term p(X)/p(Y, X) in (11.13) kann als fester skalarer Faktor bei der Optimierung weggelassen werden. θ∗MAP ist der Parameter mit der höchsten A-posteriori-Wahr scheinlichkeit. Man erhält die Maximum-Likelihood-Schätzung (11.4), wenn man eine A-priori-Verteilung p(θ) verwendet, die überall den gleichen Wert hat. Die A-priori-Wahrscheinlichkeit p(θ) bietet eine Möglichkeit, Vorwissen in das Modell einzubringen. Man kann z. B. bestimmte Parameterwerte ausschließen, indem
11.3 Einführung in neuronale Netze | 445
man p(θ) = 0 für die jeweiligen θ setzt. Oft weiß man nicht viel über die A-priori-Ver teilung und wählt eine nicht informative A-priori-Verteilung, z. B. eine mehrdimensio nale Normalverteilung mit hoher Varianz. Die A-priori-Verteilung kann aber auch die Information aus zuvor verarbeiteten Daten repräsentieren. Wir werden später sehen, dass die A-priori-Verteilung eine wichtige Rolle spielt, um unplausible Parameter aus zuschließen und die Schätzung der Parameter zu verbessern (Abschnitt 11.6.7.2). Entscheidender Vorteil der bayesschen Statistik ist, dass die A-posteriori-Vertei lung p(θ|Y, X) die Unsicherheit der Parameter reflektiert, welche daher rührt, dass nur eine endliche Menge 𝕊train von Trainingsdaten verfügbar ist. Hiermit lässt sich ei ne Prognoseverteilung für eine neue Eingabe x berechnen p(y|x; Y, X) = ∫ p(y|x; θ)p(θ|Y, X)dθ .
(11.15)
Sie berücksichtigt die unterschiedliche Plausibilität der Parameter für die Prognose mit dem Modell und charakterisiert die Unsicherheit der Modellprognose. Für große Modelle hat die A-posteriori-Verteilung eine komplexe Form, und die Prognoseverteilung lässt sich nicht analytisch berechnen. Aus diesem Grunde appro ximiert man die Verteilung der θ durch Stichproben, welche beispielsweise mithil fe von Markov-Chain-Monte-Carlo-Verfahren durch Zufallsprozesse generiert werden. Details finden sich in [22, S. 251 ff] und [33, S. 586]. Ist eine Stichprobe der θ verfüg bar, so lässt sich das Integral (11.15) durch den zugehörigen Mittelwert approximie ren. Allerdings ist der Rechenaufwand zur Approximation der A-posteriori-Verteilung oft sehr hoch. Mittlerweile gibt es Minibatch-Versionen für die Markov-Chain-MonteCarlo-Verfahren, welche den Rechenaufwand stark reduzieren [64].
11.3 Einführung in neuronale Netze Die Entwicklung künstlicher neuronaler Netze ist von jeher stark interdisziplinär ge prägt. Neben Einflüssen aus der Physik, den Kognitionswissenschaften und der Infor mationstechnik besteht der wohl stärkste Bezug zu Forschungsthemen der Neurowis senschaft. Die Wechselwirkung beider Disziplinen besteht dabei in der Entwicklung vereinfachter Modellansätze, welche zur technischen Umsetzung in Form künstlicher neuronaler Netzwerke (KNN) genutzt werden. Des Weiteren kann sowohl durch Simu lation biologischer Systeme als auch durch Nachbildung isolierter Operationen das Verständnis für die Funktionsweise und den Aufbau des Gehirns verbessert werden. Diese wechselseitige Beziehung hat maßgeblich die Entwicklung tiefer neuronaler Ar chitekturen beeinflusst. Organisationsprinzipien, wie beispielsweise der schichten weise, hierarchische Aufbau, sind in der Neuroanatomie seit Längerem bekannt, wo bei die Plausibilität dieser Prinzipien nun zunehmend durch das immer breiter wer dende Anwendungsspektrum tiefer Netzwerkarchitekturen untermauert wird. Wäh rend beispielsweise die ersten Stufen der visuellen Verarbeitung im Gehirn große Ähn
446 | 11 Grundlagen des Maschinellen Lernens
lichkeit zur Funktionsweise von tiefen neuronalen Netzwerken aufweisen, ist es in der Regel nicht möglich, eine unmittelbare Eins–zu–eins–Korrespondenz zwischen KNN und biologischen Systemen herzustellen. Für eine ausführliche Beschreibung unter schiedlicher Aspekte biologischer Modelle sei auf die weiterführende Literatur (z. B. [2; 15; 31; 53; 73]) verwiesen. Der Schwerpunkt der folgenden Einführung in Grundelemente der KNN liegt auf der Hinführung zu tiefen neuronalen Architekturen. Für einen allgemeineren Einstieg in das Thema KNN und deren historische Entwicklung soll hierzu ebenfalls auf wei terführende Literatur (z. B. [40; 57; 67; 77]) verwiesen werden. Im Bereich des Ma schinellen Lernens nehmen tiefe neuronale Netze eine gewisse Sonderstellung ein. Diese begründet sich zum einen aus der sehr guten Skalierbarkeit tiefer Netzwerke. Neben der Anwendbarkeit auf hochdimensionale Problemstellungen umfasst der Begriff der Skalierbarkeit aber auch die Möglichkeit unterschiedliche, sich zum Teil widersprechende Systemeigenschaften, wie beispielsweise die Güte der Ergebnisse, der Speicherbedarf und das Laufzeitverhalten, relativ feingranular auf eine gegebe ne Problemstellung anpassen zu können. Während dies teilweise auch mit anderen Verfahren des Maschinellen Lernens möglich ist (z. B. Random Forests), zeichnen sich tiefe neuronale Netzwerkarchitekturen darüber hinaus durch eine sehr hohe Modularisierbarkeit aus. Dies beinhaltet die Möglichkeit, unterschiedliche Lernpa radigmen in einer einzelnen end-to-end trainierbaren Architektur zu vereinen. Ein weiterer Aspekt der Modularisierbarkeit tiefer Architekturen liegt in der Wiederver wendung trainierter Teilnetzwerke in unterschiedlichen Domänen. Methoden, wie z. B. das Finetuning von Netzwerkkomponenten, zählen zu den Standardverfahren, um komplexe Netzwerke mit relativ wenigen Trainingsmustern trainieren zu kön nen. Wesentliche Elemente zur Definition und Verwendung neuronaler Netzwerke sollen nun anhand der Erweiterung eines einfachen linearen Regressionsmodells y = f(x, w, b) = x⊤ w + b
(11.16)
dargestellt werden. Das Modell ordnet durch eine lineare Transformation (Glei chung 11.1) jedem Vektor x ∈ ℝn des Eingaberaums eine skalare Größe y ∈ ℝ zu. Die Gewichte w sowie der additive Bias b bilden die Freiheitsgrade θ = [w, b] des Mo dells. Allgemein definiert das Modell eine Funktionsfamilie, in diesem Fall die Menge aller Hyperebenen im ℝn , deren konkreter Vertreter f(x, θ = θ ∗ ) durch die Belegung der freien Parameter gewählt wird. Die Begriffe ”Architektur”, ”Modell” und ”neu ronales Netz” werden dabei weitgehend synonym verwendet. Für neuronale Netze gelten hierbei die in Abschnitt 11.2 beschriebenen Grundprinzipien des Maschinellen Lernens.
11.3 Einführung in neuronale Netze |
447
Erweitert man Gleichung 11.16 um eine nichtlineare Aktivierungsfunktion y = f(x, θ) = φsig (x⊤ w + b)
mit f : ℝn → (0, 1) und φsig (t) =
1 , 1 + e−t
(11.17)
so erhält man das bereits in Abschnitt 11.2.2 beschriebene Modell der logistischen Re gression. Gleichung 11.17 beschreibt dabei die Erregungsdynamik des Perzeptrons, ei nes stark vereinfachten Neuronenmodells, welches wesentlich zur Entwicklung mo derner Netzwerkarchitekturen beigetragen hat. In der originalen Definition [61; 74] wurde anstelle der Sigmoidfunktion φsig die Stufenfunktion (engl. Heavyside-Funk tion) {0 : x < 0 (11.18) φstep (x) = { 1: x ≥ 0 { verwendet. Die Sigmoidfunktion kann in diesem Zusammenhang als differenzierbare Näherung der Stufenfunktion gesehen werden. Die logistische Regression wird meist für Klassifikationsaufgaben herangezogen, wobei Gleichung 11.17 als Wahrscheinlich keit p(y = 0|x, θ) und p(y = 1|x, θ) = 1 − p(y = 0|x, θ) (11.19) für die Zugehörigkeit von x zu einer von zwei möglichen Klassen (y ∈ {0, 1}) aufgefasst wird. Lernen in neuronalen Netzen bedeutet im Allgemeinen Anpassung der freien Pa rameter anhand von Beobachtungen, welche meist in Form eines Datensatzes 𝕊 = {s1 , . . . s n } gegeben sind. Ein sehr weitgreifender Ansatz zur Ableitung einer Lernre gel beruht auf dem in Abschnitt 11.2.3 beschriebenen Maximum-Likelihood-Prinzip. Der Maximum-Likelihood-Ansatz ist gleichbedeutend mit der Suche nach Parametern θ∗ = arg max p(𝕊|θ) , θ
bzw.
θ∗ = arg max p(Y|X, θ) , θ
(11.20)
welche die Wahrscheinlichkeit dafür maximieren, dass die beobachteten Daten durch das Modell f(s, θ ∗ ) erklärt werden können.¹ Die Konditionalverteilung p(𝕊|θ ∗ ) wird dabei als prädiktive Verteilung (engl. predictive distribution) bezeichnet. Die Lern daten 𝕊 entsprechen einer empirischen Stichprobe der unbekannten realen Daten verteilung und sind im Idealfall auch repräsentativ für diese. Die Beschreibung des Lernproblems mittels der Konditionalverteilung p(𝕊|θ) kann im weitesten Sinne mit unüberwachtem Lernen assoziiert werden. Ebenso kann die Verteilung p(Y|X, θ) mit überwachtem Lernen in Verbindung gebracht werden, wobei ein einzelnes Datum in zwei Teile zerfällt, die eigentlichen Muster X und die damit assoziierten Zielwer te Y. Diese scharfe Abgrenzung gilt nicht für alle denkbaren Lernansätze, kann aber
1 Hierbei beschreiben die Mengen X = {x 1 , . . . , x n } und Y = {y 1 , . . . , y n } die Aufteilung eines Daten satzes 𝕊 in die Menge der Eingangsmuster x i und die Menge der Zielwerte y i .
448 | 11 Grundlagen des Maschinellen Lernens
beim Aufbau einer intuitiven Interpretation spezifischer Lernprobleme sehr hilfreich sein.
11.3.1 Beispiel: Lineare Separierbarkeit Betrachtet man nun nochmals das Beispiel der logistischen Regression aus Glei chung 11.17, so kann das Skalarprodukt x⊤ w = ‖w‖2 ‖x‖2 cos α ∼ cos α
(11.21)
auch als Ähnlichkeitsmaß zwischen dem Gewichtsvektor w und dem Eingangsvektor x aufgefasst werden. Dabei werden alle Eingangsmuster anhand ihres Abstandes zu der durch w definierten Hyperebene interpretiert, wobei der Abstand zur Ebene das Merkmal (engl. Feature) der Interpretation ist. Die Begrenztheit der linearen Merk malstransformation lässt sich unmittelbar durch Betrachtung einfacher, linear nicht separierbarer Klassifikationsprobleme erkennen. Hierzu zählt das in Abbildung 11.5a dargestellte XOR-Problem, bei dem der aus vier Mustern bestehende Datensatz 𝕊 = {(0, 0|0), (0, 1|1), (1, 1|0), (1, 0|1)} klassifiziert werden soll. Wie man unmittelbar erkennen kann, existiert für diese Pro blemstellung keine Gerade im ℝ2 , welche die beiden Klassen ohne Fehler trennt. Ana log zu diesem Beispiel lassen sich leicht weitere Spielprobleme definieren, wie z. B. das in Abbildung 11.5b dargestellte Klassifikationsproblem.
(a)
(b)
(c)
Abb. 11.5: (a) Dargestellt sind die vier Datenpunkte des XOR-Problems und die mittels logistischer Regression (Gleichung 11.23) generierten Trennflächen. (b) Spielbeispiel für ein linear nicht sepa rierbares Problem und dessen Lösung. (c) Man kann hier deutlich erkennen, dass die Lösung in den Zwischenräumen unterbestimmt ist
11.3 Einführung in neuronale Netze | 449
11.3.2 Konnektionistischer Ansatz In vorhergehenden Beispielen ist die Kapazität des linearen Modells zu niedrig, um die Struktur in den gegebenen Datensätzen erfassen zu können. Zur Erhöhung der Kapazität kann man nun die Komplexität durch Schachtlung mehrerer Funktionsebe nen, den sog. Schichten (engl. Layers), x l = f l (f l−1 (. . . f1 (x, θ 1 ), θ l−1 ), θ l ) = f ̂(x, θ 1,...,l )
mit f ̂ : ℝn → ℝm
(11.22)
erhöhen. Wird die logistische Regression entsprechend y = φ sig (w ⊤ f ̂(x, θ 1,...,l ) + b)
(11.23)
modifiziert, so lassen sich linear nicht separierbare Probleme lösen. Beispiele für die dabei entstehenden Trennflächen sind in den Abbildungen 11.5a und 11.5c ver anschaulicht. Das Vorgehen für reine Regressionsprobleme ist analog dazu in Abbil dung 11.6 dargestellt. Die Tiefe eines Netzwerks definiert sich dabei über die funk tionale Schachtelungstiefe und ist somit nicht identisch mit dem Ebenenindex l aus Gleichung 11.23. Redundante Operationen, wie z. B. sich gegenseitig aufhebende Ope rationen oder die Identität, werden nicht mitgezählt. Diese funktionale Definition kann die Bestimmung der Tiefe eines gegebenen Netzwerks deutlich erschweren [77]. Hierbei muss noch angemerkt werden, dass eine Hintereinanderschaltung rein li nearer Schichten äquivalent zu einem einschichtigen linearen Netzwerk ist. Eine Erhöhung der funktionalen Tiefe kann somit nur durch Verwendung nicht linearer Aktivierungsfunktionen erreicht werden. Folgend der Vorstellung eines schichtweisen Aufbaus von Netzwerken kann man Glei chung 11.23 in eine Eingangsschicht, die verborgenen Schichten (engl. hidden layers) und eine Ausgangsschicht zerlegen. Die Eingangsschicht stellt im Wesentlichen die Muster zur Verfügung, welche durch das neuronale Netz verarbeitetet werden sollen.
(a)
(b)
(c)
Abb. 11.6: Dargestellt ist die Lösung eines Regressionsproblems aus Einzelmessungen, wobei die Kapazität des zugrunde liegenden Modells von (a) nach (c) sukzessive erhöht wurde. Aufgrund der hinreichend großen Datenmenge führt die Erhöhung der Kapazität auch zu einer Verbesserung der Approximation
450 | 11 Grundlagen des Maschinellen Lernens
(a) RGB-Bild I[:, :, :]
(b) Rotkanal I[:, :, 0]
(e) Unterabtastung I[:: 10, :: 10]
(c) Grünkanal I[:, :, 1]
(f) Bildausschnitt I[:, 115 : 415, :]
(d) Blaukanal I[:, :, 2]
(g) Achsenspiegelung I[:, :: −1, :]
Abb. 11.7: Beispiel zur Verwendung von Tensoren. (a) Beispielbild codiert als Tensor mit den drei Dimensionen Breite, Höhe und Farbkanal. (b)–(d) Reduktion des Farbbildes auf einen eindimensio nalen Tensor, welcher jeweils einen Farbkanal enthält. (e) Unterabtastung durch Verwendung jedes n-ten Pixels. (f) Horizontaler Bildausschnitt. (g) Vertauschung der Farbkanäle. Die Notation der Indi zierung ist dabei an gängige Tensorbibliotheken angelehnt und folgt nicht der üblichen mathema tischen Notation. Die Indizierung der einzelnen Dimensionen ist dabei wie folgt: ”:” alle Elemente, ”::b” alle Elemente aus dem Intervall [0, b], ”a:b” alle Elemente aus dem Intervall [a, b], ”::-1” alle Elemente in umgekehrter Reihenfolge
Aufgrund ihrer flexiblen Indizierung sowie den darauf aufbauenden effektiven Umfor mungsoperatoren, werden in der Praxis zumeist Tensoren verwendet (Abbildung 11.7), welche als Verallgemeinerung von Vektoren und Matrizen angesehen werden können. Auch wenn der Eingangsschicht keine besonderen theoretischen Eigenschaften zu kommen, werden in vielen Anwendungen hier zumeist Normalisierungs- oder andere Vorverarbeitungsschritte durchgeführt. Die verborgenen Schichten bilden eine hierarchisch fortgesetzte Transforma tion der Eingangsmuster und können im weitesten Sinne mit einer Projektion der Eingangsmuster in einen hochdimensionalen Merkmalsraum assoziiert werden. Die Ausgangsschicht bündelt und transformiert die für das Ergebnis der Verarbeitung
11.3 Einführung in neuronale Netze | 451
relevanten Informationen. In Gleichung 11.23 setzt sich die Ausgangsschicht aus der nicht linearen Aktivierungsfunktion φsig und der linearen Kombination der letzten verborgenen Schicht f ̂(.) zusammen. Die lineare Transformation in der Ausgangs schicht stellt im Wesentlichen die Randbedingung für die verborgenen Schichten auf, d. h., die Merkmalstransformation, welche in den verborgenen Schichten berechnet wird, wird durch den Lernprozess auf lineare Separierbarkeit hin optimiert. Im Ge gensatz hierzu werden bei klassischen Stützvektormaschinen (SVM) (Kapitel 11.5.2) die Transformationen in Form des Kernels fest vorgegeben und lediglich der lineare Anteil ist Teil des Lernproblems.² Die Fähigkeit, die Merkmalstransformationen ad aptiv und automatisch an ein gegebenes Problem anpassen zu können (engl. feature learning), ist eine der wesentlichen Stärken tiefer neuronaler Netze. Zu einer etwas allgemeineren Beschreibung der Netzwerkfunktion kann man gelan gen, wenn man die Funktionsweise der Ausgangsschicht als Parametrisierung einer Wahrscheinlichkeitsverteilung sieht, welche durch die verborgenen Schichten kondi tioniert wird [33]. Eine lineare Transformation in der Ausgangsschicht ohne Aktivie rungsfunktion (Gleichung 11.23) entspricht demnach einer normal verteilten Kondi tionalverteilung p(y|x) = N(y; f ̂(x, θ 1 , . . . , θ l ), I) , (11.24) deren negative Log-Likelihood − log p(y|x) wiederum der Methode der kleinsten Feh lerquadrate entspricht, diesmal aber mit komplexen Transformationen in den verbor genen Schichten³. Das gleiche Prinzip lässt sich auf das Klassifikationsproblem aus Gleichung 11.23 anwenden. Hierbei nimmt man an, dass die Ausgangsschicht die Pa rametrisierung für eine Bernoulli-Verteilung p(y) = φsig ((2y − 1)z)
(11.25)
erzeugt. Die Kostenfunktion für ein Zweiklassenproblem,⁴ − log p(y|x) = softplus((1 − 2y)f ̂(x, θ 1...l )) ,
(11.26)
kann unmittelbar über das Maximum-Likelihood-Kriterium hergeleitet werden. Die ses Beispiel lässt sich zu einem Mehrklassenproblem verallgemeinern, indem auf die gleiche Weise der Zusammenhang zwischen der Softmax-Funktion⁵ (Gleichung 11.2)
2 Hierbei sei angemerkt, dass auch Erweiterungen von SVM existieren, bei denen die Kernelfunktion als Teil der Lernaufgabe behandelt wird. Der Suchraum, durch welchen die Variabilität des Kernels festgelegt wird, ist dabei durch eine Funktionsfamilie (Hyperkernel) gegeben. 3 Man muss allerdings beachten, dass hierdurch starke Vorannahmen über die Verteilung der Daten getroffen werden. Im konkreten Anwendungsfall muss dann geprüft werden, inwieweit diese Annah men zutreffend sind. 4 Hierbei wird softplus(x) = log(1 + exp(x)) als differenzierbare Näherung der ReLU-Funktion (recti fied linear unit) x+ = max(0, x) verwendet. 5 Die Softmax-Funktion bzw. die normierte Exponentialfunktion entspricht einer genäherten diffe renzierbaren arg max-Funktion.
452 | 11 Grundlagen des Maschinellen Lernens
und einer kategorischen bzw. Multinoulli-Verteilung hergeleitet wird. Der Eingangs vektor der Ausgangsschicht z = W ⊤ h + b wird dabei auch als logits bezeichnet, wobei die Wahrscheinlichkeit für eine Klasse i durch p(y = i|x) = softmax(z)i
(11.27)
gegeben ist. Ein weiteres Beispiel sind Netzwerke zur Erzeugung von Mischwahr scheinlichkeiten (engl. mixture density networks), bei welchen die Ausgangsschicht zur Parametrisierung einer konditionalen Gauß-Mischverteilung k
p(y|x) = ∑ p(c = i|x)N(y; μ i , Σ i )
(11.28)
i=1
mit k Komponenten [35; 42] genutzt wird.
11.3.3 Backpropagation Als Ausgangspunkt zur Herleitung einer Lernregel können Standardverfahren zur nu merischen Funktionsminimierung [63] dienen. Ausgehend von einer initialen Lösung θ0 werden hierbei sukzessive Verbesserungen berechnet, welche schließlich zu der finalen Lösung θ ∗ führen. Die daraus resultierende Lernregel θ t+1 = θ t − η∇θ L(𝕊, θ t )
(11.29)
entspricht einem Gradientenabstiegsverfahren mit konstanter Schrittweite η. Hat da bei die Kostenfunktion L die Form einer Summation,⁶ so lässt sich der Gradient als Erwartungswert n
n
∇θ L(𝕊, θ) = ∇θ ∑ L(s i , θ) = ∑ ∇θ L(s i , θ) ∼ ⟨∇θ L⟩𝕊 i=1
(11.30)
i=1
ausdrücken, welcher unter Verwendung einer deutlich kleineren Stichprobe 𝕊 ⊂ 𝕊 (engl. minibatch) angenähert werden kann: ∇θ L(𝕊, θ) ≈ ∇̃ θ L(𝕊 , θ) = ⟨∇θ L⟩𝕊 ⊂𝕊
mit |𝕊 | ≪ |𝕊| .
(11.31)
Das in Abschnitt 11.2.6 beschriebene Verfahren des stochastischen Gradientenabstiegs entspricht dabei der Verwendung der Lernregel 11.29 unter Verwendung der Nähe rungsgleichung 11.31. Bei der Verwendung sehr kleiner Stichproben kann die Konver genz durch Einführung eines zeitlichen Trägheitsmoments (engl. moving average) ∇̃ θ t = (1 − ϵ)∇̃ θ t−1 + ϵ∇̃ θ L(𝕊t , θ t )
(11.32)
6 In diesem Zusammenhang sei auf die negative Log-Likelihood (Gleichung 11.7) verwiesen, welche eine Kostenfunktion in Form einer Summation darstellt.
11.3 Einführung in neuronale Netze | 453
verbessert werden, wobei t der Index des aktuellen Lernschrittes ist. Das SGD-Verfah ren ermöglicht die Aufteilung sehr großer Lerndatensätze in kleine, berechenbare Teil mengen, wodurch der gesamte Lernvorgang inkrementell und damit auch skalierbar wird. Diese Art der Aufteilung kann auch direkt auf verteilte Systeme (Cluster) über tragen werden, was die Laufzeiteffizienz des Lernvorgangs weiter verbessern kann. Der Ansatz des SGD reduziert zwar die Anzahl der Muster, welche pro Iterationsschritt betrachtet werden müssen, allerdings muss der Gradient dennoch für jeden Freiheits grad des Modells berechnet werden. Eine direkte Anwendung der Kettenregel würde zu einer erheblichen Anzahl an redundanten Funktionsauswertungen führen und ist somit schon bei kleineren Modellen nicht mehr praktikabel. Der Backpropagation-Al gorithmus (kurz Backprop) [56; 76] ist ein effizientes Verfahren zur Gradientenberech nung. Der Backpropagation-Algorithmus ist unabhängig von der eigentlichen Lernre gel, auch wenn in vielen Einführungstexten zu diesem Thema beide Aspekte als ein einheitlicher Algorithmus dargestellt werden. Der Name Backpropagation leitet sich aus den zwei Phasen des Algorithmus ab: der vorwärts gerichteten Propagierung von Eingangsmustern zur Ausgangsschicht des Netzwerks sowie der rückwärts gerichteten Propagierung der partiellen Ableitun gen von der Ausgangs- zur Eingangsschicht. Um beide Phasen einfach abbilden zu können, wird das Netzwerk in Form eines azyklischen Berechnungsgraphen (engl. computational graph) repräsentiert, wobei die Variablen durch die Knoten und die Operationen auf den Variablen durch Kanten repräsentiert werden. Die Ergebnisse der Funktionsauswertungen werden bei jeder Propagierung in den Knoten gespei chert und können somit wiederverwendet werden. Erweitert man den Berechnungs graphen um weitere Knoten und Kanten, welche die symbolischen, partiellen Ablei tungen der Operatoren beinhalten, so kann der Gradient exakt berechnet werden.⁷ In Abbildung 11.8 ist ein Beispiel zur Berechnung der logistischen Regression aus Gleichung 11.23 dargestellt. Entsprechend den beiden Phasen des Backpropagation-Algorithmus wird zuerst der Funktionsgraph (durchgezogene Kanten) aufgebaut, in welchem die Zwischen ergebnisse der Vorwärtspropagierung gespeichert werden. In einem zweiten Schritt wird der Graph aufgebaut, der zur Berechnung des Gradienten verwendet wird. Dies geschieht rückwärts, ausgehend von der Kostenfunktion bzw. deren Ergebnis L bis zur Eingangsschicht des Netzes. Dabei werden die partiellen Ableitungen aller Parameter des Netzes bezüglich L in den Graphen eingefügt. Partielle Ableitungen werden stets entsprechend des aktuellen Knotens und dessen Elternknoten bestimmt. Ein Beispiel: Den letzten Berechnungsschritt während der Optimierung stellt die Be rechnung der Kosten bzw. des Fehlers L mithilfe der Kostenfunktion L(y ̂ , y) dar, wobei
7 Dieser Ansatz wird beispielsweise in den Programmbibliotheken Theano und Tensorflow verwen det.
454 | 11 Grundlagen des Maschinellen Lernens
L
L = L(y,̂ y)
y
L
ŷ ŷ = φsig (z)
φsig
z
z=
w⊤ x
h
∂ ŷ ∂z
z
w
z
xh x h = φ h (z h )
z h = w ⊤h x wh
∗
∂L ∂z
∗ ∂z ∂w
∂z ∂x h
∂L ∂w
∗
∂L ∂x h
∗
φh
zh
x
∂L ∂ ŷ
∂x h ∂z h
zh
∂L ∂z h
∗ ∂z h ∂w h
∂L ∂w h
Abb. 11.8: Kombinierter Berechnungsgraph für ein logistisches Regressionsnetzwerks mit Kosten funktion (durchgezogene Kanten) und partielle Ableitungen (gestrichelte Kanten). Für eine über sichtlichere Darstellung wurde hierbei nur eine verborgene Schicht verwendet sowie auf Bias-Terme verzichtet
ŷ der Ausgangsschicht des neuronalen Netzes entspricht. Das heißt, im ersten Schritt wird für den Knoten ŷ ein Knoten für die partielle Ableitung ∂L bezüglich seines El ∂ ŷ ternknotens L eingefügt. Für den nächsten Knoten, z, wird dann bezüglich des Eltern ̂ knotens ŷ ein Knoten für die partielle Ableitung ∂∂zy eingefügt. Mit diesen zwei Knoten ̂
∂L ∂ y im Ableitungsgraphen kann nun zusätzlich die partielle Ableitung ∂L ∂z = ∂ ŷ ∂z bezüg lich L und z bestimmt und in den Graphen eingefügt werden. Wird diese Methodik für alle Knoten im Berechnungsgraphen des Netzes durchgeführt, entsteht der in Abbil dung 11.8 durch gestrichelte Kanten dargestellte Teilgraph zur Berechnung aller par tiellen Ableitungen. Die symbolische Darstellung der Ableitungen erlaubt neben der effizienten Berechnung von Gradienten auch die erneute Anwendung des Backpropa gation-Algorithmus zur Bestimmung höherer Ableitungen. Dies ist ein entscheidender
11.3 Einführung in neuronale Netze |
455
Vorteil dieser Darstellungsform gegenüber einer sehr viel ungenaueren numerischen Berechnung des Gradienten.
11.3.4 Numerische Stabilität und Konvergenz Die numerische Stabilität spielt bei der praktischen Anwendung insofern eine wich tige Rolle, als Überläufe, Unterläufe oder Divisionen durch null in einem sehr großen Netzwerk, welches über sehr viele Iterationen gelernt wird, nur sehr schwer nachzu verfolgen sind. Ein Beispiel hierfür wurde bereits in Gleichung 11.7 gegeben. Die Um formung des Produkts in eine Summation verhindert eine rasche Konvergenz gegen null, für den Fall, dass der Betrag der Elemente kleiner eins ist. Gleiches gilt auch für einen Überlauf bei großen Beträgen. Im Gegensatz zu Stützvektormaschinen (Abschnitt 11.5.2) beinhaltet Lernen in nicht trivialen, tiefen neuronalen Netzwerken in der Regel die Minimierung nicht konvexer Funktionen, welche meist sehr viele lokale Minima besitzen. Neben lokalen Minima stellen vor allem Plateaus in der Fehlerlandschaft eine große Herausforderung dar. Pa rameter, deren partielle Ableitung einmal zu null werden, erfahren alleine durch die Lernregel 11.29 keine Veränderung mehr. Beispielsweise ist die Sigmoidfunktion au ßerhalb eines sehr engen Dynamikbereichs konstant und ihre Ableitung somit null. Dies bedeutet, dass ein Netzwerk, welches die Sigmoide als Aktivierungsfunktion ver wendet, sehr sensibel auf die jeweilige Initialisierung reagiert und zusätzlich sehr vie le Neuronen sehr frühzeitig in der Lernphase nicht mehr veränderbar sind. Aus diesem Grund wurden speziell für tiefe neuronale Netze alternative Aktivierungsfunktionen entwickelt, welche auch in großen Netzwerken eine weitgehend robuste Konvergenz erlauben. Eine Zusammenfassung der gebräuchlichsten Funktionen ist in Tabelle 11.1 gegeben. Im Wesentlichen sind dies Variationen der PReLU-Funktion φPReLU (x, α) = max{0, x} + α min{0, x}
(11.33)
(engl. parametric rectified linear unit), wobei einige der Funktionen zusätzliche Frei heitsgrade besitzen und somit ihre Form verändern können. Hierbei muss allerdings angemerkt werden, dass die PReLU-Funktion lediglich eine mathematisch allgemei nere Beschreibung weiterer Aktivierungsfunktionen ist. Dies spiegelt somit nicht zwingend ihren Stellenwert für praktische Anwendungen wieder. All diesen Funk tionen ist gemeinsam, dass sie über weite Teile des Wertebereichs einen Gradien tenbetrag besitzen und bis auf wenige einzelne Stellen auch differenzierbar sind. In der Praxis haben die wenigen nicht differenzierbaren Stellen keine große Bedeutung. Diese Art der Ableitungsfunktionen ist ein essenzieller Baustein, welcher Lernen in tiefen neuronalen Netzen überhaupt ermöglicht. Tabelle 11.1 verdeutlicht nochmals den Unterschied zwischen klassischen Aktivierungsfunktionen und speziell in tiefen neuronalen Netzen angewandten Aktivierungsfunktionen.
456 | 11 Grundlagen des Maschinellen Lernens
Tab. 11.1: Liste gebräuchlicher Aktivierungsfunktionen mit dazugehörigen Funktions- und Ablei tungsgraphen. Maxout nimmt hierbei eine Sonderstellung ein, da sich die Aktivierungsfunktion während des Lernprozesses verändern kann, dabei aber stets konvex bleibt [34] φ(x)
φ (x)
1 1+e−x
Sigmoide
φ sig (x) =
Tangens hyperbolicus
φ tanh (x) = tanh(x) =
Hard tanh
φ htanh (x) = max(−1, min(1, x))
Parametric ReLU
φ PReLU (x, α) = max{0, x} + α min{0, x}
Exponential linear unit
φ Elu (x, α) = max(x, 0) + min(α(e x − 1), 0)
Softplus
φ(x) = log(1 + e x )
Maxout
φ max (x, θ i=1,...,n ) = maxi (f i (x, θ i ))
Absolute value rectification
|x| = φ PReLU (x, α = −1)
Rectified linear unit (ReLU)
φ ReLU (x) = φ PReLU (x, α = 0) = max{0, x}
Randomized ReLU Leaky ReLU
φ ReLU α ∼ N(μ, σ 2 ) φ PReLU (x, α ≤ 1)
e x −e−x e x +e−x
11.3.5 Regularisierung Bezogen auf tiefe neuronale Netze wird der Begriff der Regularisierung meist weiter gefasst, als dies in verwandten Disziplinen der Fall ist. Während unter Regularisie rung [82] häufig die Einbringung zusätzlicher Randbedingungen verstanden wird, existiert im Bereich tiefer neuronaler Netzwerke ein sehr viel breiteres Spektrum an
11.3 Einführung in neuronale Netze | 457
Möglichkeiten. Unter Regularisierungsansätzen werden alle Methoden, bzw. Maß nahmen zusammengefasst, welche geeignet sind, die Generalisierungsleistung eines Modells zu verbessern [33]. Regularisierung wird notwendig, wenn das Lernproblem stark unterbestimmt ist, was bei sehr komplexen Netzwerkarchitekturen meistens der Fall ist. Wird ein Netzwerk in einem unterbestimmten Fall ohne Zusatzannahmen ge lernt, so kann dies eine starke Überanpassung (engl. overfitting) an die Trainingsdaten zur Folge haben. In einem solchen Fall ist die Prädiktionsleistung auf einem Testda tensatz signifikant schlechter als die Prädiktionsleistung des gleichen Netzwerks, das auf die Trainingsdaten angewandt wird. Die Notwendigkeit zur Regularisierung ist prinzipiell kein Schwachpunkt tiefer Architekturen. Vielmehr führen in sehr vielen Anwendungsbeispielen hinreichend gut regulierte Netzwerke mit einer komplexeren Struktur zu deutlich besseren Ergebnissen als einfach strukturierte Netzwerke ohne Regulierung. Ein Beispiel für ein unterbestimmtes Problem ist in Abbildung 11.5c dar gestellt. In diesem Fall ist die Form der Trennfläche in den freien Bereichen beliebig.⁸ Methoden zur Regularisierung können sich dabei auf alle Teilbereiche eines Lern problems beziehen. Hierzu zählt die Verteilung der Trainingsdaten, die Komplexität und Struktur des Modells sowie Modifikationen der Lernstrategie und der Lernregel. Im Folgenden kann zu dem Themenbereich Regularisierung nur ein grober Überblick über die bedeutendsten Ansätze gegeben werden. Für tiefergehende Beschreibungen sei hier auf die weiterführende Literatur [33; 40; 57; 82] verwiesen. Bei der Datenaugmentierung werden einzelne Trainingsmuster mittels einer parame trierbaren Transformation verändert. Am häufigsten wird diese Methode bei der Ver arbeitung von Bildern angewandt, wobei reale Bilder mit im Bildraum beschreibba ren Transformationen⁹ verändert werden. Dies können Rotationen, Skalierungen und Verschiebungen sein, aber auch photometrische Transformationen. Durch die Aug mentierung wird die Variation der Trainingsmuster künstlich erhöht und das Netz werk gezwungen so weit möglich invariant gegenüber den präsentierten Eingangs mustern zu antworten. Additives Signalrauschen auf den Eingangsmustern kann in diesem Zusammenhang ebenfalls als Datenaugmentierung angesehen werden. Addi tives Signalrauschen spielt eine entscheidende Rolle, wenn es darum geht, robuste Repräsentationen lernen zu können. Dropout [83] ist eine sehr effektive Methode zur Regulierung. Hierbei werden die Gewichte jeweils einer Schicht des Netzwerks mit einer Binärmaske gleicher Größe multipliziert. Die Binärmaske wird in jedem Lernschritt nach einer vorgegebenen
8 Im Fall der SVM wird dies durch die zusätzliche Randbedingung des maximalen Abstands zwischen Trainingsmuster und Trennfläche regularisiert. 9 Dies sind meist planare oder punktuelle Transformationen. Variationen in Form und Geometrie kön nen dadurch nicht beschrieben werden. In aktuellen Ansätzen werden hierfür aber generative Modelle und Methoden aus der Computergrafik verwendet.
458 | 11 Grundlagen des Maschinellen Lernens
Wahrscheinlichkeitsverteilung neu besetzt. Das durch Dropout erzeugte Rauschen wird multiplikativ in die verborgenen Schichten eingebracht und nicht wie bei der Da tenaugmentierung additiv in der Eingangsschicht. Multiplikatives Rauschen mit einer Binärverteilung erlaubt das vollständige Ausblenden einzelner Pfade im Netzwerk, wodurch nicht immer das vollständige Netzwerk zur Generierung des Ergebnisses genutzt werden kann. Das Netzwerk wird dadurch gezwungen, robuste Vorhersagen basierend auf lückenhaften Informationen zu treffen. Das Abschalten einzelner Pfade in den verborgenen Schichten bedeutet, dass diese Lücken sich zum Teil auf sehr abstrakte Informationen, d. h. auf komplexere Merkmale, beziehen. Man muss hier bei allerdings beachten, dass Dropout das Netzwerk in ein probabilistisches Netzwerk umwandelt. Dies ist einfach daran zu erkennen, dass bei fixem Input in Abhängigkeit von der Binärmaske unterschiedliche Ergebnisse erzeugt werden. In diesem Sinne er zeugt das Netzwerk für ein festes Eingangsmuster eine Wahrscheinlichkeitsverteilung am Ausgang. Eine Diskussion darüber, inwieweit man die probabilistische Struktur von Dropout in der Inferenzphase berücksichtigen muss, findet sich in [33]. Parameter sharing ist eine Möglichkeit, den Konditionierungsgrad¹⁰ einzelner Para meter dadurch zu erhöhen, indem diese an unterschiedlichen Stellen des Netzwerkes wiederverwendet werden. Ein Beispiel hierfür ist die Faltungsoperation, welche im Abschnitt 12.3 noch ausführlich beschrieben wird. Bei dem in Gleichung 11.14 eingeführten Maximum-A-posteriori-Schätzer, geht der Pri or p(Θ) als additiver Strafterm (engl. penalty) L̃ = L(X, θ) + αΩ [θ]
mit
α ∈ [0, ∞)
(11.34)
in die Kostenfunktion ein. Die wohl gebräuchlichste Variante ist der Weight-DecayPrior, welcher in der Form Ω [θ] = ‖w‖22 = ∑ w2i (11.35) i
des L2 -Priors auch unter dem Begriff Tikhonov-Regularisierer oder Ridge-Regression bekannt ist. Der Gewichtungsparameter α, welcher grob die Varianz der Parameter verteilung widerspiegelt, geht hierbei als Hyperparameter in das Modell ein. Je nach Komplexität des Modells können pro Schicht auch unterschiedliche Gewichte gewählt werden, was allerdings die manuelle Wahl der Parameter erschwert. Die Regularisie rung bezieht sich hierbei auf die Gewichte w und nicht den Bias b. Die Funktionswei se des L2 -Priors wird, zumindest in einer kleinen Umgebung um ein Minimum θ ∗ , im Wesentlichen durch die Krümmung der Kostenfunktion bestimmt, w̃ j =
λj w∗ . λj + α j
(11.36)
10 Der Konditionierungsgrad beschreibt in diesem Zusammenhang die Anzahl der Trainingsmuster, welche die Veränderung eines einzelnen Parameters beeinflussen.
11.3 Einführung in neuronale Netze | 459
Dabei ist λ j der j-te Eigenwert der Hesse-Matrix¹¹ H θ∗ der Kostenfunktion. Ist die Kos tenfunktion hinreichend stark gekrümmt, d. h., ist das Minimum gut konditioniert und α hinreichend klein, so gilt α ≪ λ j und damit w̃j ≈ w∗j . Im Fall dass die Kosten funktion sehr flach ist, wird der Faktor von α dominiert und das Gewicht entsprechend verkleinert. Im Allgemeinen drückt der L2 -Term schlecht konditionierte Gewichte ge gen null. Analog zur Definition des L2 -Regularisierers ist der L1 -Regularisierer durch Ω [θ] = ‖w‖1 = ∑ |w i |
(11.37)
i
gegeben. Trotz der formalen Ähnlichkeit ist die Wirkungsweise des L1 -Regularisierers sehr unterschiedlich zu der des L2 -Regularisierers. Betrachtet man wieder eine Nähe rungslösung, so gilt w̃ j = sign(w∗j ) max {|w∗j | −
α , 0} . H j,j
(11.38)
Für den Fall, dass w∗j ≤ Hαj,j ist, ist der regularisierte Gewichtswert w̃ j = 0. Aus diesem Grund wird die L1 -Regularisierung auch mit dem Begriff Sparsity, d. h. Codierungen bei denen viele der Elemente identisch null sind, in Verbindung gebracht. Bei komplexen Netzwerken wird der Gradient während der Lernphase in der Regel nicht identisch null werden. Aus diesem Grund gibt es kein objektives Abbruchkrite rium der Lernphase. Wird die Lernphase allerdings deutlich vor der Konvergenz ab gebrochen, so spricht man von early stopping, eine im Grunde sehr einfache Regu larisierungsstrategie. Im einfachsten Fall wird der Lernvorgang abgebrochen, wenn der Trainingsfehler und der auf einem zusätzlichen Verifikationsdatensatz berechnete Fehler auseinanderdriften (Abschnitt 11.6.6). In ähnlicher Weise besitzt auch der SGDAnsatz (Gleichung 11.31) eine regulierende Wirkung, da insbesondere bei kleineren Batchgrößen die Gradientenrichtung bis zu einem gewissen Grad randomisiert wird. Dies verhindert eine vorzeitige Konvergenz in ein lokales Minimum. Unter bestimm ten, vereinfachenden Annahmen ist es möglich, formale Zusammenhänge zwischen early stopping und der L1 , bzw. L2 -Regularisierung herzustellen [33]. Die Verwendung des Regularisierers führt zu der Einführung neuer Modellparameter, sog. Hyperparameter , welche streng genommen nicht als Teil des Modells angesehen werden, da sie ausschließlich zum Lernen genutzt werden, in der Inferenzphase aber keine Rolle mehr spielen. Wie man anhand der Gleichungen 11.36 und 11.38 erkennen kann, hängt die Lösung sehr stark von der Wahl der Hyperparameter ab. Die automati sche Bestimmung von Hyperparametern ist ebenfalls Forschungsgegenstand und be trifft hierbei vor allem die Frage nach dem idealen Modell, d. h., sie ist ein Problem der Modellselektion (Abschnitt 11.6.6). 11 Die Elemente der Hesse-Matrix sind die zweiten partiellen Ableitungen der Kostenfunktion. Ihre Eigenwerte und ihre Eigenvektoren beschreiben dabei die Krümmung der Fehlerfläche in unterschied lichen Richtungen des Suchraums.
460 | 11 Grundlagen des Maschinellen Lernens
11.3.6 Netzwerktypen und Lernprobleme Die bisherigen Betrachtungen bezogen sich ausschließlich auf deterministische Netz werke mit vorwärts gerichtetem Informationsfluss (engl. feed-forward networks), wobei die Erweiterung des einfachen Perzeptrons auf ein mehrschichtiges, tiefes Netzwerk (multilayer perceptron, MLP) den Schwerpunkt bildeten. Ausgehend hier von lassen sich weitere Typen von Netzwerken unterscheiden, wobei die Typisierung sich sowohl auf einzelne Modellneuronen, Schichten von Neuronen und das gesamte Netzwerk beziehen kann. Hierzu zählen: 1. Vorwärtsgerichtete, vollverknüpfte Verbindungen (engl. fully connected layers), wie sie zur Konstruktion des mehrschichtigen Perzeptrons (engl. multilayer per ceptron) genutzt werden. 2. Rekurrente Verbindungen, bei denen der Ausgang auf den Eingang rückgekop pelt wird. Dies beinhaltet auch Neuronen, welche einen internen Zustand besit zen, durch welchen die Erregungsdynamik beeinflusst wird. Architekturen dieser Form spielen bei der Modellierung von Zeitreihen eine große Rolle und werden in Abschnitt 12.4 noch ausführlich besprochen. 3. Verbindungen bei denen die Erregungsdynamik vom Eingangsmuster bzw. ande ren variablen Größen abhängig ist (engl. gated neurons). Diese Form wird häu fig in Kombination mit der rekurrenten Verknüpfung verwendet.¹² Zu beachten ist allerdings, dass Erregungsdynamiken wie Maxout hier nicht zählen, da deren Erregungsdynamik lediglich während der Lernphase angepasst wird und in der Inferenzphase unveränderlich bleibt. 4. Neurone, deren Dynamik durch eine Wahrscheinlichkeitsverteilung bestimmt ist (probabilistische Neurone). Ein Beispiel hierfür wurde bereits bei der Ver wendung von Dropout diskutiert. Probabilistische Neurone bzw. probabilistische neuronale Netzwerke werden meist zur Modellierung stochastischer Prozesse oder auch zur Modellierung komplexer Verbundwahrscheinlichkeiten genutzt. Ihre Struktur kann wiederum in Form eines Graphen dargestellt werden, welcher stochastische Abhängigkeiten zwischen Zufallsvariablen formalisiert¹³ [3; 57]. Abschließend sei noch angemerkt, dass die Definition einer neuronalen Architek tur beliebige Kombinationen dieser Bausteine enthalten kann. In Ergänzung zu der funktionalen Typisierung können Netzwerke auch anhand der Funktion unterschie den werden, welche sie erfüllen. Die wesentlichsten Lernaufgaben bzw. funktionalen Netzwerktypen sind: 1. Regressionsnetzwerke, welche die Vorhersage von numerischen Werten anhand von Eingangsmustern erzeugen. Ein Beispiel für Regression ist das Lernen funk tionaler Zusammenhänge, wie beispielsweise in Abbildung 11.6 dargestellt. Hier 12 Ein Beispiel hierfür ist die LSTM-Zelle, welche in Abschnitt 12.4.5 ausführlich beschrieben wird. 13 Dieser Graph darf nicht mit dem Berechnungsgraphen aus Abschnitt 11.3.3 verwechselt werden.
11.4 Lernen von Regeln und logischen Zusammenhängen | 461
2.
3.
zu zählen aber auch Anwendungen die unter dem Begriff strukturierte Ausgaben (engl. structured output) zusammengefasst werden, wie z. B. die Bestimmung von Objektkonturen, bei denen ein Bildausschnitt als Eingabe und ein Linienzug als Ausgabe verwendet wird. Klassifikationsnetzwerke, welche Abbildungen von Eingangsmustern in eine dis krete Menge von Klassenindizes berechnen. Klassifikationsprobleme wurden be reits anhand der logistischen Regression diskutiert. Hierbei ist anzumerken, dass in der Lernphase das Klassifikationsproblem auf ein Regressionsproblem zurück geführt wird, da diese Art der Kostenfunktion numerisch sehr robust ist. Klassi fikation bedeutet in diesem Zusammenhang das Treffen einer Entscheidung an hand der kontinuierlichen Ausgangsverteilung. Assoziationsnetzwerke, d. h., Netzwerke, welche basierend auf einem Eingangs muster, ein Muster als Ausgabe erzeugen. Im Gegensatz zur Klassifikation kön nen diese Netzwerke zur Wiedererkennung bzw. Identifikation einzelner Muster verwendet werden. In diesem Zusammenhang werden Assoziationsnetzwerke auch zur Ergänzung fehlender Informationen, wie z. B. fehlender Bildbereiche, genutzt. Sogenannte Autoencoder, d. h., Netzwerke, welche ein Eingangsmus ter am Ausgang reproduzieren müssen, werden häufig dazu genutzt, effiziente Codierungen zu lernen, welche in den verborgenen Schichten enthalten sind. Die Funktionsweise von Assoziationsnetzwerken kann dabei auch zur Synthese von Mustern verwendet werden, welches im Rahmen der generativen Modelle in Abschnitt 12.5 noch erläutert wird.
11.4 Lernen von Regeln und logischen Zusammenhängen Regelbasiertes Maschinelles Lernen ist eine allgemeine Bezeichnung für jede maschi nelle Lernmethode, die „Regeln“ zur Repräsentation der Zusammenhänge in Daten lernt. Typischerweise haben Regeln die Form Wenn Bedingung dann Ergebnis. Ein Beispiel ist Wenn rot und Achteck dann Stoppschild. In Kapitel 5 werden Methoden diskutiert, durch welche man aus Fakten und Regeln Schlussfolgerungen mithilfe lo gischer Formalismen ableiten kann. Häufig aber sind Regeln für ein Anwendungsproblem nicht bekannt und müssen erst formuliert werden. Ziel ist es, eine Menge von Regeln aus den verfügbaren Da ten zu bestimmen, die zusammen das vom System erfasste Wissen darstellen. Im Ge gensatz zu linearen Modellen oder neuronalen Netzen, die alle Eingangsvariablen auf komplexe Art miteinander verrechnen, können Regeln einzeln interpretiert und beur teilt werden und bilden die modulare Grundlage eines Modells. In diesem Abschnitt werden zwei unterschiedliche Arten von regelorientierten statistischen Modellen betrachtet. Das eine sind Entscheidungsbäume mit Regeln, die in einer einfachen Baumstruktur angeordnet sind. Diese Art von Modellen kann aus Daten abgeleitet werden und sind auch für Laien leicht verständlich. In letzter Zeit
462 | 11 Grundlagen des Maschinellen Lernens
wurden hier neue Varianten entwickelt, die wesentlich bessere Prognoseeigenschaf ten haben und mittlerweile zu den bevorzugten Modellen der Data Scientists gehö ren [46]. Die andere Art von Modellen verwendet Aussagen- und Prädikatenlogik, um kom plexe strukturelle Beziehungen von Aussagen in Form von Wenn-Dann-Regeln zu er fassen. Ziel ist es, eine Sammlung von Regeln aus Daten abzuleiten, welche einen Teil oder alle wesentlichen Relationen in den Daten abdecken. Eine umfassende Darstel lung der klassischen Ansätze, die direkt logische Regeln lernen, findet sich in [28]. Logikbasierte Ansätze (Kapitel 5) können jedoch sehr empfindlich gegenüber Unsi cherheiten in den verfügbaren Daten und Störungen in den ausgedrückten Relatio nen sein. Man kann den Anwendungsbereich der logischen KI ausweiten, indem man unterstellt, dass Fakten und die Konsequenzen von Regeln mit einer gewissen Wahr scheinlichkeit eintreten, wie z. B. bei probabilistischen grafischen Modellen (Kapi tel 8). Als Alternative kann man annehmen, dass prädikatenlogische Aussagen und Implikationen nur mit einer gewissen Wahrscheinlichkeit gelten. Genau diesen An satz verfolgen Markov-Logik-Netze [19], die dann im Rest des Abschnitts dargestellt werden.
11.4.1 Entscheidungsbäume Ein Entscheidungsbaum ist ein Vorhersagemodell [9] mit einer ganz bestimmten Struk tur. Er besteht aus Knoten, in denen jeweils eine Entscheidung aufgrund der Attribut werte eines Eingabevektors getroffen wird. Der Entscheidungsbaum in Abbildung 11.9
Abb. 11.9: Ein Baum, der das Überleben der Passagiere auf der Titanic prognostiziert. Der Beginn des Baumes liegt oben. Abhängig von den Werten des Eingabevektors verfolgt man einen Pfad durch den Knoten des Baumes und gelangt zu einem Blatt. Die Zahl in den Blättern zeigt die prognostizier te Überlebenswahrscheinlichkeit
11.4 Lernen von Regeln und logischen Zusammenhängen |
463
ist von oben nach unten zu lesen. Um das Überleben eines Passagiers auf der Titanic zu prognostizieren, muss man zunächst die Frage im obersten Knoten beantworten („Ist der Passagier männlich?“). Falls „ja“ verfolgt man den linken Zweig weiter, falls „nein“ den rechten. Gelangt man zu einem weiteren Frageknoten, so beantwortet man die jeweilige Frage und wählt den entsprechenden Zweig. Dadurch gelangt man zu ei nem neuen Knoten, wo die nächste zu prüfende Frage wartet usw. Schließlich gelangt man zu einem Blattknoten, in dem keine weitere Frage, sondern eine Prognose für den Wert der Zielvariablen steht. Ist die Zielvariable diskret, so handelt es sich um einen Klassifikationsbaum. Wie in unserem Beispiel in Abbildung 11.9 kann auch die Wahr scheinlichkeit einer Klasse prognostiziert werden, z. B. die Wahrscheinlichkeit, dass der Passagier auf der Titanic überlebt. Wird eine kontinuierliche Variable prognosti ziert, z. B. die Temperatur von morgen, so spricht man von einem Regressionsbaum. 11.4.1.1 Kriterium für die Auswahl der Knoten Wir gehen nun davon aus, dass wir eine Trainingsmenge von n Instanzen 𝕊train = {(x(1) , y(1) ), . . . , (x(n) , y(n) )} haben, die statistisch unabhängig generiert wurden, und definieren X = {x(1) , . . . , x(n) } und Y = {y(1) , . . . , y(n) }. Betrachtet man die Knoten ei nes Baumes, so entspricht jeder Knoten einer Teilmenge R j ⊆ X der Menge aller Trai ningseingaben. Die jeweils untersten Knoten eines Baumes bilden eine Zerlegung von X = ⋃m j=1 R j mit R i ∩ R j = 0 falls i ≠ j. Der Einfachheit halber prognostiziert man in nerhalb eines Knotens die Zielvariable durch einen konstanten Wert bzw. die Klasse durch eine konstante Wahrscheinlichkeitsverteilung über die Klassenwerte. Nach dem Maximum-Likelihood-Verfahren (Abschnitt 11.2.3) sollte man die Para meter θ eines Modells so wählen, dass die Wahrscheinlichkeit der kompletten Trai ningsmenge nach Gleichung 11.5 maximal ist p(Y|X, θ) =
∏
p(y|x; θ) .
(11.39)
(x,y)∈𝕊train
Die Parameter θ des Entscheidungsbaumes beschreiben einerseits die Bildung der Zerlegung R1 , . . . , R m und andererseits die prognostizierten Werte c j der Zielvaria blen in den R j . Ein Klassifikationsbaum prognostiziert die Wahrscheinlichkeit der Klassen der Zielvariablen innerhalb eines Knotens durch eine konstante Wahrscheinlichkeitsver teilung. Die relative empirische Häufigkeit p̂ jk =
1 ∑ I(y i = k) N j x ∈R i
(11.40)
j
von Klasse k in Region R j mit N j Trainingsinstanzen ist gerade der Maximum-Likeli hood-Schätzwert für die Klassenwahrscheinlichkeiten p̂ j der Zielvariablen in den R j [7, 441 f]. Verwendet man dieses Modell in Gleichung 11.5, so ergibt sich p(Y|X, θ) = N j p̂ jk
K ∏m j=1 ∏ k=1 p̂ jk
als Wahrscheinlichkeit der kompletten Trainingsmenge. Wendet
464 | 11 Grundlagen des Maschinellen Lernens man, wie in Abschnitt 11.2.3, darauf den Logarithmus an und multipliziert mit −1, so erhält man K
− log(p(Y|X, θ)) = ∑ N j [ ∑ −p̂ jk log(p̂ jk )] . Rj
(11.41)
k=1
Dies ist die Verlustfunktion, die bei der Bildung des Baumes minimiert werden soll te. Der Ausdruck in [⋅] wird auch als Kreuzentropie bezeichnet. Es gibt noch weite re Verlustfunktionen für die Auswahl der Teilmengen, z. B. den Gini-Index oder den Fehlklassifikationsfehler [39, S. 309]; die Kreuzentropie wird aber am häufigsten ver wendet. 11.4.1.2 Sukzessive Bildung der Knoten des Baumes Es ist nun wegen des exponentiellen Aufwandes unmöglich, alle Zerlegungen des Ein gabebereichs zu erzeugen. Daher wird eine schrittweises, gieriges (greedy) Vorgehen gewählt. Sei {R1 , . . . , R m } die aktuelle Zerlegung von 𝕏. Zu Beginn besteht sie nur aus einem Element R1 = 𝕏. Es werden nun ineinander geschachtelte Schleifen über alle aktuellen Regionen R j , über alle Eingabevariablen x i sowie deren Werte x i,s in R j ausgeführt. Innerhalb dieser Schleifen werden folgende Anweisungen ausgeführt: –
Zerlege R j in die Teilmengen R j,0 = {x ∈ R j |x i ≤ x i,s }
– –
R j,1 = R j \ R j,0 .
(11.42)
Berechne neue Schätzwerte für die Klassenverteilungen p̂ j in den beiden Teilmengen. Berechne − log(p(Y|X, θ)) für die neue Zerlegung, in der R j durch R j,0 und R j,1 ersetzt wurde.
Anschließend wird R j gemäß derjenigen Variablen x i und deren Wert x i,s in zwei Teil mengen zerlegt, bei der sich der kleinste Wert von − log(p(Y|X, θ)) ergeben hat. Die se beiden Teilmengen ersetzen R j in der Zerlegung {R1 , . . . , R m }. Hierdurch wächst die Anzahl der Teilmengen in der Zerlegung um eins, und es wird ein neuer Knoten des Entscheidungsbaumes gebildet. Dieses Vorgehen wird so lange fortgeführt, bis die Werte der Zielvariablen in allen R j identisch sind oder eine vorgegebene Mindestan zahl unterschreiten. Ein Regressionsbaum prognostiziert die kontinuierliche Zielvariable y innerhalb einer Region R j durch einen konstanten Wert. Unterstellt man als Wahrscheinlich keitsverteilung eine Normalverteilung mit fester Varianz σ 2 , so erhält man als Verlust funktion den Kleinstquadratverlust (11.8) L(𝕊train , θ) =
1 ∑ |𝕊train | (x,y)∈𝕊
2
(f(x; θ) − y) .
(11.43)
train
Der Mittelwert der Beobachtungen ŷ j = N1j ∑x i ∈R j y i ist gerade der Maximum-Likeli hood-Schätzwert f(x, θ)̂ für den zu prognostizierenden Wert in R j . Dies definiert die Verlustfunktion, für die analog der vorigen gierigen Verfahren (Gleichung 11.42) ein Regressionsbaum bestimmt wird.
11.4 Lernen von Regeln und logischen Zusammenhängen |
465
11.4.1.3 Pruning zur Reduktion der Baumgröße Die empfohlene Strategie zur Bestimmung eines Baumes ist es, einen großen Ent scheidungsbaum zu erzeugen, bis jeder Knoten eine konstante Prognose besitzt oder nur noch wenige (z. B. fünf) Trainingsinstanzen umfasst. Dann wird ein Pruning (Be schneiden) des Baumes durchgeführt, um die Prognoseleistung zu verbessern [39, S. 308]. Dies geschieht, indem man sukzessive die Blätter eines Knotens entfernt und diesen selbst zu einem Blatt macht. Für Regressionsbäume kann man folgendes Kri terium definieren m
C α (T) = ∑ ∑ (y i − ŷ j )2 + αm ,
(11.44)
j=1 x i ∈R j
wobei m die Anzahl der Blätter des Baumes ist und α ein Hyperparameter. Das Pruning des Baumes wird so durchgeführt, dass dieses Kostenkriterium minimiert wird. Den Parameter α kann man z. B. durch Kreuzvalidierung bestimmen (Abschnitt 11.6.2). Gegenüber anderen Modellen des Maschinellen Lernens haben Entscheidungs bäume eine Reihe von Vorteilen: (i) Die Funktionsweise eines Baumes ist auch für Laien leicht verständlich und kann grafisch veranschaulicht werden. (ii) Entschei dungsbäume benötigen kaum Vorverarbeitung der Daten und sind auf kontinuierli che und diskrete Ein- und Ausgabemerkmale anwendbar. (iii) Sie können auf sehr große Datenbestände angewendet werden und haben eine eingebaute Merkmals selektion. Allerdings gibt es auch einige Nachteile gegenüber anderen Ansätzen. (i) Bei spielsweise kann eine kleine Änderung in den Daten eine große Veränderung der Struktur des Entscheidungsbaumes bewirken. (ii) Es können sehr große Entschei dungsbäume konstruiert werden, bei denen Überanpassung (Abschnitt 11.3.5) ein Problem ist. Hier helfen z. B. Pruning oder die im nächsten Abschnitt beschriebenen Techniken. (iii) Der wichtigste Nachteil wird aber deutlich, wenn die Ausgabevaria ble y von vielen Eingabevariablen x i gleichzeitig beeinflusst wird. Durch die rekursive Zerlegung der Trainingsmenge werden die Trainingsmengen für die Knoten nach wenigen Aufteilungen sehr klein, sodass die restlichen x i nicht mehr berücksichtigt werden können. Die nachfolgend beschriebenen Varianten des Entscheidungsbau mes bieten eine Lösung für dieses Problem.
11.4.2 Random Forest Entscheidungsbäume mit vielen Knoten neigen dazu, sehr unregelmäßige Muster zu trainieren: Sie passen sich an die Details der Trainingsdaten an, haben also eine ge ringe Verzerrung (bias), aber eine hohe Varianz. Random Forests bilden Mittelwerte aus vielen tiefen Entscheidungsbäumen, die auf unterschiedlichen Teilmengen der Trainingsdaten trainiert werden [8]. Durch die Mittelwertbildung wird die Varianz der Prognose verringert. Dies geht zulasten einer geringfügigen Erhöhung der Verzerrung, erhöht jedoch im Allgemeinen die Qualität der Prognose erheblich.
466 | 11 Grundlagen des Maschinellen Lernens
Ein Random Forest (Abbildung 11.10) besteht aus einer Anzahl von Entschei dungsbäumen. Für jeden Entscheidungsbaum wird nach der Vorgabe des BootstrapVerfahrens aus Abschnitt 11.6.7.1 eine Bootstrap-Stichprobe Z b vom Umfang N mit Zurücklegen zufällig aus den Trainingsdaten 𝕊train gezogen. Hierbei ist N die An zahl der Trainingsinstanzen. Dies bedeutet, dass ca. 33 % der Trainingsinstanzen nicht in Z b auftauchen, dafür aber andere doppelt oder mehrfach. Anschließend wird analog zu Gleichung 11.42 aus Z b ein Entscheidungsbaum T b bestimmt [39, S. 588]. Gegeben: Trainingsdaten 𝕊train vom Umfang N; Anzahl der Bootstrap-Stichproben B; maximale Anzahl der Elemente pro Region n min ; Anzahl der zu verwendenden Eingabemerkmale m 1. For b = 1, . . . , B (a) Ziehe eine Bootstrap-Stichprobe Z b vom Umfang N mit Zurücklegen aus den Trainings daten. (b) Bilde einen Entscheidungsbaum T b aus den Daten Z b , indem rekursiv folgende Schrit te für jede Region R j wiederholt werden bis alle R j weniger als n min Instanzen überde cken. i. Wähle m Variable zufällig aus den aus den vorhandenen r Eingabevariablen x = (x1 , . . . , x r ) aus. ii. Wähle eine Variable x i und einen Splitpunkt x is aus den m vorausgewählten Va riablen gemäß (11.42) aus. iii. Teile R j analog zu (11.42) in zwei Teilmengen auf und berechne das Verlustkriteri um. 2. Gib das Ensemble der Entscheidungsbäume {T b }1B aus.
Im Gegensatz zu normalen Entscheidungsbäumen werden vor jedem Split m ≤ r aus den vorhandenen r Eingabemerkmalen ausgewählt und nur für diese Merkmale ein Split berechnet. Ein typischer Wert ist m = √r. Zur Prognose wird für eine neue Eingabe x die Prognose für sämtliche Entschei dungsbäume T b berechnet. Bei einem Klassifikationsbaum bestimmt jeder Baum die Klasse mit der höchsten Wahrscheinlichkeit. Die gemeinsame Prognose ist dann die jenige Klasse, die am häufigsten prognostiziert wurde. Bei Regressionsbäumen wird der Mittelwert der Einzelprognosen verwendet. Random Forests haben in den meisten Anwendungen bessere Ergebnisse als Ent scheidungsbäume, weil sie eine automatische Regularisierung durchführen. Hastie et al. [39, S. 589] demonstrieren dies in vielen Beispielen und geben Hinweise zur prak tischen Anwendung. Laut einer weltweiten Umfrage von Kaggle [46] sind Entschei dungsbäume und Random Forests nach der linearen oder logistischen Regression die am meisten verwendeten Modelle bei professionellen Data Scientists.
11.4 Lernen von Regeln und logischen Zusammenhängen |
467
Abb. 11.10: Ein Random Forest besteht aus einer Reihe von Entscheidungsbäumen, die auf jeweils zufällig modifizierten Trainingsmengen trainiert wurden. Bei einer Prognose werden für eine neue Eingabe die Ausgaben berechnet. Dies sind in der Abbildung unterschiedliche Wahrscheinlichkeiten von Klassen. Diese Wahrscheinlichkeiten werden dann aggregiert und ggf. eine Mehrheitsentschei dung getroffen
11.4.3 Gradient-Boosted Tree AdaBoost, kurz für Adaptive Boosting, ist ein Algorithmus für Maschinelles Ler nen [26]. Er kann in Verbindung mit vielen anderen Arten von Lernalgorithmen verwendet werden, um deren Leistung zu verbessern und wird daher als Metaal gorithmus bezeichnet. Grundalgorithmus ist ein „schwaches“ Modell y = h(x) mit geringer Prognosegenauigkeit, z. B. ein Entscheidungsbaum mit einem Knoten. Es werden sukzessive neue Modelle h i (x) zugunsten derjenigen Instanzen optimiert, die von früheren Klassifizierern falsch klassifiziert wurden. Hierzu erhalten diese Instanzen ein höheres Gewicht. Der endgültige Klassifikator ist dann eine gewichte te Summe α 1 h1 (x) + ⋅ ⋅ ⋅ + α k h k (x). Hastie et al. [39, S. 339] erklären die Details des Verfahrens. Solange die Genauigkeit jedes einzelnen Teilmodells etwas höher ist als das zufällige Erraten, kann nachgewiesen werden, dass das endgültige Modell die Prognosegenauigkeit wesentlich verbessern kann. Entscheidungsbäume sind wegen ihrer Konstanz auf den Blättern ungenau und daher oft nicht direkt für die Prognose geeignet. Das Boosting von Entscheidungsbäu men verbessert deren Genauigkeit oft dramatisch. Gleichzeitig werden die meisten ih rer wünschenswerten Eigenschaften für die Prognose erhalten, bis auf die Interpre tierbarkeit. Allerdings ist AdaBoost nicht robust gegenüber überlappenden Klassen verteilungen und Fehlern in den Trainingsdaten. Ein Gradient-Boosted Model (GBM) ist eine Verallgemeinerung des Boosting-Ansatzes, der versucht, diese Probleme zu mindern.
468 | 11 Grundlagen des Maschinellen Lernens
Gradient Boosting kann als ein Gradientenabstieg im Funktionsraum betrachtet werden. Hier werden die „schwachen“ Modelle h selbst als „Variable“ betrachtet, de ren linearer Effekt auf die Verlustfunktion bestimmt wird. Ziel ist es, die Prognose suk zessive durch eine Summe schwacher Modelle h j ∈ H zu bestimmen M
̂ F(x) = ∑ γ j h j (x) + const .
(11.45)
j=1
Sei L(y, F(x)) eine differenzierbare Verlustfunktion, z. B. der mittlere quadratische Ab stand. Für die Trainingsmenge von n unabhängigen und identisch verteilten (i.i.d.) Instanzen 𝕊train = {(x(1) , y(1) ), . . . , (x(n) , y(n) )} wird F0 (x) als konstante Funktion de finiert. Anschließend wird definiert n
F m (x) = F m−1 (x) + arg min [ ∑ L (y(i) , F m−1 (x(i) ) + h m (x(i) ))] . h m ∈H
(11.46)
i=1
Allerdings ist die Suche der besten Funktion h m für eine beliebige Verlustfunktion nur sehr schwierig zu berechnen. Daher löst man eine linearisierte Version des Problems durch Betrachtung der Gradienten. 1. 2.
Initialisiere F0 (x) als konstante Funktion F0 (x) = arg minγ ∑ni=1 L(y(i) , γ) . For m = 1 to M: (a) Für i = 1 to n berechne die sog. Pseudoresiduen (i)
rm = − [
∂L(y(i) , F m−1 (x (i) )) ] . ∂F m−1 (x (i) )
(11.47) (i)
3.
(b) Verwende die Pseudoresiduen als Trainingsmenge, d. h., {(x (i) , r m )}ni=1 und optimiere das schwache Modell r = h m (x). (c) Bestimme den Faktor γ m durch folgendes eindimensionale Optimierungsproblem: γ m = arg minγ ∑ni=1 L (y(i) , F m−1 (x (i) ) + γh m (x (i) )) . (d) Definiere das neue Modell: F m (x) = F m−1 (x) + γ m h m (x). Gib F M als Ergebnis aus.
Die Gradienten können für verschiedenen Verlustfunktionen berechnet werden [39, S. 360], z. B. den Gradienten y(i) − F(x i ) für den quadratischen Verlust L(y(i) , F m−1 (x i )) bei einem Regressionmodel. Bei der Klassifikation ist der Gradient I(y = k) log p k (x) für den multinomialen Cross-Entropy-Verlust L(y, p(x)) = − ∑Kk=1 I(y = k) log p k (x). Hier ist I(y = k) = 1, falls y = k und 0 sonst. Die Anzahl der terminalen Knoten in dem schwachen Modell ist ein Hyperparame ter. Er bestimmt den Grad der Interaktion zwischen den Eingabemerkmalen, den das schwache Modell erfassen kann. Bei nur zwei Blättern wird keine Interaktion erfasst, bei drei Blättern können Interaktionen zwischen zwei Merkmalen repräsentiert wer den usw. Hastie et al. [39, S. 361] bemerken, dass Bäume mit vier bis acht terminalen Knoten im Allgemeinen gute Ergebnisse erzielen. Sie geben viele weitere praktische Hinweise, z. B. auch zur Regularisierung der Modelle.
11.4 Lernen von Regeln und logischen Zusammenhängen | 469
Bei einem Vergleich der Prognosegenauigkeiten von Gradient Boosting und Ran dom Forests zeigte sich [39, S. 589 ff], dass für viele Trainingsdaten Gradient Boosting vorne liegt. Eine Erhebung von Kaggle [46] hat ergeben, dass Gradient Boosting das dritthäufigste Verfahren ist, welches von professionellen Data Scientists verwendet wird.
11.4.4 Markov-Logik-Netze Statistical Relational Learning (SRL) betrachtet Modelle in Anwendungsbereichen, in denen strukturelles Wissen über die Abhängigkeitstruktur von Variablen gegeben ist und andererseits Zusammenhänge in Teilen nur mit Wahrscheinlichkeit gelten. Zu dem sind Daten verfügbar, mit denen das Modell trainiert werden kann [17; 32]. Damit kombiniert ein SRL-Modell probabilistisches Schließen, Prädikatenlogik und Maschi nelles Lernen (Abbildung 11.11). In den letzten Jahren wurden viele Formalismen und Modellvarianten für SRL entwickelt, welche umfassend von [48; 70] dargestellt wur den. Hier können nur wenige wichtige Ansätze beschrieben werden.
Abb. 11.11: Statistical Relational Learning (SRL) modelliert Anwendungen, in denen es zum einen strukturelles Wissen über den Zusammenhang von Variablen gibt, zum anderen aber Fakten und Konsequenzen nur mit Wahrscheinlichkeit gültig sind. Weiterhin gibt es Daten, mit denen Modelle durch Maschinelles Lernen bestimmt werden können
Markov-Logik [19] ist eine einfache, aber leistungsstarke Verallgemeinerung von Prä dikatenlogik (Abschnitt 5.3) und probabilistischen grafischen Modellen (Abschnitt 8.2), die es ermöglicht, die besten Ansätze der logischen und der statistischen KI zu integrieren. Eine Menge von Formeln der Prädikatenlogik kann als eine Reihe harter Randbedingungen für die Menge möglicher Welten angesehen werden: Wenn eine
470 | 11 Grundlagen des Maschinellen Lernens
mögliche Welt auch nur eine Formel verletzt, hat diese Welt die Wahrscheinlichkeit von null. Die Grundidee in der Markov-Logik besteht darin, diese Einschränkungen abzumildern: Wenn eine mögliche Welt gegen eine Formel verstößt, ist diese weni ger wahrscheinlich, aber nicht unmöglich. Je weniger Formeln eine mögliche Welt verletzt, desto wahrscheinlicher ist sie. Jeder Formel ist ein Gewicht zugeordnet, das angibt, wie stark eine Einschränkung ist: Je höher das Gewicht, desto größer ist der Unterschied in der logarithmischen Wahrscheinlichkeit zwischen einer Welt, die die Formel erfüllt, und einer Welt, die dies nicht tut. Sind alle Gewichte unendlich, so reduziert sich die Markov-Logik auf die Prädikatenlogik. Ein Markov-Logik-Netz (MLN) ist eine Menge von Paaren (F i , w i ) aus einer For mel F i der Prädikatenlogik und einer reellen Zahl w i , welche die Plausibilität von F i angibt. Beispielsweise bilden folgende beiden Formeln ein MLN: – –
1.5: 1.1:
∀x IstRaucher(x) ⇒ HatKrebs(x) , ∀x,y Befreundet(x, y) ⇒ (IstRaucher(x) ⇔ IstRaucher(y)) .
Die darin enthaltenen Prädikate IstRaucher(x), HatKrebs(x) und Befreundet(x, y) kann man nun auf die Konstanten der Domäne anwenden. In unserem Beispiel sind das die Personen Anna und Bob (kurz A und B). Im Allgemeinen kann ein Prädikat nur auf Konstanten mit einem vorgegebenem Typ (Personen, Krankheit etc.) angewen det werden. Instanziiert man die Prädikate mit den möglichen Konstanten, so erhält man k elementare Aussagen (Grundatome), die zusammen die möglichen Welten be schreiben (Abbildung 11.12). Jedes Grundatom kann entweder zutreffen oder nicht zu treffen. Es wird nun ein Vektor x = (x1 , . . . , x k ), x i ∈ {0, 1} gebildet, sodass x i = 1, falls das i-te instanziierte Prädikat zutrifft und x i = 0 sonst.
Abb. 11.12: Ersetzt man in den Prädikaten IstRaucher(x), HatKrebs(x) und Befreundet(x, y) die Variablen durch die Konstanten A und B (grounding), so erhält man die Aussagen. Je nachdem, ob diese wahr oder falsch sind, definieren diese die möglichen Welten
Die Formeln des MLN können wir ebenfalls auf die Konstanten anwenden und erhal ten zu jeder Formel F i ∈ F des MLN ein oder mehrere Grundformeln F̂ i,j ∈ G. Man kann dann für ein gegebenes x überprüfen, ob F̂ i,j für x gilt. Dann bezeichnet man die An
11.4 Lernen von Regeln und logischen Zusammenhängen | 471
zahl dieser gültigen Grundformeln zu F i für x als n i (x). Die Gewichte w i definieren nun die Wahrscheinlichkeitsverteilung der möglichen Welten auf folgende Art [20] p(x) =
1 1 exp ( ∑ w i n i (x)) = exp ( ∑ Z Z i;F ∈F ̂ i
̂ (x)) , w i f i,j
(11.48)
i,j; F i,j ∈G
̂ (x) = 1 falls F̂ i,j für x gilt und f i,j ̂ (x) = 0 sonst. Z ist eine Konstante, die wobei f i,j ̂ (x) meist nur von die Summe Wahrscheinlichkeiten auf eins normalisiert. Da die f i,j wenigen Komponenten von x abhängen, ist die gemeinsame Verteilung ein MarkovRandom-Field (MRF), d. h. ein Produkt von Faktoren (auch als Potenzialfunktionen bekannt) (Kapitel 8). Hierbei muss man einen Unterschied in der Semantik beachten. Normalerweise wird ein Allquantor, wie etwa ∀x∈D IstRaucher(x) ⇒ HatKrebs(x), als eine Konjunk tion ⋀ x∈D IstRaucher(x) ⇒ HatKrebs(x) interpretiert. In der Markov-Logik wird hin gegen die gewichtete Formel (w, ∀x∈D IstRaucher(x) ⇒ HatKrebs(x)) auf jedes Argu ment der Konjunktion angewendet, d. h., ∀x∈D (w, IstRaucher(x) ⇒ HatKrebs(x)). Der Allquantor bewirkt also ein Parameter-Sharing, welches die Generalisierung beim Lernen aus Daten verbessert [43]. Beim Existenzquantor wird die normale Interpreta tion beibehalten. Bei der Markov-Logik werden normalerweise drei Annahmen unterstellt: (i) Un terschiedliche Konstanten beziehen sich auf unterschiedliche Objekte (eindeutige Na men). (ii) Die einzigen Objekte in der Domäne sind diejenigen, die mithilfe der Kon stanten- und Funktionssymbole darstellbar sind (abgeschlossene Domäne). (iii) Der Wert jeder Funktion für jedes Tupel von Argumenten ist immer eine bekannte Kon stante (bekannte Funktionen). Diese Annahmen stellen sicher, dass die Anzahl der möglichen Welten endlich ist und dass das Markov-Logik-Netzwerk eine wohldefinier te Wahrscheinlichkeitsverteilung liefert. Diese Annahmen sind in den meisten prak tischen Anwendungen durchaus vernünftig und vereinfachen die Verwendung von MLN erheblich. Allerdings kann die Markov-Logik auch auf weitere Bereiche verallge meinert werden, wie z. B. auf unendlich viele Objekte oder kontinuierliche Zufallsva riablen [20]. 11.4.4.1 Inferenz in Markov-Logik-Netzen Das wichtigste Inferenzproblem geht davon aus, dass die Werte für einen Teilvektor d von x gegeben sind und die Verteilung eines Vektors q geschätzt werden soll. Da x = (q, h, d) mit einem Vektor weiterer Variablen h ist, gilt für die bedingte Wahr scheinlichkeit ∑h p(q, h, d) p(q|d) = ∑ p(q, h|d) = . (11.49) ∑ h,q p(q, h, d) h Die Berechnung der Summen in Zähler und Nenner ist im Allgemeinen #P-vollständig. Hat das Netz eine bestimmte Struktur, z. B. ein Baum, so kann die Berechnung in poly nomialer Zeit durchgeführt werden. Anstelle ineffizienter allgemeiner Verfahren (z. B.
472 | 11 Grundlagen des Maschinellen Lernens
Markov-Chain-Monte Carlo) gibt es eine Reihe effizienterer Ansätze, z. B. Weighted Model Counting [20]. Zudem kann man die Technik der Lifted Inference verwenden, bei der Formeln mit Konstanten gleichen Typs (z. B. Personen) in einem Schritt be arbeitet werden können. Hierdurch lassen sich die Techniken oft effizient auf viele Millionen Beispiele anwenden [20]. Das Programmpaket Alchemy 2.0 [18] erlaubt die bequeme Formulierung von MLN und enthält eine Reihe von Inferenzalgorithmen. 11.4.4.2 Lernen in Markov-Logik-Netzen Man kann Lernen in MLN einerseits dazu verwenden, um die Gewichte w i gegebener Formeln aus Daten zu bestimmen. Andererseits kann man auch die Formeln selbst aus den Daten lernen. Das Standardverfahren für das Lernen von Gewichten ist das Maximum-Likeli hood-Verfahren (Abschnitt 11.2.3). Für ein MLN ist der Gradient gleich der Abweichung zwischen der wahren Anzahl von beobachteten Formeln und der vom laufenden Mo dell berechneten erwarteten Anzahl [20]. Die Bestimmung dieser erwarteten Anzahl ist oft sehr rechenaufwendig oder ungenau. Daher maximiert man oft die Pseudolikeli hood, die bedingte Wahrscheinlichkeit jedes Atoms in den Daten unter der Randbedin gung, dass alle anderen Atome gegeben sind. Die Bestimmung der Pseudolikelihood ist sehr schnell, kann aber zu ungenauen Ergebnissen führen, wenn lange Ketten von Abhängigkeiten vorhanden sind. Zudem muss Überanpassung durch Regularisierung reduziert werden (Abschnitt 11.3.5). Darüber hinaus gibt es eine Reihe weiterer Verfah ren zum Trainieren von Gewichten, z. B. Markov-Chain-Monte Carlo. Das Strukturlernen von MLN hat zum Ziel, neue Formeln aus den Daten zu lernen. Hier sind viele Verfahren anwendbar, die im Bereich des Inductive Logic Programming (ILP) entwickelt wurden [16]. Allerdings werden bessere Resultate mit Methoden er zielt, die auf der Pseudolikelihood beruhen. In der Praxis geht man meist so vor, dass man zunächst all einzelnen Atome zu der Wissensbasis hinzufügt, und anschließend Formeln der Länge zwei usw. Domingos und Lowd [20] stellen eine Reihe weiterer Ver fahren dar. Über einen Gradient-Boosting-Ansatz ist es mittlerweile möglich [50], die Struktur des MLN und seine Gewichte gleichzeitig zu lernen und dabei auf verschie denen Benchmark-Daten insgesamt bessere Ergebnisse zu erzielen. 11.4.4.3 Anwendung von Markov-Logik-Netzen MLN wurden in einer Reihe von Problembereichen verwendet, in denen es darauf an kommt, die Struktur der Abhängigkeiten genau zu spezifizieren. – Kollektive Klassifikation: Hierbei geht es um die Prognose in einer Domäne mit Entitäten, die durch Relationen verknüpft sind. Beispiele sind die Klassifikation von verlinkten Webseiten oder die Prognose der Funktion von Proteinen. – Linkprognose: Hierbei geht es um die Prognose einer Relation zwischen Entitäten, z. B., ob ein Link zwischen zwei Wikipedia-Seiten vorliegen sollte. Die Informatio nen hierzu werden aus den Links zwischen ähnlichen Entitäten extrahiert.
11.4 Lernen von Regeln und logischen Zusammenhängen |
–
473
Erweiterung einer Wissensbasis: Ein MLN kann die Fakten und Regeln in einer Wissensbasis durch Atome und Formeln repräsentieren. Die weichen Randbe digungen innerhalb des MLN können dann zur Verfeinerung der Wissensbasis, zur Erkennung möglicher Fehler und zur Verknüpfung mit einer Ontologie ge nutzt werden. Eine wichtige Eigenschaft von MLN ist ihre Zuverlässigkeit. Kuzelka und Davis [54] konnten zeigen, dass die Ergebnisse von MLN bei der Vervollstän digung von Wissensbasen im Mittel korrekt sind, die Prognose also konsistent ist.
Domingos und Lowd [20] sowie Kastrati und Biba [48] beschreiben eine Reihe weite rer Anwendungen, wie etwa Extraktion eines semantischen Netzes und semantisches Parsen. 11.4.4.4 Probabilistische Softlogik Markov-Logik-Netze verwenden einen Vektor x = (x1 , . . . , x k ), x i ∈ {0, 1}, bei dem x i = 1 falls das i-te Grundatom zutrifft und x i = 0 sonst. Die probabilistische Softlogik (PSL) betrachtet ebenfalls gewichtete Formeln der Prädikatenlogik, bei denen das Ge wicht den Grad der Gültigkeit angibt. Die Komponenten x i des Vektors x beschreiben wieder, ob das i-te Grundatom gültig ist oder nicht. Im Gegensatz zur MLN verwendet PSL nicht nur binäre Werte für die x i , sondern lässt beliebige Werte x i ∈ [0, 1] zu [51]. Ein Grundatom ist also nicht wahr oder falsch, sondern kann zu einem gewissen Grad gelten. Der Lösungsraum eines PSL-Netzes ist im Gegensatz zu einem MLN ein kon vexes Polytop. Inferenzalgorithmen nutzen diese Konvexität, und es ist möglich, Ergebnisse mit wesentlich weniger Rechenaufwand zu erzielen als beim MLN. Um die wahrscheinlichste Interpretation für gegebene Daten zu berechnen, benötigt der exakte Algorithmus O(n3,5 ), wobei n die Anzahl der relevanten Grundatome ist. Es gibt aber auch approximative Verfahren mit linearer Komplexität, die nur unwesent lich schlechtere Resultate erzielen [51]. Auch für das strukturelle Lernen der Formeln stehen effiziente Verfahren zur Verfügung, welche um Größenordnungen schneller laufen als die Standardverfahren [23]. Eine Reihe weiterer Alternativen von MarkovLogik-Netzen werden von [48] beschrieben. 11.4.4.5 Kombination mit tiefen neuronalen Netzen Der Erfolg des tiefen Lernens hat viel Aufmerksamkeit erregt und auch den Eindruck erweckt, dass tiefes Lernen jedes Problem der KI lösen kann. Allerdings sind die Fähig keiten der KNN zu logischen Schlussfolgerungen wesentlich schlechter als diejenigen logikorientierter Modelle. Daher haben in der letzten Zeit eine Reihe von Forschern KNN mit logischem Schließen kombiniert, um die Vorteile beider Ansätze zu vereini gen. Ein Überblick findet sich in [60]. DeepProblog erweitert die Programmiersprache ProbLog für probabilistisches Schließen [59]. Ein KNN liefert die Wahrscheinlichkeiten für Aussagen, die dann von
474 | 11 Grundlagen des Maschinellen Lernens
einem bayesschen Netz in Beziehung gesetzt und an probabilistische Randbedingun gen angepasst werden. Beim Training können sowohl die Parameter des bayesschen Netzwerkes (Kapitel 6) – z. B. bedingte Wahrscheinlichkeiten – als auch die Parameter des KNN simultan über Gradientenoptimierung angepasst werden. Empirische Expe rimente zeigen, dass der Ansatz für kleine Erkennungsaufgaben funktioniert. Wegen des steigenden Rechenaufwandes könnte es Schwierigkeiten bei umfangreichen Auf gaben geben. Deep Logic Models integrieren KNN und logisches Schließen [60]. Auf einer un tere Ebene verarbeiten KNN die Eingaben x (z. B. Bilder oder Worte) und erzeugen einen Ausgabevektor y. Darüber wird ein prädikatenlogisches Netzwerk ähnlich der probabilistischen Softlogik (probabilistic soft logic) formuliert, welches gewichtete lo gische Randbedingungen für die Komponenten von y vorgibt. Die Gesamtarchitektur ist durchgängig differenzierbar. Für die Parameter des KNN und des prädikatenlogi schen Netzwerks wird ein Gradient abgeleitet und beide Typen von Parametern gleich zeitig optimiert. Anwendungen, z. B. auf die Prognose von Links, zeigen, dass der vor geschlagene Ansatz erfolgreich auf reale Probleme anwendbar ist. SATnet erzeugt eine Ebene in einem KNN, welches die Werte (binär oder Wahr scheinlichkeiten) von Variablen (Grundatome) als Eingabe erhalten und die Werte der Zielvariablen (z. B. logische Regeln) als Ausgaben erzeugt [92]. Die Autoren approxi mieren die Lösung durch Koordinatenabstieg entlang des Gradienten. Sie sind hiermit in der Lage, die Regeln für die Parity-Funktion und Sudoku zu lernen und können ihr SATnet mit darunterliegenden KNN zur Ziffernerkennung kombinieren. Große Wissensbasen (z. B. Yago, DBPedia, Freebase) enthalten viele Millionen Knoten (Entitäten) und Kanten (Relationen zwischen den Entitäten). Es wurden ska lierbare Modelle des Statistical Relational Learning entwickelt [65], welche diese Wis sensbasen als Trainingsdaten nutzen. Sie erfassen Eigenschaften der Entitäten und Relationen und können möglicherweise ungültige Relationen erkennen und fehlende Relationen prognostizieren. Einige dieser Ansätze verwenden Tensor-Faktorisierun gen und neuronale Netze [65], die zum Teil mit Methoden der Informationsextraktion kombiniert werden, welche Relationen aus Texten extrahieren. Diese Techniken wur den zur Konstruktion des Google Knowledge Vault genutzt [21] und konnten die Anzahl der Relationstripel hoher Konfidenz von 100 Millionen auf 271 Millionen erhöhen. In neueren Arbeiten werden verallgemeinerte KNN vorgeschlagen, welche direkt auf die Knoten eines stochastischen Graphen angewendet werden [49; 69]. Sie charakterisie ren die Eigenschaften von Knoten und Kanten durch latente Vektoren (embeddings) (Abschnitt 12.4.1) und können damit die Plausibilität neuer Relationen bewerten. 11.4.4.6 Zusammenfassung Mit statistischen relationalen Modellen (SRL) wurden bereits gute Ergebnisse erzielt. Die Komplexität der Inferenz ist die wichtigste Einschränkung bei den meisten SRLMethoden. Die Größe des Graphen ist direkt (proportional) zur Anzahl der beschrei
11.5 Klassiker des Maschinellen Lernens |
475
benden Attribute und Objekte und ist daher oft nicht auf große Probleme skalierbar. Die Verknüpfung mit tiefen neuronalen Netzen erlaubt die Sicherstellung logischer Restriktionen für deren Ergebnisse.
11.5 Klassiker des Maschinellen Lernens Ein häufig auftretendes Problem, zu dessen Lösung Techniken des Maschinellen Ler nens eingesetzt werden, besteht darin, einen binären Klassifikator (engl. binary classi fier) zu trainieren. Das heißt, das Problem besteht darin, eine Funktion zu bestimmen, die beobachtete Objekte oder Ereignisse einer von zwei Klassen Ω1 oder Ω2 zuordnet. Formal gehen wir wieder davon aus, dass eine repräsentative und typischerweise manuell annotierte Stichprobe, die Trainingsmenge 𝕊train = {(x1 , y1 ), . . . , (x n , y n )}, gegeben ist. Dabei verstehen wir die x i ∈ ℝm als Merkmalsvektoren, die Objekte oder Ereignisse numerisch beschreiben. Wir betrachten hier hauptsächlich den Fall, dass die Werte x einer von zwei Klassen Ω1 oder Ω2 angehören. Die Ausgabe y gibt die Klassenzugehörigkeit an: y i = 1 falls x i ∈ Ω1 und y i = −1 falls x i ∈ Ω2 . Das Ziel ist dann, die in dieser Stichprobe enthaltene Information zu nutzen, um eine Funktion f : x ∈ ℝm → y ∈ {−1, +1} zu finden, die in der Lage ist, bislang unbeobachtete Merkmalsvektoren wie folgt zu klassifizieren {+1, falls x ∈ Ω1 , (11.50) f(x) = { −1, falls x ∈ Ω2 . { Wie im Maschinellen Lernen üblich, gehen wir dabei davon aus, dass die Funktion f aus einer vorgegeben Modellklasse stammt und dass das eigentliche Problem darin besteht, die Parameter dieser Funktion so einzustellen, dass sie die Klassifikations aufgabe erfolgreich lösen kann. Ähnlich wie bei der logistischen Regression verwenden wir hier als Modellannah me einen lineare Transformation (Gleichung 11.1) und transformieren das skalare Er gebnis mit der sign-Funktion f(x) = sign(w ⊺ x − θ) .
(11.51)
Hierbei ist sign(u) = 1, falls u ≥ 0 und sign(u) = −1 sonst. Die prinzipielle Idee hinter diesem Ansatz wird in Abbildung 11.13 illustriert. Dort wird gezeigt, dass ein linearer Klassifikator den betrachteten Datenraum in zwei Halbräume unterteilt, die durch eine Hyperebene w ⊺ x = θ getrennt sind (für das zweidimensionale Beispiel in Abbildung 11.13 ist diese Trennebene nur eine Linie). Punkte, die in dem Halbraum liegen, der durch w ⊺ x ≥ θ charakterisiert ist, werden der Klasse Ω1 zugeordnet, und Punkte, die im komplementären Halbraum w ⊺ x < θ liegen, werden der Klasse Ω2 zugeordnet. Das einfache Beispiel in Abbildung 11.13 zeigt auch, dass die Parameter w und θ des linearen Klassifikators in Gleichung 11.51 mit Bedacht gewählt werden müssen,
476 | 11 Grundlagen des Maschinellen Lernens
um brauchbare Klassifikationsergebnisse zu erzielen. Mit anderen Worten, der in Ab bildung 11.13f gezeigte Klassifikator wird den dort betrachteten Trainingsdaten nicht gerecht, da er nicht in der Lage ist, die beiden Klassen sinnvoll voneinander zu un terscheiden. Im Folgenden diskutieren wir daher weitere Ansätze, die gegebene Trai ningsdaten nutzen, um geeignete Parameter w und θ zu ermitteln.
w
w w
(a) Zu gegebenen Trainings daten x i ∈ Ω1 ∪ Ω2 wird ein Vektor w gesucht, ...
(b) ...der einen eindimensio nalen Unterraum definiert.
(c) Werden die Trainingsdaten mittels x i = w ⊺ x i in diesen Raum projiziert, ...
x
w w
(d) ...können dort klassen spezifische Dichten geschätzt werden, ...
w
θ
θ
(e) ...deren Schnittpunkt θ einen Schwellenwert defi niert.
(f) Eine derart trainierte Funkti on f(x) = sign(w ⊺ x − θ) erlaubt die Klassifikation neuer Daten punkte x.
Abb. 11.13: Illustration der Idee eines linearen binären Klassifikators für zweidimensionale Da tenpunkte. Offensichtlich ist diese Idee auch auf höher dimensionale Daten anwendbar. Das hier gezeigte Beispiel verdeutlicht zudem, dass die Parameter w und θ des Klassifikators in Glei chung 11.51 mit Bedacht gewählt werden müssen. Die hier illustrierten Parameter führen zu einem Klassifikator mit schlechter Erkennungsrate; es ist offensichtlich, dass der in (f) gezeigte Merkmals vektor x eher der orangen als der blauen Klasse zugeordnet werden sollte
11.5.1 Lineare Diskriminanzanalyse (LDA) Die Idee der linearen Diskriminanzanalyse (engl. linear discriminant analysis) (LDA) geht auf R. A. Fisher zurück, der sie 1936 zum ersten Mal beschrieb [24]. Abbil dung 11.14 illustriert die grundlegende Überlegung hinter diesem Ansatz. Sie zeigt, dass ein guter Klassifikator die Mittelpunkte der zu den beiden betrachteten Klassen
11.5 Klassiker des Maschinellen Lernens |
477
gegebenen Trainingsdaten so projizieren sollte, dass sie möglichst weit auseinander liegen. Idealerweise sollten zudem die klassenspezifischen Varianzen der projizierten Daten klein sein.
µ1
µ1 μ1
µ2
w
μ1
µ2
μ2
μ2
w
(a) Suboptimaler Projektionsvektor w
(b) Optimaler Projektionsvektor w
Abb. 11.14: Grundlegende Beobachtung zum Ansatz der linearen Diskriminanzanalyse
Diese Beobachtungen suggerieren, dass der Projektionsvektor w eines linearen Klassifikators so gewählt werden sollte, dass Trainingsdaten zu den beiden betrach teten Klassen bei einer Projektion in den durch w definierten eindimensionalen Un terraum möglichst gut separiert werden. Ein gängiges Maß, das den Separierungsgrad zweier Normalverteilungen entlang der durch w definierten Richtung charakterisiert, ist das Folgende J(w) =
(μ 1 − μ 2 )2 . σ 21 + σ 22
(11.52)
Dieser Ausdruck ist offensichtlich groß, wenn sein Zähler groß und sein Nenner klein ist. Da dies erreicht wird, wenn einerseits der Abstand zwischen den Mittelwerten der Projektionen μ 1 und μ 2 groß ist und andererseits die beiden Varianzen σ 21 und σ 22 der projizierten Fälle klein sind, formalisiert dieses Maß unsere obigen Überlegungen, und der Parameter w eines linearen Klassifikators sollte so gewählt werden, dass J(w) maximal ist. Da anhand der rechten Seite von Gleichung 11.52 nicht unmittelbar offensichtlich wird, dass J(w) tatsächlich von w abhängt, beobachten wir, dass für k ∈ {1, 2} folgen de Identitäten gelten μk =
1 ∑ w⊺ x n k x∈Ω
(11.53)
k
= w⊺ μ k 1 1 2 2 σ 2k = ∑ (w ⊺ x − μ k ) = ∑ (w ⊺ (x − μ k )) n k x∈Ω n k x∈Ω k
k
(11.54) (11.55)
478 | 11 Grundlagen des Maschinellen Lernens
=
1 ∑ w ⊺ (x − μ k )(x − μ k )⊺ w n k x∈Ω
(11.56)
k
= w⊺ Σ k w ,
(11.57)
wobei n k die Anzahl der Trainingsbeispiele zu Klasse Ω k angibt und μ k und Σ k klas senspezifische Mittelwerte und Kovarianzmatrizen sind. Das Separationsmaß in Gleichung 11.52 kann also auch folgendermaßen geschrie ben werden J(w) =
(w ⊺ μ1 − w ⊺ μ2 )2 w ⊺ (μ1 − μ2 )(μ1 − μ2 )⊺ w w ⊺ S B w = ≡ ⊺ w⊺ Σ1 w + w⊺ Σ2 w w ⊺ (Σ 2 + Σ 2 )w w SW w
(11.58)
und ist somit nichts anderes als ein Rayleigh-Quotient. Die Matrix S B wird als Bet ween-Class-Scatter-Matrix bezeichnet, und die Matrix S W heißt Within-Class-ScatterMatrix. Um den Rayleigh-Quotient in Gleichung 11.58 zu maximieren, betrachten wir d ! J(w) = (w ⊺ S W w) 2 S B w − (w ⊺ S B w) 2 S W w = 0 dw
(11.59)
und finden nach einigen einfachen algebraischen Umformungen, dass für den opti malen Projektionsvektor w Folgendes gelten muss S −1 W S B w = J(w) w .
(11.60)
Dies ist ein generalisiertes Eigenvektor/Eigenwert-Problem [84], dessen Lösung in un serem Falle besonders einfach ist, denn S B w = (μ1 − μ2 )(μ1 − μ2 )⊺ w = (μ1 − μ2 )((μ1 − μ2 )⊺ w)
(11.61)
∝ μ1 − μ2 .
(11.62)
Da J(w) auf der rechten Seite von Gleichung 11.60 lediglich ein Skalierungsfaktor ist, finden wir also, dass (11.63) w = S −1 W (μ 1 − μ 2 ) ein geeigneter Projektionsvektor für einen linearen Klassifikator ist, der die gegebenen Trainingsdaten optimal separiert. Um den entsprechenden Schwellwertparameter θ zu bestimmen, nutzen wir Glei chung 11.63, um μ k und σ 2k wie in Gleichungen 11.54 und 11.57 zu berechnen, und be stimmen anschließend den Punkt, an dem sich die beiden enstprechenden Normal verteilungen schneiden. Das heißt, wir berechnen beide Lösungen zu θ1/2 = −
σ 22 μ 1 − σ 21 μ 2 σ 21 − σ 22
± √(
σ 22 μ 1 − σ 21 μ 2 σ 21 − σ 22
2
) −
σ 21 μ 22 − σ 22 μ 21 + 2σ 21 σ 22 log
σ2 σ1
σ 21 − σ 22
und setzen θ auf denjenigen der beiden Werte, der im Intervall [μ1 , μ 2 ] liegt.
(11.64)
11.5 Klassiker des Maschinellen Lernens | 479
−4
−2
10
10
8
8
6
6
4
4
2
2
0
0
2
4
6
8
−4
10
−2
0
0
2
4
6
8
10
−2
−2
(a) Linear separierbare Klassen
(b) Nicht linear separierbare Klassen
Abb. 11.15: Beispiel zweier linearer Klassifikatoren, die mittels LDA trainiert wurden. Die Trainings daten auf der linken Seite (blaue und orange Punkte) sind linear separierbar (a). Dementsprechend ist ein LDA-basierter Klassifikator in der Lage, eine Trennebene zu finden, die beide Klassen perfekt voneinander unterscheidet. Die Trainingsdaten auf der rechten Seite (b) sind nicht linear separier bar. Hier ist ein LDA-basierter Klassifikator nicht in der Lage, Datenpunkte fehlerfrei zu klassifizieren
Diskussion: Fishers LDA gilt als ein guter Baseline-Ansatz für das Problem der bi nären Klassifikation [27]. Wie jeder andere lineare Klassifikator auch funktioniert LDA immer dann sehr gut, wenn die Datenpunkte der beiden betrachteten Klassen line ar separierbar sind, d. h., wenn es möglich ist, eine Hyperebene zu finden, die beide Klassen voneinander trennt (Abbildung 11.15a). Aber auch für nicht linear separierba re Klassen (Abbildung 11.15b) sind LDA-basierte Klassifikatoren oft in der Lage, ver gleichsweise gute Ergebnisse zu erzielen. Was LDA in diesem Falle attraktiv macht, ist, dass dieser Ansatz leicht, d. h. mit wenig Aufwand, zu trainieren ist. Fishers LDA kann zudem auf Probleme mit k > 2 Klassen angewandt werden, so lange die Dimension m der betrachteten Merkmalsvektoren die Anzahl k der betrach teten Klassen übersteigt. In diesem Fall kann man eine Projektionsmatrix W ∈ ℝm×k finden, sodass (11.65) f(x) = argmax(W ⊺ x) j j
das k-Klassen-Klassifizierungsproblem löst. Beim Training gehen wir hier davon aus, dass S W = ∑kj=1 Σ j und S B = ∑kj=1 (μ j − μ)(μ j − μ)⊺ , wobei μ der Mittelwertsvektor aller gegebenen Trainingsdaten ist. Die Spalten der gesuchten Matrix W bestehen dann aus den führenden Eigenvektoren der Matrix S −1 W SB. Ein Nachteil des LDA-Ansatzes besteht darin, dass er implizit davon ausgeht, dass Datenpunkte der betrachteten Klassen jeweils normalverteilt sind. Dies erkennt man daran, dass LDA ganz wesentlich auf der Berechnung von Mittelwerten und Varianzen beruht. Die Annahme normalverteilter Klassen ist zwar bequem und führt zu sehr ein fachen Trainingsalgorithmen, ist aber in der Praxis typischerweise nur selten gerecht
480 | 11 Grundlagen des Maschinellen Lernens
fertigt. Wünschenswert wären daher Ansätze, die nicht auf solch starken Annahmen beruhen. Im Folgenden diskutieren wir eine sehr populäre Idee hierzu.
11.5.2 Stützvektormaschinen (SVM) Stützvektormaschinen (engl. support vector machines) (SVM) wurden 1995 von Cortes und Vapnik unter dem Namen support vector networks eingeführt [14]. Der Grund für diese heute unübliche Bezeichnung wird am Ende dieses Abschnitts deutlich werden; zunächst aber diskutieren wir die fundamentalen Ideen hinter diesem Ansatz. Eine lineare SVM realisiert einen binären Klassifikator f(x) = sign(w ⊺ x − w0 ) ,
(11.66)
zu dessen Training wir Trainingsdaten benötigen. Abbildung 11.16 illustriert, was die beiden Parameter w und w0 dieses Klassifikators auszeichnet. Die grundlegende Idee des SVM-Ansatzes besteht darin, in den gegebenen Trainingsdaten sog. Stützvektoren (engl. support vectors) zu identifizieren, die einen Korridor zwischen den Datenpunk ten der beiden betrachteten Klassen definieren. Genau in der Mitte dieses Korridors liegt eine Hyperebene, die die beiden Klassen separiert. Für diese Hyperebene sei w ein Normalenvektor (dessen Länge aber nicht notwendigerweise eins ist), und w0 /‖w‖ sei ihr Abstand zum Ursprung. Während Abbildung 11.16 verdeutlicht, dass Stützvektoren für Klassifikationspro bleme mit zwei- oder dreidimensionalen Daten mittels visueller Inspektion ermittelt werden können, ist dies für höher dimensionale Probleme nicht mehr möglich. Die fundamentale Einsicht von Cortes und Vapnik bestand daher darin zu fragen, welcher Projektionsvektor w die Breite (engl. margin) ρ = min w ⊺ x − max w ⊺ x x∈Ω 1
x∈Ω 2
(11.67)
des Korridors zwischen den gegebenen Trainingsdaten maximiert. Da die Länge des gesuchten Vektors w ohne Beschränkung der Allgemeinheit frei gewählt werden kann, können wir an dieser Stelle fordern, dass folgende Bedingun gen gelten sollen min w ⊺ x − w0 = +1 ,
(11.68)
max w ⊺ x − w0 = −1 .
(11.69)
x∈Ω 1 x∈Ω 2
Da die Klassenlabels y i in den gegebenen Trainingsdaten zudem entweder den Wert +1 oder −1 haben, lassen sich diese Bedingungen auch folgendermaßen ausdrücken y i ⋅ (w ⊺ x i − w0 ) ≥ 1 ∀ i = 1, . . . , n .
(11.70)
Dieser Ausdruck wird auch als die kanonische Repräsentation der separierenden Hy perebene bezeichnet.
11.5 Klassiker des Maschinellen Lernens |
(a) Drei der hier gezeigten Trai ningsdatenpunkte sind beson ders, ...
(b) ...da sie einen Korridor zwischen den beiden Klassen definieren, ...
481
(c) ...der wiederum eine Hyper ebene w ⊺ x = w 0 definiert, die beide Klassen separiert. w x − w0 = 0
ρ
w
(d) w ist ein Normalenvektor der Ebene und ihr Abstand zum Ursprung ist w 0 /‖w‖.
w
(e) Die Breite des Korridors zwischen beiden Klassen wird mit ρ bezeichnet.
w
(f) Ein linearer Klassifikator für die hier gezeigten Daten ist f(x) = sign(w ⊺ x − w 0 ).
Abb. 11.16: Illustration der Ideen hinter dem Stützvektormaschinenansatz und der Rolle der sog. Stützvektoren bei der Definition einer separierenden Hyperebene zwischen Datenpunkten aus zwei Klassen
Um den gesuchten Vektor w anhand der Trainingsdaten zu bestimmen, beobach ten wir zunächst noch Folgendes: Die beiden Grenzen des Korridors zwischen den ge gebenen Klassen sind selbst Hyperebenen, die durch w ⊺ x = w0 + 1 und w ⊺ x = w0 − 1 definiert sind. Sei nun x1 = w x1 ein Punkt in der ersten dieser Hyperebenen, dann gilt w ⊺ x1 = w ⊺ w x1 = w0 + 1, was bedeutet, dass x1 = (w0 + 1)/‖w‖2 . Analog finden wir für einen Punkt x2 = w x2 in der zweiten Hyperebene, dass x2 = (w0 − 1)/‖w‖2 der Abstand ρ zwischen beiden Hyperebenen ist und also durch folgenden Ausdruck charakterisiert wird w0 − 1 w0 + 1 − (w0 − 1) w0 + 1 w− w = w ρ = x1 − x2 = 2 ‖w‖2 ‖w‖2 ‖w‖ 2 = . ‖w‖
(11.71) (11.72)
Dies bedeutet aber, dass das SVM-Trainingsproblem, d. h. das Problem der Be stimmung geeigneter Parameter w und w0 , als ein eingeschränktes quadratisches Op
482 | 11 Grundlagen des Maschinellen Lernens
timierungsproblem verstanden werden kann, nämlich argmin w, w 0
1 ⊺ w w 2
(11.73)
s∀t∀ y i (w ⊺ x i − w0 ) ≥ 1 ,
i = 1, . . . , n ,
(11.74)
da die Minimierung der Funktion in Gleichung 11.73 den Ausdruck in Gleichung 11.72 und somit die Breite des Korridors zwischen den Klassen maximiert. Das Problem in Gleichungen 11.73 und 11.74 wird auch als primal problem des SVMTrainings bezeichnet. Prinzipiell lässt es sich mittels der Methode der Lagrange-Multi plikatoren und durch Auswertung der Karush-Kuhn-Tucker-Bedingungen lösen. Wer den aber viele (n ≫ 1) hochdimensionale (m ≫ 1) Datenpunkte betrachtet, ist dieses Vorgehen mühselig und praktisch kaum realisierbar. Stattdessen nutzt man das Phänomen der Lagrange-Dualität [44] und betrachtet das sog. dual problem des SVM-Trainings argmax − λ
s∀t∀
1 ⊺ λ G λ + 1⊺ λ 2
y⊺ λ = 0 λ≥0,
(11.75)
dessen Herleitung wir hier übergehen. Bei diesem Problem bezeichnet λ ∈ ℝn ein Vektor von Lagrange-Multiplikatoren [44] und die Elemente y i des y ∈ {−1, +1} n ent sprechen den Label-Werten in den Trainingsdaten. Die Elemente der Matrix G sind ⊺ wie folgt definiert: G ij = y i x i x j y j . Das dual problem ist typischerwiese einfacher zu lösen als das primal problem, jedoch warten wir noch etwas mit der Diskussion eines Lösungsalgorithmus. Wir stellen aber fest, dass das Problem in Gleichung 11.75 darin besteht, einen optimalen Lagrange-Vektor mit Elementen λ i ≥ 0 zu finden. Das heißt, zu jedem gegebenen Trainingsdatenpunkt x i existiert nach Lösung des Problems ein Wert λ i und diejenigen x i , für die λ i > 0, sind die gesuchten Stützvektoren. Zusammen mit ihren Label-Werten und Lagrange-Multiplikatoren erlauben die Stützvektoren die Berechnung des gesuchten Projektionsvektors w = ∑ λi yi xi = ∑ λs ys xs , λ i >0
(11.76)
s∈S
wobei S die Indexmenge der Stützvektoren darstellt. Sobald w vorliegt, kann auch der zweite Parameter w0 der SVM berechnet werden. Hierzu nutzt man in der Praxis oft den Mittelwert 1 (11.77) ∑ (w ⊺ x s − 1) , , w0 = |S| s∈S der sich aus Gleichung 11.70 ergibt. Ein nicht zu vernachlässigendes Problem beim Training von SVM besteht darin, dass die beiden oben aufgeführten Optimierungsprobleme nur dann gelöst werden können, wenn die betrachteten Klassen linear separierbar sind. Sollte dies nicht der
11.5 Klassiker des Maschinellen Lernens | 483
−4
−2
10
10
8
8
6
6
4
4
2
2
0
0
2
4
6
8
10
−4
−2
0
0
2
4
6
8
10
−2
−2
(a) Linear separierbare Klassen
(b) Nicht linear separierbare Klassen
Abb. 11.17: Beispiel zweier linearer SVM. Im Falle der linear separierbaren Klassen auf der linken Seite (a) erzielt eine SVM ebenso wie LDA perfekte Ergebnisse auf den Trainingsdaten und generali siert gut. Für nicht linear separierbare Klassen wie auf der rechten Seite (b) generalisiert eine SVM oft bessere als ein LDA-basierter Klassifikator. Das heißt, das eine SVM auf neuen Datenpunkten typischerweise eine höhere Akkuratheit erzielt als ein LDA-Klassifikator
Fall sein, d. h., sollten die Klassen überlappen (Abbildung 11.17), gibt es keinen Korri dor zwischen den Klassen, der eine separierende Hyperebene definieren würde. Die sem Problem begegnet man typischerweise, indem man zusätzliche, sog. Slack-Varia blen ξ i ≥ 0 einführt, die es erlauben, einen „weichen“ Korridor (engl. soft margin) zwischen den Klassen und somit Unsicherheiten in der kanonischen Repräsentation der „separierenden“ Hyperebene zu modellieren y i ⋅ (w ⊺ x i − w0 ) ≥ 1 − ξ i
∀ i = 1, . . . , n .
(11.78)
Mit diesen zusätzlichen Variablen ändern sich das Primal- und Dual-Problem des SVM-Trainings. Ersteres wird argmin w,w 0 ,ξ
s∀t∀
n 1 ⊺ w w + C ∑ ξi 2 i=1
y i (w ⊺ x i − w0 ) − 1 + ξ i ≥ 0 ,
i = 1, . . . , n ,
ξi ≥ 0 ,
i = 1, . . . , n ,
(11.79)
und Letzteres wird argmax − λ
s∀t∀
1 ⊺ λ G λ + 1⊺ λ 2
y⊺ λ = 0 0 ≤ λ ≤ C1 ,
(11.80)
wobei C > 0 einen vom Anwender frei zu wählenden Parameter darstellt, der es er laubt, den Grad der Unsicherheit zu variieren.
484 | 11 Grundlagen des Maschinellen Lernens
11.5.3 L2 Stützvektormaschinen und ein besonders einfacher Trainingsalgorithmus Die zuletzt betrachtete Zielfunktion f(w) =
n 1 ⊺ w w + C ∑ ξi 2 i=1
(11.81)
für das Training von Stützvektormaschinen für überlappende Klassen ist nur eine von vielen denkbaren Zielfunktionen. Eine weitere, weniger bekannte Variante geht auf Mangasarian und Musicant [58] zurück und ist durch n
f(w) = w ⊺ w + w20 − ρ + C ∑ ξ i2
(11.82)
i=1
gegeben. Da die Slack-Variablen ξ i hier quadriert vorkommen, spricht man bei SVM, die mit dieser Zielfunktion trainiert auch von L2 -SVM, um sie von den klassischen, von Cortes und Vapnik eingeführten L1 SVM abzugrenzen [88]. Für eine L2 -Stützvektormaschine ergibt sich das folgende Primal-Trainingspro blem n
argmin w ⊺ w + w20 − ρ + C ∑ ξ i2 w, w 0 ,ξ
i=1 ⊺
s∀t∀ y i (w x i − w0 ) ≥ ρ − ξ i ,
i = 1, . . . , n .
(11.83)
Was diese Formulierung besonders attraktiv macht ist, dass das entsprechende DualProblem, wie in [5] gezeigt, von besonders einfacher Form ist, nämlich argmax − λ⊺ (G + yy⊺ + 1C I) λ λ
s∀t∀
1⊺ λ = 1 λ≥0.
(11.84)
Obwohl es sich bei dem Problem in Gleichung 11.84 nach wie vor um ein ein geschränktes quadratisches Optimierungsproblem handelt, ist es doch ein einfaches Problem, da es sich bei der zulässigen Menge, innerhalb derer die optimale Lösung gefunden werden muss, um den Standard-Simplex ∆ n−1 = {x ∈ ℝn 1⊺ x = 1 ∧ x ≥ 0}
(11.85)
handelt. Betrachten wir zusätzlich, dass die Zielfunktion in Gleichung 11.84 konkav in λ ist, stellen wir fest, dass das duale Trainingsproblem für L2 -SVM alternativ auch folgendermaßen geschrieben werden kann argmin λ⊺ M λ , λ∈∆ n−1
wobei wir hier M = G + yy⊺ + 1C I definiert haben.
(11.86)
11.5 Klassiker des Maschinellen Lernens | 485
Dies heißt aber, dass wir eine konvexe Funktion über einer kompakten konvexen Menge minimieren müssen, um den optimalen Lagrange-Vektor λ zu bestimmen. Für Optimierungsprobleme dieser Art existiert jedoch ein einfaches und vergleichsweise effizientes Lösungsverfahren, nämlich der Frank-Wolfe-Algorithmus [25]. Der Frank-Wolfe-Algorithmus ist ein iterativer Algorithmus, der, beginnend mit einer initialen Schätzung λ0 des gesuchten Parametervektors, in jeder Iteration t den ⊺ jenigen Vektor s t in der zulässigen Menge bestimmt, dessen inneres Produkt s t ∇f(λ t ) mit dem Gradienten der Zielfunktion maximal ist, und der dann folgendes Update vor nimmt λ t+1 = (1 − η t )λ t + η t s t , wobei 0 ≤ η t ≤ 1 ein mit der Zeit abnehmender Schritt weitenparameter ist. Die generelle Idee ist also, ein quadratisches Optimierungspro blem durch eine Folge linearer Optimierungsprobleme zu lösen, wobei zugleich si chergestellt ist, dass jede neue Schätzung λ t+1 in der zulässigen Menge liegt, da sie eine konvexe Kombination zweier Punkte dieser Menge ist. Zudem stellen wir fest, dass ein Maximum einer linearen Funktion über einer kon vexen Menge notwendigerweise an einem Eckpunkt (engl. vertex) dieser Menge ange nommen wird. Das heißt, die gesuchten s t müssen Eckpunkte der zulässigen Menge sein. Für unser Problem in Gleichung 11.86 ist die zulässige Menge aber der StandardSimplex ∆ n−1 , dessen Eckpunkte mit den Standardbasisvektoren e i ∈ ℝn übereinstim men. Dies bedeutet für unser Problem, dass jede Iteration des Frank-Wolfe-Algorith ⊺ mus denjenigen Vektor e i bestimmen muss, der den Ausdruck e j ∇f(λ t ) maximiert, ⊺
wobei in unserem Falle ∇f(λ t ) = 2 M λ t gilt. Da aber 2 e j M λ t = (2 M λ t )j und da 2 > 0, muss jede Iteration des Algorithmus lediglich den Index des größten Elements des Vektors M λ t bestimmen, was einfach möglich ist. Zusammenfassend ergibt sich also der in Abbildung 11.18 gezeigte Algorithmus zur Lösung des Problems in Glei chung 11.86. Bezüglich der Wahl des Frank-Wolfe-Parameters tmax stellen wir fest, dass gezeigt werden kann [12], dass der Algorithmus in t Iterationen eine Güte von O(1/t) erreicht.
proc L2 SVMTraining(M, tmax ) schätze eine initiale zulässige Lösung λ0 ∈ ∆ n−1 , z. B. λ0 = 1n 1 for t = 1, . . . , tmax berechne i = argmax j (M λ t )j setze die Schrittweite 2 η t = t+2 berechne eine neue zulässige Lösung λ t+1 = λ t + η t (e i − λ t ) return λ t Abb. 11.18: Frank-Wolfe-Algorithmus zur Lösung des dualen L 2 -SVM-Trainingsproblems in Glei chung 11.86
486 | 11 Grundlagen des Maschinellen Lernens
Um also λ mit einem Fehler von maximal 0,01 zu berechnen, wären O(100) Iterationen ausreichend. Sobald das Problem in Gleichung 11.86 mittels des Algorithmus in Abbildung 11.18 gelöst ist, d. h., sobald der optimale Lagrange-Vektor λ ermittelt ist, lassen sich die Parameter w und w0 der gesuchten L2 -Stützvektormaschine wie in Gleichungen 11.76 und 11.77 berechnen.
11.5.4 Der Kerntrick und nicht lineare Stützvektormaschinen Da das Training von Stützvektormaschinen im Gegensatz zur klassischen Diskrimi nanzanalyse also nicht auf impliziten Annahmen zur Verteilung der gegebenen Da tenpunkte beruht, generalisieren Stützvektormaschinen in der Praxis oft besser als Diskriminanz basierte Ansätze. Das heißt, auch im Falle überlappender Klassen sind SVM oft besser in der Lage, neue, im Training nicht gesehene Datenpunkte der korrek ten Klasse zuzuweisen (Abbildung 11.17). Dies ist einer der Gründe für die Popularität dieses Ansatzes. Ein weiterer wichtiger Grund für die Popularität der SVM besteht darin, dass sie es auf sehr einfache Art und Weise möglich machen, den kernel trick zu benutzen. Hierzu stellen wir zunächst fest, dass die Matrix G, die im Training einer SVM ⊺ betrachtet wird, und deren Elemente wir als G ij = y i x i x j y j definiert hatten, im We sentlichen durch innere Produkte zwischen Merkmalsvektoren x i und x j aus den Trai ningsdaten charakterisiert wird. Zudem lässt sich nach dem Training einer SVM das innere Produkt w ⊺ x, das für die Klassifikation eines Datenpunktes x wesentlich ist, wie folgt schreiben ⊺
⊺
⊺
w x = (∑ λ s y s x s ) x = ∑ λ s y s x s x . s∈S
(11.87)
s∈S
Dies bedeutet aber, dass die Merkmalsvektoren, die zum Training und in der Anwendung einer SVM betrachtet werden, in den jeweiligen Algorithmen lediglich in Form innerer Produkte auftreten, die jeweils durch nicht lineare Kernfunktionen k : ℝm × ℝm → ℝ ersetzt werden können. Mit anderen Worten, indem wir im Training eine Matrix G mit G ij = y i y j k(x i , x j ) (11.88) und in der Anwendung einen Klassifikator f(x) = sign (∑ λ s y s k(x s , x) − w0 )
(11.89)
s∈S
betrachteten, werden Stützvektormaschinen zu nicht linearen Klassifikatoren, die es erlauben, nicht linear separierbare Klassen zu klassifizieren. Dies wird in den Abbil dungen 11.19 und 11.20 veranschaulicht.
11.5 Klassiker des Maschinellen Lernens |
−3
−2
−1
2
2
2
1
1
1
0
0
1
2
3
−2
−2
−1
0
0
1
2
3
−2
−1
0
−1
−2
−2
−2
(b) d = 2
−1
−3
−1
(a) d = 1
−3
−3
−1
2
2
1
1
1
0
1
2
3
−3
−2
−1
0
0
1
2
3
−3
−2
−1
0
−1
−1
−1
−2
−2
−2
(d) d = 4
0
1
2
3
0
1
2
3
(c) d = 3
2
0
487
(e) d = 6
(f) d = 8
Abb. 11.19: Beispiele zweier nicht linear separierbarer Klassen und nicht linearer Klassifikatoren, die durch eine SVM mit polynomieller Kernfunktion berechnet werden. Je nach Wahl des Grades d des Polynoms, ist die SVM mehr oder weniger gut in der Lage, sinnvolle Klassengrenzen zu lernen. Die hier gezeigten Ergebnisse verdeutlichen auch, dass der Parameter d der Kernfunktion nicht beliebig gewählt werden sollte, sondern den Daten entsprechend eingestellt werden muss, damit eine SVM gute Klassifikationsergebnisse erbringt
In beiden Abbildungen sehen wir Trainingsdatenpunkte zu zwei Klassen, die nicht linear voneinander separierbar sind. Gleichzeitig sehen wir, dass eine Stütz vektormaschine, die mit nicht linearen Kernfunktionen operiert, je nach Parametri sierung dieser Kernfunktionen in der Lage ist, die beiden Klassen voneinander zu unterscheiden. Abbildung 11.19 zeigt Ergebnisse, die mit einer polynomiellen Kern funktion ⊺
k(x i , x j ) = (x i x j + 1)
−3
−2
−1
(a) σ = 0.25
d
(11.90)
2
2
2
1
1
1
0
0
0
1
2
3
−3
−2
−1
0
1
2
3
−3
−2
−1
0
−1
−1
−1
−2
−2
−2
(b) σ = 0.50
0
1
2
3
(c) σ = 1.00
Abb. 11.20: Beispiele zweier nicht linear separierbarer Klassen und nicht linearer Klassifikatoren, die durch eine SVM mit gaußscher Kernfunktion berechnet werden. Je nach Wahl des Parameters σ dieser Funktion ergeben sich Klassifikatoren, die mehr oder weniger gut generalisieren. Auch hier gilt, dass der Parameter der Kernfunktion nicht beliebig gewählt werden sollte, sondern den Daten entsprechend eingestellt werden muss
488 | 11 Grundlagen des Maschinellen Lernens
erzielt wurden, und die Ergebnisse in Abbildung 11.20 gehen auf eine gaußsche Kern funktion 1 2 (11.91) k(x i , x j ) = exp (− 2 x i − x j ) 2σ zurück. Beide Abbildungen verdeutlichen auch, dass die Parameter der betrachteten Kernfunktion nicht beliebig gewählt werden sollten. Stattdessen sollten sie auf die jeweils gegebenen Daten abgestimmt werden. Dies geschieht typischerweise manu ell, indem unterschiedliche Parametrierungen ausprobiert werden und in Bezug auf ihre Klassifikationsakkuratheit auf einer Stichprobe mit Testdaten ausgewertet wer den. Natürlich lässt sich dieser Auswahlprozess auch automatisieren; je nach Wahl der Kernfunktion ist dies aber mehr oder weniger rechenintensiv.
11.5.5 Stützvektormaschinen sind flache neuronal Netze In der Arbeit, in der Cortes und Vapnik die Idee der Stützvektormaschinen zum ers ten Mal beschrieben, bezeichneten sie diesen Ansatz als support vector networks [14]. Warum diese Bezeichnung angemessen ist, wird nun in Abbildung 11.21 ersichtlich: In ihrer allgemeinsten, in Gleichung 11.89 angegebenen Form können SVM als flache neuronale Netze, die eine Schicht mit Eingabeneuronen, eine innere Schicht von Neu ronen und ein einzelnes Ausgabeneuron haben, verstanden werden.
y w0 −1
ϕ1
λ1
λ2
ϕ2
x1
x2
λ3
λk
ϕ3
...
...
xm
ϕ|S|
Abb. 11.21: Stützvektormaschinen kön nen als sog. Basisfunktionsnetzwerke verstanden werden. Zu einem Eingabe vektor x ∈ ℝm berechnen sie f(x) = sign(∑s λ s φ s (x) − w 0 ), wobei die Ba sisfunktionen durch φ s (x) = y s k(x s , x) gegeben sind; die Funktionen k(x s , x) sind die im Text diskutierten linearen oder nicht linearen Kernfunktionen
Wichtig ist hierbei, dass die Neuronen in der versteckten Schicht keine Perzeptronen sind. Stattdessen bilden SVM einen Spezialfall sog. Basisfunktionsnetze [6], da Neu ron s in der inneren Schicht die Funktion φ s (x) = y s k(x s , x) berechnet, wobei x s und y s die im Training ermittelten Stützvektoren und deren Labelwerte sind. Interessanterweise lässt sich zeigen, dass auch der oben diskutierte Frank-WolfeAlgorithmus zum Training von L2 -SVM durch rekurrente neuronale Netze realisiert werden kann [80]. In diesem Sinne können SVM also als ein rein neuronaler Ansatz zur Mustererkennung verstanden werden.
11.6 Verbesserung der Modelle und des Trainingsprozesses
| 489
11.5.6 Weiterentwicklungen der Kernelmethoden Es ist möglich, Kernel für sehr unterschiedliche Anwendungsbereiche zu formulieren. Einen Überblick geben [41; 78]. Beispielsweise kann man Kernel für Graphen formu lieren, indem man innere Produkte für Graphen definiert [30]. Intuitiv messen diese Graphkernel die Ähnlichkeit zweier Graphen. Anwendbar sind derartige Methoden beispielsweise bei der Untersuchung von Molekülen [86] oder bei der Identifikation von Relationen in Texten [72]. In ähnlicher Weise können auch Stringkernel formu liert werden, die innere Produkte zwischen Zeichenketten definieren und damit deren Ähnlichkeit bewerten. In der Regel wird der Kernel eines Kernelverfahrens vorgegeben und anschließend ein Modell an die Daten angepasst. Es ist aber auch möglich, den Kernel aus einer vorgegebenen Menge von Ausgangskerneln zu kombinieren. Derartige Kernellernver fahren [52] können die Kernel besser an das zu lösende Problem anpassen und auch Kernel für unterschiedliche Medien (Text, Ton, Bilder) kombinieren.
11.6 Verbesserung der Modelle und des Trainingsprozesses 11.6.1 Initialisierung der Parameter Die Komponenten des Parametervektors θ eines maschinellen Lernverfahrens müs sen zu Beginn des Trainings einen Wert zugewiesen bekommen. Die erste wichtige Anforderung ist, dass nicht alle Komponenten den gleichen Wert, z. B. null, haben dürfen. Denn in diesem Fall sind die Ableitungen der Parameter gleich null, und das Optimierungsverfahren kann den unterschiedlichen Komponenten nicht unterschied liche Funktionalitäten zuordnen. Um diese „Symmetrie zu brechen“ müssen die Kom ponenten daher unterschiedliche Startwerte erhalten. In der Regel werden alle Gewichte durch eine Normalverteilung oder Gleichvertei lung initialisiert. Dabei ist die Varianz dieser Initialisierung entscheidend. Man möch te hierbei erreichen, dass z. B. bei einer linearen Transformation (Gleichung 11.1) u = W ∗ x + b die Komponenten von u die Varianz 1.0 haben, wenn die Komponenten von x schon die Varianz 1,0 besitzen. Dies erreicht man tendenziell, wenn man die Varianz der Komponenten von W auf √k festlegt, wobei k die Länge von x ist. Dabei werden die Komponenten des Bias b meist mit null initialisiert. Einige Regeln dieser Art beschrei ben Goodfellow et al. [33, S. 299]. Sie betonen, dass die Varianz der Initialisierung ein Hyperparameter ist, den man ggf. durch Experimente festlegen muss. Die Auswahl der Aktivierungsfunktion ist eine Designentscheidung. In der Regel können beliebige monotone nichtlineare Funktionen verwendet werden. Allerdings hat sich gezeigt, dass in tiefen neuronalen Netzen oft die ReLU-Aktivierungsfunktion (Tabelle 11.1) vorteilhaft ist. Diese kann verwendet werden, obwohl sie an einer Stelle
490 | 11 Grundlagen des Maschinellen Lernens
nicht differenzierbar ist. Da der Parameter diesen Wert aber fast nie annimmt, stellt das in der Praxis kein Problem dar.
11.6.2 k-fach Kreuzvalidierung Für die Optimierung der Modellstruktur und der Hyperparameter wird eine Validie rungsmenge benötigt. Falls nur wenige annotierte Daten vorhanden sind, kann man auch mit kleinen Validationsmengen durch Kreuzvalidierung aussagekräftige Ergeb nisse erzielen. Dazu zerlegt man die verfügbare Menge T annotierter Daten in k mög lichst gleich große Teilmengen T j : T = T1 ∪ ⋅ ⋅ ⋅ ∪ T k , T i ∩ T j = 0 für i ≠ j. Nun werden k Modelle M i bestimmt, bei denen die i-te Teilmenge T i als Validationsmenge verwendet wird und die restliche k − 1 Teilmengen T \ T i als Trainingsmenge. Für jedes Modell M i wird auf der Validationsmenge das gewünschte Performanzmaß bestimmt, z. B. der F-Wert F i . Einen neuen Schätzwert erhält man durch den Mittelwert 1 k F̄ = ∑ F i . k i=1
(11.92)
Die Varianz des Schätzwertes F̄ ist wesentlich geringer als die des F-Wertes auf den kompletten Trainingsdaten. Das Verfahren ist daher geeignet, um aussagekräftige Per formanzmaße zu erhalten. In [39, S. 241] werden die Eigenschaften der k-fach Kreuz validierung ausführlich diskutiert.
11.6.3 Optimierungsverfahren für maschinelle Lernverfahren Modelle des Maschinellen Lernens (ML) verwenden Optimierungsverfahren, um die Parameter an die Trainingsdaten anzupassen. Eine Optimierung ist besonders schwie rig für KNN (KNN) mit vielen Ebenen. Es kann durchaus vorkommen, dass mehrere Hundert Computer viele Tage rechnen müssen, um die optimalen Parameter für ein einziges Lernproblem zu bestimmen. Erst seitdem effiziente Verfahren für die Optimie rung zur Verfügung stehen, können umfangreiche Modelle trainiert werden. In diesem Abschnitt werden einige Optimierungstechniken für maschinelle Lernverfahren vor gestellt. Einen Überblick über die Thematik geben Sun et al. [85]. Ausgangspunkt ist im Allgemeinen eine Verlustfunktion L(𝕊train , θ), die eine Sum me über die Verlustwerte einzelner Instanzen der Trainingsmenge ist, z. B. die Verlust funktion des logistischen Regressionsmodells (Gleichung 11.6). Manchmal ist die Ver lustfunktion, um die es uns tatsächlich geht (z. B. der Klassifizierungsfehler), nicht ef fizient optimierbar. Beispielsweise ist bei einem Klassifikationsproblem nur relevant, ob die Klassifikation korrekt ist oder nicht. Allerdings ist die genaue Minimierung ei nes solchen 0-1-Verlusts selbst für einen linearen Klassifikator in der Regel nicht reali sierbar [33, S. 273]. In einer solchen Situation optimiert man normalerweise stattdes
11.6 Verbesserung der Modelle und des Trainingsprozesses | 491
sen eine Ersatzverlustfunktion, die einfacher optimierbar ist. Beispielsweise wird, wie in der vorstehenden Verlustfunktion, die negative log-Wahrscheinlichkeit der richti gen Klasse als Ersatz für den Null-eins-Verlust verwendet. Diese Funktion ist differen zierbar und daher besser zu optimieren. Die negative log-Wahrscheinlichkeit ermög licht es dem Modell, die bedingte Wahrscheinlichkeit der Klassen unter Berücksichti gung der Eingabe zu schätzen. Bei der Anwendung des Modells kann man die Klasse mit der höchsten Wahrscheinlichkeit auswählen. Um eine Verlustfunktion bezüglich θ zu minimieren, müssen Optimierungsver fahren Informationen über die Funktion erhalten. Diese Informationen beziehen sich auf die Umgebung des aktuellen Wertes θ. Dazu gibt es drei Alternativen: – Informationen über einen Funktionswert L(𝕊train , θ1 ) für ein θ1 in der Nähe von θ: Man muss auf diese Variante ausweichen, wenn die Ableitungen der Verlustfunk tion nicht zur Verfügung stehen. Zugehörige Optimierungsverfahren führen meist eine stochastische Optimierung [64] durch, welche aber meist einen hohen Re chenaufwand benötigt, um zum Optimum zu gelangen. Solche Verfahren werden oft zum Training von bayesschen Modellen verwendet (Abschnitt 11.2.8). – Informationen über den Gradienten der Verlustfunktion: Der Gradient ∇θ L(𝕊train , θ) approximiert die Verlustfunktion durch eine lineare Funktion, also eine Hy perebene. Er ist ein Vektor mit der gleichen Länge wie θ und gibt die Richtung des stärksten Anstiegs der Verlustfunktion an. Dies ist Grundlage für die Verwen dung des Gradientenverfahrens (Gleichung 11.12), dem „Arbeitspferd“ des Trai nings von neuronalen Netzen. – Approximation der Verlustfunktion durch eine quadratische Funktion: Beispiele von quadratischen Funktionen werden in Abbildung 11.22 gezeigt. Dies erfordert zusätzlich zur Bestimmung des Gradienten die Berechnung der Matrix der zwei ten Ableitungen (Hesse-Matrix), welche k 2 Terme besitzt, wenn θ die Länge k hat. Man kann zeigen, dass bei unabhängigen Trainingsdaten die Verlustfunktionen in der Nähe des Optimums oft quadratischen Funktionen ähneln. Kann die Funk tion exakt durch ein elliptisches Paraboloid approximiert werden, so kann das Optimierungsverfahren in einem Schritt zum Optimum gelangen. Ein Beispiel für einen solchen Algorithmus ist das Newton-Verfahren [33, S. 307]. Die schnellste Konvergenz gegen das Optimum hat potenziell die Verwendung einer quadratischen Approximation, weil sie die Krümmung der Verlustfunktion berück sichtigt. Allerdings ist sie nur bei Modellen mit wenigen Parametern verwendbar, weil jedesmal eine k × k-Matrix berechnet und invertiert werden muss. Das Gradientenver fahren hat dagegen einen geringen Speicherplatzbedarf und kann fast immer verwen det werden. In der Praxis wird der stochastische Gradientenabstieg (SGD) für Mini batches genutzt (Abschnitt 11.2.6). Allerdings besitzt dieser eine wesentlich schlech tere Konvergenzrate und zudem zusätzliche Hyperparameter, die Lernrate und Größe des Minibatches, welche vom Nutzer festgelegt werden müssen. Daher gibt es eine Reihe von Ansätzen, welche das Gradientenverfahren verbessern möchten.
492 | 11 Grundlagen des Maschinellen Lernens
Abb. 11.22: Quadratische Funktionen, mit denen die Verlustfunktion approximiert werden kann. Links ist ein elliptisches Paraboloid und rechts ein hyperbolisches Paraboloid, auch Sattelpunkt genannt, dargestellt
Die Momentum-Methode (engl. momentum, Trägheit) versucht, Informationen aus den vorherigen Gradienten auszunutzen. Dies ist insbesondere plausibel, wenn der Minibatch-Gradientenabstieg (Abschnitt 11.2.6) genutzt wird, da dann der Gra dient von Zufallseinflüssen überlagert wird. Das Verfahren speichert einen gleitenden Durchschnitt v der Gradienten, welcher bei der Optimierung genutzt wird v t+1 = αv t − η∇θ L(𝕊train , θ) ,
θ t+1 = θ t+1 + v t+1 .
(11.93)
Dabei ist α ein Hyperparameter, der die Anzahl der Gradienten steuert, die im gleiten den Durchschnitt berücksichtigt werden. Dieses Vorgehen verbessert oft die Konver genzgeschwindigkeit des SGD [33, S. 288]. RMSprop ist eine Alternative, welche für jede Komponente des Gewichtsvektors θ = (θ1 , . . . , θ k ) eine eigene Lernrate definiert. Als Normalisierungsfaktor wird ein gewichtetes Mittel der Quadrate des Gradienten verwendet [33, S. 303] 2
r t = βr t−1 + (1 − β) [∇θ L(𝕊train , θ)] , η θ t = θ t−1 − ∇θ L(𝕊train , θ) . √r t
(11.94)
Sind also die Gradienten in einer Komponente im Mittel groß, so wird eine kleine Lern rate verwendet. In der Praxis ist RMSprop effektiv und einfach verwendbar. Die Metho de ist derzeit eine der besten verfügbaren Alternativen. Das Adam-Verfahren kombiniert die Momentum-Methode und das RMSprop-Ver fahren und speichert sowohl einen gleitenden Durchschnitt der vorherigen Gradien ten als auch der vorherigen quadrierten Gradienten [33, S. 305]. Daher hat es einen höheren Speicherbedarf als Momentum und RMSprop. Der adaptive RMSprop-Algo rithmus hat dabei in der Regel bessere Ergebnisse als SGD und das Momentum-Verfah ren. Dieser wird hingegen in der Regel noch von Adam übertroffen. Adam ist relativ robust in Hinblick auf die Wahl der Hyperparameter. Die Eigenschaften der Metho den werden im Detail von [71] und [85] diskutiert und weitere Verbesserungen werden vorgeschlagen.
11.6 Verbesserung der Modelle und des Trainingsprozesses
| 493
11.6.4 Konvergenz des Gradientenabstiegs Der Verlustfunktion von KNN ist eine nicht konvexe Funktion von θ und hat in der Regel viele lokale Minima. Dies ist offensichtlich, weil die Komponenten der verbor genen Vektoren (Gleichung 11.23) vertauscht werden können, und die resultierenden KNN trotzdem die gleichen Ausgaben berechnen. Während diese lokalen Minima die Optimierung nicht behindern, kann es auch andere lokale Minima geben, welche hö here Verlustwerte als das globale Minimum haben. Daher gibt es keine Garantie, dass Gradientenabstiegsverfahren routinemäßig gute Lösungen für KNN liefern. Trotzdem ergeben sich beim stochastischen Gradientenabstieg und seinen Va rianten meist gute Ergebnisse. Dies wurde von einer Reihe von theoretischen Untersu chungen bestätigt. Vidal et al. zeigen, dass KNN mehr lokale Minima nahe beim globa len Minimum besitzen [91, Sec. III A]. Zudem haben sie weniger Sattelpunkte, welche ebenfalls die Optimierung erschweren. Haeffele et al. [36] beweisen, dass bei einer guten Regularisierung (Abschnitt 11.3.5) die lokalen Minima eines KNN auch globale Minima sind. Zudem können globale Minima auch durch lokalen Abstieg gefunden werden, wenn das KNN groß genug ist. Hierbei haben KNN mit ReLU-Aktivierungen und Max-Pooling bessere Konvergenzeigenschaften als KNN mit sigmoiden Aktivie rungsfunktionen [91, Sec. III D]. Zudem gibt es starke theoretische Hinweise, dass Re gularisierungstechniken wie Dropout (Abschnitt 11.3.5) oder Batch Normalization zu besseren Ergebnissen führen als eine L2-Regularisierung (weight decay). Schließlich wird von Brutzkus et al. bewiesen [10], dass ein KNN mit zwei Ebenen durch Optimierung mit SGD unter einigen Bedingungen gegen das globale Minimum konvergiert und gut generalisiert. Hardt et al. [37] zeigen, dass SGD selbst als ein Re gularisierer beim Training eines KNN wirkt. Bassily, Belkin und Ma [4] beweisen, dass unter einigen Bedingungen überparametrisierte KNN bei Minibatch-SGD mit exponen tieller Geschwindigkeit konvergieren.
11.6.5 Optimierung und Parallelisierung Wird beim SGD die Anzahl der Elemente in einem Minibatch von m auf 4m erhöht, so steigt die Rechenzeit um den Faktor vier, die Genauigkeit der berechneten Gradienten aber nur um den Faktor √4 = 2 [33, S. 271]. Andererseits ist bei einem zu geringen Um fang des Minibatches die Varianz des Gradienten möglicherweise zu hoch. Daher hat der SGD seine geringste Gesamtrechenzeit, bei der er einen bestimmten Verlustwert erreicht, meist bei einer relativ geringen Minibatch-Größe m. Beim SGD hat die Verlustfunktion (Gleichung 11.6) für einen Minibatch M i ⊂ 𝕊train 1 in den meisten Fällen die Form L(θ) = − |E| ∑(x,y)∈M i log p(y|x; θ). Eine solche Summe lässt sich leicht in Teilsummen aufspalten und über mehrere Rechnercores verteilen. Diese Parallelisierung erlaubt bei Rechnern mit mehreren Cores eine starke Reduktion der Rechenzeit. Moderne Grafikprozessoren (graphics processing unit, GPU) haben oft
494 | 11 Grundlagen des Maschinellen Lernens
mehrere Tausend Rechenwerke und reduzieren die Rechenzeiten meist noch wesent lich stärker, oft um ein bis zwei Größenordnungen. Diese Parallelisierung wird von Toolkits für KNN stark unterstützt (Abschnitt 11.7.2). Sinkt die Minibatchgröße unter eine bestimmte Schwelle, so sinkt bei MulticoreComputern bzw. einer GPU die Rechenzeit nicht weiter, da die Rechenkapazitäten nicht effizient genutzt werden. Daher gibt es auch eine minimale Minibatch-Größe. Ein weiterer wichtiger Faktor ist der Speicherbedarf: GPU haben oft relativ wenig ei genen Speicher, wodurch die maximale Minibatch-Größe limitiert wird. Eine Alternative wird von [47] diskutiert. Sie schlagen eine lose gekoppelte Opti mierung vor, in denen die verschiedenen Prozessoren seltener ihre Parameter austau schen und zeigen, dass SGD unter bestimmten Bedingungen auch für diesen Fall zu einem Optimum findet.
11.6.6 Optimierung der Hyperparameter Die meisten Algorithmen für Maschinelles Lernen haben Hyperparameter, Werte, mit denen das Verhalten des Modells und des Lernverfahrens gesteuert werden können. Die Werte von Hyperparametern werden vom Lernalgorithmus selbst nicht angepasst (obwohl wir eine verschachtelte Lernprozedur entwerfen können, bei der ein Lernal gorithmus die besten Hyperparameter für einen anderen Lernalgorithmus lernt). Ty pische Hyperparameter sind – Anzahl der Ebenen eines KNN und Länge der Verborgenen Vektoren, – Eingabemerkmale und deren Kombinationen bei logistischen Regressionen, SVM etc., – Typ der Aktivierungsfunktionen und der Verlustfunktion, Kernelparameter einer SVM etc., – Art und Parameter der Regularisierung, Verteilung für die Initialisierung der Pa rameter, – Parameter des Optimierungsverfahrens wie z. B. Typ des Optimierers, Lernrate, Schema zur Veränderung der Lernrate, Größe des Minibatches etc., – Art des Modells: logistische Regression, Random Forest, SVM, tiefes neuronales Netz. Meist ist ein Wert ein Hyperparameter, wenn er nicht mithilfe des Trainingssets gelernt werden kann. Dies gilt für alle Hyperparameter, die die Modellkapazität steuern. Wird so ein Hyperparameter durch den Trainingsset gelernt, so ergibt sich immer die ma ximal mögliche Modellkapazität, da hierdurch die Anpassung verbessert wird. Dies führt aber zu einer Überanpassung und kann vermieden werden, wenn die Anpas sung der Hyperparameter über die Validierungsmenge gesteuert wird. Konzeptionell ist die Optimierung der Hyperparameter eine äußere Optimierungs schleife über der normalen Parameteroptimierung. In dieser Optimierungsschleife
11.6 Verbesserung der Modelle und des Trainingsprozesses
| 495
werden die Hyperparameter gesucht, die zu dem geringsten Fehler auf der Validie rungsmenge führen. Dabei kann man die üblichen Performanzmaße verwenden, z. B. Genauigkeit oder die mittleren F-Werte bei einem Klassifikationsproblem. Eine Aus wertung der Modellgüte kann sehr zeitaufwendig sein, da eine einzelne Parameterop timierung mit gegebenen Hyperparametern schon Stunden dauern kann. Zudem ist die mit der Validierungsmenge bestimmte Modellgüte auch mit einem Fehler behaftet. In der Regel wird kein Gradient berechnet, sondern es werden alternative Optimie rungsverfahren verwendet. Oft werden die Parameter des Modells zufällig initialisiert. Daher wird bei der Hyperparameteroptimierung oft der gleiche Zufallszahlenstrom verwendet, um deren Ergebnisse nicht durch die Effekte der zufälligen Initialisierung zu überlagern. Gittersuche: Hierbei werden für jeden Hyperparameter einige Probewerte ausge sucht, und anschließend wird für alle Wertekombinationen die Modellgüte be stimmt. Diese Gittersuche ist nur für zwei oder drei Hyperparameter durchführ bar, da der Aufwand exponentiell wächst [33, S. 427]. Zufällige Suche: Hierbei werden für die einzelnen Hyperparameter zunächst margi nale Verteilungen definiert, z. B. gleichverteilt. Anschließend werden für alle Hy perparameter unabhängig Werte gemäß dieser Randverteilungen gezogen und die Performanz des zugehörigen Modells bestimmt. Die zufällige Suche ist in einem höherdimensionalen Suchraum von Hyperparametern wesentlich effektiver als die Gittersuche. Für die globale Optimierung wurden spezielle MCMC-Verfahren (Markov-Chain-Monte Carlo) konzipiert, die die Konvergenz in Richtung des glo balen Optimums beschleunigen. Eine wichtige Variante ist der Metropolis-Has tings-Algorithmus, der sich im Laufe der Optimierung immer mehr auf die Regio nen nahe des Optimums konzentriert [75]. Auch evolutionäre Algorithmen (Ab schnitt 3.3.2) lassen sich für die Suche verwenden. Es ist auch möglich, ein Modell für die Hyperparameter zu spezifizieren, welches die effiziente Suche neuer Wertekombinationen der Hyperparameter unterstützt. Ist für mehrere Vektoren h1 , . . . , h i von Hyperparameterwerten die Performanz des Modells evaluiert, wird die erzielbare Performanz durch ein Modell prognostiziert. Dabei wird auch die zugehörige Unsicherheit modelliert, z. B. mit gaußschen Prozessmodellen. Der nächste Vektor h i+1 wird nun in einem Bereich ausgewählt, in dem unter Berück sichtigung der Unsicherheit hohe Performanzwerte möglich sind. Abbildung 11.23 zeigt ein eindimensionales Beispiel. Der nächste zu evaluierende Hyperparameter sollte an einer Stelle ausgesucht werden, an der ein möglichst hoher Performanz wert möglich ist. Man kann dieses Vorgehen auch auf den Fall übertragen, dass nicht nur kontinuierliche Parameter modifiziert, sondern auch diskrete Änderun gen der Modellstruktur vorgenommen werden, z. B. Hinzufügung einer zusätzlichen Schicht in einem neuronalen Netz [45]. Die Autoren haben dieses Verfahren imple mentiert und unter dem Namen Autokeras als Modul des Keras-Toolkits zur Verfügung gestellt.
496 | 11 Grundlagen des Maschinellen Lernens
Abb. 11.23: Approximation der Modellgüte in Abhängigkeit von einem Hyperparameter. Aus den bis herigen zwei Beobachtungen ergibt sich der vorhergesagte Mittelwert und die zugehörige Progno sevarianz. Der nächste zu evaluierende Hyperparameter sollte an einer Stelle sein, an der möglichst hohe Werte vorkommen können, z. B. bei dem „x“
Ein alternativer Ansatz zur Hyperparameteroptimierung konstruiert ein umfas sendes differenzierbares Suchproblem, welches in Gänze durch Gradientenabstieg ge löst werden kann [66]. Die Autoren führen zusätzlich ein sog. „Abkühlen“ (annealing) ein, welches aus der Optimierungsliteratur bekannt ist. Hierbei wird durch „Tempe raturparameter“ die Gestalt der Kostenfunktion so modifiziert, dass kleine Gewichte „abgeschaltet“ werden können und sich ganze Netzwerkteile stilllegen lassen. Im Ver gleich zu den bisherigen Ansätzen benötigt ihre ASAP-Methode (architecture search, anneal and prune) Größenordnungen weniger Rechenzeit und verringert die Dauer der Architektursuche von Jahren auf wenige Stunden. Beispielsweise kann ASAP für die CIFAR-10 Bildklassifikation mit zehn Klassen den Klassifikationsfehler von 2,55 auf 1,99 % mit einem Rechenaufwand von nur 0,2 Tagen verbessern. Allerdings funktio niert diese differenzierbare Architektursuche bei einer Reihe von Problemen nicht. Frank Hutter und seine Arbeitsgruppe konnten zeigen [94], dass dies an einer star ken Krümmung der Verlustfunktion liegen kann. Sie schlagen Methoden zur Glättung der Verlustfunktion vor und zeigen die bessere Konvergenz dieser Methoden bei un terschiedlichen Problemen der Hyperparameteroptimierung.
11.6.7 Auswertung der Modellunsicherheit Es gibt verschiedene Arten von Unsicherheiten der Modellprognose (Gal, 2016). – Unsicherheit wegen fehlender Trainingsabdeckung: Ein Modell zur Erkennung von Hunderassen wird mit Daten unterschiedlicher Hunderassen trainiert. Es
11.6 Verbesserung der Modelle und des Trainingsprozesses
–
–
| 497
erhält die Aufgabe, das Bild einer Katze zu klassifizieren. Die resultierende Modellprognose ist unsicher, weil Katzen nicht in den Trainingsdaten auftau chen. Unsicherheit wegen Messfehlern: Ein Modell wird zur Unterscheidung von Hun den und Katzen trainiert. Es erhält die Aufgabe, ein verschwommenes Katzen bild zu klassifizieren. Die resultierende Modellprognose ist unsicher (vgl. Ab schnitt 13.2.1). Modellunsicherheit: Es werden mehrere Modelle mit unterschiedlicher Architek tur und Komplexität trainiert. Auch wegen unterschiedlicher Anfangswerte und anderer Zufallseinflüsse (Auswahl der Minibatches) werden sich die Parameter schätzungen unterscheiden. Alle Modelle haben leicht unterschiedliche Werte der Verlustfunktion, sind also auch noch plausibel. Die zugehörigen Modellpro gnosen unterscheiden sich, sind also unsicher.
Bisher wurde für ein Modell mithilfe eines Optimierungsverfahrens ein einziger „op timaler“ Parametervektor θ∗ bestimmt und damit eine Prognose durchgeführt. Offen bar sind aber auch Parameterwerte in der Nähe von θ∗ ebenfalls plausibel und könn ten für eine Prognose verwendet werden. Es gibt zwei unterschiedliche Ansätze, das Ausmaß dieser Unsicherheiten zu bestimmen. 11.6.7.1 Generierung plausibler Modelle mit dem Bootstrap Eine wichtige Ursache der Unsicherheit der Modellprognose ist, dass wir niemals al le möglichen Daten zum Training zur Verfügung haben, sondern nur eine Stichpro be dieser potenziellen Trainingsdaten. Der Bootstrap (auch Bagging) ist ein Ansatz, den Effekt dieser Trainingsdatenauswahl abzuschätzen. Er zieht „mit Zurücklegen“ neue zufällige Stichproben aus den vorhandenen Trainingsdaten und trainiert da mit eine Reihe von Modellen. Dieses Verfahren wurde auch bei Random Forests (Ab schnitt 11.4.2) verwendet. Es lässt sich zeigen, dass diese Modelle die Variation in den Trainingsdaten erfassen [38, S. 261]. Führt man mit jedem dieser Modelle eine Progno se durch, so erhält man eine Verteilung von Prognosen, welche die Modellunsicher heit abbilden [22, S. 181]. Die Verteilung dieser Prognosen beschreibt relativ genau die möglichen Werte der Ausgabevariablen. Wie zu erwarten, ist ein Bootstrap-Prognose intervall für Eingaben aus Bereichen, für die nur wenige oder gar keine Trainings daten verfügbar sind, größer. Zudem wirkt Bootstrap wie eine Regularisierung [33, S. 249]. Das Verfahren ist oft erprobt worden und recht zuverlässig. Es hat den Nebenef fekt, dass der Mittelwert der Prognosen dieser Ensembles von Modellen genauer ist als die Prognose mit einem einzelnen Modell. Aus diesem Grunde verbessert ein Ensem ble von unterschiedlichen Modellen oft die Zuverlässigkeit. Der Nachteil des Verfah rens ist, dass man eine große Zahl (>30) von Modellen trainieren muss, um Aussagen über die Verteilung treffen zu können.
498 | 11 Grundlagen des Maschinellen Lernens
Abb. 11.24: Die Pixel im Foto einer Straßenszene (links) werden durch ein KNN zur Bildsegmentie rung einzelnen Objektklassen zugeordnet (Mitte). Die unsicheren Bereiche dieser Zuordnung wer den durch helle Grautöne dargestellt (rechts). Die eigentlich farbigen Bilder können hier nur in Grau tönen wiedergegeben werden [13]
11.6.7.2 Bayessche neuronale Netze Bayessche neuronale Netze betrachten den Modellparameter θ als eine zusätzliche Variable, für den sich eine Wahrscheinlichkeitsverteilung p(θ|𝕊train ) ableiten lässt (Abschnitt 11.2.8). Sie wird A-posteriori-Wahrscheinlichkeit genannt und lässt sich als die Wahrscheinlichkeit interpretieren, dass der jeweilige Parameter derjenige des „korrekten Modells“ ist, welches die Daten erzeugt hat. Es ist in der Praxis unmöglich, diese Verteilung analytisch zu bestimmen. Es gibt unterschiedliche Verfahren, sie näherungsweise zu rekonstruieren. Markov-ChainMonte-Carlo-Verfahren (MCMC-Verfahren) erzeugen eine Reihe aufeinanderfolgender Parametervektoren $θ (1) , θ(2) , . . . , die diese Verteilung durchwandern und als eine (korrelierte) Stichprobe der Verteilung angesehen werden können. Das Ergebnis ist also eine Menge von Parametern, welche die Verteilung der plausiblen Parameter re präsentieren. Welling und Teh [93] stellen ein Verfahren vor, welches diese Verteilung unter Verwendung von Minibatch-Gradienten effizient berechnet. Aus dieser Vertei lung lassen sich Modellprognosen berechnen und deren Unsicherheit abschätzen. Die Autoren zeigen, dass dieses Vorgehen Überanpassung vermeidet. Gal [29] zeigt, dass ein mit Dropout (Abschnitt 11.3.5) zur Regularisierung trai niertes KNN näherungsweise ein bayessches neuronales Netz ist. Schätzwerte für die Unsicherheit kann man erhalten, wenn man Prognosen bei unterschiedlichen Drop out-Masken berechnet. Dies verursacht keinen zusätzlichen Aufwand bei der Optimie rung. In jüngerer Zeit verwenden viele KNN Batchnormalisierung (Abschnitt 12.3) zur Regularisierung. Teye et al. [87] leiten ab, dass das Training eines KNN mit Batchnor malisierung äquivalent zu einer näherungsweisen Inferenz in einem bayesschen Neu ronalen Netz ist. Daher lassen sich auch für diese Regularisierungstechnik Abschät zungen der Prognoseunsicherheit ohne großen Rechenaufwand gewinnen. Bildsegmentierung hat die Aufgabe, die einzelnen Pixel eines Bildes unterschied lichen Objektklassen zuzuordnen. Abbildung 11.24 führt dies mithilfe von Faltungs netzen (Abschnitt 12.3) für eine Straßenansicht durch. Auf der rechten Seite sind die unsicheren Bereiche dieser Zuordnung durch helle Pixel dargestellt [13].
11.7 Infrastruktur und Toolboxen | 499
11.6.8 Lernstrategien Bei der Anwendung von KNN auf reale Lernprobleme haben sich eine Reihe von Lern strategien als erfolgversprechend erwiesen. – Ende-zu-Ende-Lernen: Große Systeme bestehen oft aus mehreren Teilmodellen. Bisher wurden diese Modelle oft einzeln anhand von Daten trainiert und dann in einer Pipeline zusammengesetzt. Es hat sich aber gezeigt, dass man insgesamt besser aufeinander abgestimmte Systeme erhält, wenn man eine einzige Verlust funktion formuliert und alle Modelle gleichzeitig trainiert. Dann sind die Einzel modelle so aufeinander abgestimmt, dass der Gesamtfehler möglichst gering ist. – Selbstüberwachtes Lernen: Strukturierte Daten sind of hochdimensional. Beispie le sind Bilder, Sätze aus Worten oder DNA-Sequenzen. Man kann sehr viele In formationen aus den Daten extrahieren, ohne dass gesonderte Annotationen er forderlich sind. Man kann einfache Prognosemodelle trainieren, die einzelne Komponenten dieser Daten aus den restlichen Komponenten vorhersagen. Ein Beispiel ist die Prognose des nächsten Wortes eines Satzes aus den bisherigen Worten oder die Prognose eines Bildteils aus dem restlichen Bild. Diese Art des unüberwachten Lernens kann dann in ein übliches überwachtes Lernproblem übersetzt und gelöst werden. Diese Art von Lernproblemen hat in letzter Zeit zu sehr vielen Erfolgen in einer Reihe von Lernproblemen geführt und kann als ein Paradigmenwechsel betrachtet werden (Abschnitt 12.4). – Transferlernen: Beim Transferlernen wird ein Modell für eine Aufgabe mit vielen Daten trainiert und dann auf eine ähnliche Aufgabe übertragen. Bei der ursprüng lichen Aufgabe lernt das Modell, meist als selbstüberwachte Trainingsaufgabe, die Zusammenhänge einer Anwendungsdomäne. Anschließend wird das Modell auf ein verwandtes Lernproblem der Anwendungsdomäne angewendet. Das zwei te Lernproblem ist meist ein überwachtes Lernproblem mit wesentlich weniger Trainingsdaten. Auf diese Weise wurden in letzter Zeit viele Aufgaben der Bilder kennung (Abschnitt 12.3) und des Sprachverständnisses (Abschnitt 12.4.11) gelöst.
11.7 Infrastruktur und Toolboxen 11.7.1 Toolboxen für das Maschinelle Lernen Eine Toolbox, also ein Werkzeugkasten, für Maschinelles Lernen enthält eine meist interaktive Programmierumgebung und geeignete Module, um Aufgaben des Maschi nellen Lernens durchzuführen. Die heute populärsten Toolboxen haben sich um die interaktiven Programmiersprachen R und Python entwickelt. Beide Toolboxen sind Open-Source-Programmbibliotheken, deren Weiterentwicklung von großen Entwick lergemeinden vorangetrieben wird. Beide bieten eine voll funktionsfähige, interpre tierte, aber effiziente Programmiersprache, die nahtlos in die verfügbaren Maschi
500 | 11 Grundlagen des Maschinellen Lernens
nellen Lernverfahren integriert ist. Zur Entwicklung von R-Anwendungen wird häu fig RStudio verwendet, eine komfortable Entwicklungsumgebung. Für Python stehen verschiedene Entwicklungsumgebungen zur Verfügung, z. B. Jupyter, Spyder und Py Charm, die allerdings nicht auf Datenanalyse fokussiert sind. Die Analyse von Daten und die Entwicklung von Modellen des Maschinellen Ler nens läuft gemäß der CRISP-Methodology (Abschnitt 11.1.3) in sechs verschiedene Pha sen ab: Verständnis der Geschäftsziele, Verständnis der Daten, Vorverarbeitung der Daten, Modellierung, Evaluation und Deployment. Im Folgenden wird dargestellt, in welcher Weise die R- und Python-Toolboxen diese Phasen unterstützen. 11.7.1.1 Verständnis der Daten In beiden Toolboxen wird die Exploration von Daten durch eine große Palette von Auswahl-, Aggregations- und Plot-Routinen unterstützt. Hierzu steht eine mächtige Skriptsprache zur Verfügung, welche die Behandlung von Daten unterschiedlichen Typs in einer Matrix unterstützt und die flexible Manipulation von Vektoren, Matrizen und höherdimensionalen Datenpaketen erlaubt. In Python gibt es hierzu das mäch tige Pandas-Paket, dessen R-Pendent dplyr weniger flexibel ist, aber eine einfachere Syntax besitzt. Darüber hinaus gibt es ausgereifte Plot-Verfahren, mit denen die Ei genschaften der Daten sehr gut visualisiert werden können. Das ggplot2-Paket von R ist ein hervorragendes Paket für die Datenvisualisierung, welches Plots gemäß einer sehr verständlichen Sprache zur Spezifizierung von Grafiken erstellt. Matplotlib ist der De-facto-Standard für wissenschaftliches Zeichnen in Python, es ist aber mühsam zu lernen und anzuwenden. Insgesamt ist R für die Datenvisualisierung etwas einfacher zu verwenden. 11.7.1.2 Vorverarbeitung der Daten Es ist bekannt, dass in der Praxis die Aufbereitung der Daten meist einen höheren Zeit aufwand erfordert als die Modellierung. Hierzu gehört die Prüfung der Daten auf Messoder Codierungsfehler, die Behandlung fehlender Daten, die Normalisierung der Da ten und die Identifikation von Ausreißern. Beide Toolboxen stellen für diese „Daten bereinigung“ leistungsfähige Methoden und Sprachkonstrukte zur Verfügung. Zudem kann über die Erzeugung von objektorientierten Klassen sichergestellt werden, dass die Daten nur in dem erlaubten Kontext genutzt werden. Insgesamt ist die Datenberei nigung mit Python etwas einfacher, da Python eine große Menge von Datenstrukturen bereitstellt und eine wesentlich bessere Implementation regulärer Ausdrücke zur Su che von Mustern besitzt. 11.7.1.3 Modellierung R enthält mittlerweile weit über 2.000 verschiedene Pakete mit unterschiedlichen Mo dellen. Neue Methoden werden von der Entwicklergemeinde schnell zur Verfügung
11.7 Infrastruktur und Toolboxen | 501
gestellt. In Python können noch nicht so viele Modelle des klassischen Datamining genutzt werden, dafür sind aber wesentlich mehr neuronale Netzverfahren verfügbar. Das scikit.learn-Paket ist der De-facto-Standard für Datamining in Python und bietet sehr effiziente statistische Verfahren an. 11.7.1.4 Evaluation Beide Toolboxen stellen das volle Spektrum von Evaluationsmaßen zur Verfügung. Zu dem werden Metalernverfahren wie Kreuzvalidierung, Bootstrap, Bagging und Boost ing unterstützt. Python bietet weiterhin Unit-Tests, um die Korrektheit der Modelle sicherzustellen. Zunehmend werden auch Verfahren zur Optimierung der Hyperpara meter bereitgestellt. 11.7.1.5 Deployment Mittlerweile gibt es die Jupyter-Notebook-Umgebung, in dem Text und Programmteile in einer Datei gemischt und exekutiert werden können. Dieses Notebook ist sehr gut geeignet, die Ergebnisse der Analysen anderen Personen vorzustellen. Es ist sowohl für Python als auch für R verfügbar. Geht es darum, die entwickelten Modelle in andere Programmabläufe zu integrieren, so ist dies mit Python etwas einfacher als mit R, da ja in vielen Firmen Python schon in der IT verwendet wird. Bei der praktischen Anwendung von trainierten Modellen ist es wichtig, die An wendungsvoraussetzungen laufend zu überprüfen. Insbesondere muss durch Tests si chergestellt werden, dass die Verteilung der neuen Daten nicht zu weit von der Ver teilung der Trainingsdaten abweicht (concept drift). Hier bieten beide Toolboxen die erforderlichen Methoden an. Neben dem kostenlosen RapidMiner, welcher Java als Programmiersprache nutzt, werden noch die kommerziellen Pakete SAS, SPSS und STATA von vielen Nutzern als Umgebungen für das Maschinelle Lernen verwendet. Insgesamt sind R und Python wegen der großen Entwicklergemeinden umfangreicher und oft auch zuverlässiger als viele kommerzielle Pakete.
11.7.2 Toolboxen für tiefe neuronale Netze Wenn man ein KNN mit einer gebräuchlichen Programmiersprache implementiert, so gibt es viele Fehlerquellen. Spezielle Toolkits erlauben es, ein KNN einfach zu spezi fizieren, zu trainieren und anzuwenden. Das Training von KNN erfordert eine hohe Rechenleistung, welche heute besonders günstig durch Grafikkarten (graphical pro cessing unit, GPU) zur Verfügung gestellt wird [33, S. 439]. Die GPU wurden zunächst für Videospiele entwickelt und enthalten heute bis zu 10.000 Rechencores. Anschlie ßend wurden sie durch die Entwicklung eines passenden Interfaces für allgemeine numerische Berechnungen verwendbar. Für die meisten Anwender ist dieses Inter
502 | 11 Grundlagen des Maschinellen Lernens
face zu komplex. Daher wurde es von den Toolboxen für neuronale Netze in einer ver einfachten Form zu Verfügung gestellt. Es gibt eine Reihe dieser Toolkits, von denen TensorFlow [1], PyTorch [68] und CNTK derzeit die populärsten sind. 11.7.2.1 TensorFlow TensorFlow [1] wurde vom Google-Brain-Team entwickelt und unter der Apache-2.0Open-Source-Lizenz veröffentlicht. Es bietet folgende Funktionalität: – Zusammenstellung des KNN aus unterschiedlichen Operatoren, welche beliebige Vektoren, Matrizen und Tensoren als Eingaben und Ausgaben haben können. Oft beschreibt ein Operator eine Schicht des KNN. Die Operatoren müssen nicht alle nacheinander ausgeführt werden, sondern es sind auch parallele Informations flüsse erlaubt. Daher bilden die Operatoren einen Graphen. – Die Ableitungen werden symbolisch ausgerechnet und als zusätzliche Operatoren dem Graphen hinzugefügt. Die Bestimmung dieser Ableitungen war zuvor extrem mühsam und eine Quelle vieler Fehler. – Es sind eine Reihe von Optimierungsverfahren verfügbar, insbesondere der sto chastische Gradientenabstieg (SGD) und dessen Varianten. – Die Berechnungen, insbesondere das Training, werden automatisch auf die zur Verfügung stehende sequenzielle oder parallele Hardware ausgelagert und die Übertragung der Daten zwischen den Komponenten sichergestellt. Bei der Be rechnung des Gradienten (Gleichung 11.6) wird z. B. meist eine Summe über ein zelne beobachtete Instanzen der Trainingsmenge gebildet. Diese Instanzen lassen sich daher auf verschiedene Prozessoren verteilen und der Gradient somit parallel berechnen. Dabei ist auch wichtig, dass die verwendeten GPU genügend Speicher besitzen, um die Instanzen eines Minibatchs aufnehmen zu können. Abbildung 11.25 zeigt die Architektur des TensorFlow-Systems. Das Toolkit ist für un terschiedliche Programmiersprachen verfügbar, bevorzugt in Python, aber auch Java, JavaScript, C++ usw. Es ist auch eine Schnittstelle zu scikit.learn vorhanden, einem Statistikpaket in Python, dessen Auswertungsmodule damit flexibel verwendet wer den können. Keras [11] ist eine vereinfachte, nutzerfreundliche Bedienungssprache für TensorFlow. Ziel ist es, die gebräuchlichsten Netztypen flexibel und übersichtlich zu spezifizieren. 11.7.2.2 PyTorch Im Oktober 2018 wurde die Version 1.0 von PyTorch [68] von Facebook publiziert. Es ist kostenlos unter einer Open-Source-Lizenz nutzbar. PyTorch ist als eine Bibliothek von Python konzipiert, ist aber auch von C++ aus ansprechbar. In ihrer Funktionali tät sind TensorFlow und PyTorch ziemlich ähnlich. Beide führen Berechnungen mit ähnlicher Geschwindigkeit durch, und beide haben eine gute Dokumentation. Ten sorFlow hat Vorteile wegen der vielen Beispielprojekte, in denen es genutzt wird und
Literaturverzeichnis
|
503
Abb. 11.25: Die Architektur des TensorFlow-Systems, welches von vielen Programmiersprachen aus verwendet werden und die Berechnungen auf unterschiedliche Prozessoren verteilen kann
deren Programmcode im Internet verfügbar ist. Zudem können mit ihm einfacher Be rechnungen auf sehr viele Prozessoren verteilt werden. PyTorch ist besser mit der Pro grammiersprache Python verknüpft und unterstützt dynamische Modellstrukturen, was für fortgeschrittene Modelle immer wichtiger wird [33, S. 443]. Insgesamt wurden die Fortschritte in der Anwendung von tiefen neuronalen Netzen auf diverse Lernpro bleme erst durch die Verfügbarkeit der KNN-Toolkits möglich.
Literaturverzeichnis [1]
Abadi, M., Barham, P., Chen, J., Chen, Z., Davis, A., Dean, J., Devin, M., Ghemawat, S., Ir ving, G., Isard, M. et al. Tensorflow: A system for large-scale machine learning. In 12th {USENIX} Symposium on Operating Systems Design and Implementation ({OSDI} 16), S. 265–283, 2016. [2] Arbib, M. A. und Bonaiuto, J. J. (Hrsg.). From Neuron to Cognition via Computational Neurosci ence. The MIT Press, 2016. [3] Barber, D. Bayesian reasoning and machine learning. Cambridge University Press, 2012. [4] Bassily, R., Belkin, M. und Ma, S. On exponential convergence of sgd in non-convex over-para metrized learning. arXiv preprint arXiv:1811.02564, 2018. [5] Bauckhage, C. The dual problem of L 2 SVM training. Forschungsbericht, Technical report, Re searchGate, 2018. available on https://www.researchgate.net/publication/323812902_The_ Dual_Problem_of_L2_SVM_Training. [6] Bishop, C. M. Neural networks for pattern recognition. Oxford university press, 1995. [7] Bishop, Y. M., Fienberg, S. E. und Holland, P. W. Discrete multivariate analysis: theory and prac tice. Springer Science & Business Media, 2007. [8] Breiman, L. Random forests. Machine Learning, vol. 45: 5–32, 2001. [9] Breiman, L., Friedman, J. H., Olshen, R. A. und Stone, C. J. Classification and regression trees. Belmont, CA: Wadsworth. International Group, 432:151–166, 1984. [10] Brutzkus, A. und Globerson, A. Why do Larger Models Generalize Better? A Theoretical Per spective via the XOR Problem. In International Conference on Machine Learning, S. 822–830, 2019.
504 | 11 Grundlagen des Maschinellen Lernens
[11] Chollet, F. Deep Learning mit Python und Keras: Das Praxis-Handbuch vom Entwickler der Keras-Bibliothek. MITP-Verlags GmbH & Co. KG, 2018. [12] Clarkson, K. L. Coresets, sparse greedy approximation, and the Frank-Wolfe algorithm. ACM Transactions on Algorithms (TALG), 6(4):1–30, 2010. [13] Corbière, C., Thome, N., Bar-Hen, A., Cord, M. und Pérez, P. Addressing Failure Prediction by Learning Model Confidence. arXiv preprint arXiv:1910.04851, 2019. [14] Cortes, C. und Vapnik, V. Support-vector networks. Machine learning, 20(3):273–297, 1995. [15] Dayan, P. und Abbott, L. F. Theoretical Neuroscience: Computational and Mathematical Model ing of Neural Systems. The MIT Press, 2001. [16] De Raedt, L. Logical and relational learning. Springer Science & Business Media, 2008. [17] De Raedt, L. und Kersting, K. Statistical relational learning. In Encyclopedia of Machine Learn ing. Springer, 2010. [18] Domingos, P. Alchemy 2.0. https://code.google.com/archive/p/alchemy-2/, 2012. Abgerufen am 11.102.2020. [19] Domingos, P. und Lowd, D. Markov logic: An interface layer for artificial intelligence. Synthesis Lectures on Artificial Intelligence and Machine Learning, 3(1):1–155, 2009. [20] Domingos, P. und Lowd, D. Unifying logical and statistical AI with Markov logic. Communica tions of the ACM, 62(7):74–83, 2019. [21] Dong, X., Gabrilovich, E., Heitz, G., Horn, W., Lao, N., Murphy, K., Strohmann, T., Sun, S. und Zhang, W. Knowledge vault: a web-scale approach to probabilistic knowledge fusion. In ACM SIGKDD 2014, S. 601–610. ACM, 2014. [22] Efron, B. und Hastie, T. Computer age statistical inference, Band 5. Cambridge University Press, 2016. [23] Embar, V., Sridhar, D., Farnadi, G. und Getoor, L. Scalable structure learning for probabilistic soft logic. arXiv preprint arXiv:1807.00973, 2018. [24] Fisher, R. A. The use of multiple measurements in taxonomic problems. Annals of eugenics, 7(2):179–188, 1936. [25] Frank, M. und Wolfe, P. An algorithm for quadratic programming. Naval research logistics quar terly, 3(1-2):95–110, 1956. [26] Freund, Y. und Schapire, R. E. A decision-theoretic generalization of on-line learning and an application to boosting. In European conference on computational learning theory, S. 23–37. Springer, 1995. [27] Friedman, J., Hastie, T. und Tibshirani, R. The elements of statistical learning, Band 1-10. Sprin ger series in statistics New York, 2001. [28] Fürnkranz, J., Gamberger, D. und Lavrač, N. Foundations of rule learning. Springer Science & Business Media, 2012. [29] Gal, Y. Uncertainty in deep learning. PhD thesis, University of Cambridge, 2016. [30] Gärtner, T., Flach, P. und Wrobel, S. On graph kernels: Hardness results and efficient alternati ves. In Learning theory and kernel machines, S. 129–143. Springer, 2003. [31] Gerstner, W. und Kistler, W. M. Spiking Neuron Models. Cambridge University Applied Mathe matics Research eXpress, 2002. [32] Getoor, L. und Taskar, B. Introduction to Statistical Relational Learning. MIT Press, 2007. [33] Goodfellow, I., Bengio, Y. und Courville, A. Deep Learning - Adaptive Computation and Machine Learning. The MIT Press, 2016. [34] Goodfellow, I. J., Warde-Farley, D., Mirza, M., Courville, A. und Bengio, Y. Maxout Networks. In ICML’13, S. 1319–1327, 2013. [35] Graves, A. Generating sequences with recurrent neural networks. arXiv preprint ar Xiv:1308.0850, 2013.
Literaturverzeichnis
| 505
[36] Haeffele, B. D. und Vidal, R. Global optimality in tensor factorization, deep learning, and be yond. arXiv preprint arXiv:1506.07540, 2015. [37] Hardt, M., Recht, B. und Singer, Y. Train faster, generalize better: Stability of stochastic gra dient descent. In International Conference on Machine Learning, S. 1225–1234, 2016. [38] Hastie, T., Tibshirani, R. und Friedman, J. The Elements of Statistical Learning. Second Edition. Springer, 2009. [39] Hastie, T., Tibshirani, R. und Friedman, J. The Elements of Statistical Learning. Second Edition. Springer, 2017. corrected 12th printing. [40] Haykin, S. Neural Networks and Learning Machines: A Comprehensive Foundation. Prentice Hall, 2008. [41] Hofmann, T., Schölkopf, B. und Smola, A. J. Kernel methods in machine learning. The annals of statistics, S. 1171–1220, 2008. [42] Jacobs, R. A., Jordan, M. I., Nowlan, S. J., Hinton, G. E. et al. Adaptive mixtures of local experts. Neural computation, 3(1):79–87, 1991. [43] Jain, D. Knowledge engineering with markov logic networks: A review. Evolving Knowledge in Theory and Applications, 16:50–75, 2011. [44] Jarre, F. und Stoer, J. Optimierung. Springer, 2004. [45] Jin, H., Song, Q. und Hu, X. Auto-keras: An efficient neural architecture search system. In Pro ceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, S. 1946–1956. ACM, 2019. [46] Kaggle. Kaggle’s State of Data Science and Machine Learning 2019. https://www.kaggle.com/ kaggle-survey-2019, 2019. Heruntergeladen am 7.3.2020. [47] Kamp, M., Boley, M., Missura, O. und Gärtner, T. Effective parallelisation for machine learning. In Advances in Neural Information Processing Systems, S. 6477–6488, 2017. [48] Kastrati, M. und Biba, M. Statistical Relational Learning: A State-of-the-Art Review. Journal of Engineering Technology and Applied Sciences, 4(3):141–156, 2019. [49] Kaur, N., Kunapuli, G., Joshi, S., Kersting, K. und Natarajan, S. Neural Networks for Relational Data. arXiv preprint arXiv:1909.04723, 2019. [50] Khot, T., Natarajan, S., Kersting, K. und Shavlik, J. Gradient-based boosting for statistical relational learning: the Markov logic network and missing data cases. Machine Learning, 100(1):75–100, 2015. [51] Kimmig, A., Bach, S., Broecheler, M., Huang, B. und Getoor, L. A short introduction to proba bilistic soft logic. In Proceedings of the NIPS Workshop on Probabilistic Programming: Founda tions and Applications, S. 1–4, 2012. [52] Kloft, M., Brefeld, U., Laskov, P., Müller, K. R., Zien, A. und Sonnenburg, S. Efficient and accu rate lp-norm multiple kernel learning. In Advances in neural information processing systems, S. 997–1005, 2009. [53] Krüger, N., Janssen, P., Kalkan, S., Lappe, M., Leonardis, A., Piater, J., Rodriguez-Sanchez, A. J. und Wiskott, L. Deep Hierarchies in the Primate Visual Cortex: What Can We Learn for Computer Vision? IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(8):1847–1871, Aug 2013. [54] Kuzelka, O. und Davis, J. Markov logic networks for knowledge base completion: A theoretical analysis under the MCAR assumption. In Proceedings of the Thirty-Fifth Conference on Uncer tainty in Artificial Intelligence, UAI, Band 2019, 2019. [55] LeCun, Y., Cortes, C. und Burges, C. J. The MNIST database of handwritten digits, 1998. URL http://yann. lecun. com/exdb/mnist, 10:34, 1998. [56] LeCun, Y. A., Bottou, L., Orr, G. B. und Müller, K. R. Efficient backprop. In Neural networks: Tricks of the trade, S. 9–48. Springer, 2012.
506 | 11 Grundlagen des Maschinellen Lernens
[57] MacKay, D. J. Information theory, inference and learning algorithms. Cambridge university press, 2003. [58] Mangasarian, O. L. und Musicant, D. R. Lagrangian support vector machines. Journal of Ma chine Learning Research, 1(Mar):161–177, 2001. [59] Manhaeve, R., Dumancic, S., Kimmig, A., Demeester, T. und De Raedt, L. Deepproblog: Neural probabilistic logic programming. In Advances in Neural Information Processing Systems, S. 3749–3759, 2018. [60] Marra, G., Giannini, F., Diligenti, M. und Gori, M. Integrating Learning and Reasoning with Deep Logic Models. arXiv preprint arXiv:1901.04195, 2019. [61] Minsky, M. und Papert, S. Perceptrons-Expanded Edition: An Introduction to Computational Geometry, 1987. [62] Mitchell, T. M. Machine learning. McGraw-hill New York, 1997. [63] Montavon, G., Orr, G. und Müller, K. R. Neural networks: tricks of the trade, Band 7700. sprin ger, 2012. [64] Nemeth, C. und Fearnhead, P. Stochastic gradient Markov chain Monte Carlo, 2019. [65] Nickel, M., Murphy, K., Tresp, V. und Gabrilovich, E. A review of relational machine learning for knowledge graphs. Proceedings of the IEEE, 104(1):11–33, 2015. [66] Noy, A., Nayman, N., Ridnik, T., Zamir, N., Doveh, S., Friedman, I., Giryes, R. und ZelnikManor, L. ASAP: Architecture search, anneal and prune. arXiv preprint arXiv:1904.04123, 2019. [67] Paaß, G. und Hecker, D. Künstliche Intelligenz – Was steckt hinter der Technologie der Zukunft? Springer, 2020. [68] Paszke, A., Gross, S., Massa, F., Lerer, A., Bradbury, J., Chanan, G., Killeen, T., Lin, Z., Gimels hein, N., Antiga, L. et al. PyTorch: An imperative style, high-performance deep learning library. In Advances in Neural Information Processing Systems, S. 8024–8035, 2019. [69] Qu, M., Bengio, Y. und Tang, J. GMNN: Graph Markov Neural Networks. In Proc. ICML 2019, S. 5241–5250, 2019. [70] Raedt, L. D., Kersting, K., Natarajan, S. und Poole, D. Statistical relational artificial intelligence: Logic, probability, and computation. Synthesis Lectures on Artificial Intelligence and Machine Learning, 10(2):1–189, 2016. [71] Reddi, S. J., Kale, S. und Kumar, S. On the convergence of adam and beyond. arXiv preprint arXiv:1904.09237, 2019. [72] Reichartz, F., Korte, H. und Paass, G. Semantic relation extraction with kernels over typed de pendency trees. In Proceedings of the 16th ACM SIGKDD international conference on Know ledge discovery and data mining, S. 773–782, 2010. [73] Rolls, E. und Deco, G. Computational Neuroscience of Vision. OUP Oxford, 2001. [74] Rosenblatt, F. The perceptron: a probabilistic model for information storage and organization in the brain. Psychological review, 65(6):386, 1958. [75] Rosenbluth, M. N. Genesis of the Monte Carlo algorithm for statistical mechanics. In AIP Con ference Proceedings, Band 690-1, S. 22–30. AIP, 2003. [76] Rumelhart, D. E., Hinton, G. E., Williams, R. J. et al. Learning representations by back-propagat ing errors. Cognitive modeling, 5(3):1, 1988. [77] Schmidhuber, J. Deep learning in neural networks: An overview. Neural Networks, 61:85 – 117, 2015. [78] Schölkopf, B. und Smola, A. J. Learning with kernels. 2002, 2002. [79] Shearer, C. The CRISP-DM model: the new blueprint for data mining. Journal of data warehous ing, 5(4):13–22, 2000. [80] Sifa, R., Paurat, D., Trabold, D. und Bauckhage, C. Simple Recurrent Neural Networks for Support Vector Machine Training. In International Conference on Artificial Neural Networks, S. 13–22. Springer, 2018.
Literaturverzeichnis
| 507
[81] Simon, H. A. Why should machines learn? In Machine learning, S. 25–37. Elsevier, 1983. [82] Sra, S., Nowozin, S. und Wright, S. J. Optimization for machine learning. The MIT Press, 2012. [83] Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I. und Salakhutdinov, R. Dropout: a simple way to prevent neural networks from overfitting. The journal of machine learning research, 15(1):1929–1958, 2014. [84] Stoer, J. und Bulirsch, R. Numerische Mathematik 2. Springer, 5. Aufl., 2005. [85] Sun, S., Cao, Z., Zhu, H. und Zhao, J. A Survey of Optimization Methods from a Machine Learn ing Perspective. arXiv preprint arXiv:1906.06821, 2019. [86] Tang, Y. H. und de Jong, W. A. Prediction of atomization energy using graph kernel and active learning. The Journal of chemical physics, 150(4):044107, 2019. [87] Teye, M., Azizpour, H. und Smith, K. Bayesian uncertainty estimation for batch normalized deep networks. arXiv preprint arXiv:1802.06455, 2018. [88] Tsang, I. W., Kwok, J. T. und Cheung, P. M. Core vector machines: Fast SVM training on very large data sets. Journal of Machine Learning Research, 6(Apr):363–392, 2005. [89] Turing, A. Intelligent Machinery. Intelligent Machinery, vol. 5, 1969, 1948. [90] Vapnik, V. Principles of risk minimization for learning theory. In Advances in neural information processing systems, S. 831–838, 1992. [91] Vidal, R., Bruna, J., Giryes, R. und Soatto, S. Mathematics of Deep Learning, 2017. [92] Wang, P. W., Donti, P. L., Wilder, B. und Kolter, Z. SATNet: Bridging deep learning and logical reasoning using a differentiable satisfiability solver. arXiv preprint arXiv:1905.12149, 2019. [93] Welling, M. und Teh, Y. W. Bayesian learning via stochastic gradient Langevin dynamics. In Proceedings of the 28th international conference on machine learning (ICML-11) (pp. 681-688)., 2011. [94] Zela, A., Elsken, T., Saikia, T., Marrakchi, Y., Brox, T. und Hutter, F. Understanding and Robusti fying Differentiable Architecture Search. In ICLR 2020, 2020.
12 Tiefe neuronale Netze Christian Bauckhage, Wolfgang Hübner, Ronny Hug und Gerhard Paaß
12.1 Welche Vorteile haben tiefe neuronale Netze Künstliche neuronale Netze (KNN) wurden in Abschnitt 11.3 als Modelle f(x, θ) → y, die eine Eingabe x auf eine Ausgabe y abbilden, eingeführt. Die Eingaben und Ausga ben können Skalare, Vektoren, Matrizen und höherdimensionale Zahlenpakete sein, die allgemein als Tensoren bezeichnet werden. Bei einem Problem der Ziffernklassi fikation z. B. ist x eine Pixelmatrix mit den Grauwerten des Bildes und y ein Wahr scheinlichkeitsvektor, der Wahrscheinlichkeiten der möglichen Ziffern enthält (Glei chung 11.2). θ ist ein Vektor von freien Parametern, der durch ein Optimierungsverfah ren so geändert wird, dass die Verlustfunktion L(𝕊train , θ) für die Trainingsdaten 𝕊train möglichst klein wird (Abschnitt 11.2.3). Dies bewirkt z. B. bei der Ziffernklassifikation, dass die Wahrscheinlichkeit der beobachteten Ausgaben (Ziffern-Klassen) möglichst hoch wird. Hierdurch „lernen“ KNN eine Aufgabe zu erfüllen, ohne dass ihnen Regeln oder Anweisungen zur Aufgabenerfüllung vorgegeben werden. KNN sind maschinelle Lernverfahren und unterliegen daher den in Abschnitt 11.2 genannten Konstruktions prinzipien. Meist besteht ein KNN aus mehreren „Ebenen“ h i = φ(A i ∗ h i−1 + b i ), gebildet aus einer linearen Transformation A i ∗ h i−1 + b i mit einer anschließenden nicht linearen Aktivierungsfunktion φ (Gleichung 11.22). Hierbei ist h0 = x und h k = y. Für die ande ren h i -Vektoren gibt es keine Daten; sie werden verdeckte Vektoren genannt und ihre Länge kann frei gewählt werden [69]. Kurt Hornik und seine Mitarbeiter [37] konnten beweisen, dass ein Netzwerk aus lediglich zwei derartigen Ebenen (Abbildung 12.1 links) eine beliebige stetige Funkti on auf einer beschränkten abgeschlossenen Teilmenge des ℜn beliebig genau appro
Abb. 12.1: Die linke Grafik zeigt ein neuronales Netz mit zwei Ebenen, die rechte Seite eines mit vier Ebenen https://doi.org/10.1515/9783110659948-012
510 | 12 Tiefe neuronale Netze
ximieren kann. Dies gilt unabhängig von Art der verwendeten nicht linearen Aktivie rungsfunktion φ. Trotz dieser wünschenswerten theoretischen Eigenschaften zeigte es sich, dass neuronale Netze mit zwei Ebenen komplexe Probleme der Mustererken nung nicht gut lösen konnten. Das liegt u. a. daran, dass ein verdeckter Vektor mit ei ner exponentiellen Anzahl von Komponenten und mit einer entsprechenden Anzahl unbekannter Parameter erforderlich sein kann [7]. Andererseits zeigte es sich empirisch, dass tiefe neuronale Netze mit mehr Ebe nen (Abbildung 12.1 rechts) einen Zusammenhang besser rekonstruieren können, wie z. B. bei der Erkennung von Ziffern in Abbildung 12.2. Dieser Zusammenhang konnte theoretisch untermauert werden. Montafur et al. [53] zeigten, dass ein KNN mit ReLUAktivationen (Tabelle 11.1), k Ebenen und d Eingaben und verdeckten Vektoren der d(k−1) d Länge n insgesamt O(( nd) n ) konstante Bereiche mit unterschiedlichen Werten besitzt. Die Darstellungsmächtigkeit wächst also exponentiell mit der Anzahl der Ebe nen, und das KNN kann potenziell sehr komplexe Funktionen mit vergleichsweise we nigen Parametern approximieren. Allerdings ist nicht klar, ob die resultierenden Net ze mit ihrer speziellen Struktur den Zusammenhang zwischen Ein- und Ausgaben in einem Anwendungsbereich tatsächlich darstellen können.
Abb. 12.2: Bei der Erkennung von Ziffern steigt die Testgenauigkeit mit der Anzahl der verwendeten Ebenen [28, S. 196]
Seit etwa 2010 ist es gelungen, tiefe neuronale Netze mit vielen Ebenen für wichti ge Probleme der Mustererkennung zu trainieren. Entscheidend war hierbei die Ver fügbarkeit von Grafikhardware (GPU) als günstige Rechenknoten, die Fortschritte in der Optimierungstechnik (stochastischer Gradientenabstieg) und die Möglichkeit, mit sehr vielen Trainingsdaten zu arbeiten. Dabei geht der Trend immer weiter zu sehr umfangreichen und tiefen Modellen. Einen breiten Überblick bieten Goodfellow et al. [28] und Paaß und Hecker [58]. Im folgenden Abschnitt wird zunächst die Historie der tiefen neuronalen Netze skizziert. Dann werden spezielle Architekturen von tiefen neuronalen Netzen für die Bilderkennung, die Modellierung von Sequenzen und die Anwendungen in Spielsituationen und bei der Robotik vorgestellt. In einigen Proble
12.2 Historische Entwicklung tiefer neuronaler Netze | 511
men der Mustererkennung konnte sogar die Genauigkeit von menschlichen Experten erreicht werden. Näheres findet sich im letzten Abschnitt 12.7, in dem aktuelle Anwen dungen von KNN dargestellt werden.
12.2 Historische Entwicklung tiefer neuronaler Netze Auch wenn der Begriff des Deep Learning weitestgehend in jüngerer Zeit geprägt wur de, so geht doch eine Vielzahl der grundlegenden Konzepte und Algorithmen auf deut lich ältere Arbeiten zurück. Hierzu zählt insbesondere das Grundprinzip, dass kom plexe Funktionalitäten durch Interaktion vieler einheitlicher Elemente erzeugt wer den können. In diesem Zusammenhang wird in etlichen Überblicksartikeln (z. B. [28; 71]) die Entwicklung tiefer neuronaler Netzwerke innerhalb von drei Phasen beschrie ben. Obwohl diese Phasen durch unterschiedliche Zielsetzungen geprägt waren, so folgen die daraus entstandenen Architekturen dennoch den gleichen Grundprinzipi en, welche bis heute ihre Bedeutung beibehalten haben. Kybernetische Ansätze standen in der ersten Entwicklungsstufe tiefer neuronaler Netz werke im Vordergrund. Die Zielrichtung war hierbei die Entwicklung eines besseren Verständnisses dafür, wie Lernen in biologischen Systemen – u. a. über Feedbackme chanismen – funktionieren kann. In dieser Phase wurden wesentliche Grundlagen für moderne Lernverfahren gelegt, wie beispielsweise die Entwicklung des Perzep trons [67] (Abschnitt 11.3) oder die Umsetzung der Hebb-Regel [33] als Basis für un überwachtes Lernen. Konnektionistische Ansätze, welche im Wesentlichen die zweite Phase prägten, ziel ten darauf ab, komplexe kognitive Wahrnehmungsleistungen als Ganzes nachzubil den. Ausgangspunkt war die Betrachtung der netzartigen Verbindungen der Neurone im Gehirn, wobei die Nachbildung biologisch plausibler neuronaler Verarbeitungsele mente eher in den Hintergrund trat. In dieser Phase entstanden neuronale Netzwer ke welche u. a. auf dem Gebiet der Bildklassifikation erste größere Erfolge verbuchen konnten. Eines der Modelle, welches bereits 1979 in seiner ersten Form von Fukushima publiziert wurde, ist das Neocognitron [23; 24], ein neuronales Modell zur visuellen In formationsverarbeitung, welches in seiner Architektur weitgehende Grundelemente moderner Faltungsnetzwerke enthielt. Hierzu zählen die Verwendung von Faltungs operationen zur verschiebungsinvarianten Signalverarbeitung und Pooling-Operatio nen zur Dimensionsreduktion, wie sie in Abschnitt 12.3 noch im Detail beschrieben werden. Während das Neocognitron noch durch eine sehr einfache Form selbstorganisieren den Lernens an die Daten angepasst wurde, bestand der nächste größere, von Yann LeCun 1989 initiierte Fortschritt darin, Faltungsnetzwerke mithilfe von Gradienten verfahren zu trainieren [45], was insbesondere bei größeren Netzwerken zu deutlich
512 | 12 Tiefe neuronale Netze
besseren Lösungen führte.¹ Eine ähnliche Entwicklung erfuhren auch rekurrente Netz werke, welche die Grundlage zur Verarbeitung von Sequenzen bilden. Einer der we sentlichen Vertreter ist das von Hochreiter und Schmidthuber 1997 vorgestellte Long Short-Term Memory (LSTM) [36] (auch Abschnitt 11.3 und 12.4.5), welches aktuell in na hezu unveränderter Form einen zentralen Baustein vieler neuronaler Architekturen bildet. In diesem Zusammenhang wurde auch ein besseres Verständnis für eines der Grundprobleme des Lernens in tiefen neuronalen Netzwerken entwickelt, dem Pro blem, dass Gradienten in tiefen Hierarchien extrem kleine bzw. extrem große Werte annehmen (vanishing, exploding gradient problem) [35], was in Summe eine gleichmä ßige Konvergenz verhindert. Die Anwendbarkeit tiefer neuronaler Netzwerke in der heutigen Form wurde erst durch die Überwindung einiger weiterer Hürden möglich. Neben algorithmischen Verbesserungen, wie beispielsweise verbesserter Regularisierungsverfahren, zählen hierzu vor allem die Verfügbarkeit großer Datenmengen sowie hinreichend große Rechenkapazitäten. Erste Schritte in diese Richtung wurden dabei 2006 von Hinton durch Verwendung tiefer probabilistischer Netzwerke (Abschnitt 12.5) erzielt [34]. Hierbei wurde ein tiefes bayessches Netzwerk in einem ersten Schritt unüberwacht trainiert und in einem zweiten Schritt zur Beschleunigung der überwachten Lern phase eines Klassifikators genutzt. Basierend auf diesen ersten Nachweisen der prin zipiellen Machbarkeit war, neben weitreichenden theoretischen Fragestellungen, die Entwicklung leistungsstarker Netzwerkarchitekturen sehr stark an die Definition allgemein verfügbarer Benchmarks gekoppelt. Prominente Beispiele hierfür sind die Faltungsnetzwerke AlexNet von Krizhevsky et al. (2012) [42] und das VGG-Net von Simonyan und Zisserman (2014) [77], welche als Zwischenschritt von den Vorläu ferarchitekturen Fukushimas [24; 46] hin zu tiefen Architekturen mit sehr vielen verborgenen Schichten gesehen werden können.
12.3 Faltungsnetzwerke Hierarchisch organisierte Transformationen von Mustern wurden bereits in Ab schnitt 11.3 im Rahmen von Regressionsnetzwerken besprochen. Als Basis für die Transformation wurden vollständig verknüpfte Schichten von Neuronen verwendet, welche in Kombination mit nicht linearen Aktivierungsfunktionen in der Lage sind, beliebig komplexe Funktionen anzunähern. Faltungsnetzwerke [46] besitzen eine äquivalente Funktionsweise, allerdings wird die Konnektivität zwischen einzelnen Neuronen durch Einführung verschiebungsinvarianter bzw. äquivarianter Operatio nen deutlich reduziert. Dies ist notwendig, da praxisrelevante Signaltypen oft sehr
1 In diesem Zuge entstand auch der MNIST-Datensatz (Abbildung 11.1), welcher bis heute in seiner originalen Form und in modifizierten Fassungen verwendet wird.
12.3 Faltungsnetzwerke | 513
Hidden
I
II
Input
Stride (4)
Dilation-Faktor (1)
Kernelbreite (3)
(a) Designparameter der Faltung Output
Hidden
Input
Padding-Nodes
(b) Faltung am Rand (padding) o5 Output
Hidden
Input Rezeptives Feld von o 5
(c) Größe des rezeptiven Feldes Abb. 12.3: Parameter und Verwendung der diskreten Faltung. (a) Generierung einer eindimensiona len Merkmalskarte durch Faltung mit einem Kern. Dargestellt sind die Größe des Faltungskerns, die Schrittweite (engl. stride) und die Abtastbreite (engl. dilation), welche zusammengenommen die Designparameter der Faltung bilden. Die Abtastbreite kann man sich anschaulich so vorstellen, als ob der Faltungskern mit Nullelementen aufgefüllt wird. (b) Fortführung des Signals am Rand (engl. padding). (c) Bestimmung der Größe des rezeptiven Feldes bei wiederholter Faltung mit konstanter Kernelgröße
514 | 12 Tiefe neuronale Netze
hoch dimensional sind, was die direkte Verwendung voll verknüpfter Schichten aus schließt (Abbildung 12.6). Grundlage zur Definition von Faltungsnetzwerken bildet die Faltungsoperation (h ∗ w)(x) = ∫ h(t)w(x − t)dt .
(12.1)
Die Faltung ist eine lineare Operation, welche aus einer Signalfunktion h und einem Faltungskern w eine neue Funktion (h ∗ w) bildet. Die Umformung der kontinuierli chen Faltung in eine diskrete Faltung k
(h ∗ w)(x) = ∑ h(dt)w(sx − t)
mit
s, d ∈ ℕ+
(12.2)
t=0
erfordert eine Abtastung der Signalfunktion h und des Kerns w. Die Faltung kann da bei auch mit Schrittweiten (engl. stride) s > 1 und mit Abtastbreiten d > 1 (engl. di lation) verwendet werden (Abbildung 12.3a). Die Definition der diskreten Faltung für mehrdimensionale Signale ist dazu analog, wobei allerdings über alle Dimensionen des Eingaberaums integriert werden muss.² Generell benötigt die Faltung eine eindeu tig definierte Nachbarschaft auf dem Eingaberaum und ist demzufolge nur auf regu läre Topologien, wie beispielsweise auf Ketten- oder Gitterstrukturen anwendbar.³ So sind beispielsweise die Bildpunkte abgetasteter Bilddaten auf einer zweidimensiona len Gitterstruktur angeordnet (vgl. Abschnitt 15.1). Wie im Folgenden noch zu zeigen ist, sind Faltungsnetzwerke ein universelles Werkzeug zur Merkmalsextraktion, wel ches auf sehr unterschiedliche Eingangsdaten angewandt werden kann (z. B. [85]).
12.3.1 Faltungsschichten als dichte Merkmalsdetektoren Die Faltung ist bis auf die Indizierung in ihrer Definition identisch mit der Kreuzkorre lation, weshalb die Faltung im Wesentlichen eine Ähnlichkeit zwischen dem Faltungs kern und dem Signal an der Stelle x berechnet. Die Faltung ordnet somit jedem Ort im Eingangssignal einen Ähnlichkeitswert zu, weshalb das Ergebnis der Faltung auch als Merkmalskarte bezeichnet wird. Durch Verwendung einer nachgeschalteten Schwel lenwertoperation, wie z. B. der ReLU-Funktion, wird aus der Merkmalstransformation eine Merkmalsdetektion M(x) = φ((h ∗ w)(x) + b) , (12.3) wobei der Schwellenwert durch den additiven Bias b festgelegt wird. In diesem Sin ne bleibt das in Abschnitt 11.3 eingeführte Schema einer linearen Transformation in Kombination mit einer nicht linearen Aktivierungsfunktion erhalten. 2 Die Schrittweite s und die Abtastbreite d können hierbei für jede Dimension unterschiedlich defi niert werden. 3 Ungeordnete Punktmengen, wie sie z. B. bei der 3-D-Signalverarbeitung entstehen, oder auch Gra phen, bei denen die Knoten eine unterschiedliche Anzahl an Verknüpfungen besitzen, sind Beispiele für Datenstrukturen, auf denen die Faltung nicht ohne Weiteres definiert werden kann [13].
12.3 Faltungsnetzwerke |
515
Im Vergleich zu einer voll verknüpften Schicht ist die Konnektivität einer Faltungs schicht deutlich reduziert (Abbildungen 12.3a und 12.6). Während für ein Muster mit n Elementen in einer voll verknüpften Schicht auch ein n-dimensionaler Gewichtsvek tor gelernt werden muss, reduziert sich dies bei der Faltung auf die k Freiheitsgrade des Faltungskerns. Die Faltungsoperation ist per Definition verschiebungsinvariant, wodurch bei Verwendung eines Trainingsmusters mit n Elementen ein und derselbe Faltungskern an n verschiedenen Stellen ausgewertet wird. Dadurch erhöht sich der Konditionierungsgrad der Gewichte um den Faktor n. Diese Methode der Regulari sierung wird häufig auch als weight sharing bezeichnet. Die Verschiebungsinvarianz erlaubt somit die Detektion eines Merkmals an beliebigen Stellen im Eingaberaum, auch wenn im Trainingsdatensatz nicht alle möglichen Positionen auftreten.⁴ Weiter hin erlaubt die Faltungsoperation die Verarbeitung von Mustern mit variabler Größe, da zur Signalanalyse lediglich die Faltungskerne verwendet werden. Im Gegensatz da zu muss bei einer voll verknüpften Schicht das Eingangssignal exakt der Dimension der Eingangsschicht entsprechen. Neben der Verschiebungsinvarianz ist die zweite wesentliche Charakteristik der Merk malsdetektion die der Lokalität, weshalb Faltungsnetzwerke als eine lernbasierte Variante lokaler Merkmale angesehen werden können. Zur Veranschaulichung kann man sich den Faltungskern der diskreten Faltung (Gleichung 12.2) auch unendlich weit ausgedehnt vorstellen, w = [ . . . 0 0 0 w−2 w−1 w0 w1 w2 0 0 0 . . . ] , wobei aber nur wenige Stellen außerhalb des Zentrums ungleich null sind. Aufgrund der Kommutativität der Faltung kann dies auch durch zwei hintereinander ausgeführ te Faltungen w = [ . . . w−4 w−3 , w−2 w−1 w0 w1 w2 w3 w4 . . . ] ∗ [ . . . 0 0 1 1 1 1 1 0 0 . . . ] erzeugt werden, in diesem Fall durch die Faltung einer Rechteckfunktion mit einem weiteren Faltungskern. Gleiches gilt auch für die Faltung mit einer Gauß-Funktion, welche für Distanzen vom Zentrum größer 3σ näherungsweise zu null wird. Solche lo kalen Gewichtungen sind vergleichbar mit einer Apertur, innerhalb deren Bereich ein Signal analysiert wird. Muster, welche global komplex strukturiert sind, reduzieren sich auf strukturell einfache Muster, wenn sie innerhalb einer solchen Apertur ana lysiert werden [1]. Die Zerlegung von Signalen in strukturell einfache Elemente sowie deren Verknüpfung zu komplexeren Mustern ist einer der wesentlichen Mechanismen von Faltungsnetzwerken.
4 Dies gilt streng genommen nur für kontinuierliche Operationen. Durch die Abtastung des Signals und des Faltungskerns können Aliasing-Effekte auftreten, welche durch entsprechende Datenaugmen tierung ausgeglichen werden müssen. Weiterhin bezieht sich die Verschiebungsinvarianz nur auf die Merkmalsdetektion, nicht aber auf die Merkmalskarte, die per Definition ortsvariabel ist.
516 | 12 Tiefe neuronale Netze
Den Regularisierungseffekt kann man sich dabei auch statistisch erklären. Die Häu figkeit mit der einfache lokale Muster, wie beispielsweise Kanten oder Farbverläufe, in einem Trainingsdatensatz auftreten, ist signifikant höher als das Auftreten kom plexer Muster, wie beispielsweise das Erkennen größerer Objektteile. Dadurch ist das Netzwerk in der Lage, robuste Prototypen einfacher Muster zu lernen, welche suk zessive zu immer komplexeren Mustern zusammengefügt werden. Als rezeptives Feld wird dabei der Bereich im Eingangsraum bezeichnet, innerhalb dessen ein Neuron aktiviert werden kann. In Abbildung 12.3c ist das rezeptive Feld für einen Ort in der Merkmalskarte bei zweifacher Faltung dargestellt. Im erweiterten Sinne versteht man unter einem rezeptiven Feld aber auch Muster, auf welche das Neuron besonders sensitiv reagiert. Das analoge Gegenstück in der Filtertheorie ist die Impulsantwort eines linearen Filters. Diese Beschreibung ist allerdings nur für Filter in der ersten Faltungsschicht adäquat. Die Analyse der Funktionsweise von Neuronen in tiefe ren Schichten ist weitaus schwieriger und Gegenstand aktueller Forschungsfragen (z. B. [55]). Die diskrete Faltung ist streng genommen nur für Orte x + 2k definiert, da in diesem Fall der Faltungskern vollständig innerhalb des Signals liegt. Bei einem Eingangs signal der Größe n besitzt die zugehörige Merkmalskarte dann allerdings nur noch n − k Elemente. Bei direkter Anwendung der Faltung wäre die Tiefe eines Netzwerks automatisch durch die Größe des Eingangssignals begrenzt. Aus diesem Grund wird in den meisten Fällen das Signal künstlich über den Rand hinaus fortgesetzt (Abbil dung 12.3b), wobei heuristische Annahmen über die Funktionswerte gemacht werden (engl. padding). Dies kann beispielsweise die periodische Fortsetzung, die Fortset zung mit den Randwerten als Konstante oder auch die Fortsetzung mit Nullelementen sein.
12.3.2 Konstruktion von Faltungsnetzwerken Als Merkmalskanäle werden eine Menge von Faltungskernen bezeichnet, welche par allel auf das jeweils gleiche Eingangssignal angewandt werden. Anstelle einer Menge an Faltungskernen wird zur Vereinfachung meist ein Faltungskern in Tensor-Notati on genutzt. So resultiert z. B. die Faltung eines zweidimensionalen Signals der Größe [n, m] mit einem dreidimensionalen Faltungskern [w, h, c] in einer Merkmalskarte der Größe [n, m, c], wobei c die Anzahl der Merkmalskanäle ist. Besteht beispielsweise das Eingangssignal aus einem RGB-Farbbild mit der Zeilencodierung r|g|b|r|g|b . . . so kann durch Faltung mit dem Kern [1, 0, 0][0, 1, 0][0, 0, 1], einer Schrittweite s = 3 und einer Abtastbreite d = 1 das Eingangsbild in einzelne Farbkanäle zerlegt wer den. Von besonderer Bedeutung sind neben der Musteranalyse Operationen, welche ele mentare Muster zu komplexeren Mustern zusammenführen. Dies kann durch Ver
12.3 Faltungsnetzwerke | 517
Conv 3 × 3
Conv 3 × 3
Pool 2 × 2
Conv 1 × 1
Conv 3 × 3
Conv 1 × 1
(a) Faltungsblock VGG [77]
+
Conv 1 × 1 Conv 1 × 1
(b) Faltungsblock ResNet [32]
Conv 3 × 3
Conv 1 × 1
+ (c) Identitätsblock ResNet [32]
Conv 1 × 1
Conv 5 × 5
Conv 1 × 1
Conv 3 × 3
Pool 3 × 3
Conv 1 × 1
C Conv 1 × 1
(d) Inceptionblock [80]
Abb. 12.4: Exemplarische Prozessblöcke wie sie zur Konstruktion tiefer Faltungsnetzwerke ange wendet werden. Die punktweise Addition ist mit „+“ gekennzeichnet, die Konkatenation, also das Stapeln von Merkmalskarten, mit „C“. „Conv“ bezeichnet eine Faltungsschicht nach Gleichung 12.3 und „Pool“ die Maximum-Pooling-Operation. (a) Elementarer Faltungsblock bestehend aus hinter einandergeschalteten Faltungsschichten und einer Pooling-Schicht. (b), (d) Dargestellt sind zwei unterschiedliche Ansätze zur Kombination von Filtern mit unterschiedlichen Größen. (c) Beispiel für eine direkte Integration der Identität durch eine Skip Connection
knüpfung einzelner Merkmalskanäle geschehen, wodurch beispielsweise kombinier te Merkmale mit erweiterten Invarianzeigenschaften erzeugt werden. Ein Beispiel hierfür sind Quadraturpaare, bei denen Merkmalskarten M ∗ (x) = [M1 (x)]2 + [M2 (x)]2
(12.4)
additiv kombiniert werden, um dadurch Invarianzeigenschaften der beiden Filter M1 und M2 zu kombinieren. Diese Art der Verknüpfung wurde in [39] genutzt, um phasen invariante Kantenfilter zu erzeugen. In aktuellen Architekturen werden Verknüpfun gen dieser Art u. a. auch dazu genutzt, Filter unterschiedlicher Größen miteinander zu kombinieren [80]. Dies ist notwendig, da Strukturen auf unterschiedlichen Ska len auftreten können⁵ und die Filtergrößen darauf abgestimmt sein müssen. Neben einer punktweisen Addition kann auch eine Faltung mit einem Kern der Größe [1, 1] genutzt werden, um eine Linearkombination aller Merkmalskanäle abzubilden. Bei
5 Bei der Verarbeitung von Bilddaten sind dies beispielsweise Teile von Objekten, welche in unter schiedlichen Größen abgebildet sind.
518 | 12 Tiefe neuronale Netze
einem Signal mit c Kanälen besitzt ein solcher Filter c Freiheitsgrade, durch welche ein Skalarprodukt c
̂ M(x) = ∑ M i (x)w i
(12.5)
i=1
über alle Merkmalskanäle berechnet wird. Die Ortsauflösung wird dabei nicht redu ziert. Diese Operation ist eine sehr einfache Methode zur Dimensionsreduktion. Ein anschauliches Beispiel hierfür ist in Abbildung 12.6 gegeben. Die zweite zentrale Operation zur Verknüpfung lokaler Merkmale ist die Pooling-Ope ration, wobei in der Regel eine statistische Zusammenfassung einer zusammenhän genden Region einer Merkmalskarte gemeint ist. Hierbei wird eine neue Merkmals karte gebildet, indem innerhalb einer lokalen Region Filterantworten benachbarter Merkmalsdetektoren zusammengefasst werden. Dies kann der Mittelwert sein, ausge drückt durch die Faltung mit einem normierten Rechteckfilter, ein gewichtetes Mittel, ausgedrückt durch die Faltung mit einer Gauß-Funktion, oder auch nicht lineare Ope rationen wie die Bestimmung des Maximums. Hierbei ist zu beachten, dass es sich um eine reine Faltungsoperation handelt und nicht um die Operation einer Faltungs schicht nach Gleichung 12.3. Ebenso wie die Faltung kann Pooling auch zur Dimen sionsreduktion der Merkmalräume genutzt werden. Bei Verwendung von MaximumPooling in einer 2×2 Nachbarschaft und einer Schrittweite von zwei reduziert sich die Größe der Merkmalskarten bei jeder Anwendung um die Hälfte.⁶ Diese Vorgehenswei se ist in der Signalverarbeitung unter dem Begriff der Auflösungspyramide oder dem Auflösungsraum (engl. scale space) bekannt und wurde auch in Zusammenhang mit neuronalen Netzwerken umfassend untersucht [82]. Die bisherige Beschreibung umfasste weitgehend die elementaren Bausteine zur Kon struktion von Faltungsnetzwerken. Darüber hinaus ist es schon alleine aufgrund der enormen Anzahl an Ansätzen nicht möglich, hier einen vollständigen Überblick über aktuell existierende Architekturen zu geben. Hierfür existieren zahlreiche Internet quellen, welche neben den Referenzen auch aktuelle Bewertungen der Architekturen zur Verfügung stellen. Allen Architekturen ist aber gemeinsam, dass sie hierarchisch aufgebaut sind, wobei sich die Größe der rezeptiven Felder entlang der Hierarchie vergrößert und die dadurch repräsentierten Muster an Komplexität zunehmen. Dabei bleibt die Größe der Filterkerne in jeder Schicht des Netzwerks weitgehend gleich, wo durch das gesamte Netzwerk praktisch erst lernbar wird. Diese Grundprinzipien wur den erstmals mit dem Neocognitron [24] in einem neuronalen Netzwerk abgebildet und finden sich in ähnlicher Form in aktuellen tiefen Architekturen wieder. In der Regel wird hierzu aber keine reine Hintereinanderschaltung von Faltungsschichten genutzt. Vielmehr bestehen Hierarchien aus einer Anordnung identischer Verarbeitungsblö 6 In Abbildung 12.5 ist die Dimensionsreduktion des VGG-Netzwerks in vereinfachter Form darge stellt. Insbesondere die Dimensionsreduktion durch Unterabtastung erschwert die Konstruktion in verser Netzwerke, welche aus der Faltungshierarchie das Eingangssignal wieder rekonstruieren.
12.3 Faltungsnetzwerke | 519
maxpool conv depth=64
conv depth=128
conv depth=256
conv depth=512
unpool deconv deconv deconv depth=128 depth=64 depth=3
deconv depth=256
Abb. 12.5: Vereinfachte Darstellung des VGG-Netzwerks [77], mit einem Encoder (linker Teil) und einem Decoder (rechter Teil). Das Grundschema eines Faltungsblocks ist in Abbildung 12.4a darge stellt
(a)
(b)
(c)
Abb. 12.6: Aktivierungen der Merkmalskarten des VGG-Netzwerks aus Abb 12.5. (a) Ausgang des ersten Faltungsblocks mit 64 Kanälen. (b) Ausgang des zweiten Faltungsblocks mit 128 Kanälen. (c) Ausgang des dritten Faltungsblocks mit 256 Kanälen. Die Auflösung der Merkmalskarten halbiert sich dabei nach jedem Faltungsblock. Der erste Faltungsblock benötigt 38.720 freie Parameter, unabhängig von der Bildgröße. Dies verdeutlicht die Reduktion der freien Parameter im Vergleich zu voll verknüpften Schichten. Bei einem Eingangsbild der Größe 224 × 224 × 3 wären dies bereits 150.528 Parameter für eine einzige Merkmalskarte
cke, innerhalb derer komplexere Teilaufgaben gelöst werden. Diese sind meist so ge staltet, dass sie die Signalverarbeitung flexibler gestalten oder die Konstruktion tie fer Architekturen ermöglichen, welche robust gegenüber Überanpassungsphänomen sind. In Abbildung 12.4 sind exemplarisch einige Verarbeitungsblöcke dargestellt.
12.3.3 Lernen in tiefen Faltungsnetzwerken Für eine effiziente Konvergenz des Lernprozesses ist es außerdem wichtig, dass al le Netzwerkparameter unabhängig von ihrer Schicht in einem Lernschritt aktualisiert
520 | 12 Tiefe neuronale Netze
werden können. Generell sind tiefe Netzwerke mit dem Problem konfrontiert, dass die Gradientenamplituden mit zunehmender Tiefe kleiner werden (engl. vanishing gra dient). Ähnlich verhält es sich, wenn die Fehlerfläche in unterschiedlichen Richtun gen sehr unterschiedlich gekrümmt ist, wodurch einzelne Variablen überproportio nal, andere nahezu gar nicht aktualisiert werden. Um diese Probleme zu beheben, werden in tiefen Faltungsnetzwerken die folgenden Strategien angewandt: 1. Die Verwendung zusätzlicher Kostenfunktionen (engl. auxiliary losses), welche nur während der Lernphase genutzt werden. Faltungsnetzwerke lernen eine durch die Kostenfunktion bestimmte Repräsentation der Trainingsmuster, wo bei der Abstraktionsgrad der Repräsentation mit der Tiefe zunimmt. Da jede Schicht in der Hierarchie eine valide Repräsentation der Trainingsmuster ist, können mehrere identische Kostenfunktionen auf verschiedenen Tiefenebenen angewandt werden. Für die Bildklassifikation [80] (vgl. Abschnitt 15.3.3) sind dies Klassifikationsnetzwerke, wie das der logistischen Regression aus Abschnitt 11.3. Die zusätzlichen Kostenfunktionen stellen sicher, dass in der Lernphase alle Be reiche der tiefen Hierarchie gleichmäßig aktualisiert werden. 2. Um effizient lernen zu können, benötigt ein Netzwerk und auch die individuel len Schichten weitgehend stabile Eingangsmuster. Da die Gewichte der einzelnen Faltungsschichten zufällig initialisiert sind, unterliegen die Amplituden in den Merkmalskarten insbesondere in frühen Lernphasen sehr starken Änderungen. Dies erschwert vor allem den Lernprozess in den tiefen Schichten, da sich deren Eingangssignal permanent verändert. Batch-Normierung (engl. batch normaliza tion) ist ein Normierungsschritt, der näherungsweise einer Whitening-Transfor mation auf den Merkmalskarten entspricht. Die Normierung wird dabei in zwei Schritten durchgeführt. Zuerst der Whitening-Schritt, 1 n ̂ M(x) = ∑ M i (x) n i=1
mit n = |𝕊 | ,
(12.6)
σ M (x) =
1 n 2 ̂ ∑ (M i (x) − M(x)) , n i=1
(12.7)
Mnorm =
M − M̂ σ 2M + ϵ ,
(12.8)
der aus Effizienzgründen nicht über die vollständigen Merkmalskarten, sondern punktweise und unabhängig über alle Muster einer Minibatch 𝕊 berechnet wird.⁷ In der Ausgabe der Schicht Mout (x) = γMnorm (x) + β
(12.9)
7 Die Indizierung geht hierbei über die Merkmalskarten, welche pro Muster einer Minibatch berechnet werden. ϵ ist eine Konstante, welche ein Division durch null verhindert.
12.4 Die Analyse von Sequenzen: rekurrente neuronale Netze | 521
3.
wird die Transformation wieder rückgängig gemacht, wobei die Parameter β und γ Teil der freien Parameter sind und mitgelernt werden. Skip Connections werden dazu genutzt, die identische Abbildung fest in der Archi tektur zu verankern. Die Motivation besteht dabei darin, dass die identische Abbil dung in Faltungsnetzwerken nur sehr schwer zu lernen ist. Das in Abbildung 12.4c dargestellte Schema bildet die Grundlage für die Residuennetzwerke [32]. Die Be zeichnung bezieht sich darauf, dass der Faltungsblock eigentlich eine inkremen telle Veränderung des Eingangssignals lernt. Residuennetzwerke zeichnen sich durch eine besonders robuste Konvergenz aus.
Abschließend muss noch angemerkt werden, dass all diese Designprinzipien ebenso wie die Konstruktion vollständiger Architekturen weitgehend auf heuristischen An nahmen beruhen und ihre Wirkungsweise empirisch nachgewiesen wird. Ein formal tieferes Verständnis für die erfolgreichen Bausteine tiefer Faltungsnetzwerke ist aktu eller Forschungsgegenstand und vielen Bereichen weitgehend ungelöst.
12.4 Die Analyse von Sequenzen: rekurrente neuronale Netze Wir haben gesehen, dass Faltungsnetzwerke (12.3) auf die Verarbeitung von zweidi mensionalen Bildern spezialisiert sind. Ihre lokalen rezeptiven Felder nutzen das Vor wissen aus, dass kleinräumige lokale Merkmale entscheidend für die Erkennung von Objekten in Bildern sind. In ähnlicher Weise sind rekurrente neuronale Netze (RNN) auf die Analyse von Sequenzen x[1] , . . . , x[t] spezialisiert. Es gibt viele Arten von Se quenzen, z. B. die geschrieben Worte eines Textes, die Tonschwingungen eines gespro chenen Satzes, die Reihe der Börsenkurse während eines Jahres oder die Abfolge der Nukleotiden in der DNA einer Zelle. Ziel der Verarbeitung von Sequenzen ist es, für den Nutzer relevante inhaltliche Informationen aus diesen Sequenzen zu extrahieren.
12.4.1 Die Berechnung von Embeddings Eine wichtige Aufgabe ist die Repräsentation der Elemente von Sequenzen, z. B. der Worte in einem Text. Eine ausführliche Diskussion der Eigenschaften von Sprache und Bedeutung findet sich in Kapitel 14. Es gibt Worte, die sehr ähnliche Bedeutung ha ben, wie z. B. „Couch“ und „Sofa“ oder „Großmutter“ und „Oma“. Andere Wortpaare haben dagegen sehr verschiedene Bedeutungen, z. B. „Idee“ und „Hund“. Daher ist es wünschenswert, dass die Repräsentation etwas über die inhaltliche Bedeutung eines Wortes aussagt (vgl. Abschnitt 14.6.3). Eine für Computer gut verarbeitbare Repräsen tation für ein Wort v besteht aus einem reellwertigen Vektor emb(v) = x = (x1 , . . . , x k ) mit einer vorgegebenen Länge k. Eine solche Repräsentation wird auch Embedding ge nannt. Diese Embeddings sollen nun so konstruiert werden, dass Worte v1 und v2 mit
522 | 12 Tiefe neuronale Netze
Abb. 12.7: Das Word2vec-Modell prognostiziert die Worte in der Umgebung eines zentralen Wortes. Dadurch können für jedes Wort Embeddingvektoren trainiert werden, die das Wort inhaltlich charak terisieren
ähnlicher Bedeutung Embeddings mit einem geringen Abstand ‖emb(v1 ) − emb(v2 )‖ im ℜk haben und dass Worte mit stark unterschiedlicher Bedeutung Embeddings mit einen hohen Abstand besitzen. J. R. Firth wies schon 1957 nach [22], dass es möglich ist, die Bedeutung eines Wor tes durch die Nachbarworte zu charakterisieren, die häufig mit ihm zusammen vor kommen. Bengio zeigte [10] wie man solche Embeddings mit neuronalen Netzen trai nieren kann. Word2vec – ein besonders einfaches Modell für diese Aufgabe – wurde von Mikolov et al. vorgestellt [50] und ist in Abbildung 12.7 dargestellt. Der Eingabetext besteht hier aus den Worten eines Dokuments. Für jedes Wort v[t] an der Position t des Dokuments, z. B. „Präsident“, wird das entsprechende Embedding emb(v[t] ) ausgewählt und dient als Eingabe für das Modell. Dieses ist ein logistisches Regressionsmodell (Gleichung 11.2), welches die Wahrscheinlichkeit der einzelnen Worte des Vokabulars in der Nachbarschaft prognostiziert, z. B. „Macron“ in Abbil dung 12.7 p(v[t+1] |v[t] ; θ) = softmax (W ∗ emb(v[t] ) + b) v[t+1] .
(12.10)
Umfasst das Vokabular V (Wortmenge) der Trainingsmenge 100.000 verschiedene Worte, so hat man hier ein Klassifikationsmodell mit 100.000 Klassen vorliegen. Die Funktion softmax erzeugt dann einen Wahrscheinlichkeitsvektor der Länge 100.000, aus dem der Index v[t+1] in (Gleichung 12.10) die Komponente des jeweiligen Nachbar wortes („Macron“) auswählt. Für alle Nachbarworte v[t−m] , . . . , v[t−1] , v[t+1] , . . . , v[t+m] wird diese Prognose aufgabe in einem Fenster der Breite von etwa m = 5 durchgeführt. Sie wird für alle Worte v[t] des Trainingsdatenbestandes wiederholt. Die Parameter des Modells sind zum einen die Parameter (W, b) des logistischen Regressionsmodells und zum an deren alle Embeddings emb(v) der Worte v des Vokabulars. Diese bilden den Para metervektor θ, welcher zu Beginn mit Zufallszahlen gefüllt wird. Als Verlustfunkti on wird die Verlustfunktion für Klassifikationen (Gleichung 11.6) gewählt. Die Ablei tungen dieser Parameter können mit Backpropagation berechnet werden. Das Modell
12.4 Die Analyse von Sequenzen: rekurrente neuronale Netze | 523
Tab. 12.1: Ausgangswort (links) und dessen nächste Nachbarn mit geringsten euklidischen Abstän den der Word2Vec-Embeddings. Die Klammern enthalten die Abstandswerte Wort
Nachbar 1
Nachbar 2
Nachbar 3
Nachbar 4
Nachbar 5
cdu proton hiv druck laufen nun
spd (0,92) protons (0,70) aids (0,86) drucks (0,77) läuft (0,62) nunmehr (0,74)
fdp (0,83) antiproton (0,66) hepatitis (0,79) druckes (0,73) radfahren (0,61) wieder (0,70)
bundestag (0,80) protonen (0,64) infektionen (0,72) überdruck (0,60) kurztriathlon (0,61) schließlich (0,70)
landesliste (0,79) wasserstoffkern (0,64) impfung (0,70) lithostatischen (0,59) trimotion (0,60) dann (0,67)
pds (0,79) suprima (0,63) ebola (0,70) onkotischen (0,54) gehen (0,58) stattdessen (0,66)
wird mithilfe des stochastischen Gradientenabstiegs (Abschnitt 11.2.6) unter Verwen dung von Minibatches trainiert. Die Prognose der Nachbarworte wird dabei schritt weise verbessert. Die Bestimmung der Softmax-Funktion exp(u i )/(exp(u 1 ) + ⋅ ⋅ ⋅ + exp(u 100.000 )) ist in diesem Fall sehr aufwendig, da ja 100.000 Terme im Nenner des Bruches berechnet werden müssen. Zur Lösung des Problems approximiert man den Nenner durch eine Stichprobe S ⊂ {1, . . . , 100.000} der Wortindizes exp(u i ) exp(u i ) ≈α∗ , exp(u 1 ) + ⋅ ⋅ ⋅ + exp(u 100.000 ) exp(u i ) + ∑j∈S exp(u j )
(12.11)
wobei α ein konstanter Faktor ist. Ein Experiment habe gezeigt, dass die hierdurch berechneten relativen Gewichte der Zielworte gut verwendbar sind. Stichproben des Umfangs fünf bis 20 sind ausreichend und reduzieren den Rechenaufwand bei der Berechnung der Softmax-Funktion um Größenordnungen. Die durch dieses Negative Sampling [51] in den SGD eingeführte zusätzliche Varianz beeinträchtigt den stochas tischen Gradientenabstieg nicht wesentlich. Das eigentliche Ergebnis dieses Modells ist nicht die verbesserte Prognose der Nachbarwörter, sondern die Bestimmung der Embeddings. Man kann z. B. die gesam te deutsche Wikipedia mit 971 Millionen Worten, 6 GB Text und einem Vokabular von etwa zwei Millionen Worten mit diesem Programm verarbeiten. Anschließend kann man zu ausgewählten Worten die Nachbarworte bestimmen, deren Embeddings (Län ge 200) die geringsten Abstände besitzen (Tabelle 12.1). Abbildung 12.8 zeigt einige auf zwei Dimension projizierte Wordembeddings. Es gibt eine Reihe von Erweiterungen des Word2vec-Modells. fastText [29] ist eine sehr effiziente Implementation, welche zusätzlich Worte durch darin enthaltene kurze Buchstabenfolgen darstellt. Hierdurch kann das Modell die Information in Teilworten und Komposita erfassen und die Embeddings insbesondere für seltene Worte verbes sern. StarSpace [87] dehnt das Konzept der Embeddings auf andere Objekte aus, etwa die Knoten eines Graphen oder Bilder. Damit können beispielsweise Dokumente einer Suchanfrage nach ihrer Relevanz geordnet oder auch ähnliche Dokumente gefunden werden.
524 | 12 Tiefe neuronale Netze
Abb. 12.8: Zweidimensionale Anordnung der 200-dimensionalen Embeddings der deutschen Wiki pedia (Ausschnitt)
Man kann nicht nur Worte, sondern auch Relationen zwischen Worten durch Em beddings darstellen. Damit ergibt sich eine Verbindung von Worten durch Lernen von Relationen (11.4.4.5). Volker Tresp und seine Arbeitsgruppe haben diese Forschungen vorangetrieben und die Relationen in einer Wissensdatenbank durch einen TensorKalkül erfasst [54]. Er war damit in der Lage, fehlende Relationen in Wissensdatenban ken zu prognostizieren. Einen Überblick relationales Maschinelles Lernen gibt [54].
12.4.2 Rekurrente neuronale Netze (RNN) Eine wichtige Aufgabe ist die Prognose des nächsten Elements x[t+1] der Sequenz, wenn alle vorherigen Elemente x[1] , . . . , x[t] bekannt sind. Handelt es sich bei der Sequenz um die Worte eines Dokuments, so wird ein solches Prognosemodell auch Sprachmodell genannt (vgl. Abschnitt 14.6.1). In der Regel können viele unterschiedli che Worte als nächstes Element auftauchen. Es approximiert daher die bedingte Wahr scheinlichkeit des nächsten Wortes ̂ [t+1] |x[1] , . . . , x[t] ; θ) , p(x[t+1] |x[1] , . . . , x[t] ) ≈ p(x
(12.12)
p̂ ist ein KNN mit unbekanntem Parametervektor θ. Laut Definition der bedingten Wahrscheinlichkeit kann man die Wahrscheinlichkeit der gesamten Sequenz als ein Produkt von bedingten Wahrscheinlichkeiten berechnen, p(x[1] , . . . , x[t] ) = p(x[t] |x[1] , . . . , x[t−1] ) ∗ ⋅ ⋅ ⋅ ∗ p(x[2] |x[1] ) ∗ p(x[1] ) ,
(12.13)
12.4 Die Analyse von Sequenzen: rekurrente neuronale Netze | 525
mit dem ersten Faktor p(x[1] ). Sind die bedingten Verteilungen bekannt, so hat man also auch alle Informationen über syntaktische und semantische Relationen in den möglichen Sequenzen, d. h., man kennt also die gemeinsame Verteilung aller Worte in der Sprache. Ein Sprachmodell wird wahrscheinlich auf jedem Smartphone genutzt, um Vor schläge zur Vervollständigung eines teilweise eingegebenen Wortes zu generieren. Sprachmodelle sind eine Teilkomponente vieler Anwendungen von KNN, z. B. Sprach erkennung, Handschrifterkennung, grammatische Korrektur, maschinelle Überset zung, Spracherzeugung, Generierung von Bildunterschriften, Untertitelung von Vide os, Generierung von Musik, Zusammenfassung von Dokumenten, Dialogassistenten etc.
Abb. 12.9: Ein rekurrentes neuronales Netz wird entlang des verarbeiteten Satzes „aufgefaltet“. Die Prognose der Worte schreitet von links nach rechts vorwärts. Ist die Wahrscheinlichkeit eines Zielwortes prognostiziert, so wird es im nächsten Schritte als Eingabe verwendet. Die Gradienten werden in umgekehrter Richtung durch Backpropagation zurückpropagiert. Dabei werden sowohl die Parameter des RNN, des logistischen Regressionsmodells als auch die Embeddings angepasst
Bisher wurde bei der Prognose des nächsten Wortes immer nur eine Folge von n vorhe rigen Worten, ein N-Gramm, berücksichtigt. Die bedingten Wahrscheinlichkeiten der Form p(x[t+1] |x[t−n] , . . . , x[t] ) = p(x[t−n] , . . . , x[t+1] )/p(x[t−n] , . . . , x[t] ) wurden dabei aus der Häufigkeit der N-Gramme in den Daten abgeschätzt. Dies ist nur für N-Gram me bis zur Länge drei oder vier möglich, weil ansonsten die N-Gramme meist zu selten sind. Daher konnten diese Sprachmodelle nur wenige vorherige Worte berücksichti gen und waren entsprechend ungenau. ̂ [t+1] |x[1] , . . . , x[t] ; θ) kann dagegen potenziell sehr viele vorherige Das KNN p(x Worte berücksichtigen. Es muss aber eine wachsende Anzahl von Eingaben verarbei
526 | 12 Tiefe neuronale Netze
ten. Aus diesem Grund wird ein verdeckter Vektor h[t] als „Speicher“ für die zuvor gesehenen Elemente der Sequenz benutzt [28, S. 366] h[t] = f(h[t−1] , x[t] ; θ) , p(x[t+1] ) = g(h(t) ; θ) .
(12.14) (12.15)
Dieses Modell wurde schon 1985 vorgeschlagen [69] (vgl. Abschnitt 14.6.2.3). Obwohl die Größe der Eingabevektoren konstant ist, kann es Sequenzen variabler Länge ver arbeiten [28, S. 367]. Es muss selbsttätig lernen, auf welche Weise es die vorherigen Worte in den verdeckten Vektoren h[t] speichert. Die Funktionen f und g werden beim einfachen rekurrenten neuronalen Netz durch eine vollverbundene Schicht (Ab schnitt 11.3.6) und ein logistisches Regressionsmodell (Gleichung 11.2) realisiert h[t] = tanh (W1 ∗ [
h[t−1] ] + b1 ) , x[t]
p(x[t+1] ) = softmax(W2 h[t] + b2 ) .
(12.16) (12.17)
Oft werden auch andere Aktivierungsfunktionen, z. B. ReLU (Tabelle 11.1), gewählt. Möchte man dieses Modell auf die Prognose der Worte v[1] , . . . , v[t] eines Doku ments anwenden, so muss man zunächst entscheiden, wie v[t] durch einen Vek tor x[t] repräsentiert werden soll. Jedes v[t] wird in der Regel durch ein Embed ding emb(v[t] ) mit vorgegebener Länge dargestellt, wodurch das Training verein facht wird. Das resultierende Modell ist in Abbildung 12.9 dargestellt. Die Parameter θ = vec(W1 , b1 , W2 , b2 , EMB) werden zu Beginn mit Zufallswerten initialisiert, wo bei EMB eine Matrix ist, deren Zeilen die verschiedenen Embeddings emb(v) sind. Die Embeddings sind also Parameter und werden durch das Training bestimmt.
12.4.3 Training des RNN Die Optimierung der Parameter erfolgt wieder mithilfe des stochastischen Gradien tenabstiegs. Zur Berechnung des Gradienten muss zunächst eine Prognose der Wort wahrscheinlichkeiten mit dem aktuellen Modellparameter θ erfolgen. Bei der Progno se wird das Modell in Abbildung 12.9 von links nach rechts angewendet, wobei das RNN durch Gleichung 12.16 und die logistische Regression durch Gleichung 12.17 de finiert ist. Zunächst wird zum Eingabewort v[1] =„Die“ das zugehörige Embedding x[1] = emb(v[1] ) ausgewählt. Anschließend wird aus x[1] und h(0) mit Gleichung 12.16 der nächste verdeckte Vektor h[1] berechnet. Hieraus leitet das logistische Regressions modell die Wahrscheinlichkeiten für das nächste Wort v[t] =„Katze“ ab. Dabei wird wieder das negative Sampling (Gleichung 12.11) zur Beschleunigung verwendet. Bei der Prognose des nächsten Wortes v[t+1] =„saß“ wird nun v[t] =„Katze“ als Einga be genutzt und die Prognose wiederholt. Analog wird für die folgenden Eingabeworte
12.4 Die Analyse von Sequenzen: rekurrente neuronale Netze | 527
vorgegangen, wobei Information über die vorherigen Worte durch die verdeckten Vek toren h[t] weitergegeben werden können. Da wir durch die Vorwärtsevaluierung das RNN endlich ausgerollt haben, erfolgt die Berechnung der Ableitung beim Training „rückwärts“ von rechts nach links in Ab bildung 12.9. Zunächst wird aus der berechneten Wahrscheinlichkeit des Zielwortes v(6) =„Matte“ die Ableitung der Verlustfunktion (Gleichung 11.6) bestimmt [28, S. 371]. Diese wird durch das Backpropagation-Verfahren zurückpropagiert und erlaubt die Berechnung von Ableitungen für das logistische Regressionmodell. Über den verdeck ten Vektor h(5) werden dann Ableitungen für die Parameter des RNN und der Embed dings x(5) = emb(v(5) ) ausgerechnet. Analog wird aus den Wahrscheinlichkeiten des Zielwortes v(5) =„der“ ein Gradient für die Parameter des logistischen Modells aus gerechnet. Beim verdeckten Vektor h(4) werden diese Fehlerinformationen mit denen von Zielwort v(6) =„Matte“ verknüpft und erlauben die Berechnung eines Gradienten für das RNN und die Embeddings x(4) = emb(v(4) ). In dieser Art werden die Informa tion über sämtliche Prognosefehler sukzessive von rechts nach links ausgewertet. Die resultieren Ableitungen für das RNN und das logistische Modell werden dabei einfach summiert [28, S. 374]. Ein Faltungsnetzwerk zur Bildklassifikation nutzt jede Filtermatrix an verschie denen Positionen der Eingabematrix und konnte durch dieses Parameter-Sharing die Erkennungleistung erhöhen. In ähnlicher Weise ergibt sich beim RNN ein ParameterSharing, weil zu jedem Zeitschritt das Modell (12.16) zur Vorwärtsprognose und das zugehörige logistische Regressionsmodell gleich sind. Damit stehen mehr Daten zur Schätzung der Parameter zur Verfügung und die Generalisierung wird verbessert.
12.4.4 Explodierende und verschwindende Gradienten Gerade in der deutschen Sprache gibt es weitreichende Abhängigkeiten in der Spra che. Betrachten wir als Beispiel den Satz: „Der Vater der sehr lebhaften Kinder . . . “. Soll nun das Sprachmodell als Nächstes zwischen „ist“ und „sind“ auswählen, so muss es berücksichtigen, dass „Vater“ das Subjekt des Satzes ist und somit „ist“ die korrekte Wahl ist. Ein einfaches RNN hat Schwierigkeiten, die Abhängigkeit zwischen weit auseinanderliegenden Worten zu erfassen. Betrachten wir ein extrem vereinfach tes RNN der Form h t = tanh(θ ∗ h t−1 + ηx t ) mit eindimensionaler Eingabe x t und eindi mensionalem verdeckten Vektor h t . Berechnet man nun die Ableitung ∂h t /∂h t−2 , so erhält man einen Ausdruck θ2 ∗ u, wobei u Werte zwischen null und eins annehmen kann. Nach r Zeitschritten erhält man so Ableitungen der Form θ r ∗ v mit v ∈ (0, 1). Unabhängig von der Art der Nichtlinearitäten erscheint θ r immer als Faktor. Für ein großes k hat dies einschneidende Konsequenzen: Ist k = 20 und θ = 2,0, so ist θ k = 1.048.576, d. h., die Ableitung nach dem zurückliegenden verdeckten Vektor ist sehr groß. Man spricht von einem explodierenden Gradienten. Der zugehö rige Gradientenupdate befördert den Modellparameter meist in eine sehr weit außen
528 | 12 Tiefe neuronale Netze
liegende Region mit nahezu konstanter Verlustfunktion, sodass das Optimierungsver fahren dort „stecken bleibt“. Um dies zu vermeiden, berechnet man die euklidische Länge ‖∂L(θ)/∂θ‖2 des Gradienten. Ist diese Länge größer als eine Konstante, z. B. 5, so normiert man den Gradienten, sodass dessen Länge gleich fünf wird. Dieses Gradi enten-Clipping ist einfach und effektiv [28, S. 402]. Ist k = 20 und θ = 0,5, so ist θ k = 0,00000095, d. h., die Ableitung nach dem zurückliegenden verdeckten Vektor ist extrem klein. Man spricht dann von ei nem verschwindendem Gradienten. Ist das RNN durch Gleichung 12.16 gegeben, so gibt es verschwindende Gradienten, wenn Eigenwerte von W1 um einiges kleiner sind als eins [59]. In dem vom stochastischen Gradientenabstieg erzeugten Rauschen geht die ser Gradient völlig unter, und es ist nahezu unmöglich, die zugehörige Abhängigkeit der weit auseinanderliegenden Sequenzelemente zu rekonstruieren [28, S. 390]. Aus diesem Grunde gelang es zunächst nicht, RNN auf realistische Probleme anzuwenden. Explodierende und verschwindende Gradienten sind ein Problem für alle tiefen KNN, u. a. auch Faltungsnetzwerke (Abschnitt 12.3). Es wurden unterschiedliche Lö sungsvorschläge evaluiert, z. B. Skip Connections (Abbildung 12.4), welche die einzel nen Schichten umgehen. Ein anderer Ansatz ist die Batch Normalization (12.8), welche die Werte jeden Merkmals auf einen Bereich normalisiert. Bei RNN konnten mit dem Long Short-Term Memory die Gradienteneigenschaften verbessert werden.
12.4.5 Long Short-Term Memory Eine Möglichkeit zur Lösung des Problems der Erfassung weitreichender Abhängigkei ten sind RNN mit Gattern. Ein Beispiel ist das Long Short-Term Memory [36], welches von Hochreiter und Schmidthuber entwickelt wurde und einen zusätzlichen Speicher vektor c [t] für jeden Zeitpunkt einführt. Abbildung 12.10 zeigt die Struktur des LSTM [28, S. 397]. Zunächst werden der ver deckte Vektor und die laufende Eingabe (z. B. Wortembedding) konkateniert (12.18) u [t] = [
h[t−1] ] . x[t]
(12.18)
Der entstehende Vektor u [t] wird sowohl zur kontextabhängigen Steuerung der Speichervorgänge als auch als Speicherinhalt genutzt. Mit dem Löschgatter (Glei chung 12.19) wird der Speichervektor c [t−1] durch ∘ komponentenweise multipliziert und dessen Inhalte teilweise auf null gesetzt. Dabei ist entscheidend, dass der Sig moidoperator sigmoid(A1 ∗ u [t] + b1 ) einen Ausgabevektor mit Werten im Bereich (0,0, 1,0) erzeugen. Ist der Ausgabewert gleich 1,0, so bleibt die jeweilige Komponente des Speichervektors unverändert, ist er 0,0, so wird die Komponente auf 0,0 gesetzt. Zwischenwerte bewirken eine entsprechende Reduktion c̃ [t] = sigmoid(A1 ∗ u [t] + b1 ) ∘ c [t−1] .
(12.19)
12.4 Die Analyse von Sequenzen: rekurrente neuronale Netze |
529
Abb. 12.10: Das LSTM besitzt Gatter, die mit Teilnetzen gesteuert werden, welche sigmoide Akti vierungsfunktionen haben. Für einzelne Komponenten des Speichervektors c [t] bewirken sie eine Löschung, Addition und Ausgabe von Speicherinhalten. Es gibt zwei weitere tanh-Schichten, die die Eingaben in Speicherinhalte überführen und umgekehrt
Zu dem Resultat c̃ [t] werden durch das Speichergatter (Gleichung 12.20) gesteuert transformierte Inhalte der Eingaben addiert und ergeben den nächsten Speichervek tor c [t] c [t] = c̃ [t] + sigmoid(A2 ∗ u [t] + b2 ) ∘ tanh(A4 ∗ u [t] + b4 ) . (12.20) Schließlich werden durch das Ausgabegatter (Gleichung 12.21) transformierte Inhalte des Speichervektors c [t] als neuer verdeckter Vektor h[t] ausgegeben h[t] = sigmoid(A3 ∗ u [t] + b3 ) ∘ tanh(A5 ∗ c [t] + b5 ) .
(12.21)
Ein solches Netzwerk wird LSTM-Zelle genannt. Es hat eine interne Rückkopplungs schleife, durch welche Inhalte über viele Perioden gespeichert werden können. Die LSTM-Architektur erlaubt es, Informationen über viele Zeitschritte aufzube wahren. Wenn das Teilnetz (12.19) für das Löschgatter immer eine 1,0 ausgibt, so bleibt die entsprechende Komponente des Speichervektors erhalten. Beim einfachen RNN (Gleichung 12.16) hingegen wird der Inhalt des verdeckten Vektors immer nichtline ar transformiert. Das LSTM verhindert nicht in jedem Falle verschwindende oder ex plodierende Gradienten, aber es bietet einen Weg, weitreichende Zusammenhänge zu bewahren und zu lernen.
12.4.6 RNN mit mehreren Ebenen Soll die Abbildungskapazität eines RNN erhöht werden, so kann man die Länge des verdeckten Vektors vergrößern. Verdoppelt man dessen Länge, so erhöht sich die An
530 | 12 Tiefe neuronale Netze
zahl der Parameter wegen der vollverbundenen Schichten auf das Vierfache. Wie bei KNN mit mehreren Ebenen hat man aber festgestellt, dass bei gleicher Anzahl von Pa rametern die Abbildungskapazität des RNN mit einer zusätzlichen Schicht wesentlich höher ist, als wenn man die Länge der verdeckten Vektoren und der Speichervektoren vergrößert. Abbildung 12.11 zeigt den Aufbau eines solchen RNN mit zwei Ebenen. Auf der ersten Ebene werden die Embeddings der Worte als Eingaben genutzt, während in der zweiten Schicht die berechneten verdeckten Vektoren h1(t) als Eingabe verwendet werden. Nach diesem Muster kann man bis zu acht Ebenen übereinander anordnen, wodurch teilweise die Prognosequalität stark gesteigert wird.
Abb. 12.11: Ein rekurrentes neuronales Netz mit zwei Ebenen wird entlang des verarbeiteten Satzes „aufgefaltet“. Die verdeckten Vektoren der ersten Ebene dienen als Eingabe für die zweite Ebene
Wie bei allen komplexen Modellen gibt es auch bei RNN das Problem der Überanpas sung. Hier werden meist Dropout-Schichten (11.3.5) oder auch Batch-NormalisierungsSchichten zur Reduktion des Overfittings verwendet. Dadurch ist man in der Lage, die Performanz der Modelle wesentlich zu erhöhen. [2] untersuchen die Konvergenz von SGD für RNN. Wenn die Länge des verdeck ten Vektors groß genug ist, d. h. polynomial in der Anzahl der Trainingsdaten und des Prognosehorizonts, dann konvergiert SGD und kann die Information in den Daten er lernen.
12.4 Die Analyse von Sequenzen: rekurrente neuronale Netze |
531
12.4.7 Erzeugung von Text mit einem RNN-Sprachmodell Hat man ein Sprachmodell trainiert, so benötigt man einen Maßstab zu Bewertung der Prognosequalität für das nächste Wort. Dieser sollte aber unabhängig von der Länge der Testdaten sein. Daher wählt man als Metrik zur Evaluation von Sprachmodellen meist die Perplexity. Sie ist definiert als T
perplexity = ∏ ( t=1
1/T 1 . ∗ ) ̂ [t+1] |x[1] , . . . , x[t] ; θ ) p(x
(12.22)
Das Produkt wird über alle T Elemente (Worte) in den Testdaten gebildet. Die beding te Wahrscheinlichkeit entspricht Gleichung 12.12 mit dem trainierten Parameter θ∗ . Je höher die bedingten Wahrscheinlichkeiten der prognostizierten Worte sind, desto geringer – also besser – ist die Perplexity. LSTM-RNN konnten die Perplexity bei der Prognose von Wörtern stark erhöhen. Zum Beispiel erreichten LSTM auf dem Penn Treebank Korpus eine Perplexity von 58,3 (vier Ebenen, 24 Millionen Parameter) [49], während klassische N-Gramm-basierte Modelle eine Perplexity von 143 hatten [14]. Ist das RNN fertig trainiert, so kann man damit neue Texte erzeugen. Ausgangs punkt ist eine bekannte Sequenz von Worten, bei der das Wort auf der nachfolgenden Wortposition gesucht wird. Die Wahrscheinlichkeiten der Wörter auf dieser Position werden dann für alle Wörter des Vokabulars mit Hilfe des RNN prognostiziert. Im ein fachsten Fall wird dann ein Wort zufällig gemäß diesen Wahrscheinlichkeiten ausge wählt. In der Regel gibt man den Beginn des Textes vor, der dann als Startsequenz ver wendet werden kann. Als Beispiel wurde ein RNN auf Stücken von William Shake speare trainiert. Die Daten lassen sich herunterladen und umfassen 1,1 Millionen Zei chen [81]. Es wurde ein GRU-RNN, eine Variante des LSTM, mit verdeckten Vektoren der Länge 1024 verwendet. Das RNN sollte jeweils den nächsten Buchstaben prognos tizieren, mit einem Vokabular von insgesamt 98 Buchstaben. Abbildung 12.12 zeigt einen Text, der aus der Startsequenz „Q“ erzeugt wurde. Das altertümliche Englisch Shakespeares wurde recht gut reproduziert. Falsch geschrie
QUEENE: I had thought thou hadst a Roman; for the oracle, Thus by All bids the man against the word, Which are so weak of care, by old care done; Your children were in your holy love, And the precipitation through the bleeding throne. BISHOP OF ELY: Marry, and will, my lord, to weep in such a one were prettiest; Yet now I was adopted heir Of the world’s lamentable day, To watch the next way with his father with his face? ESCALUS: The cause why then we are all resolved more sons. VOLUMNIA: O, no, no, no, no, no, no, no, no, no, no, no, no, no, no, no, no, no, no, no, no, it is no sin it should be dead, And love and pale as any will to that word. Abb. 12.12: Von einem RNN mit einem verdecktem Vektor von 1024 erzeugter Text [81]. Der Buchsta be Q diente als Startsequenz. Das RNN wurde mit Werken von William Shakespeare trainiert
532 | 12 Tiefe neuronale Netze
bene Wörter kommen kaum vor, allerdings ist die Zeichensetzung teilweise inkorrekt. Die erzeugten Texte sind in der Regel grammatikalisch richtig. Allerdings kann das RNN nicht den Sinnzusammenhang bewahren und erwähnt in fast jedem Halbsatz zusammenhanglose Aspekte. Hier wird deutlich, dass dieses relativ kleine RNN ledig lich einige Korrelationen zwischen den Wörtern reproduzieren kann und von einem „Verständnis“ des Textes weit entfernt ist. Im Abschnitt 12.4.12 werden wesentlich leis tungsfähigere Sprachmodelle vorgestellt.
12.4.8 Übersetzung durch Sequenz-nach-Sequenz-Modelle Eine wichtige Anwendung von RNN ist die Übersetzung eines Textes in eine ande re Sprache (vgl. Abschnitt 14.6.2). Schon in den 1950er-Jahren wurden erste Über setzungssysteme als Computerprogramme implementiert. Anschließend wurden N-Gramm-basierte Modelle zur Übersetzung entwickelt, welche die Wahrscheinlich keit der übersetzten Worte in ihrem Kontext auswerteten. Da RNN mittlerweile die Gesetze der Sprache gut erfassen konnten, wurde ein Übersetzungsmodell auf Basis von LSTM-RNN vorgeschlagen [78]. Ausgangspunkt des Modells ist, dass eine Übersetzung nicht Wort für Wort er folgen kann, sondern ein Satz als Ganzes betrachtet werden muss. RNN erlauben die Codierung eines Eingabesatzes in einen verdeckten Vektor h[t] . Dieser verdeckte Vek tor wird dann als Startwert von einem weiteren RNN in den Satz der Ausgangssprache decodiert.
Abb. 12.13: Darstellung eines Sequenz-nach-Sequenz-Modells am Beispiel der Übersetzung eines Satzes von Englisch nach Deutsch. RNN1 und RNN2, das logistische Modell und die Embeddings werden gleichzeitig trainiert
Abbildung 12.13 zeigt die Vorgehensweise eines solchen Sequenz-nach-Sequenz-Mo dells am Beispiel der Übersetzung des Satzes „I am a student“ ins Deutsche. Ein En
12.4 Die Analyse von Sequenzen: rekurrente neuronale Netze | 533
coder-RNN transformiert die Worte der Eingabesequenz in die entsprechenden Em beddings und erzeugt einen verdeckten Vektor h[t] , welcher den Eingabesatz reprä sentiert. Der Vektor h[t] dient als Startwert für das zweite Decoder-RNN, welches in jedem Schritt einen verdeckten Vektor erzeugt. Aus diesen verdeckten Vektoren be rechnet dann ein logistisches Regressionsmodell die Wahrscheinlichkeiten der Aus gabewörter in der Zielsprache für diese Position. Um das Training zu erleichtern, kann das Decoder-RNN auf das korrekte Zielwort zugreifen, welches zuvor prognostiziert wurde. Das Modell wird als Ganzes trainiert. Die Trainingsdaten bestehen meist aus Paa ren mit einem Eingabesatz und dessen Übersetzung in die Zielsprache. Dabei werden die Fehlersignale von den zu prognostizierenden Zielworten bis in das Encoder-RNN zurückpropagiert. Gleichzeitig werden die Parameter des logistischen Modells, des Decoder-RNN, des Encoder-RNN sowie die Embeddings der Eingabe und der Zielspra che simultan angepasst. Das Training ist sehr zeitaufwendig und erfordert oft mehrere Tage. Ist das Modell fertig trainiert, so liefert es nur die Wahrscheinlichkeiten für die Worte der Zielsprache. Um eine Übersetzung zu generieren, muss man aber Worte ge mäß diesen Wahrscheinlichkeiten auswählen. Eine Möglichkeit ist, immer das Wort mit der höchsten Wahrscheinlichkeit auszusuchen. Diese Greedy-Strategie führt aber oft zu schlechteren Ergebnissen, weil die möglichen Folgeworte dann eine geringere Wahrscheinlichkeit besitzen können. Eine Alternative ist die Beam-Search [12], wel che gleichzeitig k alternative Übersetzungen verfolgt. Für jede dieser Alternativen wer den k unterschiedliche Folgeworte mit höchster Wahrscheinlichkeit ausgesucht. Von all diesen k ∗ k Varianten werden dann die k Wortfolgen mit der insgesamt höchs ten Wahrscheinlichkeit ausgewählt. Dieses Vorgehen hat die Qualität der erzeugten Übersetzungen wesentlich gesteigert [12]. In Tabelle 12.2 sind übersetzte Sätze aus der Testmenge zusammen mit ihren Referenzübersetzungen aufgeführt. Tab. 12.2: Übersetzung von Sätzen aus der Testmenge durch ein trainiertes Sequenz-nach-SequenzÜbersetzungsmodell [78]. Das Wort „UNK“ erscheint, weil Eigennamen oft nicht im Vokabular ent halten sind Typ
Satz
Modell
Ulrich UNK , membre du conseil d’administration du constructeur automobile Audi , affir me qu’il s’agit d’une pratique courante depuis des années pour que les téléphones por tables puissent être collectés avant les réunions du conseil d’administration afin qu’ils ne soient pas utilisés comme appareils d’écoute à distance . Ulrich Hackenberg , membre du conseil d’administration du constructeur automobile Au di , déclare que la collecte des téléphones portables avant les réunions du conseil , afin qu’ils ne puissent pas être utilisés comme appareils d’écoute à distance , est une pra tique courante depuis des années .
Referenz
534 | 12 Tiefe neuronale Netze
12.4.9 Die Verbesserung von Übersetzungen durch Attention Es stellte sich heraus, dass die Übersetzung von langen Sätzen relativ problematisch war, weil der verdeckte Vektor h[t] oft nur unzureichend die Inhalte des Eingabesat zes speichern konnte. Bahdanau et al. [4] schlugen daher vor, in einem Sequenz-nachSequenz-Modell Inhalte aus dem Eingabesatz bei der Erzeugung der Übersetzung mit zu benutzen. Abbildung 12.14 stellt die Struktur des Modells dar. Zunächst wird der Eingabesatz „I am a student“ durch das Encoder-RNN RNN1 in einen verdeckten Vek tor h[4] codiert. Anschließend erzeugt hieraus das Decoder-RNN RNN2 die verdeckten Vektoren g[1] , . . . , g[4] , aus denen das logistische Regressionsmodell die Wahrschein lichkeit der Ausgabeworte in der Zielsprache berechnet.
Abb. 12.14: Berechnung der Attention in einem Sequenz-nach-Sequenz-Modelle bei der Übersetzung eines Satzes von Englisch nach Deutsch
Bei der Erzeugung des zweiten Ausgabewortes beispielsweise enthält der verdeck te Vektor g[2] Informationen über das zu erzeugende Zielwort „bin“. Da der letzte verdeckte Vektor h[4] des Encoders an den Decoder übergeben wird, kann man da von ausgehen, dass die Darstellung der Inhalte in den verdeckten Worten weitge hend sprachunabhängig ist. Informationen sind also in in ähnlicher Weise in den verdeckten Vektoren h[t] und g[t] gespeichert. Allerdings stehen die Worte ähnlichen Inhalts bei den Sätzen in den beiden Sprachen meist an einer unterschiedlichen Po sition. Um diese Information zu nutzen, führt man folgende Schritte für T = 4 (Ab bildung 12.14) aus:
12.4 Die Analyse von Sequenzen: rekurrente neuronale Netze | 535
– –
–
–
⊺
Berechne das Skalarprodukt α t = h[t] ∗ g[2] für t = 1, . . . , T. Es wird hoch sein, wenn h[t] und g[2] ähnlich sind. Normalisiere die α t durch die Softmax-Funktion: (γ1 , . . . , γ T ) = softmax(α 1 , . . . , α T ). Die entstehenden Koeffizienten γ t sind größer als null und haben die Summe 1,0. Bilde einen Kontextvektor c [2] = γ1 ∗ h[1] + ⋅ ⋅ ⋅ + γ T ∗ h[t] aus den gewichteten ver deckten Vektoren des Eingabe-Encoders. Er enthält Informationen aus der Einga be, die ähnlich zu g[2] sind. Die Kontextvektoren c [2] und g[2] werden konkateniert und bilden die Eingabe für das logistische Modell. Dieses berechnet hieraus die Wahrscheinlichkeiten der Ausgabeworte für t = 2.
Der Kontextvektor c [t] wird auf diese Weise für alle verdeckten Vektoren g[1] , . . . , g[t] berechnet. Hierdurch ist das Modell in der Lage, auf die in den verdeckten Vektoren h[t] gespeicherten Informationen zurückzugreifen. Diesen Rückgriff auf Eingabeinfor mationen nennt man Attention. Da Attention über statistische Korrelationen berech net wird, ist sie grundlegend verschieden von der menschlichen „Aufmerksamkeit“. Die Berechnung der Ausgabewahrscheinlichkeit nutzt offenbar parallele Pfade: Das Netzwerk bildet einen gerichteten azyklischen Graphen. Die Gradienteninforma tionen kann man entlang der Kanten dieses Graphen zurückpropagieren und damit die Gradienten der Parameter berechnen. Insgesamt erweist sich, dass der Attention-Mechanismus zu wesentlich verbesser ten Übersetzungen führte. Er umgeht teilweise das Problem der beschränkten Kapa zität des letzten verdeckten Vektors h[t] und greift direkt auf Informationen innerhalb der Eingabesequenz zu. Zudem reduziert Attention das Problem der verschwinden den Gradienten, weil damit direkt auf die verdeckten Vektoren weit entfernter Worte zugegriffen werden kann. Das Eingabe h[t] hat keine Kenntnis von den nachfolgenden Worten des Eingabe satzes, welche die Bedeutung von v[t] weiter verdeutlichen. Bahdanau et al. [4] schla gen vor, diese Informationen bei der Attention zu nutzen. Sie verwenden ein zusätz liches Rückwärts-RNN, welches aus den nachfolgenden Worten jeweils das vorherige Wort prognostiziert. Dieses bidirektionale RNN ist in Abbildung 12.15 dargestellt. Es → → erzeugt mit seinem Vorwärt-RNN verdeckte Vektoren h [1] , . . . , h [t] und mit seinem ← ← Rückwärts-RNN verdeckte Vektoren h [t] , . . . , h [1] . Den Kontextvektor c [t] bilden sie ← → dann aus der gewichteten Summe der konkatenierten Vektoren h [t] und h [t] . Dabei wird eine Variante des obigen Skalarprodukts verwendet. Dieses Vorgehen sorgt noch einmal für eine Verbesserung des Übersetzungsergebnisses. Für jedes Wort einer Sprache muss normalerweise ein Embedding erzeugt werden. Das stößt an Grenzen, wenn das Vokabular Hunderttausende von Wörtern umfasst. Ei ne Alternative ist Byte Pair Encoding [73], welches ein Vokabular aus häufigen Worten und Teilworten bildet. Da auch einzelne Zeichen in dem Vokabular enthalten sind,
536 | 12 Tiefe neuronale Netze
Abb. 12.15: Bidirektionale RNN prognostizieren das nächste Wort eines Satzes und unabhängig davon das vorherige Wort eines Satzes. Die Berechnung der Attention zwischen den konkatenierten → ← Vektoren [ h [t] , h [t] ] sowie g [t] führt dann zu besseren Ergebnissen.
kann man jedes beliebige Wort einer Sprache repräsentieren. Häufig wird ein Voka bular von etwa 30.000 Worten und Teilworten verwendet. Für jedes Element diese Vo kabulars wird ein Embedding erzeugt. Durch diese Maßnahme konnte die Performanz von Übersetzungssystemen wesentlich gesteigert werden, da vorher unbekannte Wor te durch Teilworte dargestellt werden. Die Bewertung von maschinellen Übersetzungen ist nicht einfach, weil es oft meh rere plausible Übersetzungen eines Satzes gibt. Der BLEU-Wert (Bilingual Evaluation Understudy, BLEU) vergleicht daher die Übersetzung mit einer oder mehreren Refe renzübersetzungen, indem die Anzahl der gemeinsamen N-Gramme, also Folgen von N Worten, ausgewertet werden. In der Regel wird dies für N = 1, . . . , 4 durchgeführt. Der berechnete Wert ist eine Zahl zwischen null und eins, wobei höhere Werte ei ne bessere Übersetzung bedeuten. Der BLEU-Wert ist nützlich, erfasst aber nicht alle Aspekte einer guten Übersetzung. Die Performanz der Übersetzungsmodelle mit Sequenz-nach-Sequenz-Architek tur hat sich in den letzten Jahren rasant entwickelt. Dies kann man anhand des Bench mark Corpus WMT’14 En-DE zur Übersetzung von Englisch nach Deutsch verdeutli chen. Während ein klassisches Übersetzungsmodell den BLEU-Wert von 20,7 erreich te, konnten [47] einen BLEU-Wert von 23,0 realisieren. Im Jahre 2017 konnte Google diesen Wert auf 26,0 verbessern [74]. Dies führte dazu, dass Google sein Übersetzungs system vollständig auf KNN umstellte.
12.4.10 Attention-basierte Transformer übertreffen RNN In den Jahren 2013–2017 war das LSTM-RNN der dominierenden Ansatz für viele Aufgaben der Sequenzverarbeitung: Handschrifterkennung, Spracherkennung, ma schinelle Übersetzung, Erzeugung von Bildunterschriften, Generierung von Musik etc. Mittlerweile wurde es durch Transformermodelle abgelöst, die vielfach zu besseren Ergebnissen führen.
12.4 Die Analyse von Sequenzen: rekurrente neuronale Netze |
537
Abb. 12.16: Selbst-Attention transformiert die aktuellen Embeddings mit Matrizen Q, K und V. Zwi schen den Ergebnissen werden dann normalisierte „Korrelationen“ berechnet und dann gewichtet aufaddiert. Auf diese Weise werden neue „kontextsensitive“ Embeddings für jedes Wort bestimmt, welche Informationen von den Nachbarworten mit berücksichtigen
Während das Encoder-RNN bei der Übersetzung sukzessive für jedes Element einer Sequenz einen verdeckten Vektor erzeugt, berechnet der Transformer mithil fe eines Attention-Mechanismus simultan „Korrelationen“ mit allen Elementen der Sequenz und produziert damit neue Embeddings der Sequenzelemente. Diese Kor relation zwischen weiter auseinanderliegenden Elementen wird also unmittelbar be rechnet, während dies beim RNN viele Zwischenschritte erforderte. Abbildung 12.16 zeigt die Funktionsweise einer solchen Selbst-Attention. Ausgangspunkt sind wieder Embeddings für die Elemente (z. B. Worte) einer Sequenz. Um ein neues Embedding für das Element v[r] der Sequenz zu erzeugen werden folgende Schritte durchge führt [86]. 1. Die bestehenden Embeddings x[1] , . . . , x[T] werden mit Matrizen Q, K und V mul tipliziert. Dies ergibt die Vektoren „Query“ q[t] = Q ∗ x[t] , „Key“ k[t] = K ∗ x[t] und „Value“ w [t] = V ∗ x[t] . ⊺ 2. Für alle t = 1, . . . , T wird das Skalarprodukt s t = k[t] ∗ q[r] zwischen den Key-Vek toren und dem Query-Vektor q[r] berechnet. Das Ergebnis wird durch den Faktor √d k dividiert, wobei d k die Länge des Vektors k[t] ist. s t kann als eine Art „Korre lation“ zwischen q[r] und k [t] betrachtet werden.
538 | 12 Tiefe neuronale Netze
3.
Die resultierenden Koeffizienten werden durch die Softmaxfunktion normalisiert: (α 1 , . . . , α T ) = softmax(s1 , . . . , s T ), sodass α t ≥ 0 und α 1 + ⋅ ⋅ ⋅ + α T = 1,0. Die Koeffizienten bilden die normalisierte Skalarprodukt-Attention. 4. Das neue Embedding wird als gewichtete Summe der Value-Vektoren w [t] berech net: z[r] = α 1 ∗ w [1] + ⋅ ⋅ ⋅ + α T ∗ w [T] . Diese Operation wird für alle Elemente v[1] , . . . , v[T] der Sequenz wiederholt. Vaswani et al. [86] schlagen vor, diese Selbst-Attention in jeder Schicht k-fach an zuwenden. Wenn m die Länge der Embeddings x[t] = emb(v[t] ) ist, so projizieren die Matrizen Q(j) , K (j) und V (j) , j = 1, . . . , k, die Embeddings auf kleinere Vektoren der Länge m/k. Die hieraus durch Selbst-Attention entstehenden Embeddings haben ebenfalls die Länge m/k. Es werden die k neuen Embeddings aneinander gehängt und bilden den neuen Embedding-Vektor z[t] der Länge m. Der Rechenaufwand die ser Multihead-Selbst-Attention ist etwa gleich groß, wie bei der Berechnung eines ein zelnen Selbst-Embeddings der Länge m, kann aber wesentlich mehr Abhängigkeiten zwischen den Sequenzelementen berücksichtigen. Die k unterschiedlichen Matrizen Q(j) , K (j) und V (j) der Multihead-Selbst-Attention sind Parameter und werden durch den stochastischen Gradientenabstieg optimiert. Vaswani et al. [86] nutzen noch zu sätzliche trainierbare Projektionsmatrizen, die hier der Einfachheit halber weggelas sen wurden. Bei der Übersetzung einer Sequenz in eine andere werden wird zunächst die Ein gabe durch Embeddings codiert. Hinzu kommen Embeddings für die Position im Text, z. B. durch trigonometrische Kurven. Diese sind erforderlich, damit der Algorithmus die Position der Elemente berücksichtigen kann. Danach wird die Selbst-Attenti on in mehreren Schichten übereinander angewendet (Abbildung 12.17). Jeder dieser Encoder-Blöcke enthält zusätzlich Skip Connections (Abbildung 12.4), um die Opti mierung zu erleichtern, eine vollverbundene Schicht sowie Schichtnormalisierungen (Gleichung 12.8) zur Regularisierung. Auf diese Weise werden immer aussagekräfti gere Embeddings für die Eingabeworte erzeugt. Insgesamt enthält der Encoder sechs dieser Encoder-Blöcke. Die Erzeugung der Ausgabe verwendet einen ähnlichen Embedding-Mecha nismus, die Kreuz-Embeddings. Der Embedding-Mechanismus funktioniert wie bei Selbst-Embeddings mit dem Unterschied, dass die Key- und Value-Vektoren aus den Embeddings der obersten Schicht des Encoders ausgewählt werden und die QueryVektoren aus den Embeddings des Decoders stammen. Dies ist vergleichbar zum Rückgriff des RNN-Decoders durch Attention auf die verdeckten Vektoren des RNNEncoders beim Sequenz-nach-Sequenz-Übersetzer in Abbildung 12.14. Der Decoder erhält wie das Sequenz-nach-Sequenz-Modell in Abbildung 12.13 als Eingabe beim Training die um eine Position verschobenen Embeddings der ge suchten Ausgabesequenz. Der Decoder prognostiziert die Wahrscheinlichkeit der Ausgabeworte u [1] , u [2] , . . . eins nach dem anderen und besteht aus sechs Deco der-Blöcken, die übereinander angeordnet sind [86]. Jeder Decoder-Block enthält eine Multihead-Selbst-Attention, welche aber nur auf noch nicht prognostizierte Ele
12.4 Die Analyse von Sequenzen: rekurrente neuronale Netze | 539
Abb. 12.17: Der Transformer enthält sechs Encoder-Blö cke (links), mit denen er sukzessive neue, kontextsen sitive Embeddings der Eingabeworte erzeugt. Die sechs Decoder-Blöcke (rechts) haben die schon generierten Worte der Übersetzung als Eingabe und prognostizie ren sukzessive die Worte der Übersetzung. Die Informa tion über die Eingabeworte wird durch Kreuz-Attention aus der obersten Schicht der Encoder-Embeddings übernommen
mente angewendet wird (masking). Danach gibt es eine Multihead-Kreuz-Attention, welche Embeddings der obersten Encoder-Schicht nutzt. Es folgt eine vollverbun dene Schicht. Zusätzlich gibt es wieder Skip-Connection und Schichtnormalisierun gen zur Regularisierung. Als letzte Schicht erzeugt eine logistische Regression die Wahrscheinlichkeiten der Ausgabeworte. Die Details des Verfahrens sind zusam men mit einer Implementierung in der Programmiersprache Python sehr gut erklärt in [70]. Bei Übersetzungsanwendungen konnten Transformer die Performance stark an heben. Im Gegensatz zu RNN sind Transformer wesentlich besser parallelisierbar und haben daher geringere Trainingszeiten. Bei dem WMT’14 En-DE Benchmark zur Über setzung von Englisch nach Deutsch erreichte Google mit einem elaborierten RNNAnsatz einen BLEU-Wert von 26,0. Vaswani et al. [86] konnten dies auf 28,4 verbessern und ein „Big Transformer“ erhöhte den BLEU-Wert auf 35,0 [20]. Transformer waren auch bei anderen Aufgaben der Sequenzprognose erfolgreich. Der Music-Transformer [38] kann auf Midibasis klassische Musik mit einer überzeu genden Struktur generieren. Der Action-Transformer arbeitet auf den raumzeitlichen Bilddaten eines Videos und erkennt mit sehr groben Trainingsannotationen die Ak tionen von Personen [26]. In der DNA-Analyse können Transformermodelle Protein sequenzen wesentlich besser modellieren als die bisherigen Modelle [66]. In der Er kennung gesprochener Sprache haben Selbst-Attention-Encoder in Kombination mit Faltungsnetzwerk-Modellen die geringsten Fehlerraten [30].
540 | 12 Tiefe neuronale Netze
12.4.11 Transferlernen mit BERT BERT (bidirectional encoder representations from transformer) [18] ist eine Variante des Transformers, der nur mithilfe von Encoder-Blöcken sehr gut aufeinander abgestimm te, kontextsensitive Embeddings der Eingabeelemente (z. B. Worte) erzeugt. Diese Em beddings werden zunächst für zwei verschiedene Prognoseaufgaben trainiert. Beim maskierten Sprachmodell werden (im Wesentlichen) 15 % der Eingabeworte zufällig durch den Platzhalter „[MASKED]“ ersetzt und müssen prognostiziert werden. Im Ge gensatz zum üblichen Sprachmodell stehen zur Prognose des fehlenden Wortes vor hergehende und nachfolgende Worte zur Verfügung. Damit wird die Prognose poten ziell besser. In einer zweiten Prognoseaufgabe werden zwei Sequenzen (z. B. Sätze) hintereinander positioniert und das Modell muss entscheiden, ob die zweite Sequenz eine Folgesequenz oder eine zufällig ausgesuchte Sequenz ist. Beide Aufgaben erfor dern keine manuelle Annotation und können daher mit großen Trainingsmengen si multan trainiert werden. Es stellte sich heraus, dass BERT auf diese Weise sehr viel über die syntaktischen und inhaltlichen Zusammenhänge der Sequenzen lernen kann. Beispielsweise hatte die große Version von BERT 24 Encoder-Blöcke mit Embeddings der Länge 1024, 16 Multihead-Selbst-Attentions sowie 340 Millionen Parameter. Sie wurde auf 3,2 Milliar den Wörtern der englischen Wikipedia und eines Buchkorpus trainiert und benötigte hierzu 250 GPU-Tage. Die trainierten Parameter von BERT wurden anschließend auf semantische Progno seaufgaben mit relativ kleinen Trainingsmengen angepasst. Dieses Vorgehen nennt man Transferlernen. Ein Beispiel ist die SQUAD-Aufgabe in Abbildung 12.18: Hier muss das System aus einem Wikipedia-Artikel eine Wortfolge als Antwort zu einer Frage heraussuchen. BERT konnte für diese Aufgabe den besten F-Wert auf den Testdaten von 91,2 auf 93,2 erhöhen [18]. Die Genauigkeit der Antworten ist 2,0 Punkte besser als bei menschlichen Lesern. Insgesamt konnte BERT zum Teil drastische Verbesse
Abb. 12.18: Bei der Squad-Aufgabe erhält Programm einen Wikipedia-Text und eine Frage. Die Antwort ist eine Wortfolge in dem Text, die das Programm finden muss
12.4 Die Analyse von Sequenzen: rekurrente neuronale Netze | 541
rung der Genauigkeit bei elf untersuchten semantischen Aufgaben erreichen, darun ter Sentiment-Klassifikation, Klassifikation eines Folgesatzes als logische Folge bzw. Widerspruch, Klassifikation eines Folgesatzes als Paraphrase, Erkennung von Namen in Text usw.
12.4.12 Generierung von Texten mit GPT2 Das Sprachmodell GPT2 (Generative Pretrained Transformer) [62] ist eine Variante des Transformers ohne Encoder. Dementsprechend entfällt im Decoder-Block in Abbil dung 12.17 auch die Multihead-Kreuz-Attention. Das große Modell hatte Eingaben der Länge 1024, 48 Decoder-Blöcke und insgesamt 1,5 Milliarden Parameter. Es wurde mit 40 GB Text der Social-Media-Plattform Reddit trainiert. Die Performanz von GPT2 als Sprachmodell [61] war beeindruckend. Auf dem Penn-Treebank-Korpus verbesserte es die Perplexity von 46,5 auf 35,7 ohne die Trai ningsmenge überhaupt zu verwenden (zero-shot learning). Abbildung 12.19 zeigt, wie das Modell eine Startsequenz fortsetzt. Offenbar erfasst das Modell sowohl die syntak tischen Eigenheiten der Sprache als auch semantische Zusammenhänge. Grammatik fehler sind keine erkennbar und auch der inhaltliche Zusammenhang der erzeugten Fortsetzung ist gut. Die Autoren sahen ein großes Gefahrenpotenzial in dem Ansatz, weil es zur massenhaften Erzeugung von Falschmeldungen geeignet ist. Daher gab Startsequenz: A train carriage containing controlled nuclear materials was stolen in Cincinnati to day. Its whereabouts are unknown. Fortsetzung durch das Modell (erster Versuch): The incident occurred on the downtown train line, which runs from Covington and Ashland stations. In an email to Ohio news outlets, the U. S. Department of Energy said it is working with the Federal Railroad Administration to find the thief. “The theft of this nuclear material will have significant negative consequences on public and envi ronmental health, our workforce and the economy of our nation,” said Tom Hicks, the U. S. Energy Secretary, in a statement. “Our top priority is to secure the theft and ensure it doesn’t happen again.” The stolen material was taken from the University of Cincinnati’s Research Triangle Park nuclear research site, according to a news release from Department officials. The Nuclear Regulatory Commission did not immediately release any information. According to the release, the U. S. Department of Energy’s Office of Nuclear Material Safety and Security is leading that team’s investigation. “The safety of people, the environment and the nation’s nuclear stockpile is our highest priority,” Hicks said. “We will get to the bottom of this and make no excuses.” Abb. 12.19: GPT2 ist ein Sprachmodell, welches im Wesentlichen aus den Decoder-Blöcken des Transformers besteht. Es wird mit einer großen Textsammlung trainiert. Aus einer Startsequenz von Worten kann es meist eine syntaktisch und semantisch konsistente Fortsetzung erzeugen
542 | 12 Tiefe neuronale Netze
es zunächst einmal eine „kleine“ Version des Modells frei. Mittlerweile ist auch die „große“ Version des Modells verfügbar. Das GPT2-Modell wird schon in vielen Bereichen zur Texterzeugung verwendet, z. B. zur Formulierung von Patenten oder auch zur gesteuerten Generierung von Ge schichten.
12.5 Generative neuronale Modelle Die Funktionsweise vorwärts gerichteter Modelle, wie sie in den Abschnitten 11.3 und 12.3 beschrieben wurden, lässt sich in vielen Fällen durch die Parametrisierung einer Wahrscheinlichkeitsverteilung in der Ausgangsschicht zusammenfassen. Für Klassi fikationsaufgaben war dies beispielsweise eine Konditionalverteilung über der Men ge der Klassenindizes p(y|x). Die Umkehrung p(x|y) ist weitaus schwieriger zu lösen, da hierbei unter Verwendung eines gegebenen Klassenlabels y die Verteilung aller möglichen Muster x bestimmt werden muss. Ein Grund dafür ist die sehr komplexe Struktur der Verteilung, welche a priori nicht bekannt ist. Generative Modelle sind ei ne Möglichkeit, derart komplexe Inferenzaufgaben zu lösen. Generativen Modellen liegt dabei die Annahme zugrunde, dass komplex strukturierte Muster durch einen unbekannten Prozess erzeugt werden, wobei die Lernaufgabe darin besteht, diesen Prozess nachzubilden. In den meisten Fällen erfordert die Mustergenerierung und da mit verbunden auch verwandte Inferenzaufgaben, das Ziehen von Proben (engl. sam pling) aus komplex strukturierten Wahrscheinlichkeitsverteilungen. Dies kann ohne Konditionierung aus Verteilungen der Form p(x) erfolgen oder auch durch Vorgabe von Zusatzinformationen mittels konditionaler Verteilungen p(x|y). Generative neuronale Modelle können bis zu einem gewissen Grad als Weiterent wicklung regularisierter Autoencoder gesehen werden. Autoencoder erzeugen eine Repräsentation der Trainingsverteilung in den verborgenen Schichten, indem Ein gangsmuster am Ausgang wieder rekonstruiert werden. Der Rekonstruktionsfehler dient dabei als Kostenfunktion. Die Identität als triviale Lösung kann durch Einfüh rung zusätzlicher Randbedingungen umgangen werden. Hierzu zählen beispielsweise kontraktive Autoencoder, bei denen die verborgenen Schichten eine Dimensionsre duktion erzwingen oder auch Denoising-Autoencoder, welche zusätzliche Fehler auf dem Eingangssignal kompensieren müssen. Auf ähnliche Weise können auch Metho den des selbst überwachten Lernens (engl. self-supervised learning) zum Trainieren neuronaler Netzwerke genutzt werden. Hierbei werden im Allgemeinen komplexe re Rekonstruktionsaufgaben verwendet, wie beispielsweise die Rekonstruktion von Farbinformation aus Grauwertbildern oder auch die Rekonstruktion durch Umsortie ren oder durch Vervollständigen von Bildteilen zu einem konsistenten Ganzen [41]. Generative neuronale Modelle erzeugen ebenfalls eine interne Repräsentation der Muster, wobei allerdings nicht die Rekonstruktion eines einzelnen Musters, sondern
12.5 Generative neuronale Modelle
| 543
die Rekonstruktion einer gesamten Verteilung durch einen stochastischen Prozess im Vordergrund steht. Basis zur Modellierung des Generierungsprozesses bilden in den meisten Fällen pro babilistische neuronale Netzwerke. Dies sind Netzwerke bei denen die Aktivierun gen der Neuronen aus einer Wahrscheinlichkeitsverteilung gezogen werden. Während beispielsweise in deterministischen Netzwerken die Erregungsdynamik des Perzep trons durch die Gewichte und das Eingangssignal bestimmt wird, kann die gleiche Funktion auch zur Parametrisierung einer Verteilungsfunktion genutzt werden, wel che die Aktivierungswahrscheinlichkeit eines Neurons definiert.⁸ Ein weiteres Bei spiel für ein probabilistisches Netzwerk wurde bereits durch Einführung der Dropout Regularisierung in Abschnitt 11.3 gegeben. Zur Beschreibung eines probabilistischen Netzwerks ist es notwendig, neben der Erregungswahrscheinlichkeit auch die statisti schen Abhängigkeiten zwischen einzelnen Neuronen zu definieren. Die Kopplung der Neuronen erfolgt wiederum durch funktionale Verknüpfung, wobei die Abhängigkei ten in einer Graphrepräsentation organisiert sind. Im Gegensatz zu dem Funktions graphen aus Abschnitt 11.3 werden durch die Kanten statistische Abhängigkeiten mo delliert, wobei zwischen gerichteten Modellen (Belief- oder Bayes-Netzwerken) bzw. ungerichteten Modellen (Faktorgraphmodellen) unterschieden wird. Einen systemati schen Überblick über probabilistische graphische Netzwerke gibt beispielsweise [6].
12.5.1 Tiefe Boltzmann-Maschine Faktorgraphen repräsentieren Wahrscheinlichkeitsdichten durch Gruppierung der Variablen in statistisch unabhängige Teilmengen, welche die Faktoren der Verbund wahrscheinlichkeit bilden. Alle Variablen, welche Teil eines vollständig verknüpften Teilgraphen (Clique) sind, bilden dabei die einzelnen Faktoren. In neuronalen Netzen wird die Faktorisierung meist durch ein Energiemodell der Form p(x) =
1 −E(x,Θ) 1 ̂ = e p(x, Θ) Z(Θ) Z(Θ)
(12.23)
ausgedrückt. Hierbei ist p̂ die unnormierte Wahrscheinlichkeitsdichte und Z(Θ) die zugehörige Normierungsfunktion (engl. partition function, link function). Lernen in probabilistischen Netzwerken bedeutet ebenso wie in deterministischen Netzwerken die Bestimmung der freien Parameter Θ anhand einer Kostenfunktion. Der Gradient der logarithmierten Wahrscheinlichkeit ̂ Θ) − ∇Θ log Z(Θ) ∇Θ log p(x) = ∇Θ log p(x,
(12.24)
8 Ein Beispiel für ein tiefes Netzwerk, welches auf diese Art konstruiert ist, ist das Sigmoid-Netzwerk, welches zu der Klasse der Deep-Belief-Netzwerke gehört.
544 | 12 Tiefe neuronale Netze
zerfällt dabei in einen von den Daten abhängigen Term, die sog. positive Phase, und einen Term der nicht von den Trainingsdaten abhängig ist, die sog. negative Phase. Die Schwierigkeit besteht dabei meist in der Berechnung der Normierungsfunktion Z, welche für eine Vielzahl von Modellen weder analytisch noch numerisch effizient ge löst werden kann. Für Modelle mit p(x) > 0 kann man allerdings für den negativen Teil die Identität ̂ ∇Θ log Z = 𝔼x∼p(x)∇Θ log p(x) (12.25) verwenden. In der positiven Phase werden somit Muster aus den Trainingsdaten ge nutzt, in der negativen Phase werden die Muster aus der Modellwahrscheinlichkeit ge zogen.⁹ Möchte man nun als Lernregel die Gleichungen 12.24 und 12.25 in Form eines Gradientenabstiegsverfahrens nutzen, so kann in jedem Aktualisierungsschritt der Erwartungswert 𝔼x∼p(x) mittels Gibbs-Sampling¹⁰ neu bestimmt werden. Contrastive Divergence (CD-k) ist ein effizienter Lernalgorithmus, bei dem sich Parameteraktuali sierungen in Gradientenrichtung und Sampling-Schritte abwechseln. Das Gibbs-Sam pling wird dabei auf k Iterationen begrenzt, wobei als Initialisierung Trainingsmuster und nicht rein zufällig gewählte Muster genutzt werden. Zu Beginn der Lernphase ist der negative Term schlecht bestimmt, da die Modellverteilung, welche durch den posi tiven Term bestimmt wird, noch sehr ungenau ist. Im Laufe des Lernprozesses wird die Modellverteilung aber zunehmend genauer, und das verkürzte Gibbs-Sampling fällt weniger schwer ins Gewicht. Die begrenzte Boltzmann-Maschine (engl. restricted Boltzmann machine, RBM) ist ein Energiemodell, bei dem sich der Wahrscheinlichkeitsraum x = [v, h] in einen beob achtbaren Teil v und einen verborgenen Teil h aufteilt. Aus der Energiefunktion der RBM E(v, h) = −v⊤ b v − h⊤ b h − v⊤ Wh (12.26) ist unmittelbar ersichtlich, dass die RBM einen bipartiten Graphen zwischen der sicht baren und der verborgenen Schicht bildet. Die Elemente jeweils einer Schicht sind nicht verbunden und somit konditional unabhängig. Die Struktur der Energiefunkti on entspricht einem linearen Modell mit jeweils einem Bias für die sichtbare Schicht (b v ) und die verborgene Schicht (b h ). Die Struktur der RBM als bipartiter Graph er laubt einfache Konditionierungen p(h|v) =
p(h, v) 1 ⊤ ⊤ = e b v v+v W h , p(v) Z
(12.27)
9 Hierbei ist zu beachten, dass die Umformung in eine positive und eine negative Phase zwar die Herleitung einer intuitiven Lernregel ermöglicht, die numerische Komplexität zur Bestimmung von Z aber unverändert lässt. 10 Gibbs-Sampling ist ein iteratives Näherungsverfahren zum Ziehen von Zufallszahlen aus komple xen Verteilungen. Ausgehend von einem zufällig gewählten Startpunkt wird iterativ eine Sequenz er zeugt. Die Endpunkte der Sequenz folgen dabei näherungsweise der Verteilung [6].
12.5 Generative neuronale Modelle
h11
h12
h31
h13
| 545
h32 .. .
v1
v1
h21
h23
h22
Abb. 12.20: (Tiefe) RBM lassen sich als bipartiter Graph darstellen, wobei die konditionale Unabhän gigkeit zwischen Schichten mit geradem und Schichten mit ungeradem Index ersichtlich wird
mit Z als erweiterte Normierung. Die Bestimmung von p(v|h) ist dazu analog. Die Antwortverteilung eines einzelnen binären Neurons kann beispielsweise über p(h j = 1|v) = σ(b hj + v⊤ W:,j ) p(v i = 1|h) =
σ(b vi
und
+ W i,: h)
(12.28) (12.29)
bestimmt werden.¹¹ Zum Lernen einer RBM kann der CD-k-Algorithmus verwendet werden. Zu beachten ist allerdings, dass für einen Iterationsschritt ein Zyklus der Form h ∼ p(h|v), v ∼ p(v|h) und h ∼ p(h|v ) notwendig wird. Eine tiefe Boltz mann Maschine (engl. deep Boltzmann machine, DBM) erhält man unmittelbar durch Stapeln mehrerer RBM, wodurch folgende Form entsteht: p(v, h1 , . . . , h n ) =
1 −E(v,h1 ,...,h n ,Θ) . e Z(Θ)
(12.30)
Das Besondere an der DBM ist, dass alle Schichten mit ungeradem Index konditional unabhängig von den Schichten mit geradem Index sind, wodurch Iterationsschritte in den geraden und ungeraden Schichten parallel erfolgen können. Eine graphische Dar stellung für eine DBM als bipartiter Graph ist in Abbildung 12.20 gegeben. Die Adap tion des CD-k-Algorithmus ist entsprechend einfach. Die DBM kann in gleicher Weise wie beispielsweise ein Autoencoder zum Lernen von Repräsentationen genutzt wer den. So kann die DBM mit einem Klassifikationsnetzwerk (Abschnitt 11.3) kombiniert werden. Gleichzeitig ist es möglich, durch Propagierung von den verborgenen Schich ten auf die sichtbaren Schichten wiederum Muster zu synthetisieren. Abschließend sei noch angemerkt, dass sehr viele Varianten der DBM und der RBM existieren, u. a. auch zur Abbildung reellwertiger Verteilungen und auch in Kombination mit Faltungsope rationen zur effizienten Repräsentation einzelner Wahrscheinlichkeiten [28].
11 Alternativ können hier auch andere Verteilungen, wie z. B. die Softmax-Funktion genutzt werden.
546 | 12 Tiefe neuronale Netze
12.5.2 Variante Autoencoder Die Verwendung ungerichteter Modelle im vorherigen Abschnitt war vor allem da durch motiviert, dass diese in ihrer speziellen Form der RBM eine einfache Inferenz in zwei Richtungen (Gleichung 12.27) erlauben. Das Ziehen von Mustern aus der Ver teilung innerhalb des Trainings ist allerdings rechenintensiv und begrenzt zudem die Möglichkeiten zur Modelldefinition. Ein alternativer Weg besteht darin, das Ziehen von Zufallsmustern in einen einfachen nicht deterministischen Teil und eine komple xere, aber deterministische Transformation aufzuteilen. Sollen Muster aus einer Ver teilung y ∼ p(y|τ) (12.31) gezogen werden, so kann dies mittels einer Transformation y = g(z, τ)
(12.32)
erfolgen, wobei z ein Zufallswert ist und g eine deterministische Funktion. Der Vorteil dieser Beschreibung besteht darin, dass der Gradient der Zufallsvariablen ∇τ y analy tisch berechnet und unmittelbar in Gradientenabstiegsverfahren verwendet werden kann. Beispielsweise erzeugt die Transformation x = g(z) = μ + LDL⊤ z
(12.33)
Muster aus einer mehrdimensionalen Normalverteilung mit Mittelwert μ und einer Ko varianzmatrix, deren Cholesky-Zerlegung durch LDL⊤ gegeben ist. In dem gleichen Sinne kann auch das in Abschnitt 11.3 vorgestellte Mixture-Density-Netzwerk als Ge neratornetzwerk genutzt werden. Zu beachten ist allerdings, dass die freien Parameter von g derart eingeschränkt werden müssen, dass eine valide Verteilung entsteht. Im obigen Beispiel müssen die linken und rechten Dreiecksmatrizen der Cholesky-Zer legung normiert sein. Die Funktion g muss differenzierbar sein und kann ebenfalls durch ein Netzwerk abgebildet werden. Die Konstruktion aus Gleichung 12.32 wird auch als Generatornetzwerk bezeichnet. Generatornetze spielen eine wichtige Rolle, um in gerichteten probabilistischen Netz werken die Inferenz p(v|z) zu approximieren. Gerichtete Netze (engl. directed models) sind ebenfalls probabilistische Modelle, welche auf einer Graphrepräsentation basie ren. Im Gegensatz zu ungerichteten Modellen sind gerichtete Modelle speziell für die Formulierung konditionaler Abhängigkeiten geeignet. Kanten a → b drücken dabei die konditionale Abhängigkeit p(b|a) zwischen Variablen aus. In tiefen mehrschich tigen Netzwerken erlaubt dies eine effiziente Bestimmung der Aktivierungsverteilung auf der sichtbaren Eingangsschicht, Satz leicht umformuliert der höchsten verborge nen Schicht p(v|h). Mit anderen Worten, die Synthese von Mustern aus der Verteilung ist numerisch einfach. Die Umkehrung, also die Bestimmung der Aktivierung verbor gener Neuronen aus einem Eingangsmuster, ist aufgrund der Struktur nicht praktika
12.5 Generative neuronale Modelle |
547
bel.¹² In diesem Zusammenhang können Generatornetzwerke genutzt werden, um die Inferenzphase in gerichteten Modellen approximativ zu lösen, wobei die Approxima tion selbst Teil der Lernaufgabe ist. Variante Autoencoder (engl. variational autoencoder, VAE) sind gerichtete Modelle, welche exakt diesem Schema folgen. Die Mustersynthese erfolgt über die Konditio nalverteilung p(v|z), wobei z ∼ p(z) aus einer einfachen Verteilung gezogen wird. Die Inferenzphase p(z|v), d. h. die Bestimmung der latenten Aktivierungen aus den Trainingsdaten, wird dabei über ein Generatornetzwerk angenähert. Aufgrund ihrer Funktionsweise wird p(v|z) als Decoder und p(z|v) als Encoder bezeichnet. Lernen in generativen Modellen ist in vielen Fällen gleichbedeutend mit der Anwen dung des Maximum-Likelihood-Prinzips, also der Maximierung der Wahrscheinlich keit p(X), welche durch das Modell berechnet wird. Im obigen Fall würde dies wieder um die Lösung einer aufwendigen Inferenzaufgabe, in diesem Fall der Marginalisie rung über z, bedeuten. Alternativ kann p(v) aber indirekt über L(q) = 𝔼z∼q(z|x) log p(z, x) + H(q(z|x)) = 𝔼z∼q(z|x) log p(z|x) − D KL (q(z|x)‖p(z))
(12.34) (12.35)
maximiert werden, wobei L(q) ≤ log p(x) gilt. Die Kostenfunktion L ist dabei eine untere Schranke (engl. expected lower bound, ELBO) für p(v). Als Näherung wird da bei ein Generatornetzwerk q(z|x) = q(z|f(x, Θ) genutzt, wobei z aus Effizienzgründen meist aus einer sehr einfachen Normalverteilung z ∼ N(μ, diag(σ)) stammt. Der erste Term der Kostenfunktion entspricht dem Rekonstruktionsfehler eines Trainingsmus ters. Der zweite Term stellt sicher, dass der Raum der verborgenen Schichten so weit wie möglich genutzt wird und die Repräsentation somit nicht auf sehr wenige Modi zusammenfällt. Wie auch bei anderen Autoencoder-Modellen steht bei varianten Autoencodern eine möglichst akkurate Rekonstruktion gegebener Trainingsmuster im Fokus. Eini ge Rekonstruktionen durch einen varianten Autoencoder gegebener verschiedener Ziffernbilder des MNIST-Datensatzes (Abschnitt 11.2) sind in Abbildung 12.21a dar gestellt. Es ist zu erkennen, dass das Modell in der Lage ist, die gegebenen Einga bemuster zu rekonstruieren. Neben der Rekonstruktion lernen variante Autoencoder eine latente Repräsentation der Datenverteilung. Verschiedene Visualisierungen ei ner zweidimensionalen Repräsentation sind in den Abbildungen 12.21b und 12.21c gegeben.
12 Die Umkehrung über die Bayes-Formel würde wiederum die numerische Lösung komplexer Inte grale bedeuteten.
548 | 12 Tiefe neuronale Netze
(a)
(b)
(c)
Abb. 12.21: a: Beispielziffern aus dem MNIST-Datensatz und dazugehörige Rekonstruktionen eines varianten Autoencoders. Eingabebild und Rekonstruktion sind jeweils nebeneinander gezeichnet. b: Äquidistant abgetasteter latenter Zustandsraum eines trainierten varianten Autoencoders. c: Zu fällig gezogene Beispiele aus dem latenten Zustandsraum
12.5.3 Kontradiktorische Netzwerke Repräsentationen, welche mithilfe des Maximum-Likelihood-Kriteriums trainiert werden, sind vor allem in Bereichen, die durch wenige oder keine Trainingsda ten abgedeckt sind, auf zusätzliche Regularisierungsannahmen angewiesen. Die Normierungsfunktion der RBM erfüllt beispielsweise diese Aufgabe. Kontradiktori sche Netzwerke (engl. generative adversarial networks, GAN) ergänzen das Training durch Muster, welche aus dem Modell selbst generiert werden und dazu dienen, die Randbereiche der durch die Trainingsmenge gegebenen Verteilung besser zu konditionieren. Im Gegensatz zu den expliziten Dichterepräsentationen der bisher besprochenen Modelle, bauen kontradiktorische Netzwerke keine explizite Reprä sentation einer Dichtefunktion auf. Der Zugriff auf die Verteilung erfolgt lediglich indirekt, über das Ziehen von Zufallsmustern aus dieser Verteilung. Hierzu wird wiederum ein Generatornetzwerk x = g(z, Θ g )
(12.36)
genutzt, aus dem die Muster unmittelbar erzeugt werden. Dem Generatornetzwerk steht ein Diskriminatornetzwerk p(x ∈ S) = d(x, Θ d )
(12.37)
gegenüber, welches eine Wahrscheinlichkeit dafür berechnet, dass ein Muster x Teil der Trainingsdaten ist und nicht durch das Generatornetzwerk erzeugt wurde. Ler nen steht hierbei in engem Zusammenhang mit Methoden der Spieltheorie, wobei die beiden Netzwerke als Spieler mit gegensätzlichen Zielen aufgefasst werden. Die am häufigsten verwendete Formulierung eines Spiels (engl. GAN game) ist die eines Null summenspiels, wobei die Kostenfunktion v(Θ g , Θ d ) = 𝔼x∼p S log d(x) + 𝔼x∼p(x|z) log(1 − d(x))
(12.38)
12.6 Bestärkungslernen | 549
sowohl für das Diskriminatornetzwerk als auch mit negativem Vorzeichen für das Ge neratornetzwerk genutzt wird. Hieraus resultiert als Lernziel ein Min-Max-Prinzip [Θ∗g , Θ∗d ] = arg min max v(g, d) , Θg
Θd
(12.39)
bei dem der Diskriminator versucht, falsche und echte Muster gut zu unterscheiden, und der Generator versucht, Muster zu erzeugen, welche nicht unterscheidbar sind. Eine Konvergenz ist dann erreicht, wenn die Muster nicht mehr unterscheidbar sind. Dies ist der Fall, wenn das Diskriminatornetzwerk eine maximale Unsicherheit er reicht, wenn also die Chance für eine falsche Klassifikation bei 0,5 liegt. Ähnlich zu den RBM können GAN auch benutzt werden, um konditionale Verteilungen zu lernen, wie beispielsweise die Synthese von Bildern unter Vorgabe eines Klassenlabels. In die sem Fall wird sowohl das Generatornetzwerk als auch das Diskriminationsnetzwerk um den konditionalen Parameter erweitert. Generell sind GAN numerisch schwer zu trainieren, da eine Konvergenz, d. h. das Er reichen eines Equilibriums, nicht garantiert ist. In einem solchen Fall erfolgt die Ver änderung der Parameter beider Gegenspieler in Zyklen, welche niemals einen Fix punkt erreichen. Lange Zeit wurden GAN vor allem wegen der subjektiv höheren Qua lität der synthetisierten Muster anderen generativen Modellen vorgezogen. Mit der Weiterentwicklung von VAE, welche numerisch deutlich stabiler sind, ist dieser Vor sprung nicht mehr zwingend gegeben [56]. Weiterhin muss noch beachtet werden, dass eine Leistungsbewertung synthetisch generierter Muster prinzipiell schwierig ist, da kein objektives Gütemaß definiert werden kann.
12.6 Bestärkungslernen Neben dem unüberwachtem und überwachtem Lernen gibt es eine weiteres Paradig ma des Maschinellen Lernens, das sog. bestärkende Lernen (engl. reinforcement learn ing, RL). Modelle und Methoden, die diesem Paradigma folgen, formalisieren die Idee, mittels Versuch und Irrtum optimale Verhaltensweisen oder Strategien zu erlernen. Das heißt, RL-Algorithmen erlauben es (Software-) Agenten, aus Erfahrung heraus zu lernen, was wann zu tun ist, um ein langfristiges Ziel zu erreichen. Anwendungen, in denen bestärkendes Lernen eingesetzt wird, sind vielfältig und umfassen etwa Spieleszenarien (Welchen Zug muss ein Schachcomputer beim aktuel len Stand des Spiels machen, um es zu gewinnen?), autonome Handelssysteme (Wel che Aktie sollte bei der aktuellen Marktlage gekauft werden, um langfristig Gewinn zu erzielen?) und autonome Robotik (Wie muss sich ein Roboter in einer dynamischen Lagerhalle bewegen, um ein Paket zu seinem Zielort zu bringen?). Kriterien oder Zielfunktionen, die es ermöglichen, Strategien automatisch zu op timieren, werden im Bestärkungslernen typischerweise in Bezug auf drei Aspekte for muliert:
550 | 12 Tiefe neuronale Netze
1. 2. 3.
Zustände (engl. states), in denen sich ein Agent befinden kann. Aktionen (engl. actions), die der Agent in einem Zustand ausführen kann. Belohnungen (engl. rewards), die der Agent für eine Aktion in einem Zustand er hält.
Auf diese Art und Weise lassen sich optimale Strategien dann als Sequenzen von Ak tionen mit möglichst hoher Gesamtbelohnung definieren. Ein weiteres Beispiel soll verdeutlichen, dass diese scheinbar abstrakten Ideen in der Tat sehr natürlich sind: Wenn Kleinkinder das Laufen lernen, bewegen sie ihre Beine und Oberkörper zunächst mehr oder weniger zufällig. Dies führt dazu, dass sie entweder hinfallen oder sich weiter aufrecht halten. Ersteres ist unerwünscht, Letzte res ist das Ziel. Mit der Zeit, d. h. über viele, viele Versuche hinweg, akkumuliert sich die Erfahrung, und Kleinkinder lernen, welche Zustände (Körperhaltungen) welche Aktionen (Muskelbewegungen) erfordern, um eine möglichst hohe Gesamtbelohnung (aufrechter Gang, gutes Vorwärtskommen) zu erzielen. In unserer folgenden Darstellung nehmen wir der Einfachheit halber an, dass so wohl die Menge möglicher Zustände S = {s1 , s2 , . . . } , in denen sich ein Agent befinden kann, als auch die Menge möglicher Aktionen A = {a1 , a2 , . . . } , die ein Agent ausführen kann, möglicherweise sehr groß aber endlich und diskret sind. Dies erlaubt es uns, das Problem des bestärkende Lernen als ein Markov-Ent scheidungsproblem zu formulieren.
12.6.1 Markov-Entscheidungsprozesse Ein Markov-Entscheidungsprozess (engl. Markov decision process, MDP) ist ein Tupel M = (S, A, T, R) ,
(12.40)
wobei S eine Menge von Zuständen und A eine Menge von Aktionen darstellen. Die Funktion T : A × A × S → [0, 1] mit T(s, a, s ) = p(s | s, a)
(12.41)
bildet jedes Tripel (s, a, s ) auf eine Zahl zwischen null und eins ab, die angibt, wie wahrscheinlich es ist (zu einem beliebigen Zeitpunkt t), bei Ausführung von Aktion a vom Zustand s in den Zustand s zu wechseln. Die Funktion R : S × A → ℝ bildet jedes Paar (s, a) auf einen Wert r ∈ ℝ ab, der die Belohnung für Aktion a in Zustand s angibt. Auf Englisch heißt r auch immediate reinforcement, reward oder payoff.
551
12.6 Bestärkungslernen |
s1 0.5
0.2
a1
0.2
0.4
0.7
0.6 0.5
0.5 0.2
a1
0.7
a1
a4
a4
0.9
0.9
0.5
a2
0.1
s2
0.5
a3
a2
s1
s2
0.8
0.1
a2
0.3
0.3 0.1
s3
s3 (a) Ein einfacher MDP
(b) MDP mit policy π
Abb. 12.22: (a) Grafische Darstellung eines MDP mit Zustands- und Aktionsmengen S = {s1 , s2 , s3 } und A = {a1 , a2 , a3 , a4 }; gerichtete und gewichtete Kanten des gezeigten Graphen repräsentieren die Übergangswahrscheinlichkeiten T(s, a, s ); Belohnungen R(s, a) werden der besseren Übersicht halber nicht gezeigt. (b) Unter der policy π(s1 ) = a1 , π(s2 ) = a4 , π(s3 ) = a2 steht in jedem Zustand s ∈ S nur noch eine Aktion a ∈ A zur Auswahl, und der MDP wird zu einem MP
Mit anderen, möglicherweise einfacheren Worten können wir uns einen MDP also einerseits als probabilistischen, endlichen Automaten mit Ausgabe vorstellen. Ande rerseits erkennen wir, dass ein MDP die Idee eines einfachen Markov-Prozesses (MP) generalisiert, denn für den Fall, dass die Menge möglicher Aktionen nur ein Element enthielte (A = {a1 }), würden sich die Übergangswahrscheinlichkeiten zu T(s, a1 , s ) = T(s, s ) = p(s | s) vereinfachen. Immer dann, wenn ein praktischen Szenario als ein MDP formalisiert wird, ist da von auszugehen, dass das Problem darin besteht, eine Funktion oder Strategie (engl. policy) π: S → A (12.42) zu bestimmen, die Zustände so auf Aktionen abbildet, dass a = π(s)
(12.43)
diejenige Aktion a ∈ A spezifiziert, die ein Agent im Zustand s ∈ S ausführen würde. Wird ein MDP mit einer solchen policy kombiniert, ist die Aktionsauswahl im Zu stand s nicht mehr probabilistisch, sondern deterministisch, und der MDP verhält sich fortan wie ein MP (mit Ausgabe), denn p(s | s, π(s)) = p(s | s) .
(12.44)
Natürlich besteht das eigentliche Problem nicht darin, irgendeine Strategie zu be stimmen, sondern vielmehr darin, eine optimale Strategie (engl. optimal policy) π∗ : S → A
(12.45)
zu bestimmen, die zu insgesamt optimalem Verhalten a = π∗ (s) führt.
(12.46)
552 | 12 Tiefe neuronale Netze
An dieser Stelle stellt sich dann die Frage, wie man optimales Verhalten charak terisieren kann, um Algorithmen zu entwickeln, die in der Lage sind, optimales Ver halten bzw. eine optimale Strategie π∗ zu lernen? Hierzu gibt es beinahe unzählige mögliche Antworten und Ideen; im Folgenden, beschränken wir unsere Diskussion daher auf den wohl gängigsten Ansatz.
12.6.2 Infinite-Horizon-Modell und Bellman-Gleichungen Verhalten und Strategien haben immer einen zeitlichen Bezug (Was ist wann zu tun?) und unsere bisherige Diskussion hat dem noch nicht Rechnung getragen. Fortan schreiben wir daher s[t] ∈ S , (12.47) um denjenigen Zustand zu bezeichnen, in dem sich ein Agent zu einem diskreten Zeit punkt t ∈ ℕ befindet. Weiterhin schreiben wir a[t] ∈ A
(12.48)
r[t] ∈ ℝ ,
(12.49)
um die Aktion und die Belohnung zu bezeichnen, die er zu diesem Zeitpunkt ausführt und erhält. Mit diesen Bezeichnungen sind wir nun besser in der Lage zu definieren, was op timales Verhalten charakterisiert, nämlich die Tatsache, dass der Erwartungswert der über einen längeren Zeitraum akkumulierten Belohnung hoch sein sollte. Im sog. Dis counted-Infinite-Horizon-Modell mit Diskontierungsfaktor 0 < γ < 1 wird dieser Er wartungswert wie folgt bezeichnet ∞
𝔼 [ ∑ γ t r[t]] .
(12.50)
t=0
In der Literatur wird der vom Nutzer zu definierende Parameter γ oft dahinge hend diskutiert, dass das Modell in Gleichung 12.50 unmittelbaren Belohnungen ei ne höhere Wertigkeit zuschreibt als Belohnungen, die zu (viel) späteren Zeitpunkten aufgesammelt werden. Allerdings kann die Rolle des Parameters γ auch prosaischer gesehen werden, nämlich als mathematischer Trick, die unendliche Reihe in Glei chung 12.50 zu beschränken: Unter der zusätzlichen sinnvollen Annahme, dass es für Belohnungen eine Obergrenze rmax gibt, sodass zu jedem Zeitpunkt t gilt, dass r[t] ≤ rmax ,
(12.51)
finden wir für 0 < γ < 1 folgende Ungleichung ∞
∞
∞
t=0
t=0
t=0
∑ γ t r[t] ≤ ∑ γ t rmax = ( ∑ γ t ) rmax = die sicherstellt, dass Gleichung 12.50 berechenbar ist.
1 rmax , 1−γ
12.6 Bestärkungslernen | 553
Um Algorithmen entwerfen zu können, die anhand des Discounted-Infinite-Hori zon-Modells optimale Strategien lernen können, brauchen wir außerdem noch die Idee einer sog. value function (12.52) Vπ : S → ℝ , die für jeden Zustand s ∈ S diejenige Belohnung berechnet, die ein Agent erwarten kann, wenn er einer gegebenen Strategie π folgt. Das heißt, der Wert eines Zustandes ∞
∞
t=0
t=0
V π (s) = 𝔼 [ ∑ γ t r[t]] = 𝔼 [ ∑ γ t R(s[t], π(s[t]))]
(12.53)
bezeichnet die erwartbare Belohnung, die sich ergibt, wenn ein Agent im Zustand s der Strategie π folgt, oder, in anderen Worten, die erwartbare Belohnung einer Zu standssequenz, die sich, beginnend mit Zustand s, aus der Strategie π ergibt. Mit der value function sind wir prinzipiell in der Lage, eine partielle Ordnung auf der Menge aller denkbaren Strategien zu definieren, und man kann zeigen [79], dass es zum Discounted-Infinite-Horizon-Modell mindestens eine optimale Strategie gibt und dass, falls es mehrere optimale Strategien geben sollte, all diese optimalen Strategien die gleiche value function haben. Dies erlaubt es, den optimalen Wert eines Zustandes wie folgt zu definieren ∗
∞
∞
t=0
t=0
V π (s) = max 𝔼 [ ∑ γ t R(s[t], π(s[t]))] = 𝔼 [ ∑ γ t R(s[t], π∗ (s[t]))] , π
(12.54)
was dann wiederum genutzt werden kann, eine optimale Strategie π∗ als eine Strate gie zu definieren, bei der für jeden Zustand s ∈ S gilt, dass ∗
V π (s) ≥ V π (s) .
(12.55) ∗
Offensichtlich bewegen wir uns aber gerade im Kreis, denn V π (s) ist in Bezug auf ∗ ∗ π (s) definiert und π∗ (s) ist in Bezug auf V π (s) definiert. Dieser Zirkel lässt sich bre chen, indem wir Bellmans Optimalitätsprinzip [8] nutzen. Es besagt, dass eine optima le Strategie die Eigenschaft hat, dass, unabhängig vom initialen Zustand und der in itialen Aktion, alle folgenden Aktionen eine optimale Strategie ergeben müssen. Diese Idee führt dann zu den Bellman-Gleichungen V π (s) = R(s, π(s)) + γ ∑ T(s, π(s), s ) V π (s )
(12.56)
s
und ∗
∗
V π (s) = max (R(s, a) + γ ∑ T(s, a, s ) V π (s )) , a
s
die die value function rekursiv und ohne Zeitabhängigkeit beschreiben.
(12.57)
554 | 12 Tiefe neuronale Netze
Wichtig zu bemerken ist, dass Gleichung 12.56 für eine gegebene policy π als linea res Gleichungssystem interpretiert werden kann. Um dies zu sehen, stellen wir fest, dass die Werte V π (s1 ), V π (s2 ), . . . in einem Vektor v π ∈ ℝ|S| aufgesammelt werden können. Gleichzeitig erinnern wir, dass T(s i , π(s i ), s j ) = p(s i | s j ), was einer Matrix P π ∈ ℝ|S|×|S| entspricht. Ebenso haben wir R(s i , π(s i )) = r i und damit einen Vektor r π ∈ ℝ|S| . Für eine gegebene policy π kann (12.56) also als Matrix-Vektor-Gleichung vπ = rπ + γ Pπ vπ
(12.58)
geschrieben werden, deren Lösung durch −1
v π = [I − γ P π ] r π
(12.59)
gegeben ist.
12.6.3 Value Iteration und Policy Iteration Wenn wir zu einem gegebenen MDP (S, A, T, R) die Bellman-Gleichung in Glei chung 12.57 auch ohne vorgegebene policy π nutzen könnten, um eine optimale value ∗ function V π zu bestimmen, könnten wir eine optimale Strategie π∗ wie folgt ermitteln ∗
π∗ (s) = argmax (R(s, a) + γ ∑ T(s, a, s ) V π (s )) . a
(12.60)
s
Auch wenn es auf den ersten Blick nicht offensichtlich ist, wie Gleichung 12.57 ∗ nach V π aufgelöst werden kann, existiert dafür jedoch ein überraschend einfaches Verfahren, nämlich der in Abbildung 12.23 gezeigte Value-Iteration-Algorithmus. Eine positive Eigenschaft dieses Verfahrens ist, dass es in jeder Iteration der while-Schleife nur O(|A||S|2 ) Operationen ausführt; weniger optimal ist, dass der Algorithmus typi scherweise viele Iterationen erfordert, bis er zu einem stabilen Ergebnis konvergiert, und dass die Konvergenzgeschwindigkeit vom Diskontierungsparameter γ abhängt. Eine Möglichkeit, diese Nachteile zu umgehen, bietet der in Abbildung 12.24 ge zeigte Policy-Iteration-Algorithmus, der Gleichung 12.58 direkt löst, ohne vorher eine optimale value function zu ermitteln. Dazu wird π∗ zunächst zufällig initialisiert und dann iterativ optimiert. Jede dieser Iterationen erfordert es, die der aktuellen policy π entsprechende value function V π zu berechnen, was jedoch, wie in Gleichung 12.59 gezeigt, einfach möglich ist. Vorteile des Policy-Iteration-Algorithmus sind, dass er typischerweise nur wenige Iterationen erfordert und dass Konvergenz innerhalb von |A||S| Iterationen garantiert werden kann [79]. Ein Nachteil besteht darin, dass er in jeder Iteration der repeatSchleife O(|A||S|2 + |S|3 ) Operationen ausführt.
12.6 Bestärkungslernen |
555
for s ∈ S randomly initialize V(s) while not converged for s ∈ S for a ∈ A !
Q(s, a) = R(s, a) + γ ∑ T(s, a, s ) V(s ) V(s) = max Q(s, a)
s
a
Abb. 12.23: Value-Iteration-Algorithmus zur Lösung des Gleichungssystems in Gleichung 12.57 for s ∈ S randomly initialize π ∗ (s) repeat π = π∗ solve V π = R(s, π(s)) + γ ∑s T(s, π(s), s ) V π (s ) for s ∈ S π ∗ (s) = argmax (R(s, a) + γ ∑s T(s, a, s ) V π (s )) until π = π ∗
a
Abb. 12.24: Policy-Iteration-Algorithmus zur Lösung des Gleichungssystems in Gleichung 12.60
12.6.4 Von Monte-Carlo-Simulationen zu Temporal-Difference (TD) Learning In unserer bisherigen Diskussion haben wir MDP (S, A, T, R) betrachtet, bei denen wir davon ausgegangen sind, dass uns all ihre Komponenten bekannt sind. Während uns dies erlaubt hat, theoretische Betrachtungen anzustellen und entsprechende Einsich ten abzuleiten, ist die Annahme, dass jeder Aspekt eines MDP bekannt ist, in prakti schen Anwendungen oft jedoch zu optimistisch. Insbesondere ist es in der Praxis oft nicht a priori klar, mit welchen Übergangswahrscheinlichkeiten wir es zu tun haben. Fortan arbeiten wir daher mit schwachen MDP M = (S, A, R) ,
(12.61)
bei denen die Übergangsfunktion T als eine latent vorhandene, aber unbekannte Komponente betrachtet wird. Die Frage, die wir hier beantworten müssen, lautet da her: Wenn wir die Übergangsfunktion T(s, a, s ) nicht kennen, wie können wir dann ∗ die value function V π (s) auswerten, um ein Optimum V π (s) zu bestimmen, das die Berechnung einer optimalen Strategie π∗ (s) erlauben würde? Antworten auf diese Frage lassen am besten anhand eines (einfachen) Beispiels ableiten. Daher betrachten wir im Folgenden das in Abbildung 12.25 dargestellte Sze nario. Abbildung 12.25a zeigt einen Ausschnitt einer Karte einer (einfachen) zweidimen sionalen Spielewelt, in der sich ein Agent von Raum zu Raum bewegen kann. In einem
556 | 12 Tiefe neuronale Netze
(a) Eine einfache Zustandsmenge S
(b) Mögliche Belohnungen R
Abb. 12.25: Ein einfaches Reinforcement-Learning-Szenario. Die weißen Quadrate in (a) stellen Räu me dar, in denen sich ein Agent in einem Dungeon-Crawler-Spiel befinden kann. Die in (b) gezeigten Zahlen repräsentieren von den Entwicklern des Spiels als sinnvoll erachtete Belohnungen dafür, den jeweiligen Raum zu erreichen. Da der Raum mit den Koordinaten (1, 5) den höchsten Belohnungs wert aufweist, besteht das Lernziel des Agenten darin, eine Strategie oder policy π zu finden, die es ihm erlaubt, diesen Raum von jedem anderen Raum aus möglichst schnell zu erreichen
einfachen abstrakten Modell dieser Welt kann sich ein Agent also in folgenden Zustän den befinden S = {(4, 1), (3, 1), . . . }
(12.62)
und entsprechende, sinnvolle Aktionen, d. h. Bewegungen, die je nach Zustand Über gänge von Raum zu Raum ermöglichen, können wie folgt codiert werden A = {↑, →, ↓, ←} .
(12.63)
Die in Abbildung 12.25b zu jedem Raum gezeigten Zahlen sind Belohnungswerte, die die Entwickler des Spiels gewählt haben, um zu modellieren, wie erstrebenswert es für einen Agenten ist, den jeweiligen Raum zu erreichen. Offensichtlich gehen wir hier von der vereinfachten Annahme aus, dass die Reward-Funktion R : S → ℝ unabhän gig von den Aktionen in A ist. Gleichzeitig beobachten wir, dass folgende Teilmenge F ⊆ S = {(0, 0), (1, 5), (3, 5)}
(12.64)
drei Zustände enthält, deren Belohnungswerte deutlich von denen der anderen Zu stände abweichen. Schließlich sehen wir auch, dass der Zustand (1, 5) mit der höchs ten Belohnung verbunden ist, sodass ein plausibles Lernziel für einen Agenten darin besteht, eine Strategie π∗ (s) zu finden, die es ihm erlaubt, diesen Raum von jedem anderen Raum aus möglichst schnell, d. h. nach möglichst wenig Aktionen, zu errei chen.
12.6 Bestärkungslernen | 557
Ein Ansatz, eine solche Strategie unter den gegebenen Umständen zu lernen, be steht darin, eine zufällige policy π vorzugeben, und anhand dieser policy sog. Episo den zu erzeugen, bei denen der Agent in einem Zustand s ∈ S startet und so lange Aktionen a = π(s) ausführt, bis er einen Zustand f ∈ F erreicht. Die dabei entstehen den Zustandssequenzen werden formal folgendermaßen notiert τ
s π (s) = {s[t]} t=0 ,
(12.65)
wobei s[0] der Startzustand und s[τ] der Endzustand einer Episode der Länge τ ist. Der Wert einer solchen Episode mit endlichem zeitlichen Horizont lässt sich dann wie folgt berechnen τ
v(s π (s)) = ∑ γ t r[t]
(12.66)
t=0
und, wenn wir zudem annehmen, dass n Episoden s1π (s), . . . , s πn (s) generiert worden sind, können wir die value function V π (s) zur policy π wie folgt abschätzen 1 n V̂ nπ (s) = ∑ v(s πi (s)) . n i=1
(12.67)
Dem Gesetz der großen Zahlen folgend kann man dann zeigen, dass lim V̂ nπ (s) = V π (s) .
n→∞
(12.68)
Dieser Ansatz zur Schätzung von V π (s) wird als Monte Carlo policy evaluation be zeichnet und erlaubt policy iteration ohne Kenntnis der Übergangsfunktion T. Offen sichtlich funktioniert er aber nur, wenn genügend viele Episoden erzeugt werden.
for s ∈ S \ F initialize n(s) = 0 initialize V π (s) = 0 for s ∈ F initialize V π (s) = R(s) for many trials sample s ∈ S \ F repeat determine state s reached by executing a = π(s) in state s update n(s) = n(s) + 1 1 V π (s) = V π (s) + n(s) (R(s) + γ V π (s ) − V π (s)) s = s until s ∈ F
Abb. 12.26: Temporal-Difference (TD) Learning bei gegebener policy π
558 | 12 Tiefe neuronale Netze Eine Möglichkeit, die value function V π (s) auch ohne Generierung von Episoden zu bestimmen, bietet der Temporal-Difference (TD)-Learning-Algorithmus in Abbil dung 12.26. Er beruht im Wesentlichen auf der Tatsache, dass der Prozess V π (s) = V π (s) + α t (R(s) + γ V π (s ) − V π (s))
(12.69)
konvergent ist. Der Parameter 0 < α t < 1 in Gleichung 12.69 ist eine Lernrate, s ist derjenige Zustand, der von s aus erreicht wird, wenn Aktion a = π(s) ausgeführt wird, und der Ausdruck γ V π (s ) − V π (s) wird als temporal difference bezeichnet, wobei γ der aus Gleichung 12.50 bekannte Diskontierungsfaktor ist. Um den Zusammenhang zwischen Monte Carlo policy evaluation und temporal dif ference learning klarer zu erkennen, betrachten wir noch einmal die empirische Schät zung der value function V π (s) in Gleichung 12.67 und schreiben sie folgendermaßen um 1 n V̂ nπ (s) = ∑ v(s πi (s)) n i=1 =
1 n−1 1 ∑ v(s πi (s)) + v(s πn (s)) n i=1 n
=
n − 1 ̂π 1 V n−1 (s) + v(s πn (s)) n n
π (s) + = V̂ n−1
1 π (s)) . (v(s πn (s)) − V̂ n−1 n
(12.70)
Für n → ∞ haben wir dann π V̂ n−1 (s) ≈ V̂ nπ (s) ≈ V π (s) ,
(12.71)
sodass Gleichung 12.70 für den Fall, dass n genügend groß ist, auch als V π (s) = V π (s) +
1 (v(s πn (s)) − V π (s)) n
= V π (s) + α (v(s πn (s)) − V π (s)) = V π (s) + α (∑ γ t r[t] − V π (s))
(12.72)
t
geschrieben werden kann. Unter Nutzung der Bellman-Gleichung in Gleichung 12.56 haben wir dann V π (s) = V π (s) + α (R(s) + γ ∑ T(s, π(s), s )V π (s ) − V π (s)) s
= V π (s) + α (R(s) + γ 𝔼[V π (s )] − V π (s)) = V π (s) + α(R(s) + γ V π (s ) − V π (s)) ,
(12.73)
12.6 Bestärkungslernen |
559
wodurch die Monte-Carlo-Schätzung von V π (s) zur TD-Schätzung von V π (s) wird. Der Beweis dafür, dass Gleichung 12.73 konvergiert, ist einfach, wenn wir an unse re obige Diskussion anknüpfen. Mit anderen Worten, wenn wir das Gleichungssystem in Gleichung 12.73 in Form einer einzelnen Vektorgleichung v π = v π + α (r π + γ vπ − v π ) = (1 − α) v π + α r π + α γ vπ
(12.74)
schreiben, finden wir folgende Äquivalenzen v π = (1 − α) v π + α r π + α γ vπ ⇔
α v π = α r π + α γ vπ
⇔
v π = r π + γ vπ
⇔
vπ = rπ + γ Pπ vπ
⇔
v π = [I − γ P π ] r π
−1
(12.75)
und somit den Ausdruck, den wir bereits aus Gleichung 12.59 kennen.
12.6.5 Q-Learning TD-Learning erlaubt es, auch für schwache MDP (S, A, R) Wertfunktionen und somit Strategien zu bestimmen und daher mittels policy iteration eine optimale value func tion V ∗ (s) und optimale policy π∗ zu lernen. Die grundsätzliche Annahme ist aber, dass eine policy π gegeben ist, anhand derer policy iteration gestartet werden kann. Eine offensichtliche Frage ist daher, ob V ∗ (s) und π∗ auch ohne initiale Strategie ge lernt werden können? Die Antwort ist: ja, mittels des Q-Learning-Algorithmus in Abbildung 12.27. Um diesen Algorithmus zu verstehen, erinnern wir uns an den Value-Iteration-Algorith mus in Abbildung 12.23. Dort tauchte bereits die Zustands-Aktions-Funktion (engl. state-action function) Q : S × A → ℝ auf, die wie folgt berechnet wurde Q(s, a) = R(s, a) + γ ∑ T(s, a, s ) V(s ) .
(12.76)
s
Zum einen hängt dieser Ausdruck von der value function V(s) ab, die im Value-Ite ration-Algorithmus durch (12.77) V(s) = max Q(s, a) a
ermittelt wird. Dies können wir unmittelbar in Gleichung 12.76 einsetzen, um Q(s, a) = R(s, a) + γ ∑ T(s, a, s ) max Q(s , a ) s
a
(12.78)
560 | 12 Tiefe neuronale Netze
for (s, a) ∈ S × A initialize Q(s, a) to small random values for t = 1, . . . , tmax sample s ∈ S \ F sample a ∈ A determine state s reached by executing a in state s (if no such state exists, continue) update Q(s, a) = Q(s, a) +
1 tδ
(R(s) + γ max Q(s , a ) − Q(s, a)) a
Abb. 12.27: Q-Learning-Algorithmus zur Schätzung der State-Action-Funktion Q : S × A → ℝ
zu erhalten, was bedeutet, dass Q(s, a) auch ohne Kenntnis von V(s) berechnet wer den kann. Zum anderen hängt die state-action Funktion von der Übergangsfunktion T ab, die wir ebenfalls als eine unbekannte Größe betrachten. Nach unserer Diskussion des TD-Learning-Ansatzes ist es aber leicht zu sehen, dass auch diese Abhängigkeit eli miniert werden kann und dass sich der Ausdruck in Gleichung 12.78 auch wie folgt schreiben lässt Q(s, a) = Q(s, a) + α t (R(s) + γ max Q(s , a ) − Q(s, a)) . a
(12.79)
Damit haben wir aber den wesentlichen Ausdruck in Abbildung 12.27 gefunden, wobei wir dort die Lernrate α t als t−δ gewählt haben. Wird der Q-Learning-Algorithmus genutzt, um eine optimale State-Action-Funkti on Q∗ (s, a) zu ermitteln, lassen sich anschließend sowohl die optimale value function als auch die optimale policy wie folgt berechnen V ∗ (s) = max Q∗ (s, a)
(12.80)
π∗ (s) = argmax Q∗ (s, a) .
(12.81)
a
und a
Damit haben wir aber unser Ziel erreicht, nämlich eine Möglichkeit gefunden, V ∗ (s) und π∗ (s) ohne Kenntnis der Übergangsfunktion T und ohne Vorannahmen zu den gesuchten Größen zu berechnen. Eine wichtige Anmerkung ist noch, dass wir beim Q-Learning mit dem sog. explo ration/exploitation dilemma [44; 79; 83] konfrontiert sind, dem wir bei der Auswahl der Aktion a ∈ A Rechnung tragen müssen. Das heißt, dass wir in jeder Iteration der for-Schleife bei der Auswahl von a überlegen müssen, ob wir weitere Evidenz zu einem bereits untersuchten Paar (s, a) generieren oder Q(s, a) erstmals für bisher ein noch nicht untersuchtes Paar (s, a) berechnen wollen. Mit anderen Worten: Es stellt sich das Problem zu entscheiden, ob wir bekanntes Wissen ausnutzen und verbessern (ex ploitation) oder neues Wissen aufsammeln wollen (exploration). Eine einfache Lösung
12.6 Bestärkungslernen | 561
besteht hier darin, die sog. ϵ greedy selection zu benutzen, bei der die zu untersuchen de Aktion a folgendermaßen ausgewählt wird { {argmax Q(s, a ) mit Wahrscheinlichkeit ϵ , a = { a { sonst. a ∈A {
(12.82)
Andererseits ist bekannt, dass Q-Learning für den Fall, dass tmax → ∞ auch oh ne spezifische Mechanismen für die Aktionsauswahl gut funktioniert. Das heißt, dass man zeigen kann, dass es zur optimalen Lösung für Q(s, a) konvergiert, so lange alle validen Paare (s, a) nur häufig genug getestet werden. In der Praxis bleibt es daher den Anwendern überlassen, sich entweder für intel ligente Mechanismen zur Aktionsauswahl oder sehr lange Laufzeiten zu entscheiden. Natürlich lassen sich beide Extreme auch gegeneinander abwägen, in jedem Fall ist die Parametrisierung von Q-Learning nicht trivial und abhängig vom jeweiligen An wendungskontext. Ein Beispiel für ein Q-Learning-Ergebnis ist in Abbildung 12.28 zu sehen. Um dieses Ergebnis zu erzielen, wurde der Algorithmus in Abbildung 12.28 mit ϵ greedy Aktionsauswahl und den Parametern ϵ = 0,9, γ = 0,8 und δ = 0,8 für tmax = 100.000 Iterationen ausgeführt. Während das so gewonnene Resultat offen sichtlich sehr gut bzw. höchst plausibel ist, zeigt dieses Beispiel also auch, dass Ler nen aus Versuch und Irrtum in der Regel selbst in einfachen Szenarien sehr rechenin tensiv sein kann.
Abb. 12.28: Durch Q-Learning ermittelte optimale value function V ∗ (s) und policy π ∗ (s) für das in Abbildung 12.25 eingeführte Szenario
562 | 12 Tiefe neuronale Netze
12.6.6 Allgemeine Anmerkungen zum Bestärkungslernen Bestärkendes Lernen und insbesondere Q-Learning sind vielfältig verwendbar. Aller dings ergeben sich dabei oft eine Reihe von Herausforderungen, denen sich Anwender in der Praxis stellen müssen. Es lassen sich nicht alle Probleme, bei denen Strategien oder Handlungen gelernt werden müssen, als Markov-Entscheidungsprozesse formalisieren. Insbesondere die implizite Markov-Annahme, dass die Auswahl einer Aktion nur vom aktuellen Zustand und nicht von einer Historie von Zuständen abhängt, kann oft unangemessen sein. Aber selbst dann, wenn sich sich ein Problem als MDP formalisieren lässt, müssen sich Anwender vergegenwärtigen, dass verstärkendes Lernen unter zwei „Flüchen“ leidet. Der Erste ist der sog. curse of modeling, der das Problem bezeichnet, dass die Wahrscheinlichkeiten für Übergänge zwischen Zuständen in der Praxis oft nur sehr schwer zu schätzen sind und stets von der gewählten Modellierung des Problems ab hängen. Der Zweite ist der noch gravierendere curse of dimensionality, der das Problem be zeichnet, dass der Aufwand für die Exploration von Zustandsmengen oder -räumen S oft exponentiell in |S| wächst. Es ist in der Tat kein Wunder, dass Richard Bellman, der Erfinder der dynamischen Programmierung, auch derjenige ist, der den Begriff des curse of dimensionality geprägt hat [8]. Brutal gesagt, funktioniert verstärkendes Lernen nur für niedrig dimensionale, diskrete Probleme wirklich gut, da es im Wesent lichen auf Brute-Force-Berechnungen beruht. Diese Aussage gilt nach wie vor, selbst in Zeiten, in denen deep reinforcement learning beachtliche Erfolge zeigt [76], denn auch diese Erfolge wären ohne Höchstleistungshardware nicht möglich. Schließlich erfordern es viele praktische Probleme, kontinuierliche Zustands- und Aktionsräume zu betrachten. Einerseits besteht ein genereller Lösungsansatz hier dar in, das Problem zu diskretisieren, was aber mit Vorsicht und stets in Bezug auf das Pro blem erfolgen muss. Andererseits wird in letzter Zeit vermehrt die Strategie verfolgt, die State-Action-Funktion Q(s, a) mit anderen Methoden des Maschinellen Lernens zu approximieren. Hier kommen etwa Fuzzy-Modelle [9; 11], Kernmethoden [43; 57] oder neuronale Netze [48; 52; 76] zum Einsatz.
12.6.7 Bestärkungslernen und neuronale Netze Seit einiger Zeit werden Bestärkungslernen und neuronale Netze oft in Kombination betrachtet. Einerseits erlaubt es das bestärkende Lernen, die Architektur von rekur renten neuronalen Netzen zu optimieren [40; 63]. Andererseits erlauben es rekurrente neuronale Netze, Probleme des bestärkenden Lernens direkt zu lösen [19; 64]. Besonders erfolgreich waren zuletzt aber hybride Verfahren, bei denen neuro nale Netze genutzt werden, um die State-Action-Funktion Q(s, a) zu lernen und das
12.7 Anwendungsbereiche tiefer neuronaler Netze |
563
Q-Learning somit auf Probleme mit sehr großen, möglicherweise kontinuierlichen Zu stands- und Aktionsmengen anwendbar zu machen. Diese Idee ist sicherlich nicht neu [65], erfuhr aber erst durch Arbeiten von DeepMind deutlichen Auftrieb, in de nen sie genutzt wurde, um klassische Atari-Spiele [52] oder GO [76] spielen zu lernen.
12.7 Anwendungsbereiche tiefer neuronaler Netze In den vorhergehenden Abschnitten wurde drei grundlegende KNN-Architekturen vorgestellt. Ausgehend hiervon werden KNN in einer Vielzahl von Anwendungen er probt, in denen diese Architekturen oft kombiniert werden. Im Folgenden werden einige dieser Anwendungen skizziert, ein breiterer Überblick findet sich bei Paaß und Hecker [58]. ImageNet ist eine große Datenbank mit mehr als 14 Millionen Bildern, in denen im Bild sichtbare Objekte von Menschen annotiert wurden (Abbildung 12.29 links). In einem seit 2010 jährlich stattfindenden Wettbewerb wurde gefordert, die wichtigs ten in einem Bild vorkommenden Objekte zu klassifizieren. Dabei wurden 1.000 unter schiedliche, nicht überlappende Objektklassen verwendet [17]. Da das wichtigste Ob jekt oft nicht eindeutig ist, wurde gefordert, dass es in einer Liste von fünf vorgeschla genen Objekten vorkommt (Top 5). 2012 war erstmals mit AlexNet [42] ein KNN Sieger in dem Wettbewerb mit einer Top-5-Fehlerrate von 16 %. Im Jahre 2015 erreichte das ResNet [32] mit 152 Ebenen (Abbildung 12.4) eine Top-5-Fehlerrate von 4,5 % und war damit besser als menschliche Annotatoren, die auf den ImageNet-Daten einen Top-5Fehler von 5,1 % erzielten. Mittlerweile wurde der Top-5-Fehler auf 1,3 % reduziert [84].
Abb. 12.29: Einige Farbfotos des ImageNet-Datensatzes mit annotierten Objekten im Bild (links) und ein pixelgenau annotiertes Farbfoto einer Straßenszene des Cityscapes-Datensatzes (rechts) [15]
Eine weitere Aufgabe der Bilderkennung ist die gleichzeitige Klassifikation und pixel genaue Erkennung der Position von Objekten in Bildern (semantische Segmentierung). Dies ist insbesondere für selbstfahrende Autos relevant. Hierzu gibt es den CityscapesDatensatz [15] (Abbildung 12.29 rechts), der von der deutschen Autoindustrie gefördert wurde. Hier ist der Anteil der korrekt zugeordneten Pixel einer Klasse von 57 % in 2015
564 | 12 Tiefe neuronale Netze
auf 84,5 % in 2020 gestiegen. Grundlage des aktuell besten Modells [89] ist ein ResNet(Abbildung 12.4) und ein OCR-Modul. Ein ähnliches KNN kann Hautkrebs anhand von Bildern diagnostizieren [21]. Die Qualität der Diagnosen ist gleich gut wie bei ausge bildeten Dermatologen. Ein wichtiges Anwendungsfeld von KNN ist die Spracherkennung, welche gespro chene Sprache in Text übersetzt. Als Benchmark-Daten wurde hier der SwitchboardKorpus verwendet [27], der eine große Anzahl von transkribierten englischen Telefon gesprächen unterschiedlicher Gesprächspartner enthält. Im Jahr 2018 wurde ein KNN vorgestellt [88], welches eine geringere Wortfehlerrate aufwies (5,1 %), als bei profes sionellen menschlichen Zuhörern (5,9 %) zu beobachten ist. Das System besteht aus einer Kombination eines Faltungsnetzwerks (12.3) mit einem BiLSTM (Abbildung 12.15) für die Erkennung der akustischen Signale und einem weiteren LSTM-Sprachmodell (Abschnitt 12.4.5) zur Bewertung der erzeugten Wortfolgen. Die maschinelle Übersetzung hat das Ziel, Sätze aus einer Sprache in eine andere Sprache zu übertragen. Je nach Sprachpaar ist die maschinelle Übersetzung unter schiedlich schwierig, was von der Qualität der Übersetzungsdaten und der morpholo gischen Komplexität der Sprachen abhängt. Bei der Übersetzung vom Chinesischen in Englische wurde im Jahre 2018 mithilfe eines Transformermodells (Abschnitt 12.4.10) mittlerweile die gleiche Genauigkeit wie bei menschlichen Dolmetschern erreicht [31]. Dies wurde in umfangreichen Vergleichsexperimenten bestätigt. Bei der Erfassung der Semantik von Text geht der Trend zu großen Modellen und umfangreichen Trainingsdaten ungebremst weiter. Es wurde kürzlich ein Turing Na tural Language Generation (T-NLG) Sprachmodell vorgestellt, welches eine Transfor merarchitektur besitzt, 17 Milliarden Parameter umfasst und einen Trainingsdaten satz von 174 GB verwendet [68]. Um ein derart umfangreiches Modell auf GPU berech nen zu können, wurden neue Hardware- und Softwareverbesserungen eingesetzt. Wie GPT-2 (Abschnitt 12.4.12) kann T-NLG auch die Fortsetzung eines Satzes erzeugen. Die Qualität dieser Fortsetzungen ist noch einmal entscheidend besser als bei GPT-2: Die Perplexität auf den Wikitext-Daten konnte von 17,5 auf 10,2 verbessert werden. Dar über hinaus kann das Modell auch direkt auf Fragen in einem korrekten Satz antwor ten, und nicht nur – wie bei Squad gefordert – die Antwortphrase in einem Dokument identifizieren. Brettspiele galten lange als das prominenteste Anwendungsfeld für KI. Go gilt als eines der komplexesten Brettspiele, weil es weitreichende strategische Überlegungen erfordert. Dem Programm AlphaGo gelang es 2017, den Weltranglistenersten des GoSpiels zu schlagen. Das Nachfolgeprogramm AlphaZero [75] beruht allein auf Bestär kungslernen (12.6) und verwendet keine externen Daten, sondern wird durch „Selbst lernen“ beim Spiel zweier Instanzen gegeneinander trainiert. Videospiele sind ein ideales Erprobungsgebiet für das Verstärkungslernen, weil die Reaktion der „Umwelt“ problemlos auf dem Rechner prognostiziert werden kann. Ein beliebter Anwendungsfall ist die Spielekonsole Atari 2600, die in den 1970er-Jah ren populär war und deren Programme frei verfügbar sind (Abbildung 12.30 links).
12.7 Anwendungsbereiche tiefer neuronaler Netze |
565
Hier gelang es [3] mit dem gleichen KNN und den gleichen Werten für die Hyper parameter bei sämtlichen 57 Atari-Videospielen besser abzuschneiden als die meis ten menschlichen Spieler. Das KNN nutzt Faltungsnetze zur Bildinterpretation (Ab schnitt 12.3) und eine Variante des Q-Lernens (Abschnitt 12.6.5) zur Auswahl der Ak tionen. Beide Netze werden zusammen trainiert.
Abb. 12.30: Screenshot des Atari-Videospiels Seaquest (links) und eine Szene aus dem MultiplayerVideospiel Dota2 zwischen dem OpenAI-Agenten und der menschlichen Weltmeistermannschaft (rechts) [15]
In dem Videospiel Dota2 (Abbildung 12.30 rechts) kämpfen zwei Mannschaften aus je fünf Spielern um die Vorherrschaft in einer synthetischen Umgebung. Jeder Agent des Teams OpenAI-Five ist ein LSTM (Abschnitt 12.4.5) mit einem verdeckten Vektor der Länge 4.096. Die Agenten erhalten Informationen über die für sie sichtbare aktu elle Umwelt in Form eines langen Vektors von Zahlen und geben Aktionen in Form eines Zahlenvektors aus. Jeder Agent hat eigene Fähigkeiten und entwickelt auch ei ne eigene Strategie. Sie werden trainiert, indem zwei unabhängige Mannschaften von Agenten gegeneinander spielen, wobei jedes Spiel in der Realität ca. 45 min dauert. Im Jahr 2019 hat OpenAI-Five gegen die amtierende Weltmeistermannschaft OG mit 2:0 gewonnen [60]. Einen großen Stellenwert hat mittlerweile die Einbeziehung von KNN bei der Ent wicklung von Robotern. Beim Amazon Picking Wettbewerb muss der Roboter verschie dene Objekte erkennen, greifen und an vorgegebenen Positionen ablegen. Das Team NimbRo von der Universität Bonn unter der Leitung von Sven Behnke [72] nutzte da zu Faltungsnetze zur pixelgenauen Klassifikation und Verortung der Objekte. Eine Planungkomponente koordinierte die kollisionsfreie Bewegung der beiden Greifarme. Das System errang beim Amazon Picking Wettbewerb 2017 den zweiten Platz. Ein enormer Entwicklungsaufwand wird derzeit den selbstfahrenden Autos ge widmet. Hier werden KNN insbesondere bei der Sensorik und der Feinsteuerung von Lenkung und Beschleunigung verwendet. Für die Bildverarbeitung und die Kombi nation der unterschiedlichen Sensoren (Radar, Video, Lidar) werden hauptsächlich Faltungsnetze verwendet [25]. Wegen der Sicherheitsanforderungen müssen die ver
566 | 12 Tiefe neuronale Netze
wendeten KNN möglichst ausfallsicher und robust (Abschnitt 13.2) gegen Messfehler sein. Hierbei werden auch Simulationsumgebungen genutzt, in denen Gefahrensi tuationen und Regelübertretungen von Verkehrsteilnehmern einfach durchgespielt werden können [5]. Zusammenfassend lässt sich feststellen, dass tiefe neuronale Netze in vielen Be reichen der Technologie und der Wirtschaft eine immer größere Rolle spielen. Wie man an den Fähigkeiten der Sprachmodelle und persönlicher Assistenten wie Alexa und Google Home sieht, sind es nicht nur „mechanische“ Tätigkeiten, die von KNN übernommen werden können, sondern in zunehmendem Maß auch koordinierende und „anspruchsvolle“ Aufgaben. In vielen Wirtschaftsbereichen ist abzusehen, dass eine Vielzahl von Tätigkeiten von KI-Anwendungen erledigt oder modifiziert werden, und es gibt eine Reihe von Branchen, z. B. verarbeitendes Gewerbe, Finanzdienstleis tungen und Handel, in denen eine Vielzahl von Arbeitsplätzen betroffen sein wird. Dabei kommt den großen Plattformunternehmen Google, Amazon, Facebook und Ap ple eine entscheidende Rolle zu, da sie in der Lage sind, die Entwicklung voranzutrei ben und damit noch weiter zu wachsen. Die Bundesregierung hat daher ein umfang reiches Förderprogramm beschlossen, um KI-Anwendungen vorwärtszubringen und in Deutschland neue Anwendungen zu initiieren, damit genügend neue Arbeitsplät ze entstehen. Gleichzeitig soll aber auch durch eine Zertifizierung von KI-Systemen erreicht werden [16], dass diese robust, erklärbar und nachvollziehbar agieren (Kapi tel 13 und Abschnitt 13.3).
Literaturverzeichnis [1]
Adelson, E. H. und Bergen, J. R. The plenoptic function and the elements of early vision. Vision and Modeling Group, Media Laboratory, Massachusetts Institute of ..., 1991.
[2]
Allen-Zhu, Z., Li, Y. und Song, Z. On the convergence rate of training recurrent neural networks. In Advances in Neural Information Processing Systems (pp. 6673-6685), 2019.
[3]
Badia, A. P., Piot, B., Kapturowski, S., Sprechmann, P., Vitvitskyi, A., Guo, D. und Blundell, C. Agent57: Outperforming the Atari Human Benchmark. arXiv preprint arXiv:2003.13350, 2020.
[4]
Bahdanau, D., Cho, K. und Bengio, Y. Neural machine translation by jointly learning to align and translate. In ICLR, 2015. arXiv preprint arXiv:1409.0473.
[5]
Bansal, M., Krizhevsky, A. und Ogale, A. Chauffeurnet: Learning to drive by imitating the best and synthesizing the worst. arXiv preprint arXiv:1812.03079, 2018.
[6]
Barber, D. Bayesian reasoning and machine learning. Cambridge University Press, 2012.
[7]
Barron, A. R. Universal approximation bounds for superpositions of a sigmoidal function. IEEE Transactions on Information theory, 39(3):930–945, 1993.
[8]
Bellman, R. Dynamic programming and Lagrange multipliers. Proceedings of the National Academy of Sciences of the United States of America, 42(10):767, 1956.
[9]
Bellman, R. E. und Zadeh, L. A. Decision-making in a fuzzy environment. Management science, 17(4):B–141, 1970.
[10] Bengio, Y., Ducharme, R., Vincent, P. und Jauvin, C. A neural probabilistic language model. Journal of machine learning research, 3(Feb):1137–1155, 2003.
Literaturverzeichnis
|
567
[11] Berenji, H. R. Fuzzy reinforcement learning and dynamic programming. In International Work shop on Fuzzy Logic in Artificial Intelligence, S. 1–9. Springer, 1993. [12] Britz, D., Goldie, A., Luong, M. T. und Le, Q. Massive exploration of neural machine translation architectures. arXiv preprint arXiv:1703.03906, 2017. [13] Bronstein, M. M., Bruna, J., LeCun, Y., Szlam, A. und Vandergheynst, P. Geometric Deep Learn ing: Going beyond Euclidean data. IEEE Signal Processing Magazine, 34(4):18–42, July 2017. [14] Chelba, C., Norouzi, M. und Bengio, S. N-gram language modeling using recurrent neural net work estimation. arXiv preprint arXiv:1703.10724, 2017. [15] Cordts, M., Omran, M., Ramos, S., Scharwächter, T., Enzweiler, M., Benenson, R., Franke, U., Roth, S. und Schiele, B. The cityscapes dataset. In CVPR Workshop on the Future of Datasets in Vision, Band 2, 2015. [16] Cremers, A. B., Englander, A., Gabriel, M., Hecker, D., Mock, M., Poretschkin, M., Rosen zweig, J., Rostalski, F., Sicking, J., Volmer, J., Voosholz, J., Voss, A. und Wrobel, S. Vertrau enswürdiger Einsatz von Künstlicher Intelligenz, 2019. [17] Deng, J., Dong, W., Socher, R., Li, L. J., Li, K. und Fei-Fei, L. Imagenet: A large-scale hierar chical image database. In 2009 IEEE conference on computer vision and pattern recognition, S. 248–255. Ieee, 2009. [18] Devlin, J., Chang, M. W., Lee, K. und Toutanova, K. Bert: Pre-training of deep bidirectional trans formers for language understanding. arXiv preprint arXiv:1810.04805, 2018. [19] Duell, S., Udluft, S. und Sterzing, V. Solving partially observable reinforcement learning pro blems with recurrent neural networks. In Neural Networks: Tricks of the Trade, S. 709–733. Springer, 2012. [20] Edunov, S., Ott, M., Auli, M. und Grangier, D. Understanding back-translation at scale. arXiv preprint arXiv:1808.09381, 2018. [21] Esteva, A., Kuprel, B., Novoa, R. A., Ko, J., Swetter, S. M., Blau, H. M. und Thrun, S. Dermatolo gist-level classification of skin cancer with deep neural networks. Nature, 542(7639):115–118, 2017. [22] Firth, J. R. A synopsis of linguistic theory, 1930-1955. Studies in linguistic analysis., 1957. [23] Fukushima, K. Neural network model for a mechanism of pattern recognition unaffected by shift in position-Neocognitron. IEICE Technical Report, A, 62(10):658–665, 1979. [24] Fukushima, K. Neocognitron: A hierarchical neural network capable of visual pattern recogni tion. Neural networks, 1(2):119–130, 1988. [25] Gao, H., Cheng, B., Wang, J., Li, K., Zhao, J. und Li, D. Object classification using CNN-based fusion of vision and LIDAR in autonomous vehicle environment. IEEE Transactions on Industrial Informatics, 14(9):4224–4231, 2018. [26] Girdhar, R., Carreira, J., Doersch, C. und Zisserman, A. Video action transformer network. In Conference on Computer Vision and Pattern Recognition, S. 244–253, 2019. [27] Godfrey, J. J., Holliman, E. C. und McDaniel, J. SWITCHBOARD: Telephone speech corpus for research and development. In [Proceedings] ICASSP-92: 1992 IEEE International Conference on Acoustics, Speech, and Signal Processing, Band 1, S. 517–520. IEEE, 1992. [28] Goodfellow, I., Bengio, Y. und Courville, A. Deep Learning - Adaptive Computation and Machine Learning. The MIT Press, 2016. [29] Grave, E., Bojanowski, P., Gupta, P., Joulin, A. und Mikolov, T. Learning word vectors for 157 languages. arXiv preprint arXiv:1802.06893, 2018. [30] Han, K. J., Prieto, R., Wu, K. und Ma, T. State-of-the-Art Speech Recognition Using Multi-Stream Self-Attention With Dilated 1D Convolutions. arXiv preprint arXiv:1910.00716, 2019. [31] Hassan, H., Aue, A., Chen, C., Chowdhary, V., Clark, J., Federmann, C., Huang, X., Junczys-Dow munt, M., Lewis, W., Li, M. et al. Achieving human parity on automatic chinese to english news translation. arXiv preprint arXiv:1803.05567, 2018.
568 | 12 Tiefe neuronale Netze
[32] He, K., Zhang, X., Ren, S. und Sun, J. Deep Residual Learning for Image Recognition. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2016. [33] Hebb, D. O. The organization of behavior: a neuropsychological theory. J. Wiley; Chapman & Hall, 1949. [34] Hinton, G. E., Osindero, S. und Teh, Y. W. A fast learning algorithm for deep belief nets. Neural computation, 18(7):1527–1554, 2006. [35] Hochreiter, S., Bengio, Y., Frasconi, P., Schmidhuber, J. et al. Gradient flow in recurrent nets: the difficulty of learning long-term dependencies, 2001. [36] Hochreiter, S. und Schmidhuber, J. Long short-term memory. Neural computation, 9(8):1735–1780, 1997. [37] Hornik, K., Stinchcombe, M. und White, H. Universal approximation of an unknown mapping and its derivatives using multilayer feedforward networks. Neural networks, 3(5):551–560, 1990. [38] Huang, C. A., Vaswani, A., Uszkoreit, J., Simon, I., Hawthorne, C., Shazeer, N., Dai, A. M., Hoff man, M. D., Dinculescu, M. und Eck, D. Music Transformer: Generating Music with Long-Term Structure. In 7th International Conference on Learning Representations, ICLR 2019, 2019. [39] Hubel, D. H. und Wiesel, T. N. Receptive fields, binocular interaction and functional architecture in the cat’s visual cortex. The Journal of physiology, 160(1):106–154, 1962. [40] Jaques, N., Gu, S., Turner, R. E. und Eck, D. Tuning recurrent neural networks with reinforce ment learning. In Proc. Int. Conf. on Learning Representations (ICLR), 2017. [41] Kolesnikov, A., Zhai, X. und Beyer, L. Revisiting Self-Supervised Visual Representation Learn ing. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, S. 1920–1929, 2019. [42] Krizhevsky, A., Sutskever, I. und Hinton, G. E. Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems, S. 1097–1105, 2012. [43] Kroemer, O. B. und Peters, J. R. A non-parametric approach to dynamic programming. In Ad vances in neural information processing systems, S. 1719–1727, 2011. [44] Langford, J. Efficient Exploration in Reinforcement Learning. Encyclopedia of Machine Learning, 2011. [45] LeCun, Y., Boser, B., Denker, J. S., Henderson, D., Howard, R. E., Hubbard, W. und Ja ckel, L. D. Backpropagation applied to handwritten zip code recognition. Neural computation, 1(4):541–551, 1989. [46] LeCun, Y., Bottou, L., Bengio, Y. und Haffner, P. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11):2278–2324, 1998. [47] Luong, M. T., Pham, H. und Manning, C. D. Effective approaches to attention-based neural ma chine translation. arXiv preprint arXiv:1508.04025, 2015. [48] Mattner, J., Lange, S. und Riedmiller, M. Learn to swing up and balance a real pole based on raw visual input data. In International Conference on Neural Information Processing, S. 126–133. Springer, 2012. [49] Melis, G., Dyer, C. und Blunsom, P. On the state of the art of evaluation in neural language models. arXiv preprint arXiv:1707.05589, 2017. [50] Mikolov, T., Chen, K., Corrado, G. und Dean, J. Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781, 2013. [51] Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S. und Dean, J. Distributed representations of words and phrases and their compositionality. In Advances in neural information processing systems, S. 3111–3119, 2013. [52] Mnih, V., Kavukcuoglu, K., Silver, D., Rusu, A. A., Veness, J., Bellemare, M. G., Graves, A., Ried miller, M., Fidjeland, A. K., Ostrovski, G. et al. Human-level control through deep reinforcement learning. Nature, 518(7540):529–533, 2015.
Literaturverzeichnis
| 569
[53] Montufar, G. F., Pascanu, R., Cho, K. und Bengio, Y. On the number of linear regions of deep neural networks. In Advances in neural information processing systems, S. 2924–2932, 2014. [54] Nickel, M., Murphy, K., Tresp, V. und Gabrilovich, E. A review of relational machine learning for knowledge graphs. Proceedings of the IEEE, 104(1):11–33, 2015. [55] Olah, C., Mordvintsev, A. und Schubert, L. Feature Visualization. Distill, 2017. https://distill. pub/2017/feature-visualization. [56] van den Oord, A., Vinyals, O. et al. Neural discrete representation learning. In Advances in Neural Information Processing Systems, S. 6306–6315, 2017. [57] Ormoneit, D. und Sen, Ś. Kernel-based reinforcement learning. Machine learning, 49(2-3):161–178, 2002. [58] Paaß, G. und Hecker, D. Künstliche Intelligenz – Was steckt hinter der Technologie der Zukunft? Springer, 2020. [59] Pascanu, R., Mikolov, T. und Bengio, Y. On the difficulty of training recurrent neural networks. In International conference on machine learning, S. 1310–1318, 2013. [60] und Pina Merkert, D. H. OpenAI Five: Die KI, die den Dota-2-Weltmeister besiegt hat. https:// www.heise.de/newsticker/meldung/OpenAI-Five-Die-KI-die-den-Dota-2-Weltmeister-besiegthat-4400773.html, 2019. [61] Radford, A., Wu, J., Amodei, D., Clark, J., Brundage, M. und Sutskever, I. Better Language Mo dels and Their Implications, 2019. [62] Radford, A., Wu, J., Child, R., Luan, D., Amodei, D. und Sutskever, I. Language models are unsu pervised multitask learners. OpenAI Blog, 1(8), 2019. [63] Ramamurthy, R., Bauckhage, C., Sifa, R., Schücker, J. und Wrobel, S. Leveraging Domain Know ledge for Reinforcement Learning Using MMC Architectures. In International Conference on Artificial Neural Networks, S. 595–607. Springer, 2019. [64] Ramamurthy, R., Bauckhage, C., Sifa, R. und Wrobel, S. Policy learning using SPSA. In Interna tional Conference on Artificial Neural Networks, S. 3–12. Springer, 2018. [65] Riedmiller, M. Neural fitted Q iteration–first experiences with a data efficient neural reinforce ment learning method. In European Conference on Machine Learning, S. 317–328. Springer, 2005. [66] Rives, A., Goyal, S., Meier, J., Guo, D., Ott, M., Zitnick, C. L., Ma, J. und Fergus, R. Biological structure and function emerge from scaling unsupervised learning to 250 million protein se quences. bioRxiv, S. 622803, 2019. [67] Rosenblatt, F. The perceptron: a probabilistic model for information storage and organization in the brain. Psychological review, 65(6):386, 1958. [68] Rosset, C. Turing-NLG: A 17-billion-parameter language model by Microsoft. https://www. microsoft.com/en-us/research/blog/turing-nlg-a-17-billion-parameter-language-model-bymicrosoft/, 2020. Heruntergeladen am 10.4.2020. [69] Rumelhart, D. E., Hinton, G. E., Williams, R. J. et al. Learning representations by back-propagat ing errors. Cognitive modeling, 5(3):1, 1988. [70] Rush, A. The annotated transformer. http://nlp.seas.harvard.edu/2018/04/03/attention.html, 2018. Abgerufen am 11.11.2019. [71] Schmidhuber, J. Deep learning in neural networks: An overview. Neural Networks, 61:85 – 117, 2015. [72] Schwarz, M., Lenz, C., García, G. M., Koo, S., Periyasamy, A. S., Schreiber, M. und Behnke, S. Fast object learning and dual-arm coordination for cluttered stowing, picking, and packing. In 2018 IEEE International Conference on Robotics and Automation (ICRA), S. 3347–3354. IEEE, 2018. [73] Sennrich, R., Haddow, B. und Birch, A. Neural machine translation of rare words with subword units. arXiv preprint arXiv:1508.07909, 2015.
570 | 12 Tiefe neuronale Netze
[74] Shazeer, N., Mirhoseini, A., Maziarz, K., Davis, A., Le, Q., Hinton, G. und Dean, J. Outra geously large neural networks: The sparsely-gated mixture-of-experts layer. arXiv preprint arXiv:1701.06538, 2017. [75] Silver, D., Hubert, T., Schrittwieser, J., Antonoglou, I., Lai, M., Guez, A., Lanctot, M., Sifre, L., Kumaran, D., Graepel, T. et al. A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play. Science, 362(6419):1140–1144, 2018. [76] Silver, D., Schrittwieser, J., Simonyan, K., Antonoglou, I., Huang, A., Guez, A., Hubert, T., Baker, L., Lai, M., Bolton, A. et al. Mastering the game of go without human knowledge. Na ture, 550(7676):354–359, 2017. [77] Simonyan, K. und Zisserman, A. Very deep convolutional networks for large-scale image recog nition. arXiv preprint arXiv:1409.1556, 2014. [78] Sutskever, I., Vinyals, O. und Le, Q. V. Sequence to sequence learning with neural networks. In Advances in neural information processing systems, S. 3104–3112, 2014. [79] Sutton, R. S. und Barto, A. G. Reinforcement learning: An introduction. MIT press, 2018. [80] Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Erhan, D., Vanhoucke, V. und Rabinovich, A. Going deeper with convolutions. In Proceedings of the IEEE conference on com puter vision and pattern recognition, S. 1–9, 2015. [81] Tensorflow. Text generation with an RNN. https://www.tensorflow.org/tutorials/text/text_ generation, 2020. Heruntergeladen am 17.4.2020. [82] Theriault, C., Thome, N. und Cord, M. Extended Coding and Pooling in the HMAX Model. IEEE Transactions on Image Processing, 22(2):764–777, Feb 2013. [83] Thrun, S. B. Efficient Exploration in Reinforcement Learning, 1992. [84] Touvron, H., Vedaldi, A., Douze, M. und Jégou, H. Fixing the train-test resolution discrepancy: FixEfficientNet. arXiv preprint arXiv:2003.08237, 2020. [85] van den Oord, A., Dieleman, S., Zen, H., Simonyan, K., Vinyals, O., Graves, A., Kalchbren ner, N., Senior, A. und Kavukcuoglu, K. WaveNet: A Generative Model for Raw Audio. arXiv e-prints, S. arXiv:1609.03499, September 2016. [86] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł. und Po losukhin, I. Attention is all you need. In Advances in neural information processing systems, S. 5998–6008, 2017. [87] Wu, L., Fisch, A., Chopra, S., Adams, K., Bordes, A. und Weston, J. StarSpace: Embed All The Things! arXiv preprint arXiv:1709.03856, 2017. [88] Xiong, W., Wu, L., Alleva, F., Droppo, J., Huang, X. und Stolcke, A. The Microsoft 2017 conversa tional speech recognition system. In 2018 IEEE international conference on acoustics, speech and signal processing (ICASSP), S. 5934–5938. IEEE, 2018. [89] Yuan, Y., Chen, X. und Wang, J. Object-Contextual Representations for Semantic Segmentation. arXiv preprint arXiv:1909.11065, 2019.
13 Vertrauenswürdiges, transparentes und robustes Maschinelles Lernen Christian Bauckhage, Johannes Fürnkranz und Gerhard Paaß
Mit dem durchschlagenden Erfolg von tiefen neuronalen Netzen (s. Abschnitt 11.3), die zwar oft sehr genaue Vorhersagen liefern, aber keine unmittelbare Einsicht in die gelernten Modelle erlauben oder nachvollziehbare Begründungen für ihre Prädiktio nen liefern, erhält das Thema der Vertrauenswürdigkeit eine große Bedeutung. Wie lässt sich sicherstellen, dass gelernte Modelle keine unvorhersehbaren Fehler ma chen? Kann man beispielsweise garantieren, dass ein neuronales Netzwerk, das zur Erkennung von Verkehrszeichen trainiert wurde, diese verlässlich erkennt und nicht trotz einer guten Vorhersagegenauigkeit in Offlinetests dann in der Praxis Stoppschil der mit anderen Verkehrszeichen oder Objekten der Umgebung verwechselt? Dazu gibt es zwei grundlegende Ansätze, die wir im Rahmen dieses Kapitels betrachten werden. Zum einen kann man versuchen, das Verhalten intransparenter Modelle wie neuronaler Netzwerke transparent zu machen, d. h. versuchen zu verstehen, auf der Basis welcher Merkmale und Merkmalskombinationen das Netzwerk eine Entschei dung trifft. Verfahren, die solche Modelle interpretierbar machen bzw. Erklärungen für getroffene Vorhersagen liefern können, stehen im Mittelpunkt von Abschnitt 13.1. Zum anderen kann man versuchen, die Robustheit solcher Verfahren beispielswei se gegenüber Veränderungen in der Verteilung der Eingabedaten zu erhöhen, wie in Abschnitt 13.2 diskutiert wird, bevor wir in Abschnitt 13.3 noch einige abschließende Betrachtungen vornehmen.
13.1 Erklärbarkeit und Interpretierbarkeit Interpretierbare bzw. erklärbare Modelle werden benötigt, um das Vertrauen der Be nutzer in ein gelerntes System sicherzustellen, um faire und begründbare Entschei dungen zu erhalten oder um Einsicht und tieferes Verständnis der zu analysierenden Daten zu erlangen. Darüber hinaus gibt es mittlerweile auch gesetzliche Regelungen der EU, die ein Recht auf eine Erklärung für automatisch getroffene Entscheidungen vorsehen [23]. Ein bekanntes Beispiel aus der Wissenschaftsgeschichte ist der sog. „kluge Hans“, ein Pferd, das zu Beginn des 20. Jahrhunderts von seinem Besitzer Wilhelm von Osten trainiert wurde, einfache Rechenaufgaben durch mehrmaliges Stampfen des Fußes zu beantworten. Die Fähigkeiten wurden in zahlreichen öffentlichen Zurschaustellungen erfolgreich demonstriert und letztendlich von einer Wissenschaftlerkommission ge nauer überprüft. Diese kam zu dem Schluss, dass der Kluge Hans nicht gelernt hatte, richtig zu rechnen, sondern aus der unbewussten Gestik und Mimik seines Besitzers https://doi.org/10.1515/9783110659948-013
572 | 13 Vertrauenswürdiges, transparentes und robustes Maschinelles Lernen
die erwartete Antwort abzulesen [48]. Diese unbewusste Beeinflussung von Versuchs tieren ist seither in der experimentellen Psychologie als „Kluger-Hans-Effekt“ bekannt. Im Bereich des Maschinellen Lernens beschreibt er das Phänomen, dass ein Modell zwar richtige Vorhersagen liefern kann, dieses jedoch möglicherweise auf zufälligen Korrelationen beruht [36]. Das vielleicht bekannteste Beispiel im Maschinellen Lernen ist eine oft zitierte, u. a. von Hubert und Stuart Dreyfus in einer ihrer kontroversiellen Kritiken an der KI-Forschung [16] popularisierten Anekdote: In den 1980-Jahren wollte das amerika nische Verteidigungsministerium neuronale Netze zur Erkennung von Panzern trai nieren. Sie positionierten eine große Anzahl von getarnten Panzern in einem Wald, machten zahlreiche Fotografien, rollten die Panzer wieder hinaus, und wiederholten die Aufnahmen. Zur Freude des Pentagon konnten neuronale Netze verlässlich lernen, Aufnahmen mit Panzern von Aufnahmen ohne Panzern zu unterscheiden, was auch durch eine saubere Kreuzvalidierung bestätigt wurde. Bei einer neuen, unabhängig erstellten Bilderserie war die Klassifikationsgenauigkeit jedoch kaum besser als zu fällig. Eine genauere Analyse ergab, dass die neuronalen Netze im Wesentlichen nur gelernt hatten, dass die ersten beiden Serien von Aufnahmen bei unterschiedlichen Beleuchtungssituationen (sonnig mit Panzern und bewölkt ohne Panzer) erstellt wur den, und konnten daher nicht auf andere, inhaltlich ähnlich gestaltete Bilder genera lisieren. Auch wenn diese Geschichte letztendlich als urbane Legende anzusehen ist [27], finden sich in der Literatur und der Praxis jedoch zahlreiche ähnlich geartete reel le Beispiele. Solche Phänomene lassen sich weitgehend vermeiden, wenn man die Beurteilung der Qualität eines gelernten Modells nicht nur auf eine Genauigkeitsab schätzung reduziert, sondern auch das gelernte Modell selbst veranschaulichen und die darin codierten Zusammenhänge überprüfen kann. Dadurch lässt sich das Ver trauen der Anwender in die maschinell erstellten Empfehlungen erhöhen, es können Sicherheitsgarantien gegeben oder auch diskriminierende und unfaire Entscheidun gen vermieden werden. Interpretierbarkeit spielt auch eine zentrale Rolle in interakti ven Systemen, in denen Mensch und Maschine gemeinsam Schlüsse aus verfügbaren Daten ziehen [25; 59; 64]. Dieser Abschnitt beschäftigt sich mit Verfahren, die es erlauben, intransparen te Modelle zu interpretieren, während wir im nächsten Abschnitt 13.2 auf Verfahren eingehen, die die Robustheit von Lernalgorithmen steigern und dadurch die Modellie rung zufällig auftretender Korrelationen zu vermeiden helfen. Ein guter allgemeiner Überblick über den Stand der Forschung im Bereich der Interpretierbarkeit findet sich in [44], eine auf neuronale Netze zugeschnittene Bestandsaufnahme aktueller Arbeiten in [56].
13.1 Erklärbarkeit und Interpretierbarkeit |
573
13.1.1 Der Begriff der Interpretierbarkeit Historisch wurde die Wichtigkeit der Interpretierbarkeit gelernter Modelle bereits in den frühen Tagen der Forschung im Bereich des Maschinellen Lernens unterstrichen. Ryszard Michalski stellte beispielsweise ein „Verständlichkeitspostulat“ (Comprehen sibility Postulate) auf, das im Wesentlichen besagt, dass das Resultat von maschinel len Lernprozessen symbolische Repräsentationen sein sollen, die denjenigen ähneln, die menschliche Experten in der jeweiligen Domäne aufstellen würden [41]. Donald Michie [42] unterschied in der Folge zwischen schwachem Maschinellen Lernen, das „nur“ gute Vorhersagen trifft, starkem Lernen, das darüber hinaus noch für menschli che Anwender verständliche Beschreibungen des Gelernten liefert, sowie ultrastarken Ansätzen, die es einem menschlichen Nutzer erlauben, nach Inspektion der gelernten Modelle seine eigene Expertise im fraglichen Bereich zu verbessern. Insbesondere im Bereich der Wissensentdeckung in Datenbanken, auch als „Data Mining“ bekannt, wird der Verständlichkeit der entdeckten Muster und Regelmäßigkeiten eine große Bedeutung beigemessen [18]. Dementsprechend finden sich in der Literatur viele un terschiedliche Definitionen, oft unter Verwendung verwandter, zum Teil synonymer Begriffe, wie z. B. Verständlichkeit, Plausibilität, Vertrauenswürdigkeit, Erklärbarkeit und viele mehr, die oft nicht klar voneinander abgegrenzt werden [37]. Ein Grundproblem bei den meisten Definitionsversuchen liegt darin, dass oftmals einige der Begriffe durch eine umgangssprachliche Verwendung anderer definiert werden [35]. Ein Großteil der aktuellen Forschung im Bereich Interpretierbarkeit be schränkt sich darauf, den vom Modell abgebildeten Zusammenhang zwischen Input und Output verständlich und nachvollziehbar zu machen, also die Frage zu beantwor ten, warum es für eine bestimmten Eingabe die entsprechende Ausgabe vorschlägt. Um überzeugende Ergebnisse zu erlangen, ist es jedoch auch ratsam, sich grundle genderen Fragen zu stellen, wie z. B. welche Arten der Erklärungen für menschliche Benutzer überzeugender wirken, und dabei auch Ergebnisse aus verwandten Diszi plinen wie den Sozialwissenschaften [43] oder der kognitiven Psychologie [20] zu berücksichtigen. In einem Versuch, das Konzept klarer zu definieren, wird in [20] basierend auf ähnlichen Arbeiten wie [5] folgende Unterscheidung vorgeschlagen: Syntaktische Interpretierbarkeit bezeichnet die Tatsache, ob ein gelerntes Modell prinzipiell verständlich ist, im selben Sinne, ob ein Text prinzipiell lesbar ist (unabhängig davon, ob er Sinn ergibt). Epistemische Interpretierbarkeit bezieht die Sinnhaftigkeit eines Modells mit ein, d. h., ein epistemisch interpretierbares Modell muss auch mit dem Hintergrund wissen des Nutzers korrelieren. Beispielsweise wäre ein Modell, das besagt, dass das Wetter an Tagen mit geradem Datum besser wird und an Tagen mit unge radem Datum schlechter wird, zwar syntaktisch verständlich, würde aber nicht mit dem Hintergrundwissen des Benutzers übereinstimmen (selbst wenn es auf einem gegebenen Datensatz eine sehr hohe Genauigkeit aufweisen würde).
574 | 13 Vertrauenswürdiges, transparentes und robustes Maschinelles Lernen
Abb. 13.1: Aspekte der Interpretierbarkeit
Pragmatische Interpretierbarkeit schließt darüber hinaus noch den Informationsbe darf des Benutzers mit ein. Beispielsweise wäre ein Modell, das besagt, dass das Wetter morgen in etwa gleich sein wird wie das Wetter heute, zwar syntaktisch verständlich und würde auch epistemisch mit unseren Erfahrungen übereinstim men, es wäre aber keine zufriedenstellende Erklärung für eine Wetterprognose. Abbildung 13.1 veranschaulicht den Zusammenhang zwischen diesen Begriffen. Ins besondere streicht sie heraus, dass syntaktische Interpretierbarkeit eine Vorausset zung für epistemische Interpretierbarkeit ist (wenn ein Konzept nicht gelesen werden kann, dann kann es auch nicht in Beziehung zu vorhandenem Wissen gesetzt werden) und dass diese wiederum Voraussetzung für die pragmatische Interpretierbarkeit ist (wenn man das neue Wissen nicht in Beziehung zu vorhandenem Wissen setzen kann, kann man es auch nicht auf Plausibilität überprüfen).
13.1.2 Transparentes Maschinelles Lernen In den beiden vorangegangenen Kapiteln 11 und 12 haben wir eine Vielzahl von unter schiedlichen Lernalgorithmen kennengelernt, die sich nicht zuletzt auch in der Reprä sentationssprache der gelernten Modelle unterscheiden. Gängige Formalismen sind mathematische Funktionen, logische Ausdrücke, komplexe Netzwerke oder Ensem bles. Man kann sie grob nach dem Grad ihrer Transparenz gruppieren.
13.1 Erklärbarkeit und Interpretierbarkeit |
575
Unter sog. Whitebox-Modellen versteht man Modelle, die auch für Laien im Be reich des Maschinellen Lernens unmittelbar einsichtig und verständlich sind, sodass wir damit unmittelbar den Anwender konfrontieren können. Als interpretierbare Mo delle werden zumeist logikbasierte Repräsentationen, wie z. B. Entscheidungsbäume oder Regeln, aber auch einfache mathematische (z. B. logistische Regression) oder probabilistische (z. B. naive Bayes-Schätzer) verstanden. Oft ist auch einfach nur eine Gewichtung der Relevanz der Eingabemerkmale ausreichend, um eine Entscheidung nachvollziehbarer zu machen. Zahlreiche klassische Lernverfahren können hier ein gereiht werden, auch wenn sie sich nicht direkt dem Aspekt der Interpretierbarkeit widmen. Darüber hinaus wurden zahlreiche neue Verfahren entwickelt, die sich ex plizit dieser Thematik stellen. Beispielsweise wird in [70] ein Algorithmus vorgestellt, der explizit auf das Lernen von möglichst kurzen Regeln abzielt. Blackbox-Modelle hingegen sind nicht direkt verständlich, sodass die Vorhersagen dieser Modelle nicht unmittelbar nachvollziehbar sind. Von der Güte dieser Modelle kann man sich daher – ohne erheblichen zusätzlichen Aufwand – nur überzeugen, indem man umfangreiche Evaluationen an unabhängigen Testdaten vornimmt, nicht jedoch indem man das Modell selbst näher betrachtet. In diese Klasse fallen natürlich mehrschichtige neuronale Netze, aber auch Ensemblemethoden wie Random Forests. Eine der Herausforderungen des transparenten Maschinellen Lernens liegt darin, dass zwischen diesen Modelltypen ein Trade-off besteht: Whitebox-Modelle sind zwar unmittelbar interpretierbar, jedoch weisen Blackbox-Modelle typischerweise eine hö here Vorhersagegenauigkeit auf. Idealerweise möchte man gerne die Vorteile beider Ansätze kombinieren, d. h. Lernalgorithmen entwerfen, die die Güte von BlackboxModellen bewahren, dabei aber die Interpretierbarkeit von Whitebox-Modellen auf weisen. Eine mögliche Herangehensweise besteht darin zu versuchen, Blackbox-Modelle direkt zu interpretieren. Diese Methoden sind notwendigerweise spezifisch auf den Ty pus der zu interpretierenden Modellklassen zugeschnitten. In Abschnitt 13.1.2.1 wer den wir uns exemplarisch auf Verfahren zur Interpretation von neuronalen Netzen konzentrieren. Ein andere Klasse von Arbeiten zum Thema Interpretierbarkeit beschäftigt sich damit, intransparente Modelle verständlich zu machen, indem sie in interpretierbare Surrogat-Modelle überführt werden. Dem hoch performanten Blackbox-Modell wird also ein interpretierbares Whitebox-Modell zur Seite gestellt, das herangezogen wer den kann, um das Blackbox-Modell zu verstehen. Derartige Kombinationen von Blackund Whitebox-Modellen werden in der Literatur auch oft Greybox-Modelle genannt. Zur Erstellung solcher Greybox-Modelle gibt es zwei unterschiedliche Herange hensweisen: Einerseits kann man versuchen, das gesamte Blackbox-Modell in ein möglichst äquivalentes, aber interpretierbares Whitebox-Modell zu verwandeln (Ab schnitt 13.1.2.2). Andererseits besteht die Möglichkeit, für einen relevanten Teil des Eingaberaums, oft auch nur für einen einzelnen Datenpunkt, eine lokale Erklärung zu finden (Abschnitt 13.1.2.3).
576 | 13 Vertrauenswürdiges, transparentes und robustes Maschinelles Lernen
13.1.2.1 Interpretation von Blackbox Modellen Eine Strategie zur Interpretation von intransparenten Blackbox-Modellen ist es, Tech niken zu entwickeln, die das Verhalten dieser Modelle bei gegebenen Inputs analysie ren und dieses Verhalten dadurch transparent machen. Insbesondere für tiefe neuro nale Netze wurden hier zahlreiche Ansätze entwickelt. Ein mögliches Ziel ist zu iden tifizieren, welche Merkmale der Eingabe besonders relevant für die erzielte Ausgabe des Netzwerks waren. Im Gegensatz zur automatischen Merkmalsselektion [26], einem Standardverfahren zur Datenanalyse, werden hier jedoch die Merkmale nicht global über alle Daten hinweg sondern lokal, d. h. speziell für den gegebenen Input, betrach tet. Eines der bekanntesten Verfahren, die das bewerkstelligen, ist die schichtweise Relevanzpropagierung (LRP) [3]. Es verfolgt die grundlegende Idee, die durch Vor wärtspropagierung am Output erzielte Aktivierung Schicht für Schicht durch das Netz zurückzupropagieren, sodass sie letztendlich auf die Eingabeknoten verteilt wird (vgl. Abbildung 13.2). Jeder Ebene h i wird dabei ein Relevanzvektor r i = (r i,j ) zugeordnet, wobei der letzte mit der Output-Aktivierung initialisiert wird, d. h., r k = h k . Die Ge samtrelevanz bleibt dabei in jeder Schicht konstant, d. h., für alle Relevanzvektoren r i bzw. r k gilt ∑j r i,j = ∑j r k,j . Der Relevanzanteil, der über eine Kante zwischen zwei Knoten m und n in aufein anderfolgenden Schichten i und i + 1 des Netzwerks fließt, hängt von der Aktivierung h i,m des Knotens m, dem Gewicht w m,n der Kante sowie der Relevanz r i+1,n im Kno ten n ab. Im einfachsten Fall erhält jeder Knoten der i-ten Schicht Relevanzen aller Knoten der (i + 1)-ten Schicht, jeweils gewichtet mit dem Anteil der gemäß der Akti vierung und dem Gewicht über die entsprechende Kante fließt, d. h., r i,m = ∑ n
h i,m w m,n ⋅ r i+1,n . ∑m h i,m w m,n
hk = y
(13.1)
rk = hk
h2
r2
h1
r1
h0 = x Abb. 13.2: Schichtweise Relevanzpropagierung (LRP)
r0
13.1 Erklärbarkeit und Interpretierbarkeit |
577
Diese Vorschrift zur Relevanzpropagierung ist auf die ReLU-Aktivierungsfunktion ab gestimmt, die positive Aktivierungen direkt weitergibt. Ein Überblick über alternative Propagierungsvorschriften findet sich in [45]. Werden die Aktivierungen auf diese Weise schichtweise von der Ausgabeschicht bis zur Eingabeschicht weitergeleitet, zeigt der Relevanzvektor r0 am Ende an, welche Merkmale des Eingabevektors x = h0 besonders für die Ausgabe verantwortlich wa ren. Insbesondere in der Bildverarbeitung kann das sehr leicht visualisiert werden, da hier die einzelnen Pixel im Eingabebild mit ihrer Wichtigkeit markiert werden können. Diese Darstellung nennt man auch eine Saliency Map. Lapuschkin et al. [36] bringen ein Beispiel, in dem durch LRP erkannt wurde, dass ein tiefes Netzwerk zur Bilderken nung im PASCAL VOC 2007 Datensatz Pferdebilder vor allem anhand eines Schriftzugs einer Agentur in einer Bildecke erkannt hat, der primär auf Bildern dieser Kategorie zu finden war. Eine einfache Alternative zu LRP stellen gradientenbasierte Saliency Maps dar [58]. Hier werden einfach die Gradienten des Ausgabeknotens für jede Klasse in Bezug auf die Eingabe berechnet, was rasch durch einen Rückwärtsdurchlauf durch das Netz werk bewerkstelligt werden kann. 13.1.2.2 Lernen Globaler Erklärungs-Surrogate Die grundlegende Idee hinter dieser Methodik ist, dass man, wie in Abbildung 13.3 skizziert, ein genaues, aber nicht interpretierbares Blackbox-Modell als Orakel ver wendet, um einen Whitebox-Lerner zu trainieren. Der Hauptvorteil dieser Vorgangs weise – im Gegensatz zum direkten Erlernen interpretierbarer Modelle – besteht darin, dass die Whitebox-Modelle hier aus einer beliebig großen Datenmenge gelernt werden
Abb. 13.3: Extraktion globaler Whitebox-Modelle
578 | 13 Vertrauenswürdiges, transparentes und robustes Maschinelles Lernen
können, da das Blackbox-Modell Labels in beliebiger Zahl zur Verfügung stellen kann. Auch sind diese Daten dann oft schon durch das Blackbox-Modell von Noise und Aus reißern geglättet (Abschnitt 13.2). Dadurch erhofft man sich, dass die aus den Black box-Labeln gelernten Whitebox-Modelle eine höhere Qualität erreichen, als wenn sie direkt aus den Trainingsdaten gelernt worden wären. Im Prinzip ist diese Methodik für alle Typen und Kombinationen von Blackboxund Whitebox-Modellen geeignet, jedoch lassen sich oft für spezifische Instanziierun gen des Frameworks Verbesserungen finden. Zum Beispiel bietet [2] einen guten Über blick über Methoden, die diesen Ansatz zur Regelextraktion aus neuronalen Netzen verwenden. Hier wird insbesondere zwischen pädagogischen Ansätzen unterschie den, die im Prinzip der in Abbildung 13.3 skizzierten Vorgangsweise folgen, wo also die durch das Netz gelernte Information nur über die Labels für Trainingsbeispiele wei tergegeben wird, und dekompositionalen Verfahren, die auch versuchen, das Black box-Modell selbst zu analysieren und beispielsweise die Netzwerkstruktur oder Teile davon in das Whitebox-Modell zu übertragen. 13.1.2.3 Lernen Lokaler Erklärungs-Surrogate Die Verfahren zur Extraktion globaler Modelle, die wir im letzten Abschnitt bespro chen habe, gehen von der Annahme aus, dass der Formalismus, in dem die inter pretierbaren Surrogate repräsentiert sind, gleich mächtig ist wie der Raum der Black box-Modelle. Wenn man beispielsweise nur Entscheidungsbäume oder Regeln mit be schränkter Größe zulässt, sind diese zwar vielleicht verständlicher, können jedoch die Entscheidungsgrenze, die von einem tiefen neuronalen Netz gelernt wurde, im Allge meinen nicht beliebig genau anpassen. Ein alternativer Ansatz schlägt daher vor, erklärbare Modelle für einzelne Bei spiele zu lernen. Die Überlegung ist, dass man eine beschränkte Trainingsmenge von Beispielen aus der unmittelbaren Umgebung der Instanz, für die man eine Erklärung benötigt, generiert, und ein interpretierbares Modell für diese beschränkte Trainings menge lernt. Dieses Modell hat dann keine globale Gültigkeit, approximiert das Black box-Modell aber in einer lokalen Umgebung hinreichend genau, um eine mögliche Erklärung zu liefern. Dieser Vorgang ist in Abbildung 13.4 illustriert: der linke Teil zeigt die gelernte Entscheidungsgrenze. Wird nun für einen Punkt eine Erklärung benötigt, so wird um diesen Punkt eine lokale Umgebung definiert (dargestellt durch den Kreis), und in die ser Umgebung Instanzen generiert, die vom Blackbox-Modell gelabelt werden. Daraus kann dann, wie im rechten Teil gezeigt, ein einfacheres, lokales Whitebox-Modell ge lernt werden, in diesem Fall eine Gerade. Diese Grundidee ist an die Verwendung von Tangenten in der Analysis angelehnt: Eine Gerade kann nicht an eine beliebige Kurve angenähert werden und kann daher nicht als globales Surrogat-Modell für diese Kurve dienen. Es ist aber umgekehrt mög lich, die Umgebung eines Punktes sehr gut durch eine Gerade – die Tangente – zu
13.1 Erklärbarkeit und Interpretierbarkeit | 579
Abb. 13.4: Extraktion lokaler Erklärungen
approximieren. Diese kann man somit auch als eine lokal gültige Erklärung für das Verhalten der Kurve in diesem Punkt ansehen. Eines der bekanntesten Verfahren, das diese Idee umsetzt, ist LIME¹ [51]. Um eine Erklärung für eine Testinstanz x zu finden, geht LIME im Wesentlichen wie folgt vor: 1. Generiere eine Datenmenge Z von Instanzen, die ähnlich zu x sind. 2. Verwende das Blackbox-Modell B, um eine Trainingsmenge 𝕊x = {⟨z, B(z)⟩ | z ∈ Z} zu erhalten. 3. Gewichte alle Beispiele in 𝕊x mit ihrer Distanz zu x. 4. Trainiere aus den gewichteten Beispielen ein Whitebox-Modell Wx . 5. Verwende Wx als Erklärung für die Vorhersage B(x) des Blackbox-Modells für die Instanz x. Um in Schritt 1 ähnliche Instanzen zu generieren, können verschiedene Methoden angewandt werden. Im Allgemeinen können einzelne Dimensionen einer Vektorre präsentation der Daten zufällig gestört werden, für spezielle Datentypen lassen sich jedoch auch spezifische Methoden finden. In Texten könnten beispielsweise einzel ne Worte oder Sätze ausgetauscht bzw. entfernt werden, in Bildern Pixelgruppen oder Regionen. Eine erwähnenswerte Alternative zu LIME für additive Erklärungsmodelle (wie z. B. lineare Regression) ist die Abschätzung der Wichtigkeit von Merkmalen durch sog. Shapley-Wert. Diese messen den Beitrag, den ein Merkmal i zum Ausgabewert liefert, indem für jede mögliche Teilmenge S von Merkmalen die Differenz zwischen der für S \ i und der für S ∪ i erwarteten Ausgabe des Modells berechnet wird. Ein ge
1 LIME ist ein Akronym und steht für „Local Interpretable Model-agnostic Explanations“.
580 | 13 Vertrauenswürdiges, transparentes und robustes Maschinelles Lernen
wichteter Durchschnitt über alle Merkmalsteilmengen S liefert den Beitrag für Merk mal i an der Gesamtausgabe. Diese Vorgangsweise wäre für größere Merkmalsmen gen aufgrund des exponentiellen Wachstums der Anzahl der Teilmengen S nicht be rechenbar, jedoch wird in [39] SHAP (SHapley Additive exPlanation) vorgeschlagen, eine Methodik, die es erlaubt, Shapley-Werte auf spezifische, modellabhängige Wei sen effizient zu berechnen. Insbesondere versucht Kernel SHAP ähnlich zu LIME eine lokale additive Funktion effizient zu lernen, während Tree SHAP seine Effizienz aus der Nutzung der Struktur eines Entscheidungsbaums zieht. Im Allgemeinen liefert SHAP bessere theoretische Garantien als LIME, ist meist effizienter und stabiler, da es beispielsweise nicht von der Definition einer Nachbar schaft abhängt, die einen wesentlichen Schritt in LIME darstellt. LIME ist wiederum sehr allgemein und im Prinzip für beliebige Kombinationen von Black- und White box-Modellen einsetzbar. Dementsprechend gibt es zahlreiche Varianten und Erwei terungen, die sich auf unterschiedliche Szenarien spezialisieren, wie z. B. LORE [24], das speziell auf Extraktion von Regeln ausgerichtet ist, oder LIME-Aleph [50], das es erlaubt, mithilfe eines Algorithmus aus der induktiven logischen Programmierung strukturelle, relationale Erklärungen zu lernen.
13.1.3 Beurteilung von Interpretierbarkeit Ein grundlegendes Problem ist, wie Interpretierbarkeit gemessen werden kann. Viele Ansätze setzen Interpretierbarkeit mit (inverser) Komplexität gleich, d. h., je einfacher ein Modell beschrieben werden kann, als desto interpretierbarer gilt es. Für die Kom plexität lassen sich auch einfache Maße definieren, wie z. B. die Anzahl der Parameter des Modells, die Anzahl der gefundenen Regeln oder Bedingungen in einer Regelmen ge oder die Anzahl der Knoten in einem Entscheidungsbaum. Viele Algorithmen, die auf interpretierbare Modelle abzielen, versuchen daher, möglichst einfache Regeln zu finden. Während einfache Regeln durch ihren hohen Bias dazu beitragen, Overfitting zu vermeiden, und daher meist eine höhere Vorhersagegenauigkeit erzielen können, ist es jedoch nicht immer klar, dass sie auch mit einer höheren Interpretierbarkeit einher gehen. Sehr oft sind komplexere Regeln verständlicher, wenn man nicht nur syntak tische, sondern auch die epistemische und pragmatische Interpretierbarkeit betrach tet. Zum Beispiel lernen Algorithmen für die UCI-Datenbank Mushroom, die sich mit der Kategorisierung von Pilzen in „edible“ (essbar) und „poisonous“ (giftig) befasst, Regeln wie die Folgende: poisonous :- odor = foul. Die Regel besagt, dass Pilze, die übel riechen, als giftig zu klassifizieren sind, und sie
13.1 Erklärbarkeit und Interpretierbarkeit | 581
trifft auf 2160 Pilze in der Datenbank zu. Es gibt jedoch auch Regellerner, die Regeln wie die Folgende lernen [60]: poisonous :- veil-color = white, gill-spacing = close, bruises? = no, ring-number = one, stalk-surface-above-ring = silky. Diese Regel enthält Details über die Farbe, den Abstand der Lamellen, den Ring am Stiel, und viele mehr und wirkt daher vertrauenswürdiger und sicherer als eine simple Regel, die einen Pilz nur aufgrund seines Geruchs klassifizieren möchte. Lange Regeln sind jedoch sehr oft spezifischer, decken weniger Instanzen ab und sind daher beson ders anfällig für Overfitting. Überraschenderweise ist das bei der oben gezeigten Regel nicht der Fall: Sie klassifiziert 2192 Pilze aus der Datenbank fehlerlos und ist damit so gar noch ein wenig genereller als die erste, kürzere Regel. Bereits Ryszard Michalski, einer der Pioniere des Maschinellen Lernens, hat zwi schen diskriminativen und charakterisierenden Regeln unterschieden [41]: Diskrimi native Regeln bestehen aus hinreichenden Bedingungen für ein Konzept, während charakterisierende Regeln die notwendigen Bedingungen beinhalten. Betrachten wir als Beispiel Regeln, die es erlauben sollen, ein Tier als Elefant zu klassifizieren. Eine diskriminative Regel achtet nur auf das Merkmal „Rüssel“, da dieses ausreicht, um das Tier als Elefant zu erkennen. Eine charakterisierende Regel hingegen beinhaltet alle Eigenschaften, die typischerweise zu einem Elefanten gehören, wie neben dem Rüssel z. B. die Stoßzähne, die runzelige Haut, die großen Ohren usw. Während dis kriminative Regeln im Allgemeinen ausreichen, um eine Erkennung zu gewährleisten, geben charakterisierende Regeln ein viel umfassenderes Bild des zu beschreibenden Sachverhalts. Im Sinne der Interpretierbarkeit scheinen daher charakterisierende Re geln oft vorzuziehen zu sein, auch wenn sie bedeutend länger sein können als kurze und prägnante diskriminative Regeln. Wenn Interpretierbarkeit also nicht allein mit geringer Komplexität einhergeht, wie kann sie dann gemessen werden? Insbesondere wenn über die syntaktische In terpretierbarkeit hinausgehende Aspekte berücksichtigt werden sollen, ist es letzt endlich unumgänglich, Nutzerstudien durchzuführen. Dieses Problem wurde bereits mehrfach thematisiert [19; 20; 43], es finden sich in der Literatur jedoch nur wenige Arbeiten, die sich der Herausforderung stellen, die Interpretierbarkeit von gelernten Modellen direkt zu messen. Solche Ansätze korrespondieren auch mit Arbeiten in den Kognitionswissenschaften wie z. B. [33], wo das Verstehen eines natürlichsprachigen Texts mit der Fähigkeit gleichgesetzt wird, aus dem Text korrekte Schlüsse zu ziehen. Eine lesenswerte allgemeine Abhandlung über die Messbarkeit von maschineller und natürlicher Intelligenz, in der die Fähigkeit zur Informationskompression in den Mit telpunkt gerückt wird, findet sich in [30]. Insgesamt gibt es jedoch noch keine klaren Empfehlungen zur Messung von In terpretierbarkeit, hier gibt es noch großen Forschungsbedarf.
582 | 13 Vertrauenswürdiges, transparentes und robustes Maschinelles Lernen
13.2 Robustheit, Sicherheit und Verlässlichkeit In den letzten Jahren wurden Maschinelles Lernen und tiefe neuronale Netze in sehr vielen Anwendungsfeldern eingesetzt, z. B. bei der medizinische Diagnose oder dem autonomen Fahren. Gerade in den Bereichen Bilderkennung, Sprachverarbeitung und Steuerung können derartige Modelle die Genauigkeit menschlicher Experten poten ziell erreichen oder übertreffen. Aber die herausragenden Leistungen der Verfahren werden in streng kontrollierten Laborsituationen erreicht. Um die Modelle in der täglichen Praxis und insbesondere in sicherheitskritischen Anwendungen nutzen zu können, muss man folgende Aspekte beachten: (I) Robust heit ist die Fähigkeit eines Computersystems, ungünstige Situationen und Fehler wäh rend der Ausführung aufzufangen und fehlerhafte Eingaben zu behandeln [11]. Ro buste Statistik ist das statistische Schließen – also auch die Modellbildung – mit gu ten Ergebnissen, selbst wenn einige der getroffenen Verteilungsannahmen (Normal verteilung, Symmetrie, Unabhängigkeit etc.) nicht zutreffen. Beide Arten von Robust heit sind im Weiteren relevant. (II) Sicherheit eines Computersystems beinhaltet den Schutz gegen Diebstahl und Beschädigungen der Hardware, aber auch gegen Störung oder Beeinträchtigung der bereitgestellten Dienste. Hierbei handelt es sich meist um Angriffe von außen. (III) Verlässlichkeit eines statistischen Systems bedeutet, dass die Ergebnisse unter den gleichen Umständen immer nahezu gleich sind und nicht von erratischen Einflüssen beeinträchtigt werden. In den einzelnen Phasen der Modellerstellung gibt es eine Reihe möglicher Stör faktoren, die die Robustheit, Sicherheit und Verlässlichkeit beeinträchtigen: Datensammlung: Hier kann es neben Tippfehlern auch Probleme wegen Messfehlern oder Fehlbedienungen an Sensoren (z. B. medizinischen Geräten) geben. Dieses Problem wird in Abschnitt 13.2.1 diskutiert. Ein weiteres Problem sind nicht re präsentative Daten, wenn für Teile des Anwendungsbereichs zu wenige Beobach tungen vorhanden sind. Möglich ist auch gezieltes Einschleusen von Falschdaten durch Außenstehende. Annotation der Daten: Viele Anwendungen erfordern die Annotation der Daten (z. B. Benennung der Objekte in einem Bild oder die Markierung der Objektränder) und oft detailliertes Expertenwissen. Gehen menschliche Beurteilungen in die Annotation ein, so werden diese auch menschliche Vorurteile widerspiegeln. Beispielsweise hat Facebook ein System zur Bewertung von Stellenbewerbern eingestellt, weil dieses System die Vorurteile der Personalverantwortlichen repro duzierte, welche Frauen und People of Color systematisch schlechter beurteilten. Man kann eine solche Verletzung der Fairness auch oft als einen Fehler bei der Erhebung der Daten verstehen. Darüber hinaus kann auch eine wissentlich bös willige Modifikation der Annotationen erfolgen, welche die Modellprognosen verfälscht. Modellbildung und Training: Hier können unzulängliche Modelle verwendet werden, die zu Unteranpassung oder Überanpassung führen (Abschnitt 11.3.5). Dazu ge
13.2 Robustheit, Sicherheit und Verlässlichkeit |
583
hört auch das inadäquate Testen der Modelle durch mehrfache Verwendung der Testmenge. Oft wird auch die Anpassung der Hyperparameter vernachlässigt (Ab schnitt 11.6.6), wodurch die Modellgenauigkeit verschlechtert wird. Modellanwendung: Hier kann es vorkommen, dass die Verteilung der Anwendungs daten von denjenigen der Trainingsdaten abweicht, z. B. weil andere Messgerä te verwendet werden oder weil sich die Zusammensetzung der Beispiele geän dert hat (concept drift). Hierdurch kann sich die Genauigkeit der Prognosen stark verringern. Ein weiteres Anwendungsproblem sind teilweise fehlende oder durch Messfehler verfälschte Anwendungsdaten. In der Anwendungsphase können An greifer auch gezielt konstruierte Daten verwenden, um die Modellprognose wis sentlich zu verfälschen, z. B. die Verwendung eines manipulierten Verkehrsschil des beim autonomen Fahren. Diese absichtlich herbeigeführten Fehler sind ein schwerwiegendes Problem und werden in Abschnitt 13.2.2 dargestellt. Offenbar kann die Verlässlichkeit der Modellergebnisse nur sichergestellt werden, wenn in allen Phasen der Modellbildung und Anwendung geeignete organisatorische Maßnahmen und Qualitätskontrollen vorgenommen werden, um Fehler zu vermeiden und die Erstellung des Modells durch fachlich qualifizierte Personen sicherzustellen. Im folgenden Abschnitt werden die wichtigsten methodischen Aspekte zur Wahrung der Robustheit und Verlässlichkeit erörtert. Während der Modellbildung und Anwendung sind Verletzungen des Datenschut zes und der Vertraulichkeit möglich, welche durch geeignete Maßnahmen vermieden werden müssen. Man kann spezielle Modelle zur Sicherung der Vertraulichkeit ein setzen, z. B. solche, die nach dem Prinzip der differenziellen Privatsphäre (differential privacy) konstruiert wurden. Diese verfolgt den Ansatz, Daten mit Rauschen zu verse hen, um eindeutige Aussagen über bestimmte Eigenschaften der Daten unmöglich zu machen. Ein Überblick, wie derartige Techniken heute schon bei der Datensammlung eingesetzt werden, wird in [12] gegeben.
13.2.1 Der Einfluss von Ausreißern und Messfehlern Robuste statistische Verfahren modellieren den Zusammenhang zwischen Zufallsva riablen und sollen dabei unempfindlich gegen Ausreißer und anderen Abweichun gen sein. Beispielsweise ist die lineare Regression y = a⊺ x + b mit Kleinstquadrat verlust (Gleichung 11.8) zur Prognose einer Variablen y aus einem Merkmalsvektor x besonders anfällig gegen Ausreißer, da sie die empirische Varianz- und Kovarianz ver wendet. Neben der Verwendung des absoluten Abstands als Verlustfunktion ist leasttrimmed squares (LTS) eine praktikable Alternative und bildet derzeit die bevorzug te Wahl [54]. Anstelle der Standardmethode der kleinsten Quadrate, die die Summe der quadratischen Residuen über n Punkte minimiert, versucht die LTS-Methode, die Summe der quadratischen Residuen über eine Teilmenge von k dieser Punkte zu mi
584 | 13 Vertrauenswürdiges, transparentes und robustes Maschinelles Lernen
nimieren, welche die kleinste quadratische Abweichung besitzen. Die nicht verwen deten n − k Punkte beeinflussen die Anpassung nicht. Eine Reihe weiterer Methoden wird in [54] dargestellt. Im Bereich der neuronalen Netze wurde dieses Vorgehen aufgegriffen. Oft kann man davon ausgehen, dass ein bestimmter Anteil ϵ der Trainingsdaten nicht brauch bar ist (z. B. Messfehler etc.). Für diese Annahmen gibt es Verfahren [40], mit denen man ein neuronales Netz trainieren kann. Man kann auch von den Verlustfunktionen (Abschnitt 11.2.4) ausgehen und robuste Versionen für die Klassifikation und die Re gression ableiten [22, S. 346]. Man muss aber auch damit rechnen, dass bei der Anwendung eines fertig trai nierten Modells in den Anwendungsdaten Ausreißer auftreten, die das Modell nicht behandeln kann und daher unzuverlässige Ergebnisse liefert. Daher ist in diesem Fall ein Anomalie- oder Ausreißerdetektor erforderlich, der der Modellanwendung vorgeschaltet ist. Die traditionelle Datenanalyse stellt hier einige Ansätze zur Ver fügung. Isolation forests werden ähnlich zu Entscheidungsbäumen konstruiert und finden anormale, außerhalb liegende Datenpunkte [38]. Einklassenstützvektorma schinen (Abschnitt 11.5.2) bilden einen Detektor für die Trainingsdaten und weisen Ausreißer ab, also Daten die außerhalb der Trainingsmenge liegen. Es ist möglich, eine Einklassen-SVM auch als neuronales Netz zu interpretieren und damit eine Aus reißerentscheidung erklärbar machen [34]. Man kann auch mithilfe von generativen adversarialen Netzen (GAN) (Abschnitt 12.5.3) einen Diskriminator trainieren, der von der Trainingsmenge abweichende Elemente identifiziert [15]. Derartige Verfahren haben potenziell eine höhere Treffsicherheit, weil der Diskriminator beispielsweise trennscharfe Faltungsnetze für Bilder verwenden kann. Die Zuverlässigkeit von maschinellen Lernverfahren hat auch einen engen Zu sammenhang mit Methoden, durch die die Unsicherheit in den Modellprognosen be stimmt werden kann. Derartige Methoden haben wir schon in Abschnitt 11.6.7 disku tiert. Idealerweise sollte z. B. ein bayessches Modell (Abschnitt 11.6.7.2) in Bereichen, in denen kaum Trainingsdaten vorhanden sind, eine hohe Modellunsicherheit pro gnostizieren. Derartige Ansätze können also auch gebraucht werden, um die Zuverläs sigkeit der Modellanwendung zu bewerten [21]. Ist die Prognose- oder Klassifikations unsicherheit zu groß, so kann das Modell beispielsweise die Abgabe einer Prognose oder Klassifikation verweigern (reject option). 13.2.1.1 Der Effekt von Verzerrungen bei der Bilderkennung Tiefe neuronale Netze sind sehr erfolgreich bei der Erkennung von Objekten in den verfügbaren Bilddatenbanken. Die Netze werden auf die Erkennungsleistung hin op timiert. Hierbei wird aber nicht auf Robustheit der Erkennung gegenüber im Alltag vorkommenden Modifikationen von Bildern geachtet. Dies ist aber insbesondere bei sicherheitsrelevanten Anwendungsbereichen – z. B. beim selbstfahrenden Auto – ex trem wichtig.
13.2 Robustheit, Sicherheit und Verlässlichkeit |
585
Abb. 13.5: Diese Abbildung zeigt 15 Arten von algorithmisch erzeugten Bildfehlern, die auch norma lerweise auf Fotos zu beobachten sind. Quelle: [29]
In Abbildung 13.5 sind eine Reihe derartiger Modifikationen der Bilder zu sehen, bei denen ein menschlicher Betrachter das gesuchte Objekt trotzdem noch gut erken nen kann [29]. Andere Arten von Transformationen sind Verschiebungen, Rotation, Kippen und unterschiedliche Skalierungen (Vergrößerungen und Verkleinerungen). Diese wurden auf den die Kollektion ImageNet von annotierten Fotos angewendet und als Benchmark-Daten ImageNet-P und ImageNet-C zur Verfügung gestellt [29]. Um die Anfälligkeit der Bildklassifikation gegen solche Verzerrungen zu bestim men, haben [29] eine Reihe unterschiedlicher Algorithmen auf ImageNet trainiert. An schließend wurden die Verfahren auf die Testbeispiele mit unterschiedlichen Verzer rungen angewendet und der mittlere Verzerrungsfehler berechnet. Beispielsweise hat das tiefe neuronale Netz ResNet-50 (Abbildung 12.4) auf den Originaldaten einen Klas sifikationsfehler von 24 %, welcher sich bei Verzerrungen auf Werte um den Faktor 2,7 erhöht. Es gibt Verfahren, mit denen der Einfluss von Bildfehlern reduziert werden kann, indem man diese beim Training mit berücksichtigt. Hossain et al. [31] entwickeln mit dem DCT-Net unter Verwendung der diskreten Cosinus-Transformation ein tiefes neu ronales Netz, welches relativ robust gegen viele Arten von Verzerrungen ist, bei nur geringen Einbußen der Genauigkeit auf den unverfälschten Daten. Bei Gaussian Noise erhöht sich der Originaldatenfehler des DCT-Net trotzdem von 12,5 auf 47,0 %. Dies
586 | 13 Vertrauenswürdiges, transparentes und robustes Maschinelles Lernen
zeigt, dass die Verschlechterung der Bildklassifikation durch Verzerrungen auch bei Gegenmaßnahmen ein wichtiges Problem bleibt. 13.2.1.2 Der Effekt von Verzerrungen bei der Interpretation von Texten Menschen haben eine erstaunlich hohe Fähigkeit, Texte mit Fehlern noch lesen zu können. Sie können trotz massiver Tippfehler noch den Sinn eines Satzes verstehen. Ein Beispiel ist folgender Text aus Twitter: „Government confirms blast n nuclear plants n japan. . . don’t knw wht s gona hap-pen nw. . . ” [52]). Wendet man auf Twit ter-Texte ein Standardmodell zur Namenserkennung an, so erhält man einen F-Wert von 44 %. Durch Verwendung von Trainingsdaten, die diese Fehler abdeckten, konnte man mit dem gleichen Modell einen F-Wert von 67 % erreichen. Ritter et al. [52] zeigen damit, dass es unbedingt notwendig ist, für Twitter und ähnliche Domänen eigene Trainingsdaten mit den charakteristischen Fehlern zu verwenden. 13.2.1.3 Der Effekt von Verzerrungen bei der Erkennung gesprochener Sprache Die Erkennung gesprochener Sprache kann durch Umgebungsgeräusche stark ver schlechtert werden. Hierzu gehört konstantes weißes Rauschen (z. B. Summen einer Maschine), variables Rauschen (Hintergrundmusik, Gespräche, Umweltgeräusche), aber auch das Echo der Eingabesprache im Raum. Konstantes Rauschen kann dabei mit Signalverarbeitungstechniken reduziert werden. Die Herabsetzung von variablem Rauschen ist aber immer noch ein schwieriges Problem. Ein Benchmark-Datensatz zur Messung des Einflusses von Störgeräuschen auf die Spracherkennung ist CHiME-4 [69]. Er enthält gesprochene Sprache, die mit unter schiedlichen Störgeräuschen überlagert ist und kann als eine recht realistische Ba sis zur Evaluation der Spracherkennung angesehen werden. Die Sprachsignale sind dabei sowohl als Aufnahmen mit einem Mikrofon als auch als Sechskanalaufnah men mit sechs verschiedenen Mikrofonen verfügbar. Noch 2014 betrug die Wortfeh lerrate (WER) für das beste System bei einem Aufnahmekanal auf diesem Datensatz 67,9 %. Szu-Jui chen et al. [8] haben ein Spracherkennungssystem auf Grundlage des Kal di-Toolkits implementiert, welches sowohl mit einem Aufnahmekanal, als auch mit sechs Kanälen arbeiten kann. Kaldi verwendet KNN zu Spracherkennung. Grundlage des vorgestellten Ansatzes ist ein akustisches Beamforming, bei dem die Position des Sprechers in Bezug auf die Mikrofone bestimmt wird. Geräusche, die nicht aus dieser Richtung kommen, können dann reduziert werden. Diese und andere Maßnahmen er möglichen die Reduktion der Umweltgeräusche. Auf den CHiME-4-Daten erzielen die Autoren eine Wortfehlerrate (WER) von 11,4 % bei einem Mikrofon und 2,7 % bei sechs Mikrofonen. Dies zeigt, dass mehrere Mikrofone die Spracherkennungsqualität ent scheidend verbessern können. Zhang et al. [73] geben einen umfassenden Überblick über den Stand der robusten Spracherkennung. Zusammenfassend stellen sie fest, dass es immer noch eine große
13.2 Robustheit, Sicherheit und Verlässlichkeit
|
587
Lücke zwischen der Qualität der Spracherkennung bei Umweltgeräuschen und der Er kennungsgenauigkeit bei rauschfreien Umgebungen gibt.
13.2.2 Gezielte Konstruktion von falsch klassifizierten Beispielen KNN können heute komplexe Muster identifizieren und in vielen Bereichen menschli che Erkennungsleistungen übertreffen. Allerdings hat sich gezeigt, dass oft durch un merkliche Änderungen der Eingaben falsche Prognosen provoziert werden können. 13.2.2.1 Adversariale Beispiele bei der Bildklassifikation Das Training von tiefen neuronalen Netzen ist nur mit ausgefeilten Optimierungsver fahren möglich, welche Millionen von Parametern so anpassen können, dass die Net ze die relevanten Eigenschaften der Trainingsbeispiele extrahieren können. Umge kehrt kann man aber auch für ein fertig trainiertes Netz einzelne Bilder durch eine gezielte Modifikation der Bildpixel mit einem Optimierungsverfahren so verändern, dass das Bild durch das Netz in eine falsche Kategorie eingeordnet wird. Die Parame ter des Netzes werden dabei nicht verändert. Ein solches Vorgehen nennt man advers ariale Attacke (engl. adversarial, gegnerisch). Eykholt et al. [17] haben dieses Vorgehen auf die Erkennung von Verkehrszeichen angewendet. Als Bilderkennungsnetz haben sie das LISA-CNN verwendet, welches drei Convolution-Schichten und eine vollverbundene Schicht aufweist. Es hat eine Ge nauigkeit von 91 % auf der Testmenge. Um realistisch zu bleiben, haben die Autoren nur Änderungen auf den Verkehrszeichen selbst zugelassen, z. B. in Form von Auf klebern oder Verschmutzung. Ziel war es, Stoppschilder so zu verändern, dass sie von dem Bilderkennungsnetz als Geschwindigkeitsbegrenzung auf 45 mph klassifi ziert werden. Hierbei soll die Größe der Änderungen möglichst gering sein.
Abb. 13.6: Diese Abbildung zeigt 15 Arten von algorithmisch erzeugten Bildfehlern, die auch norma lerweise auf Fotos zu beobachten sind. Quelle: [29]
588 | 13 Vertrauenswürdiges, transparentes und robustes Maschinelles Lernen
Abbildung 13.6 zeigt einige Beispiel-Verkehrsschilder, die vom LISA-CNN alle als 45-mph-Geschwindigkeitsbeschränkungen klassifiziert wurden. Dabei war die Falsch klassifikation weitgehend unabhängig von dem Blickwinkel auf die Schilder und von der Entfernung. In zusätzlichen Experimenten wurde auch gezeigt, dass es bei Video aufnahmen aus einem vorbeifahrenden Auto an den modifizierten Verkehrsschildern konsistent zu Falschklassifikationen kam. Hingegen wurde das unmodifizierte Stopp schild bei Vorbeifahrten korrekt erkannt. Die meisten Ansätze dieser Art unterstellen, dass der Angreifer Zugang zu dem trainierten Klassifikationsmodell und den Trainingsdaten hat (Whitebox-Attacke). Es gibt aber auch erfolgreiche Verfahren, die ohne dieses Wissen auskommen, also kei nen Zugang zu den Trainingsdaten und dem trainierten Modell haben und auch die Modellarchitektur nicht kennen (Blackbox-Attacke). Dann wird zunächst ein neues Klassifikationsmodell auf ähnlichen Daten trainiert [71]. Mit diesem näherungsweisen Modell werden Modifikationen der Eingabebilder erzeugt, welche wieder mit einer ho hen Erfolgsrate zu Falschklassifikationen durch das Originalmodell führen. Kann man sämtliche Bildpixel modifizieren, so sind die für eine adversariale At tacke notwendigen Verzerrungen der Bilder so gering (Abbildung 13.7), dass mensch
Abb. 13.7: In der linken Spalte finden sich die originalen ImageNet-Bilder. Die mittlere Spalte zeigt die subtilen Änderungen, mit denen das linke Bild überlagert wird. In der rechten Spalte findet man die modifizierten Bilder, welche von dem CNN (AlexNet) alle als „Strauß“ klassifiziert wurden. Quel le: [29]
13.2 Robustheit, Sicherheit und Verlässlichkeit
|
589
liche Betrachter sie als „Rauschen“ ignorieren [63]. Das KNN extrahiert aber hieraus die relevanten Merkmale der neu vergebenen Objektklasse und kommt zu der Falsch klassifikation. Offenbar verwendet das KNN oft sehr kleinteilige Details der Bilder zur Klassifikation, während sich Menschen eher an den Konturen eines Objektes orientie ren. Modifikationen dieser Art könnten auch in der Praxis missbraucht werden, z. B. für die Täuschung eines Gesichtserkennungssystems zur Zugangskontrolle. Das Problem sind offenbar Bilder, bei denen durch kleine Variationen sehr unter schiedliche Ausgaben erzeugt werden können. Reduziert man das Ausmaß der Ausga beänderungen bei kleinen Eingabeänderungen, so zeigen [32], dass dieses Vorgehen die Robustheit des Netzes stark erhöht und die Genauigkeit des Ausgangsnetzes nur minimal verringert. Wenn ein Modell zum Bestärkungslernen seine Eingaben in Form von Pixelbil dern erhält, so können diese Bilder ebenfalls unmerklich verändert werden, um das neuronale Netz zu täuschen, welches die Q-Funktion approximiert (Abschnitt 12.6.7). Tong Chen et al. [9] weisen darauf hin, dass die Bildeingabe durch minimale Änderun gen so modifiziert werden kann, dass die vom neuronalen Netz ausgegebene Aktion komplett geändert wird. Es gibt eine große Anzahl weiterer Strategien, um Modelle zum Bestärkungslernen zu stören, darunter auch Ansätze, bei denen die Modellar chitektur nicht bekannt sein muss. Durch diese Angriffe könnte also z. B. die Steue rung eines Roboters beeinflusst werden. Für insgesamt acht Angriffsmethoden unter suchen [9] die Wirksamkeit von 20 verschiedenen Abwehrstrategien. Es stellte sich heraus, dass es für die meisten Attacken wirksame Gegenmaßnahmen gibt. Zudem erfordern die meisten Angriffsmethoden den Zugang zu dem Modell. Blackbox-Atta cken sind selten und für den Angreifer sehr schwierig in der Praxis durchführbar. Die Autoren vermuten, dass wegen der verstärkten Forschungsaktivität in diesem Bereich in Zukunft sehr zuverlässige Systeme zum Bestärkungslernen verfügbar sein werden. 13.2.2.2 Adversariale Attacken auf die automatische Spracherkennung Auch im Bereich der Spracherkennung kann man durch gezielte kleine Änderungen von Eingaben erreichen, dass die erkannte Sprache massiv verändert wird. Ein be kannter Effekt ist beispielsweise, dass nach einem lauten Ton das Gehirn etwa 200 ms auf dieser Frequenz taub ist und keine weiteren Sprachsignale hören kann. Schönherr et al. [57] fügten dem Sprachsignal minimales Rauschen hinzu, welches für Menschen kaum wahrnehmbar ist. Hierdurch war es möglich, die Ausgabe des Spracherken nungssystems komplett zu ändern. Beispielsweise wurde die Spracheingabe „Specif ically the union said it was proposing to purchase all of the assets of the United Air lines including planes gates facilities and landing rights.” nach der Hinzufügung des unhörbaren Störsignals als der sicherheitskritische Befehl „Deactivate security cam era and unlock front door.” ausgegeben. Die Autoren verwenden dabei das aktuelle Spracherkennungssystem Kaldi als Angriffsziel und sind in bis zu 98 % der Fälle mit
590 | 13 Vertrauenswürdiges, transparentes und robustes Maschinelles Lernen
ihren Attacken erfolgreich. Durch Befragung von Benutzern ergab sich, dass keine der vorgenommenen Modifikationen für die Nutzer hörbar war. Die Attacken wurde als Whitebox-Attacken durchgeführt, bei dem das trainierte Spracherkennungsnetz Kaldi verfügbar war. Dies ist insbesondere bei vortrainierten Systemen aus der Public Domain der Fall. Schönherr et al. [57] diskutieren, ob es mög lich wäre, auch die Alexa-Spracherkennung zu täuschen. Sie sehen Anzeichen, dass Alexa Teile von Kaldi nutzt. Allerdings sind noch keine erfolgreichen Blackbox-Atta cken für die Spracherkennung publiziert worden.
13.2.3 Zusammenfassung Die Robustheit von Modellen kann durch unterschiedliche Faktoren beeinträchtigt werden. Der Effekt von Messfehlern in den Daten können u. a. durch Anreicherung der Daten teilweise ausgeglichen werden. Bei unzureichendem Modelltraining sollte eine adäquate Qualitätskontrolle helfen. Parallel lassen sich Verfahren zur Bestim mung der Prognoseunsicherheit nutzen. Andererseits können auch gezielte bösartige Modifikation die Prognosequalität beeinträchtigen. Es zeigt sich, dass schon teilweise unmerkliche Änderungen an den Eingabedaten die Prognose der Modelle vollständig ändern können. Dies liegt u. a. daran, dass neuronale Netze oft ganz andere Merkmale (z. B. Bildtexturen) zur Berechnung eines Ergebnisses nutzen als menschliche Exper ten. Die Abwehr adversarialer Attacken ist ein zentrales Thema der Forschung gewor den. Es gibt mittlerweile eine Reihe von Ansätzen zur Bekämpfung. Carlini et al. [6] geben einen Überblick über die zu erwartenden Angriffe und schlagen eine Methodo logie zur Evaluation vor. Sie sind vorsichtig optimistisch über den Erfolg der Maßnah men. Insgesamt ist die Sicherstellung der Robustheit und Verlässlichkeit von Model len des Maschinellen Lernens ein Prozess, der jedesmal beim Training und der An wendung der Modelle beachtet werden muss.
13.3 Diskussion und abschließende Bemerkungen Tiefe neuronale Netze haben in den letzten Jahren einen starken Aufschwung ge nommen und ermöglichen in vielen Bereichen innovative Problemlösungen (Ab schnitt 12.7), bei denen oft die Fähigkeiten von Menschen erreicht werden. Dieser Abschnitt hat das Ziel, einige damit zusammenhängende Fragen zu beantworten.
13.3 Diskussion und abschließende Bemerkungen | 591
13.3.1 Können tiefe neuronale Netze mit vielen Parametern zuverlässig trainiert werden? Maschinelle Lernverfahren versuchen, die Parameter eines Modells anhand von Trai ningsdaten dahingehend zu optimieren, dass Trainingseingaben möglichst fehlerfrei auf dazugehörige Trainingsausgaben abgebildet werden (Abschnitt 11.2.3). Dies ge schieht typischerweise, indem eine Fehler- oder Verlustfunktion minimiert wird. Ent scheidend ist allerdings, dass ein trainiertes Modell nicht nur auf den Trainingsdaten gute Ergebnisse liefert, sondern darüber hinaus auch gut generalisiert. Das heißt, auch für Eingabedaten, die im Training nicht gesehen wurden, muss ein trainiertes Modell sinnvolle bzw. verlässliche Ergebnisse erbringen, um überhaupt für den praktischen Einsatz geeignet zu sein. Eine zusätzliche Schwierigkeit bei der Minimierung der Ziel funktion ist, dass sie sehr viele lokale Minima haben kann, deren Verlustwert mög licherweise höher ist als beim globalen Minimum. Bei den vorwiegend verwendeten Gradientenverfahren kann man oft nicht garantieren, dass sie das globale Minimum erreichen. Da die Darstellungsmächtigkeit eines Modells nach der Vapnik-ChervonenkisTheorie [68] in den meisten Fällen nicht einfach berechnet werden kann, arbeitet man hier oft mit Daumenregeln. Die Widrows-Regel besagt beispielsweise, dass ein Modell mit n Parametern mit mindestens 10 ⋅ n Datenpunkten trainiert werden sollte, um sicherzugehen, dass es gut generalisiert [46]. Allerdings muss man bei komplexen Trainingsbeispielen, z. B. Bildern, berücksichtigen, dass deren Informationsgehalt wesentlich größer ist als ein Trainingsbeispiel aus wenigen Zahlen. Wie wir z. B. bei Faltungsmodellen der Bildverarbeitung (Abschnitt 12.3) gesehen haben, analysieren die Kerne einer Faltung kleinräumige Regionen einer Pixelmatrix und können so viele Informationen aus einem Bild verwenden. Um sicherzustellen, dass tiefe Netze mit vielen Millionen von Parametern die Trai ningsdaten nicht auswendig lernen, sollten sie also mit entsprechend vielen Beispie len trainiert werden. Nach dem Training kann man mit einer statistisch unabhängigen Testmenge, die nicht beim Training gebraucht wurde, die Prognoseleistung auf neuen Daten zuverlässig (d. h. konsistent) abschätzen. Auch wenn dies im Zeitalter von Big Data zunächst unproblematisch erscheint, gilt, dass nicht jeder über derart viele Trainingsdaten verfügt. In der Tat ist es auffällig, dass die wirklich aufsehenerregenden Erfolge tiefer neuronaler Netze etwa in der Bild- und Spracherkennung oft aus der industriellen Forschung stammen, d. h. von IT-Unternehmen erzielt werden, die dafür berühmt oder berüchtigt sind, massiv Daten zu sammeln. Wenn allerdings viele Wissenschaftler mit dem gleichen großen Benchmark-Datensatz arbeiten, so wird die Testmenge mehrfach evaluiert und die Re sultate fließen in die Modellformulierung ein. So kann es vorkommen, dass ein Test auf Benchmark-Daten nicht mehr unbedingt aussagekräftig ist. In letzter Zeit wurden einige theoretische Untersuchungen zur Generalisierungs fähigkeit tiefer neuronaler Netze publiziert (Abschnitt 11.6.4). Es wurde z. B. gezeigt [1],
592 | 13 Vertrauenswürdiges, transparentes und robustes Maschinelles Lernen
dass funktionale Zusammenhänge, die durch KNN mit bis zu drei Ebenen ausgedrückt werden, effizient durch überparametrisierte neuronale Netze mit drei Ebenen und ReLU-Aktivierungen mithilfe von stochastischem Gradientenabstieg (SGD) gelernt werden können. Das Verfahren bleibt also nicht in lokalen Minima stecken und hat eine gute Generalisierungsfähigkeit. Eine Möglichkeit, die Generalisierungsfähigkeit eines Modells auch bei wenigen Trainingsdaten zu erhöhen, besteht darin, die Frei heitsgrade des Modells künstlich zu beschneiden bzw. das Modell zu regularisieren (Abschnitt 11.3.5). Haeffele et al. [28] beweisen, dass bei einer guten Regularisierung die lokalen Minima eines KNN auch globale Minima sind. Andere Ansätze zur Regu larisierung schlagen vor, die Trainingsdaten zu verrauschen [72] oder alle Parameter zufällig zu initialisieren und nur einen Bruchteil der Parameter des Modells zu opti mieren [53]. Insgesamt gibt es also wachsende Hinweise darauf, dass große, auch überpara metrisierte tiefe neuronale Netze durchaus trainiert werden können. Ob sie die ulti mative Lösung für alle Probleme der KI sind ist unklar: Es kann durchaus sein, dass in Zukunft adäquatere Modelle für die Darstellung von Zusammenhängen gefunden werden.
13.3.2 Welche Merkmale werden von tiefen neuronalen Netzen verwendet? Einer der Vorteile eines KNN ist, dass der Anwender nicht – wie bei den meisten klassi schen Verfahren des Maschinellen Lernens – geeignete Merkmale konstruieren muss, um eine gute Generalisierung zu erreichen. Allerdings weiß der Anwender nach dem Training nicht, welche Merkmale das KNN intern gebildet hat. Durch die Erfolge ad versarialer Attacken auf KNN ist mittlerweile klar geworden (Abschnitt 13.2.2.1), dass KNN oft komplett andere Eigenschaften als Menschen verwenden, um z. B. Objekte in Bildern zu erkennen. Diese bestehen oft in texturellen Eigenschaften, die zwar auf der Testmenge zu einer zuverlässigen Klassifikation führen, deren Modifikation vom Menschen aber nicht erkannt werden. Auf diese Weise können KNN gezielt in die Irre geführt werden [49] und liefern schon bei minimalen Änderungen der Eingabe uner wünschte Ergebnisse [61]. Im Gegensatz zur Bild- und Spracherkennung sind bei der Verarbeitung von Texten adversariale Modelle keine Gefahr, denn kleine Veränderun gen im Text werden von den meisten Nutzern schnell erkannt. Eine wichtige Hilfe kön nen Methoden zur Erklärung der KNN-Ausgaben sein (Abschnitt 13.1), die derzeit ein aktuelles Forschungsthema sind [34]. Insgesamt wäre es wünschenswert, wenn KNN ähnliche Merkmale wie Menschen verwenden würden; dies würde auch die Interpre tierbarkeit der Modellergebnisse verbessern und möglicherweise die Gefahr adversa rialer Angriffe verringern. Eine theoretisch fundierte Auflösung dieser Probleme steht noch aus [7].
13.3 Diskussion und abschließende Bemerkungen | 593
Abb. 13.8: Unterschiedliche Trainingsbeispiele bei der feingranularen Bildklassifikation iNaturals mit über 5.000 Kategorien [67]. Durch Transferlernen unter Verwendung von ImageNet ergab sich eine wesentlich bessere Klassifikationsgenauigkeit
13.3.3 Müssen tiefe neuronale Netze jedesmal alles neu lernen? Die meisten KNN werden heute für eine spezielle Aufgabe verwendet: Sie werden auf einer Trainingsmenge trainiert und sind für das entsprechende Lernproblem einsetz bar. Versucht man, das vortrainierte KNN für eine andere, ähnliche Aufgabe zu trainie ren, so werden meist die aus dem ersten Training gewonnen Zusammenhänge zuguns ten der neuen Relationen überschrieben. Dies wird auch als katastrophales Vergessen bezeichnet. Dabei wurde schon früh erkannt [65], dass sog. lebenslanges Lernen eine viel bes sere Lernstrategie wäre. Mittlerweile gibt es Beispiele von KNN, bei denen ein solches Transferlernen erfolgreich durchgeführt wurde. Hierbei wird zunächst ein Modell mit sehr umfangreichen Trainingsdaten für ein unüberwachtes Lernproblem trainiert. An schließend wird das Modell für ein leicht verändertes Problem weiter trainiert, wobei idealerweise nur noch wenige zusätzliche Daten erforderlich sind. Die Ergebnisse aus dem Training mit ImageNet (Abschnitt 12.7) konnten [14] nutzen und auf dem relativ kleinen Datenbestand iNaturals mit über 5.000 Kategorien aus den Bereichen Pflan zen, Vögel etc. mit geringem Trainingsaufwand einen Top-5-Fehler von 5,4 % erreichen (Abbildung 13.8). Das KNN hat durch ImageNet die grundlegenden Erkennungsmerk male von Objekten in Fotos erlernt und konnte dadurch den neuen Trainingsdatenbe stand wesentlich schneller erfassen. Besonders erfolgreich ist aber Transferlernen mit KNN auf textuellen Daten. Wie die Verwendung von BERT (Abschnitt 12.4.11) zeigt, kann ein großes Modell mit Milliar den Parametern sehr viele Regelmäßigkeiten der Sprache erlernen, indem es für eine große Trainingsmenge fehlende Worte in einem Text prognostiziert oder entscheidet,
594 | 13 Vertrauenswürdiges, transparentes und robustes Maschinelles Lernen
ob ein zweiter Satz inhaltlich auf den ersten folgt. Anschließend kann dieses KNN in einem zweiten kurzen Trainingslauf an eine neue Aufgabe angepasst werden, z. B. die Beantwortung von Fragen, die Prüfung, ob der erste Satz einen zweiten logisch impli ziert oder ob die in einem Satz ausgedrückte Stimmung positiv ist. Offenbar hat das Modell syntaktische und semantische Zusammenhänge der Sprache gut erfasst, so dass dieses Vorgehen die Performanz auf ganz vielen semantischen Aufgaben stark erhöht hat, und oft sogar zu besseren Ergebnissen als bei Menschen führt. Das gleiche Vorgehen kann man auch auf andere Medien anwenden. Beispielswei se kann man die nächsten Bilder eines Videos prognostizieren und damit viel über die Bewegung und inhaltliche Beziehung von Menschen und Objekten lernen. Dies wird von [10] demonstriert, die nach der Analyse von Videodaten sogar neue Videos durch adversariale Netze generieren.
13.3.4 Können künstliche neuronale Netze Weltwissen erwerben? In der langen Tradition der KI wurden Fakten über den Alltag – wie etwa „Feuer ist heiss“ – als Weltwissen bezeichnet. Dieses Wissen kann bei fast allen Menschen vor ausgesetzt werden. Es wurde klar, dass derartiges Wissen bei der Lösung nahezu aller Probleme erforderlich ist. Andererseits war unklar, wie man KI-Systeme mit umfang reichem Weltwissen ausstatten könnte. Die Erfolge im Bereich der Sprachmodelle verdeutlicht, dass KNN mittlerweile ein sehr großes Wissen über die Welt anhäufen können. GPT2 (Abschnitt 12.4.12) ist in der Lage, einen Anfangssatz konsistent fortzusetzen und dabei viele zusammenhängende Fakten zu dem Thema aus den sehr großen Trainingsdaten „kreativ“ zu reproduzieren. Modelle wie BERT (Abschnitt 12.4.11) und neuerdings Turing-NLG (Abschnitt 12.7) kön nen semantische Aufgaben lösen, die viel Weltwissen erfordern. In Einzelfällen kann Turing-NLG auch direkt auf Fragen in einem korrekten Satz antworten, ohne vorher zusätzliche Informationen über das Themengebiet zu erhalten (zero-shot learning). Wichtig ist, dass die Inhalte dieses Weltwissens nicht zuvor explizit als Fakten und Regeln codiert und in das KNN eingegeben wurden, sondern selbsttätig vom KNN aus dem laufenden Text des riesigen Trainingsdatensatzes extrahiert wurden. Eine detail lierte Diskussion dieser Thematik findet sich in Paaß und Hecker [47].
13.3.5 Wie kann man vertrauenswürdige, transparente und robuste KNN sicherstellen? Die in diesem Kapitel angesprochenen Probleme und Lösungen bei der Erklärbar keit (Abschnitt 13.1) sowie der Robustheit und Sicherheit (Abschnitt 13.2) erfordern vielfältige wissenschaftliche Fortschritte. Eine Idee, die dabei verstärkt betrachtet wird, besteht darin, daten- und wissensgetriebene Ansätze der KI zu kombinieren
Literaturverzeichnis
| 595
(Abschnitt 11.4.4.5) und so vorgegebene Zusammenhänge explizit zu berücksichtigen. Auch wenn dies keine revolutionär neue Idee ist [62], sind hier beim heutigen Stand der Kunst neue Lösungen denkbar [4]. Intelligenz erfordert nicht nur die Erkennung von Mustern, sondern benötigt auch die Planung, die Simulation von unterschiedlichen Alternativen und die Manipulati on von abstrakten semantischen Konzepten. Dies sollte mit einer Integration der Sen sorik und der Ausführung, wie sie heute bei neuronalen Modellen zur Mustererken nung und zum Bestärkungslernen in Teilen verwendet wird, einhergehen. Die Grund lage hierzu könnten Embeddings sein, welche derzeit die Inhalte in tiefen neurona len Netzen repräsentieren. Zwar befinden sich aktuelle Entwicklungen zum informed machine learning noch in der Anfangsphase, lassen aber bereits deutliches Potenzial erkennen und versprechen neue Zugänge zum sowie neue praktische Anwendungs möglichkeiten des Maschinellen Lernens [55]. Darüber hinaus ist abzusehen, dass KNN und Systeme der KI in Zukunft in vielen sicherheits- und systemkritischen Bereichen eingesetzt werden. Ein einmal trainier tes neuronal Netz ist im Wesentlichen eine Blackbox. Auch wenn mathematisch gut verstanden ist, wie Training und Entscheidungsfindung algorithmisch funktionieren, sind selbst Expertinnen und Experten oft nicht in der Lage, im Einzelnen nachzuvoll ziehen, an welcher Stelle welche Berechnung eines neuronalen Netzes dazu geführt hat, dass seine Ausgabe ist wie sie ist (Abschnitt 13.1). Dies kann kritische Implikatio nen haben, denn in einigen Anwendungsbereichen, etwa im Bankenwesen oder bei der Steuerung von Industrieanlagen, ist gesetzlich vorgeschrieben, dass die Ausga ben von automatischen Entscheidungsunterstützungsverfahren erklärbar und nach vollziehbar sein müssen. Daher wird für derartige Systeme vorgeschlagen, eine Zertifizierung von Künstli cher Intelligenz zu entwickeln [13]. Da auch die EU in ihrem KI-Weißbuch ähnliche Ziele verfolgt [66], ist abzusehen, dass in Zukunft wichtige Systeme der KI einer syste matischen Prüfung unterzogen werden.
Literaturverzeichnis [1]
Allen-Zhu, Z., Li, Y. und Liang, Y. Learning and generalization in overparameterized neural networks, going beyond two layers. In Advances in neural information processing systems, S. 6155–6166, 2019.
[2]
Andrews, R., Diederich, J. und Tickle, A. B. Survey and critique of techniques for extracting rules from trained artificial neural networks. Knowledge-Based Systems, 8(6):373–389, 1995.
[3]
Bach, S., Binder, A., Montavon, G., Klauschen, F., Müller, K. R. und Samek, W. On Pixel-Wise Explanations for Non-Linear Classifier Decisions by Layer-Wise Relevance Propagation. PLoS ONE, 10(7):e0130140, 2015.
[4]
Bauckhage, C., Ojeda, C., Schücker, J., Sifa, R. und Wrobel, S. Informed Machine Learning Through Functional Composition. In LWDA, S. 33–37, 2018.
596 | 13 Vertrauenswürdiges, transparentes und robustes Maschinelles Lernen
[5]
[6]
[7] [8]
[9] [10] [11] [12]
[13]
[14]
[15] [16] [17]
[18] [19] [20] [21] [22] [23] [24] [25]
Bibal, A. und Frénay, B. Interpretability of Machine Learning Models and Representations: an Introduction. In Proceedings of the 24th European Symposium on Artificial Neural Networks (ESANN), S. 77–82, 2016. Carlini, N., Athalye, A., Papernot, N., Brendel, W., Rauber, J., Tsipras, D., Goodfellow, I., Madry, A. und Kurakin, A. On evaluating adversarial robustness. arXiv preprint ar Xiv:1902.06705, 2019. Chakraborty, A., Alam, M., Dey, V., Chattopadhyay, A. und Mukhopadhyay, D. Adversarial at tacks and defences: A survey. arXiv preprint arXiv:1810.00069, 2018. Chen, S. J., Subramanian, A. S., Xu, H. und Watanabe, S. Building state-of-the-art distant speech recognition using the CHiME-4 challenge with a setup of speech enhancement base line. In Interspeech 2018: 1571-1575, 2018. Chen, T., Liu, J., Xiang, Y., Niu, W., Tong, E. und Han, Z. Adversarial attack and defense in rein forcement learning-from AI security view. Cybersecurity, 2(1):11, 2019. Clark, A., Donahue, J. und Simonyan, K. Adversarial video generation on complex datasets. arXiv preprint arXiv:1907.06571, 2019. Committee, I. C. S. S. E. T. IEEE standard glossary of software engineering terminology. For schungsbericht, Institute of Electrical and Electronics Engineers, 1983. Cormode, G., Jha, S., Kulkarni, T., Li, N., Srivastava, D. und Wang, T. Privacy at scale: Local dif ferential privacy in practice. In Proceedings of the 2018 International Conference on Manage ment of Data, S. 1655–1658, 2018. Cremers, A. B., Englander, A., Gabriel, M., Hecker, D., Mock, M., Poretschkin, M., Rosen zweig, J., Rostalski, F., Sicking, J., Volmer, J., Voosholz, J., Voss, A. und Wrobel, S. Vertrau enswürdiger Einsatz von Künstlicher Intelligenz, 2019. Cui, Y., Song, Y., Sun, C., Howard, A. und Belongie, S. Large scale fine-grained categorization and domain-specific transfer learning. In Proceedings of the IEEE conference on computer vi sion and pattern recognition, S. 4109–4118, 2018. Di Mattia, F., Galeone, P., De Simoni, M. und Ghelfi, E. A survey on gans for anomaly detection. arXiv preprint arXiv:1906.11632, 2019. Dreyfus, H. L. und Dreyfus, S. E. What Artificial Experts Can and Cannot Do. AI & Society, 6:18–26, 1992. Eykholt, K., Evtimov, I., Fernandes, E., Li, B., Rahmati, A., Xiao, C., Prakash, A., Kohno, T. und Song, D. Robust Physical-World Attacks on Deep Learning Visual Classification. In Conference on Computer Vision and Pattern Recognition, CVPR 2018, S. 1625–1634. IEEE Computer Society, 2018. Fayyad, U. M., Piatetsky-Shapiro, G. und Smyth, P. From Data Mining to Knowledge Discovery in Databases. AI Magazine, 17(3):37–54, Fall 1996. Freitas, A. A. Comprehensible Classification Models: A Position Paper. ACM SIGKDD Explorati ons, 15(1):1–10, 2014. Fürnkranz, J., Kliegr, T. und Paulheim, H. On Cognitive Preferences and the Plausibility of Rulebased Models. Machine Learning, 109(4):853–898, 2020. Gal, Y. Uncertainty in deep learning. PhD thesis, University of Cambridge, 2016. Goodfellow, I., Bengio, Y. und Courville, A. Deep Learning - Adaptive Computation and Machine Learning. The MIT Press, 2016. Goodman, B. und Flaxman, S. R. European Union Regulations on Algorithmic Decision-Making and a "Right to Explanation". AI Magazine, 38(3):50–57, 2017. arXiv preprint arXiv:1606.08813. Guidotti, R., Monreale, A., Ruggieri, S., Pedreschi, D., Turini, F. und Giannotti, F. Local RuleBased Explanations of Black Box Decision Systems. arXiv preprint arXiv:1805.10820, 2018. Gurevych, I., Meyer, C. M., Binnig, C., Fürnkranz, J., Kersting, K., Roth, S. und Simpson, E. Inter active Data Analytics for the Humanities. In Gelbukh, A. (Hrsg.), Proceedings of the 18th Inter
Literaturverzeichnis
[26] [27] [28] [29]
[30] [31]
[32]
[33]
[34] [35] [36]
[37] [38] [39]
[40]
[41] [42] [43] [44]
| 597
national Conference on Computational Linguistics and Intelligent Text Processing (CICLing-17), Band 10761 von Lecture Notes in Computer Science, S. 527–549, Budapest, Hungary, 2018. Springer-Verlag. Guyon, I. und Elisseeff, A. An Introduction to Variable and Feature Selection. Journal of Ma chine Learning Research, 3:1157–1182, 2003. Gwern. The Neural Net Tank Urban Legend. https://www.gwern.net/Tanks, 2011. Haeffele, B. D. und Vidal, R. Global optimality in tensor factorization, deep learning, and be yond. arXiv preprint arXiv:1506.07540, 2015. Hendrycks, D. und Dietterich, T. G. Benchmarking Neural Network Robustness to Common Cor ruptions and Perturbations. In International Conference on Learning Representations, ICLR 2019, 2019. Hernández-Orallo, J. The Measure of All Minds – Evaluating Natural and Artificial Intelligence. Cambridge University Press, 2017. Hossain, M. T., Teng, S. W., Zhang, D., Lim, S. und Lu, G. Distortion Robust Image Classification Using Deep Convolutional Neural Network with Discrete Cosine Transform. In International Conference on Image Processing, ICIP 2019, S. 659–663. IEEE, 2019. Jakubovitz, D. und Giryes, R. Improving DNN Robustness to Adversarial Attacks Using Jacobian Regularization. In Ferrari, V., Hebert, M., Sminchisescu, C. und Weiss, Y. (Hrsg.), Computer Vision - ECCV 2018 - 15th European Conference, Band 11216 von Lecture Notes in Computer Science, S. 525–541. Springer, 2018. Johnson-Laird, P. N. Comprehension as the Construction of Mental Models. Philosophical Transactions of the Royal Society of London. Series B, Biological Sciences, 295(1077):353–374, 1981. Kauffmann, J., Müller, K. R. und Montavon, G. Towards explaining anomalies: a deep Taylor decomposition of one-class models. Pattern Recognition, S. 107198, 2020. Krishnan, M. Against Interpretability: A Critical Examination of the Interpretability Problem in Machine Learning. Philosophy & Technology, 2019. Lapuschkin, S., Wäldchen, S., Binder, A., Montavon, G., Samek, W. und Müller, K. Unmasking Clever Hans Predictors and Assessing What Machines Really Learn. Nature Communications, 10(1096), 2019. Lipton, Z. C. The Mythos of Model Interpretability. Communications of the ACM, 61(10):36–43, 2018. Liu, F. T., Ting, K. M. und Zhou, Z. H. Isolation forest. In 2008 Eighth IEEE International Confer ence on Data Mining, S. 413–422. IEEE, 2008. Lundberg, S. M. und Lee, S. A Unified Approach to Interpreting Model Predictions. In Guyon, I., von Luxburg, U., Bengio, S., Wallach, H. M., Fergus, R., Vishwanathan, S. V. N. und Garnett, R. (Hrsg.), Advances in Neural Information Processing Systems 30, S. 4765–4774, Long Beach, CA, USA, 2017. Mangal, R., Nori, A. V. und Orso, A. Robustness of neural networks: a probabilistic and practical approach. In Sarma, A. und Murta, L. (Hrsg.), International Conference on Software Enginee ring: New Ideas and Emerging Results, ICSE (NIER) 2019, S. 93–96. IEEE / ACM, 2019. Michalski, R. S. A Theory and Methodology of Inductive Learning. Artificial Intelligence, 20(2):111–162, 1983. Michie, D. Machine learning in the next five years. In Proceedings of the 3rd European Working Session on Learning (EWSL-88), S. 107–122. Pitman, 1988. Miller, T. Explanation in artificial intelligence: Insights from the social sciences. Artificial Intel ligence, 267:1–38, 2019. Molnar, C. Interpretable Machine Learning – A Guide for Making Black Box Models Explainable. http://christophm.github.io/interpretable-ml-book/, 2019.
598 | 13 Vertrauenswürdiges, transparentes und robustes Maschinelles Lernen
[45] Montavon, G., Binder, A., Lapuschkin, S., Samek, W. und Müller, K. Layer-Wise Relevance Pro pagation: An Overview. In Samek, W., Montavon, G., Vedaldi, A., Hansen, L. K. und Müller, K. (Hrsg.), Explainable AI: Interpreting, Explaining and Visualizing Deep Learning, S. 193–209. Springer, 2019. [46] Morgan, N. und Bourlard, H. Generalization and parameter estimation in feedforward nets: Some experiments. In Advances in neural information processing systems, S. 630–637, 1990. [47] Paaß, G. und Hecker, D. Künstliche Intelligenz – Was steckt hinter der Technologie der Zukunft? Springer, 2020. [48] Pfungst, O. Das Pferd des Herrn von Osten (Der Kluge Hans). Ein Beitrag zur experimentellen Tier- und Menschen-Psychologie. Verlag von Johann Ambrosius Barth, Leipzig, 1907. [49] Pitropakis, N., Panaousis, E., Giannetsos, T., Anastasiadis, E. und Loukas, G. A taxonomy and survey of attacks against machine learning. Computer Science Review, 34:100199, 2019. [50] Rabold, J., Siebers, M. und Schmid, U. Explaining Black-Box Classifiers with ILP - Empowe ring LIME with Aleph to Approximate Non-linear Decisions with Relational Rules. In Riguzzi, F., Bellodi, E. und Zese, R. (Hrsg.), Proceedings of the 28th International Conference on Inductive Logic Programming (ILP), S. 105–117, Ferrara, Italy, 2018. Springer. [51] Ribeiro, M. T., Singh, S. und Guestrin, C. “Why Should I Trust You?”: Explaining the Predictions of Any Classifier. In Krishnapuram, B., Shah, M., Smola, A. J., Aggarwal, C. C., Shen, D. und Rastogi, R. (Hrsg.), Proceedings of the 22nd ACM SIGKDD International Conference on Know ledge Discovery and Data Mining (KDD), S. 1135–1144, San Francisco, CA, USA, 2016. ACM. [52] Ritter, A., Clark, S., Mausam und Etzioni, O. Named Entity Recognition in Tweets: An Experi mental Study. In EMNLP 2011, S. 1524–1534. ACL, 2011. [53] Rosenfeld, A. und Tsotsos, J. K. Intriguing properties of randomly weighted networks: Gener alizing while learning next to nothing. In 2019 16th Conference on Computer and Robot Vision (CRV), S. 9–16. IEEE, 2019. [54] Rousseeuw, P. J. und Leroy, A. M. Robust regression and outlier detection, Band 589. John wiley & sons, 2005. [55] von Rueden, L., Mayer, S., Garcke, J., Bauckhage, C. und Schuecker, J. Informed machine learn ing – towards a taxonomy of explicit integration of knowledge into machine learning. arXiv preprint arXiv:1903.12394, 2019. [56] Samek, W., Montavon, G., Vedaldi, A., Hansen, L. K. und Müller, K. (Hrsg.). Explainable AI: Inter preting, Explaining and Visualizing Deep Learning, Band 11700 von Lecture Notes in Computer Science. Springer, 2019. [57] Schönherr, L., Kohls, K., Zeiler, S., Holz, T. und Kolossa, D. Adversarial Attacks Against Auto matic Speech Recognition Systems via Psychoacoustic Hiding. In 26th Annual Network and Distributed System Security Symposium, NDSS 2019. The Internet Society, 2019. [58] Simonyan, K., Vedaldi, A. und Zisserman, A. Deep Inside Convolutional Networks: Visualising Image Classification Models and Saliency Maps. In Bengio, Y. und LeCun, Y. (Hrsg.), Proceed ings of the 2nd International Conference on Learning Representations (ICLR), Workshop Track, Banff, Canada, 2014. [59] Sokol, K. und Flach, P. One Explanation Does Not Fit All – The Promise of Interactive Explanati ons for Machine Learning Transparency. Künstliche Intelligenz, 34(2):235–250, 2020. [60] Stecher, J., Janssen, F. und Fürnkranz, J. Shorter Rules Are Better, Aren’t They? In Calders, T., Ceci, M. und Malerba, D. (Hrsg.), Proceedings of the 19th International Conference on Discovery Science (DS-16), S. 279–294. Springer-Verlag, 2016. [61] Su, J., Vargas, D. V. und Sakurai, K. One pixel attack for fooling deep neural networks. IEEE Transactions on Evolutionary Computation, 23(5):828–841, 2019. [62] Sun, R. An introduction to hybrid connectionist-symbolic models. In Sun, R. und Alexandre, F. (Hrsg.), Connectionist-Symbolic Integration, S. 1–10. Lawrence-Erlbaum Associates, 1997.
Literaturverzeichnis
| 599
[63] Szegedy, C., Zaremba, W., Sutskever, I., Bruna, J., Erhan, D., Goodfellow, I. J. und Fergus, R. Intriguing properties of neural networks. In Bengio, Y. und LeCun, Y. (Hrsg.), International Con ference on Learning Representations, ICLR 2014, 2014. [64] Teso, S. und Kersting, K. Explanatory Interactive Machine Learning. In Conitzer, V., Had field, G. K. und Vallor, S. (Hrsg.), Proceedings of the 2019 AAAI/ACM Conference on AI, Ethics, and Society (AIES), S. 239–245, Honolulu, HI, 2019. ACM. [65] Thrun, S. Lifelong learning algorithms. In Learning to learn, S. 181–209. Springer, 1998. [66] Union, E. WEISSBUCH Zur Künstlichen Intelligenz – ein europäisches Konzept für Exzellenz und Vertrauen, 2020. [67] Van Horn, G., Mac Aodha, O., Song, Y., Cui, Y., Sun, C., Shepard, A., Adam, H., Perona, P. und Belongie, S. The inaturalist species classification and detection dataset. In Proceedings of the IEEE conference on computer vision and pattern recognition, S. 8769–8778, 2018. [68] Vapnik, V. und Chervonenkis, A. Y. On the Uniform Convergence of Relative Frequencies of Events to Their Probabilities. Theory of Probability & Its Applications, 16(2):264–280, 1971. [69] Vincent, E., Watanabe, S., Nugraha, A. A., Barker, J. und Marxer, R. An analysis of environment, microphone and data simulation mismatches in robust speech recognition. Computer Speech and Language, 46:535–557, 2017. [70] Wang, T., Rudin, C., Doshi-Velez, F., Liu, Y., Klampfl, E. und MacNeille, P. A Bayesian Framework for Learning Rule Sets for Interpretable Classification. Journal of Machine Learning Research, 18:70:1–70:37, 2017. [71] Xiao, C., Li, B., Zhu, J., He, W., Liu, M. und Song, D. Generating Adversarial Examples with Ad versarial Networks. In Lang, J. (Hrsg.), International Joint Conference on Artificial Intelligence, IJCAI 2018, S. 3905–3911. ijcai.org, 2018. [72] Zhang, C., Bengio, S., Hardt, M., Recht, B. und Vinyals, O. Understanding deep learning re quires rethinking generalization. Proc. International Conference on Learning Representations (ICLR), 2016. [73] Zhang, Z., Geiger, J. T., Pohjalainen, J., Mousa, A. E., Jin, W. und Schuller, B. W. Deep Learning for Environmentally Robust Speech Recognition: An Overview of Recent Developments. ACM Transactions on Intelligent Systems and Technology (TIST), 9(5):49:1–49:28, 2018.
14 Sprachverarbeitung Wolfgang Menzel Die maschinelle Sprachverarbeitung hat sich in den letzten Jahren im Hinblick auf ihre Ziele, Aufgaben und Methoden zu einem stark ausdifferenzierten Fachgebiet ent wickelt. Daher kann hier nur ein grober Überblick über die spezifischen Problemstel lungen und Lösungsansätze der Sprachverarbeitung gegeben werden, um ihre Quer beziehungen zu den anderen Teilbereichen der KI aufzuzeigen. Für eine grundlegen de Einführung in die Methodik des Gebietes müssen dann spezialisierte Lehrbücher herangezogen werden, z. B. [46; 57; 71; 101] oder [28]. In ihnen werden die hier vor gestellten Ansätze in einer Tiefe behandelt, die in dem hier gegebenen Rahmen nicht erreicht werden kann.
14.1 Sprache und sprachliche Beschreibungsebenen Sprache und Denken sind zwei eng miteinander verzahnte Bereiche der menschlichen Kognition. Sprache ist schon wegen ihrer singulären Rolle als universelles Kommu nikations- und Speichermedium eine fundamentale Voraussetzung für praktisch al le Prozesse der sozialen Interaktion, der kollektiven Erkenntnisgewinnung und der Wissensvermittlung. Darüber hinaus ist der Gebrauch von Sprache selbst eine Form ziel- und interessegeleiteten Handelns und ordnet sich somit nahtlos in das breite Spektrum menschlicher Intelligenzleistungen ein. Die enge Verquickung zeigt sich nicht nur im intersubjektiven Bereich, sondern auch beim Individuum selbst. So fin den mentale Abläufe ihren Reflex oftmals im sprachlichen Ausdruck und gleichzeitig wächst die Erkenntnis auch bei der Arbeit an der sprachlichen Formulierung. Wenn gleich im Extremfall auch erhebliche Dissoziationen zwischen Sprachbeherrschung und allgemeiner Intelligenz beobachtet werden können, so entwickeln sich doch Spra che und Intelligenz in einer engen Wechselwirkung: Spracherwerb kommt einerseits ohne ein Minimum an kognitiven Fähigkeiten nicht aus, ist andererseits aber auch Vorbedingung für deutliche Fortschritte in der allgemeinen Intelligenzentwicklung. Wichtige kognitive Leistungen wie Kategorisierung, Benennung und Abstraktion sind so nur schwer von einer hinreichenden Sprachbeherrschung zu trennen [157]. Angesichts dessen darf es nicht verwundern, dass sich zwischen sprachlichen Einheiten und kognitiven Kategorien ein weitgehend systematisches, wenngleich auch in vielen Fällen nicht eineindeutiges Abbildungsverhältnis herausgebildet hat. Dieser Zusammenhang wird von uns gemeinhin als so selbstverständlich betrach tet, dass wir für viele Zwecke die sprachliche Form als identisch mit dem durch sie bezeichneten Konzept ansehen können (z. B. im Falle der Wörter Mensch, essen und waagerecht). Eine genauere Kennzeichnung wird meist erst dann erforderlich, wenn unterschiedliche semantische Lesarten einer Form betrachtet werden. Man https://doi.org/10.1515/9783110659948-014
602 | 14 Sprachverarbeitung
unterscheidet dann etwa Fälle von Homonymie (zufälliger Formzusammenfall) und Polysemie (aus einer Kernbedeutung abgeleitete Bedeutungsvarianten), z. B. Homonymie
Hahn
männliches Huhn vs. Absperrventil
Polysemie
Schule
Institution vs. Gebäude vs. organisatorischer Ablauf
Eine genauere Differenzierung ist oftmals auch dann erforderlich, wenn Unterschie de in der Konzeptualisierung in verschiedenen Sprachen hervorgehoben werden sol len. So steht dem deutschen Begriff „Sprache“ im Englischen die Differenzierung in „speech“ und „language“ gegenüber. Über große Bereiche der Sprache hinweg kann man jedoch einen weitgehend sys tematischen Zusammenhang zwischen mentalen Konzepten und ihrer sprachlichen Beschreibung beobachten. Gerade wegen dieser systematischen Bezüge dient uns Sprache als wichtiges Fenster auf die nicht direkt beobachtbaren kognitiven Prozes se der kategorialen Wahrnehmung, der Wissensstrukturierung, des Wissenserwerbs und des Schlussfolgerns. Hinzu kommt, dass Sprachbeherrschung auf dem durch den Menschen hervorgebrachten Niveau im Vergleich zu anderen Intelligenzleistun gen (z. B. visuelle Wahrnehmung, räumliche Orientierung, Handlungsplanung usw.) eine spezifisch menschliche Fähigkeit darstellt, die in der sonstigen Biosphäre kein wirkliches Äquivalent kennt. Betrachtet man sprachliche Äußerungen im Detail, so lassen sich in ihnen eine Reihe von elementaren Einheiten identifizieren, aus denen sich sukzessiv komple xere Konstruktionen ergeben. Beispiele hierfür sind etwa der Laut (Phon), die Silbe, die Wortform, der Satz und der Diskurs. Die Wahl dieser Einheiten ist nicht unabhän gig von ihrem Verwendungszweck, und so stehen Repräsentationen für gesprochene Sprache gleichberechtigt neben solchen für Schriftsprache. Zudem ist in einigen Fäl len eine systematische Einordnung in die genannten Kategorien nicht immer intuitiv klar¹ und teilweise durchaus auch noch umstritten. Orthogonal zu dieser hierarchischen Aggregation kann man drei Untersuchungs perspektiven ausmachen, aus denen sich die verschiedenen linguistischen Einheiten analysieren lassen. Dabei handelt es sich neben (a) der Form einer linguistischen Kon struktion (Syntax) um ihre (b) durch das Sprachsystem vermittelte Bedeutung (Seman tik) und (c) die Funktion der Äußerung im kommunikativen Zusammenhang (Pragma tik). Unter dem Formaspekt betrachtet, setzt sich der Satz Ist das Fenster offen? aus vier Wortformen zusammen, die sich weiter in bedeutungsrelevante Einheiten dekompo nieren lassen. Zusätzlich ist er durch das Interpunktionszeichen und die Anordnung der Satzbestandteile eindeutig als Interrogativkonstruktion gekennzeichnet. Seine
1 Was sind die Wörter in dem Satz „Beim Ein- und Ausschalten tritt unter Umständen Gas aus.“?
14.1 Sprache und sprachliche Beschreibungsebenen | 603
Bedeutung besteht in einer Entscheidungsfrage über den Zustand eines Fensters, das in einem bestimmten Referenzkontext eindeutig identifizierbar sein muss (vgl. etwa den Gegensatz zu Ist ein Fenster offen?). Hinsichtlich seiner Funktion in einem kom munikativen Zusammenhang kann er sowohl als neutrales Informationsbegehren, als Aufforderung zur Verifikation einer Vermutung, aber auch als Vorwurf bzw. Hand lungsaufforderung verstanden werden. In all diesen Fällen sind dann jeweils andere Reaktionen des Hörers angemessen (Tabelle 14.1). Tab. 14.1: Kommunikative Funktionen für eine natürlichsprachliche Äußerung Äußerung Ist das Fenster offen?
Kommunikative Funktion
Angemessene Reaktion
Neutrales Informationsbegehren
Ja, es ist offen.
Verifikation einer Vermutung
Zieht es etwa?
Vorwurf/Handlungsaufforderung
Ich mach es ja schon zu!
Formaspekte finden sich auf allen Aggregationsebenen der Sprache. So beschreibt die Phono- bzw. Grafotaktik die Möglichkeiten sequenzieller Laut- bzw. Buchstabenver knüpfungen zu Sprech- bzw. Schreibsilben, die Morphotaktik widmet sich dem inne ren Aufbau der Wortformen und die (Satz-)Syntax schließlich untersucht die Regula ritäten der Satzbildung. Bedeutungskonstituierende Elemente treten erst ab der Ebene der Wortbildung in Erscheinung. Ausgehend von der Annahme eines Kompositionalitätsprinzips wird hier untersucht, wie sich die Bedeutung komplexer sprachlicher Konstruktionen aus der Bedeutung ihrer jeweiligen Bestandteile zusammensetzt. Dementsprechend un terscheidet man: – Lexikalische Semantik: Was ist der Bedeutungsbeitrag einer lexikalischen Ein heit? – Morphosemantik: Welchen Veränderungen unterliegt Bedeutung im Zusammen hang mit Wortbildungsprozessen? – Satzsemantik: Wie setzt sich die Bedeutung eines Satzes aus der Bedeutung seiner Bestandteile zusammen? – Diskurssemantik: Welche Mechanismen etablieren die satzübergreifenden Be deutungsaspekte in monologischen oder dialogischen Kommunikationshand lungen. Wesentlich ist dabei, dass – in die Bedeutung einer Äußerung sowohl sprachliche als auch außersprachliche Aspekte einfließen und – die Bedeutung einer sprachlichen Konstruktion nicht extern und statisch vorge geben ist, sondern unter den Angehörigen einer Sprechergemeinschaft ausgehan delt und somit von ihnen auch variiert werden kann [174].
604 | 14 Sprachverarbeitung
Gut beobachtbar ist der Einfluss außersprachlicher Gegebenheiten etwa im Bereich der Referenz, wo beispielsweise durch Pronomina und definite Beschreibungen (Sie schreibt noch immer an dem Text! Wer schreibt? An welchem Text?) externe Bezü ge etabliert werden, die aus einer sprachlichen Äußerung, aber auch aus der Spra che insgesamt hinausweisen können. Da überdies jeder Sprecher einer Sprache aus Gründen der Sprachökonomie an möglichst sparsamen Verbalisierungen interessiert sein muss, sind zahlreiche Äußerungen in der alltäglichen Kommunikation seman tisch hochgradig unterspezifiziert, weshalb ihre Bedeutung nur unter massiver Zu hilfenahme von Wissen aus dem sprachlichen bzw. situativen Kontext rekonstruiert werden kann. (Wie wäre es am Dritten nach der Chefrunde? Was wird geplant? Wel cher Dritte ist gemeint: Mai? Juni? Wochenende? Hauseingang? Was ist die Chefrun de? usw.). Hinzu kommt, dass in vielen Fällen eine Entscheidung zwischen mehreren Bedeutungen einer Äußerung (Was ist mit dem Hahn los?) nur auf der Grundlage von außersprachlichen Tatbeständen entschieden werden kann. Fragen der kommunikativen Funktion werden in der Pragmatik thematisiert. Da bei wird die Funktion mithilfe von Sprechakten beschrieben [144] und man unter scheidet Kategorien wie z. B. Vorschlag, Feststellung oder Aufforderung. Vorausset zung für die Zuordnung von Sprechakten zu natürlichsprachlichen Äußerungen ist aber in jedem Fall die Verfügbarkeit von explizitem Wissen über die Absichten, Be wertungen, Kenntnisse usw. von allen beteiligten Kommunikationspartnern. Obwohl die saubere begriffliche Trennung zwischen den soeben skizzierten Perspektiven eine wichtige Rolle bei der systematischen Untersuchung sprachli cher Phänomene spielt, ist eine vollkommen isolierte Betrachtung auch nicht an gemessen, da zahlreiche Wechselwirkungen und Querbezüge zu beachten sind: So befasst sich die (Satz-) Syntax streng genommen nur mit dem Formaspekt sprach licher Äußerungen, doch werden zweckmäßigerweise nur solche Beschreibungen der Satzstruktur betrachtet, die im Hinblick auf die Konstruktion der Satzbedeu tung hilfreich sein können. Auf der phonetischen Ebene gewinnt das Gesamtbild noch dadurch an Komplexität, dass das Sprachsignal in Gestalt der prosodischen Kategorien Betonung, Intonation und Rhythmus segmentübergreifende Informatio nen bereithält, deren Beitrag praktisch aus allen drei Perspektiven in Erscheinung tritt: Sie signalisieren Formaspekte, beispielsweise durch die Auszeichnung von Seg mentgrenzen (Zehn Finger hab ich an jeder Hand fünf und zwanzig . . . ), sie erlauben die Unterscheidung zwischen Bedeutungsalternativen etwa durch die Vergabe eines Wortakzents (übersetzen vs. übersetzen, Schülerin vs. Koffein) oder sie geben Hinwei se auf die pragmatische Funktion der Äußerung, indem sie z. B. die Bewertung der Aussage durch den Sprecher übermitteln (Hervorheben wesentlicher Information, Kennzeichnung von Ironie, Emotion, Sentiment usw.).
14.2 Sprache und Künstliche Intelligenz
| 605
14.2 Sprache und Künstliche Intelligenz Angesichts der zahlreichen systematischen Bezüge zwischen Sprache und allgemei ner Intelligenz ist es nicht verwunderlich, dass die maschinelle Verarbeitung natürli cher Sprache schon recht frühzeitig in das Blickfeld der KI geriet. So bezog sich bereits der von Alan Turing gemachte Vorschlag für einen vollständig operationalisierbaren Nachweis von Intelligenz [159] unmittelbar auf ein sprachliches Imitationsspiel, auch wenn berücksichtigt werden muss, dass dieser Ansatz nur auf ganz bestimmte Aspek te der menschlichen Intelligenz abzielt und daher auch noch genügend Raum für völ lig inadäquate Surrogatlösungen bietet.² Trotz dieser recht offensichtlichen Mängel ist bemerkenswert, dass Turing den Intelligenzbegriff schon damals in einen unauflösbaren Bezug zur Frage der sprachlichen Kommunikationsfähigkeit stellte, anstatt auf anspruchsvolle aber artifizielle Aufgaben, wie etwa das Lösen von mathemati schen Problemen oder die Teilnahme an Strategiespielen (Dame, Schach, Go usw.), zurückzugreifen. Circa 20 Jahre später versuchten dann erste experimentelle Systemlösungen die Brücke zwischen Sprache und zielgerichtetem Handeln zu schlagen [173]. In der Folge entstand eine Vielzahl von Forschungsprototypen mit dem Ziel, zunehmend anspruchsvollere Sprachverarbeitungsaufgaben einer maschinellen Verarbeitung zugänglich zu machen und daraus ggf. kommerzielle Produkte abzuleiten. Hierbei wurden gerade in den letzten Jahren eine Reihe bemerkenswerter Erfolge erzielt, u. a. der spektakuläre Sieg eines Computersystems in einer Fernsehquizsendung im di rekten Vergleich mit menschlichen Gegenspielern [50], aber auch sprachgesteuerte persönliche Assistenten, die nach langjähriger Vorlaufforschung in Verbindung mit der zunehmenden Verbreitung von Mobilfunktechnik inzwischen einen Massenmarkt erreicht haben [37; 48]. Trotz dieser beachtlichen Fortschritte bleibt aber auch die vertiefte Einsicht in die ungeheure Komplexität und Vielschichtigkeit des Phänomens Sprachbeherrschung ein wichtiges Resultat der Forschungen in diesem Gebiet. Auch heute noch dienen die sprachlichen Fähigkeiten des Menschen als unerreichtes Ideal und Quelle der In spiration für entsprechende technische Systemlösungen. Wenngleich die Sprachverarbeitung innerhalb des Gebietes der KI eine Sonder stellung einnimmt und wie die Bildverarbeitung auch spezifische Forschungsziele und -methoden entwickelt hat, so bleibt sie doch durch zahlreiche gemeinsame For schungs- und Anwendungsinteressen mit der generellen Frage nach den Vorausset
2 Vergleiche [169] und die im Rahmen des Löbner-Wettbewerbs überwiegend praktizierten Lösungs ansätze: Bleibe dunkel und vage, reagiere ausweichend usw. Siehe auch https://de.wikipedia.org/ wiki/Loebner-Preis
606 | 14 Sprachverarbeitung
zungen für intelligentes Systemverhalten verbunden. Zu diesen Gemeinsamkeiten zählen nicht zuletzt – das interessegeleitete Abwägen zwischen verschiedenen Handlungsalternativen, – die Notwendigkeit, Entscheidungen über das optimale Systemverhalten auch un ter Zeitdruck zu treffen, – die Nutzung von ähnlichen Formalismen zur Repräsentation und Verarbeitung von (insbesondere auch unsicherem) Wissen über die Sprache, die Welt und den Dialogpartner sowie – das Zusammenführen von möglicherweise widersprüchlichen Informationen aus verschiedenen Quellen und über verschiedene Sinnesmodalitäten hinweg. Hinzu kommen fundamentale Fragestellungen aus dem Bereich des Spracherwerbs und der Sprachevolution, die immer stärker in den Mittelpunkt des Interesses rücken und von denen nicht zuletzt wichtige Impulse für die Forschungen in anderen Gebie ten der KI erwartet werden können. Dank ihrer starken Hinwendung zu Aufgaben der Mensch-Maschine-Kommuni kation hat die sprachorientierte KI von ihren frühesten Versuchen an konsequent den pragmatischen Aspekt der maschinellen Sprachverarbeitung in den Mittelpunkt ge stellt. Dabei ging man anfangs noch von Szenarien aus, bei denen die kommunikative Funktion der sprachlichen Äußerung eindeutig vorgegeben war, z. B. – Frage-Antwort-Systeme [61], – natürlichsprachlicher Zugriff zu relationalen Datenbanken oder Expertensyste men [3; 167] bzw. – Kommandosteuerungen für Roboter [173]. Später traten dann neben Anwendungen mit einem reichhaltigeren Inventar an Sprechakten zunehmend auch Systemlösungen zur expliziten Modellierung von Zielen, Plänen und Wertungen eines Sprechers in den Vordergrund. In diesem Zu sammenhang wurden Szenarien vor allem im Bereich der Dialogsysteme [78] und der nutzeradaptiven Informationspräsentation [5; 84] untersucht, wo in Abhängig keit von den (jeweils zu ermittelnden) Zielen, Vorkenntnissen und Präferenzen eines Nutzers ein spezifisch aufbereitetes Informationsangebot generiert werden kann. Ei ne vergleichbare pragmatische Orientierung findet sich auch in den Arbeiten zum Gesprächsdolmetschen, bei denen im Gegensatz zur klassischen maschinellen Über setzung nicht mehr ein möglichst wortgetreues Translat angestrebt wird, sondern ein solches, das die Sprecherintention korrekt wiedergibt [68]. Auch im Hinblick auf die Rolle des Bedeutungsaspekts eröffnet sich ein sehr brei tes Spektrum von Sprachverarbeitungsaufgaben, wobei der Schwierigkeitsgrad der im Einzelfall zu lösenden Probleme vor allem von der Art der jeweils noch tolerierbaren vereinfachenden Annahmen abhängig ist. Traditionell finden sich in diesem Spek trum zahlreiche wichtige und auch kommerziell erfolgreiche Anwendungen, die nur einen sehr schwachen Bezug zur Bedeutung aufweisen und bei denen daher eine für
14.2 Sprache und Künstliche Intelligenz |
607
viele Zwecke zufriedenstellende Lösung bereits unter ausschließlichem Rückgriff auf Formaspekte gefunden werden kann. Hierzu zählen praktisch alle wortformbasierten Verfahren wie Silbentrennung, Rechtschreibprüfung und -korrektur, die Rückführung auf eine Grundform usw. Auch einfache Ansätze zur syntaxbasierten maschinellen Übersetzung fallen in diese Klasse. Im Gegensatz dazu orientiert sich die sprachorientierte KI vor allem an solchen Problemklassen, bei denen eine explizite Beschäftigung mit der Bedeutung sprachli cher Ausdrücke unverzichtbar ist und dementsprechend geeignete Komponenten zur Sprachproduktion aus konzeptuellen Strukturen bzw. zum Sprachverstehen erforder lich machen. Die besondere Schwierigkeit besteht hierbei aber darin, dass weder Sprachpro duktion noch -verstehen strikt informationserhaltende Prozesse sind, da ein Sprecher unter Ökonomiegesichtspunkten überwiegend nur solche Informationen kommuni ziert, von denen er annehmen kann, dass sie beim Hörer noch nicht bekannt sind. Sprachproduktion ist damit vor allem ein Prozess der Informationsselektion und -reduktion, während es sich beim Sprachverstehen eher um eine Informationsrekon struktion unter Einbeziehung des verfügbaren außersprachlichen Hintergrundwis sens handelt. Eine solche pragmatisch begründete Verkürzung von Information lässt sich praktisch quer durch alle sprachlichen Genres nachweisen.³ Sie ist sogar in vie len Fällen unverzichtbare Voraussetzung für eine effiziente Kommunikation. So muss das sprachverarbeitende System zum Verstehen eines Satzes wie Der X100 hat eine maximale Drehzahl von 5000 U/min.
mindestens die folgenden Bausteine bereitstellen: Ein X100 ist ein Auto. Autos haben Motoren. Motoren erzeugen (meist) Drehbewegungen. Eine Kenngröße für Drehbewegungen ist die maximale Drehzahl.
Erst mit derartigen Inferenzdiensten aber verfügt das Sprachverarbeitungssystem über die notwendigen Voraussetzungen, um ausgesprochen unhandliche Äußerun gen wie Der X100 ist ein Auto, das einen Motor besitzt, der Drehbewegungen mit einer maximalen Drehzahl von 5000 U/min erzeugt.
vermeiden zu können. Tatsächlich müssen jedoch nicht alle diese Beiträge immer di rekt im Hintergrundwissen verfügbar sein, da im Falle von unvollständigen Ableitun
3 Interessanterweise wirken analoge Mechanismen auch auf der phonologischen Ebene, wo ähnliche Prozesse der Informationsreduktion durch Verschleifung und Klitisierung wirksam sind: bei dem → beim, haben wir → hamwa.
608 | 14 Sprachverarbeitung
gen die fehlenden Teile unter günstigen Umständen auch induktiv erschlossen wer den können: Sollte dem System noch unbekannt sein, dass der X100 ein Auto ist, so lässt sich dies möglicherweise aus der Tatsache rekonstruieren, dass Autos Motoren besitzen, die ein Drehmoment erzeugen. Allerdings sind solche Schlüsse immer mit ei ner gewissen Unsicherheit behaftet: Der X100 kann sowohl der Motor selbst als auch ein anderes motorisiertes Gerät sein. Gerade das Problem der Informationsrekonstruktion stellt beim Sprachverste hen eine zentrale Herausforderung für die sprachorientierte KI dar, müssen hier doch Techniken und Methoden der Wissensrepräsentation und -verarbeitung ge eignet in die Sprachverarbeitung integriert werden. Wesentliche Teilaufgaben sind dabei – das Erkennen von Synekdoche und Metonymie, z. B. ein Objekt steht stellvertre tend für eines seiner Teile⁴: das Auto aufpumpen statt die Reifen des Autos auf pumpen [103; 132] sowie – die Rekonstruktion von metaphorischen Bedeutungen durch Aufdecken der rele vanten Analogien wie z. B. in sich Wissen aneignen oder eine Nachricht verdau en [87]. Als wichtiger Spezialfall der Informationsrekonstruktion spielt die Auflösung von Referenzbeziehungen für sprachverarbeitende Systeme eine zentrale Rolle, wobei auch hier zwischen einer sprachinternen Referenz auf andere sprachliche Ausdrücke und einer Referenz auf Entitäten im außersprachlichen Kontext unterschieden wer den muss. Beide Fälle erfordern die (wenigstens partielle) Rekonstruktion des beim Sprecher vorliegenden Referenzsystems durch den Hörer. Da im Fall der sprachinternen Referenzen ohnehin nur ein partielles Modell der Diskurswelt generiert werden kann, sind hier approximative Lösungen auf der Basis stark vereinfachter Modelle möglich. So werden für die Auflösung pronominaler Re ferenzen z. B. in Die Frau1 holt ihre Familienfotos2 hervor. Sie1 trägt sie2 immer bei sich.
vielfach nur rein syntaktische Kriterien (hier Numeruskongruenz) berücksichtigt, ob wohl diese nicht in allen Fällen eine sichere Bestimmung des Bezugsnomens ermög lichen: Das Mädchen1 bedankt sich bei der Frau2 . Sie2 hat ihr1 sehr geholfen.
4 Andere Beispiele sind: Instanz für Klasse (einen X100 fahren), Erzeuger für Erzeugnis (Goethe lesen), Gefäß für Inhalt (noch eine Tasse trinken) usw.
14.2 Sprache und Künstliche Intelligenz
| 609
In solchen Fällen wird Wissen über die Welt benötigt: Üblicherweise richtet sich der Dank an die Helfer. Ähnlich ist die Lage bei Nominalanaphern, bei denen die Referenz ausschließlich über das Hintergrundwissen hergestellt werden kann: Herr Maier wurde vom amtierenden Direktor begrüßt. Der bekennende Anhänger einer Expansionsstrategie wies darauf hin, dass . . .
Hier muss der Hörer für eine korrekte Referenzauflösung entweder das Meinungsprofil der beteiligten Personen kennen oder aber bereits wissen, wer die Ansprache gehalten hat. Wegen dieser starken Abhängigkeit vom verfügbaren Hintergrundwissen ergeben sich weitreichende Analogien zu den bereits oben beschriebenen Mechanismen der Informationsrekonstruktion. Im Gegensatz zur Behandlung sprachinterner Referenzen ist bei der Einbezie hung externer Verweise eine explizite Modellierung unvermeidbar. Je nachdem, ob die Referenz auf eine abstrakte Welt (z. B. Datenbank), eine simulierte und damit noch systemintern generierte Welt oder aber unmittelbar in die reale Welt erfolgt, ergeben sich Aufgaben mit steigendem Schwierigkeitsgrad und wachsenden Anforderungen an die jeweiligen Lösungsansätze (Tabelle 14.2). Unterschiede im Schwierigkeitsgrad folgen auch aus den dynamischen Eigenschaften der Welt sowie aus der Verfügbar keit deiktischer Konstruktionen (sprachliche Zeigegesten: hier/dort, bisher/später usw.) Aufbauend auf derartigen Verfahren zur Bedeutungsrekonstruktion erschließen sich dann zusätzlich zu den o. g. noch eine Reihe weiterer Anwendungsbereiche etwa bei der intelligenten Informationssuche in Texten, beim Wissenserwerb aus textuellen Vorlagen [59] oder zur sprachlichen Kommunikation in komplexen multimodalen In teraktionsumgebungen [118]. Weitere Einsatzbereiche für eine stark semantisch fun dierte Verarbeitung finden sich im Rahmen der wissensbasierten Übersetzung [122] oder aber auch bei der Realisierung von kommunikativ adäquaten Fehlerdiagnosen in Sprachlernsystemen [112]. Ein gleichfalls sehr wichtiger Berührungspunkt zwischen den allgemeinen Fra gestellungen der KI und den spezifischen der Sprachverarbeitung ist schließlich mit dem großen Beitrag gegeben, den die KI im Bereich des Maschinellen Lernens sowie im Hinblick auf Beschreibungsformalismen und Problemlösungsverfahren erbracht hat. Hierzu gehören vor allem – Methoden des überwachten und unüberwachten Lernens für unterschiedliche Ein- und Ausgabedaten [101] bzw. [57] (Kapitel 11), – logikbasierte Formalismen zur redundanzarmen Repräsentation von sprachli chem und außersprachlichem Wissen [24] (Abschnitt 14.6.4.2 bzw. Kapitel 2), – effiziente Verfahren zur kombinatorischen Suche [72] (Kapitel 3) sowie – Architekturprinzipien zur Organisation sehr großer, heterogener Systeme [160] (Abschnitt 14.4).
(Zusätzlich) erforderliche Basistechnologie
Weltmodell
Beispielanwendungen
Lexikon ggf. Grammatik ggf. Transferregeln
Referenzielle Semantik Anaphernresolution Textuelle Deixis
Partielles Modell einer fiktiven Welt
—
Virtuelle Stadtführung Steuerformular
Statisch
Simulierte Roboter („Klötzchenwelt“)
Dynamisch
Simulierte Welten
Externe Referenz
Weltmodell für real existierende Referenzobjekte
Räumliche Relationen Räumliche Deixis
Temporale Relationen Temporale Deixis Echtzeitdruck
„Vollständiges“ und gesichertes Modell der Welt
Frage-Antwort-Systeme Zugriff zu Datenbanken und Textverstehen und Expertensystemen -zusammenfassung Maschinelle Übersetzung
Rechtschreib- und Grammatikprüfung Spracherkennung Maschinelle Übersetzung
Abstrakte Welten
Textinterne Referenz
Ohne Referenz
Tab. 14.2: Aufgabenbereiche der Sprachverarbeitung und die referenzielle Einbettung der Äußerungen
Sensorik (optisch, taktil, akustisch) Begriffliche Abstraktion
Partielle und unsichere Kenntnis der Welt
Autonome Roboter Fahrerassistenzsysteme
Reale Welt
610 | 14 Sprachverarbeitung
14.3 Anwendungen der Sprachtechnologie | 611
14.3 Anwendungen der Sprachtechnologie Die Palette möglicher Einsatzbereiche für Systeme der Sprachtechnologie ist sicher lich ebenso reichhaltig wie das breite Spektrum sprachlicher Tätigkeiten beim Men schen selbst. Von den eher forschungsorientierten Prototypen unterscheiden sich die dabei betrachteten Lösungen vor allem darin, dass sie hohen Anforderungen hinsicht lich der sprachlichen Abdeckung genügen müssen. In dieser Hinsicht wurden insbe sondere durch die rasante Entwicklung im Bereich des Maschinellen Lernens deut liche Fortschritte erreicht. Dieser Prozess war von einer stetig anwachsenden Aktivi tät zur Sammlung und Aufbereitung sehr großer Datenbestände (Korpora), die aus authentischen sprachlichen Äußerungen mit unterschiedlichem Grad der Anreiche rung um Zusatzinformationen (Annotationen) bestehen, begleitet. Solche Daten ste hen heutzutage für eine zunehmende Zahl von Sprachen zur Verfügung. Allerdings gibt es hinsichtlich des quantitativen und qualitativen Versorgungsgrads und damit auch im Hinblick auf die Verfügbarkeit der darauf aufbauenden Anwendungen ein deutliches und tendenziell eher zunehmendes Ungleichgewicht zwischen den zahl reichen, aktiv benutzten Sprachen der Welt (Abschnitt 14.7). Gerade vor dem Hintergrund einer immer stärkeren Tendenz zur Verwendung von Techniken des Maschinellen Lernens spielen unter dem Anwendungsaspekt aber auch Kriterien wie Verlässlichkeit, Benutzbarkeit und Integrierbarkeit in etablierte Ar beitsabläufe eine wichtige Rolle. Da technische Lösungen, die mit dem universellen Sprachvermögen des Menschen vergleichbar wären, aber nach wie vor noch Utopie sind, kommen für einen Masseneinsatz vorerst nur vergleichsweise einfache bzw. hochspezialisierte Verfahren infrage. In Tabelle 14.2 finden sich die entsprechenden Anwendungsfälle vornehmlich in den ersten drei Spalten, da hier noch eine recht einfache Modellierung der Referenzsemantik ausreichend erscheint. Im Hinblick auf die jeweils anzutreffende Kommunikationssituation kann man die unterschiedlichen Anwendungsklassen grob in Hilfsmittel für die Unterstüt zung der zwischenmenschlichen Kommunikation einerseits und Lösungen für die Mensch-Maschine-Interaktion andererseits einteilen. Obwohl sie eigentlich auch in den Bereich der zwischenmenschlichen Kommunikation gehören, sollen Werkzeuge zur Textproduktion, zur Herstellung audiovisueller Medien sowie zum Informati onsmanagement hier jedoch gesondert behandelt werden, da sie unter praktischen Gesichtspunkten eine herausragende Bedeutung besitzen.
14.3.1 Werkzeuge für die zwischenmenschliche Kommunikation Die maschinelle Übersetzung [66] stellt den wohl ältesten tatsächlichen Anwendungs fall der maschinellen Sprachverarbeitung dar und kann damit auf einen umfangrei chen technologischen und methodischen Erfahrungsschatz bei der Arbeit mit gro ßen linguistischen Wissens- und Datenbeständen zurückgreifen. Nachdem sich schon
612 | 14 Sprachverarbeitung
recht bald herausgestellt hat, dass mit den traditionellen regelbasierten Verfahren ei ne qualitativ hochwertige Übersetzung nur in sehr speziellen Einsatzbereichen (z. B. beim Umgang mit weitgehend konventionalisierten Routinemeldungen wie Wetterbe richten) erreicht werden kann, sind heutzutage Lösungen verfügbar, die auch ohne Beschränkung auf bestimmte Textsorten eine sinnerhaltende Übersetzung ermögli chen. Sie führen dank des stetig sinkenden Aufwands zur Nachbearbeitung der Über setzungsresultate selbst bei hohen Qualitätserwartungen zu einem deutlichen Effizi enzgewinn bzw. einer Entlastung von Routinearbeiten. Die derzeit verfügbaren Übersetzungssysteme orientieren sich bei der Übertra gung recht stark an der sprachlichen Oberflächenform. Von einem tiefergehenden Sprachverstehen kann nach wie vor kaum die Rede sein. Auf der technischen Ebene dominieren inzwischen Techniken des Maschinellen Lernens, speziell für den Einsatz im Onlinebereich. Dabei konkurrieren stochastische mit neuronalen Ansätzen [79; 80]. Das zentrale Ziel bei der Weiterentwicklung ist die kontinuierliche Qualitätsverbesserung für die wichtigsten Übersetzungsrichtungen zwischen den weit verbreiteten Sprachen. Dies erfordert verbesserte Lernverfahren, eine deutliche Ausweitung der empirischen Datenbasis, aber – insbesondere bei hybriden Ansätzen – auch eine sukzessive Erweiterung und Verfeinerung der linguis tischen Wissensbestände. Die Notwendigkeit zur Beschränkung auf abgegrenzte Anwendungsdomänen zeigt sich wohl am deutlichsten bei der Übersetzung gesprochener Sprache [165]. Hier ist auch die Nachfrage nach Techniken zur schnellen Entwicklung und Anpassung (rapid deployment) von Dolmetschhilfen sehr groß. Mit ihnen soll flexibel auf einen punktuellen Bedarf an Übersetzungsleistungen gerade für die zahlreichen „kleinen“ Sprachen reagiert werden, nicht zuletzt im Hinblick auf militärische und humanitäre Einsatzszenarien [14; 55]. Neben der Bereitstellung von Übersetzungsleistungen spielt in den modernen multilingualen Gesellschaften die Beherrschung von Fremdsprachen eine zuneh mend stärker werdende Rolle. Für die Sprachtechnologie ergibt sich damit auch die Aufgabe, geeignete Hilfsmittel zur Unterstützung des Sprachunterrichts bereitzustel len [4; 89]. Die Spannbreite reicht dabei von der morphologischen Analyse und der Unterstützung eines effizienten Wörterbuchzugriffs [120] bis zur Diagnose und Er klärung von ungrammatischen Konstruktionen in einer beschränkten sprachlichen Domäne [111]. Die Entwicklung von Kommunikationshilfen für Behinderte [64] stellt schließlich ein drittes Aufgabenfeld dar, in dem von der Sprachtechnologie wesentliche Beiträge erwartet werden. Je nach Art der vorliegenden Behinderung müssen hierbei Techni ken der Wortformen- und Syntaxanalyse sowie Komponenten zur Sprachsynthese und -erkennung in Gesamtlösungen für Formulierungs- und Aussprachehilfen, Vorlese geräte sowie Hilfsmittel zur visuellen Präsentation bzw. Verschriftung gesprochener Sprache integriert werden.
14.3 Anwendungen der Sprachtechnologie
| 613
14.3.2 Werkzeuge für die Produktion von Texten und audiovisuellen Medien Werkzeuge zur Unterstützung der Textverarbeitung, wie Silbentrennung, Tippfeh lersuche und -korrektur, sowie die Möglichkeit zum integrierten Wörterbuchzugriff gehören heutzutage zur selbstverständlichen Grundausstattung jedes einschlägigen Softwaresystems. Daher rücken zunehmend anspruchsvollere Hilfsmittel zur Text produktion in den Mittelpunkt des Interesses. Eine wesentliche Herausforderung be steht dabei darin, durch die Einbeziehung von Kontextinformation auch solche Feh ler zu detektieren, die wiederum eine valide Wortform erzeugen. Zur Effektivierung der Verschriftung haben Diktiersysteme eine weite Verbreitung gefunden [151]. Auch hier wirkt sich eine Anpassung an das Themenspektrum (z. B. medizinische Befundungstexte oder juristische Gutachten) und die individuelle Aus sprache des Nutzers sehr vorteilhaft auf die Leistungsfähigkeit eines solchen Systems aus. Mit den Fortschritten bei der Erkennung gesprochener Sprache erscheinen zuneh mend auch Hilfsmittel zur Produktion audiovisueller Medien attraktiv. Hierzu gehö ren z. B. Anwendungen zur Onlineverschriftung von Vorträgen, Nachrichten, Diskus sionen usw. [136; 166] sowie Verfahren zur semiautomatischen Erzeugung und Ali gnierung von Untertiteln für Spielfilme [58]. Ein textuelles, zeitaligniertes Transkript kann dann mit den üblichen Mitteln sowohl zur Dokumentensuche [131] als auch zum gezielten Direktzugriff auf den Inhalt des Dokuments, z. B. über eine zeitlich struktu rierte Wortwolke, verwendet werden [175]. Insbesondere in multilingualen Kontexten werden große Erwartungen in Syste me zur automatischen Textgenerierung gesetzt, die in der Lage sind, den jeweiligen Inhalt ausgehend von einer gemeinsamen formalen Repräsentation in unterschied lichen Sprachen auszuformulieren [110]. Gerade bei der routinemäßigen Produkti on von mehrsprachigen Wartungs- und Bedienungsunterlagen lassen sich auf die se Weise erhebliche Rationalisierungseffekte erzielen, die vor allem einer schnellen Verfügbarkeit der Dokumente zugute kommen sollen und somit auch eine attrakti ve Alternative zur Übersetzung darstellen. Zur Unterstützung der Arbeit mit großen Bilddatenbanken finden zunehmend auch Lösungen zur maschinellen Generierung von Bildunterschriften aus Bildern Verwendung [8].
14.3.3 Werkzeuge für das Informationsmanagement Vor dem Hintergrund des explosionsartig wachsenden Volumens an unmittelbar zu gänglicher Textinformation gewinnen Verfahren zum effizienten Umgang mit dieser Informationsflut zunehmend an Bedeutung. Während traditionell Techniken der sys tematischen Informationsrecherche [7] nur in wenigen spezialisierten Einrichtungen zum Einsatz kommen konnten, stehen sie in Form von Internetdienstleistungen nun
614 | 14 Sprachverarbeitung
mehr praktisch jedermann zur Verfügung. Auch hier ist in den letzten Jahren eine Rei he neuer Aufgabenstellungen mit neuen Verarbeitungsanforderungen hinzugekom men: Informationsklassifikation und -filterung: Textdokumente (meist HTML-Seiten oder E-Mails) werden in einer bestimmte Anzahl vom Nutzer vorzugebender Ka tegorien vorsortiert bzw. auf Wunsch auch ganz ausgeblendet [99]. Dies kann sowohl aufgrund von inhaltlichen Kriterien, aber auch auf der Basis von subjek tiven Werturteilen erfolgen [127]. Zum Einsatz kommen vor allem Techniken des Maschinellen Lernens und der Mustererkennung, sodass das System auf beispiel haften Zuordnungen trainiert werden kann und durch fortlaufende Beobachtung sogar eine dynamische Anpassung an Änderungen im Nutzerverhalten möglich wird. Informationsstrukturierung: Eine vorgegebene Menge von Textdokumenten (z. B. das Ergebnis einer Suchanfrage) soll nach inhaltlichen Kriterien (in der Regel the matische Ähnlichkeit) strukturiert werden [25]. Informationsextraktion: Hierunter fallen eine Reihe von Techniken zur Ermittlung spezieller Informationen aus Textdokumenten. Ausgangspunkt waren hierbei Verfahren, die auf verhältnismäßig reichhaltige Informationsstrukturen (z. B. über Terroranschläge oder Geschäftsabschlüsse) abzielten [39]. Einsatzmöglich keiten für derartige Verfahren gibt es in zahlreichen Gebieten, z. B. bei der Ver waltung von Patientendaten, Versicherungsanträgen oder Wartungs- und Repa raturberichten. Für all diese Einsatzfälle ist typisch, dass wegen des massenwei sen Anfalls an Textdokumenten eine manuelle Bearbeitung nicht mehr infrage kommt. In den letzten Jahren hat sich das Interesse eher generischen Aufgaben zuge wandt, die sich als Basisbausteine für komplexere Informationsextraktionsauf gaben nutzen lassen. Hierzu gehört die Detektion und Klassifikation von Eigenna men [155], die Ermittlung von Koreferenzen im Text, das Verfolgen von Entitäten, die Disambiguierung von Wortbedeutungen, die Ermittlung von semantischen Relationen und Prädikats-Argument-Strukturen [43]. Textzusammenfassung: Wie die maschinelle Übersetzung auch, kann das Zusam menfassen eines Textes ausgehend von einem sehr unterschiedlichen Niveau des Textverständnisses erfolgen. Da eine tiefgehende inhaltliche Analyse unrestrin gierter Texte noch weitgehend illusorisch ist, beschränken sich praktikable Ver fahren auf die Auswahl möglichst aussagekräftiger Sätze aus dem Originaltext. Hierbei lässt sich die Qualität der Auswahl beträchtlich steigern, wenn dabei die Argumentationsstruktur des Textes angemessen berücksichtigt wird [102; 139]. Als ein erster Schritt auf dem Weg zu einer tatsächlichen Textzusammenfassung, wird auch die Kompression von Sätzen untersucht [77]. Domänenunabhängige Fragebeantwortung: Im Gegensatz zur Dokumentenre cherche besteht die Aufgabe hierbei darin, innerhalb einer großen Dokumen tensammlung dasjenige Teilstück eines Dokumentes zu identifizieren, das die
14.3 Anwendungen der Sprachtechnologie |
615
Antwort auf die gegebene Frage enthält [50]. Betrachtet werden nicht nur fakten bezogene Anfragen (Wer? Was? Wann?), sondern auch solche nach komplexeren Ereignisbeschreibungen, Kausalbeziehungen und Argumentationsmustern (Wie? Warum?) [93]. Angestrebt wird auch eine Integration von unstrukturierten und strukturierten Daten (Textdokumente bzw. Datenbanken) [145; 154]. Monitoring sozialer Netze: Getrieben durch ökonomischen Druck, rechtliche Rah menbedingungen und ethische Überlegungen einerseits sowie die relativ einfa che Verfügbarkeit von Trainingsdaten andererseits haben sich in diesem Umfeld eine Reihe hochspezialisierter Verarbeitungsaufgaben entwickelt. Hierzu gehört neben der Sentimentanalyse (sentiment detection, opinion mining [95; 127]) auch die Erkennung von Hassausdrücken (hate/toxic speech detection [141]), die Erken nung von fingierten Rezensionen (fake review detection [49]) oder aber die Er mittlung der individuellen Position zu einer kontrovers diskutierten Fragestellung (stance detection [148]). In all diesen Fällen wird versucht, das jeweilige Analyse problem ohne tiefergehendes Textverständnis auf der Basis von relativ einfachen Oberflächenindikatoren zu lösen. Wesentlich für den Erfolg derartiger Anwendungen scheint zu sein, inwieweit es ge lingt, die Textanalyse nahtlos mit anderen verfügbaren Wissensquellen zu verzahnen. Hierzu zählen beispielsweise Metainformationen über die Dokumente [135] oder aber die Vernetzung bzw. das Navigationsverhalten der Nutzer in Hypertextsammlungen und sozialen Netzen. Im Falle der domänenunabhängigen Fragebeantwortung brach te bereits die Einbeziehung von einfachen Inferenztechniken auf der Basis einer auto matisch aus natürlichsprachlichen Definitionen extrahierten Wissensbasis eine über raschend deutliche Steigerung der Antwortqualitat im Vergleich zu den anderen an der Evaluation beteiligten Systemen [62].
14.3.4 Mensch-Maschine-Kommunikation Erste einsatzreife Anwendungen der Sprachtechnologie zur natürlichsprachlichen Mensch-Maschine-Kommunikation wurden zur Abfrage relationaler Datenbanken entwickelt [6]. Für diesen Erfolg war insbesondere die relativ einfache Referenzse mantik des relationalen Datenbankmodells ausschlaggebend (Tabelle 14.2). Der kom merzielle Erfolg blieb jedoch aus, da solche Systeme in direkter Konkurrenz zu den in tuitiv bedienbaren grafischen Benutzungsschnittstellen stehen. Mit dem inzwischen erreichten Entwicklungsstand von Dialogsystemen für gesprochene Sprache [164] hat sich diese Situation jedoch deutlich verändert. Gerade im Telefoniebereich, in dem alternative Kommunikationskanäle ohnehin nur eine untergeordnete Rolle spielen, eröffnen sich damit attraktive Perspektiven für eine Vielzahl ganz neuartiger Dienst leistungen. Zudem haben die Entwicklungen im Bereich der Informationssuche und
616 | 14 Sprachverarbeitung
der domänenunabhängigen Fragebeantwortung zu einem deutlichen Anstieg der Leistungsfähigkeit automatisierter Auskunftssysteme geführt. Mit den Fortschritten im Bereich der Robotik gewinnt zunehmend auch die natür lichsprachliche Interaktion mit autonomen Robotersystemen an Bedeutung. Wichti ge Aspekte hierbei sind die Verankerung sprachlich kommunizierter Konzepte in der physikalischen Umwelt sowie die Berücksichtigung der Nutzerintentionen [1; 13].
14.4 Architekturen für die Sprachverarbeitung 14.4.1 Modularisierung Bis in die 1990er-Jahre galt es als Konsens, dass sich für anspruchsvolle Aufgaben der Sprachverarbeitung die gewünschten Resultate nur in wenigen Spezialfällen in einem unmittelbaren Abbildungsschritt aus den jeweils gegebenen Ausgangsdaten ableiten lassen. Diese Situation hat sich mit der wachsenden Leistungsfähigkeit der Metho den des Maschinellen Lernens deutlich geändert, weil sich für eine steigende Zahl von Aufgaben inzwischen eine durchgängige Ende-zu-Ende-Modellierung nicht nur als praktikabel, sondern auch als vorteilhaft erwiesen hat. Für eine Ende-zu-Ende-Modellierung eignen sich insbesondere Anwendungsauf gaben zur Sequenztransduktion (seq2seq, Abschnitt 14.6.2.3), wie – die maschinelle Übersetzung, wo Wortfolgen einer Sprache in die einer anderen Sprache umgewandelt werden müssen, – die Spracherkennung, bei der Folgen von akustischen Merkmalsvektoren auf Fol gen von Wortformen abgebildet werden, oder aber – die Fragebeantwortung, die auf einen gegebenen Fragesatz mit einer dazu pas senden Antwort reagieren soll. Derartige Lösungen decken jeweils bereits ein komplettes, für den Endnutzer relevan tes Anwendungsszenarium ab. Demgegenüber waren beispielsweise Systeme zur ma schinellen Übersetzung traditionell immer in die drei Teilschritte – Quellsprachen analyse, Transfer und Zielsprachengenerierung – unterteilt. Diese Unterteilung be gann sich mit dem Übergang zu statistischen Modellen aufzulösen, in denen statt Einzelentscheidungen in den drei Komponenten eine gemeinsame Entscheidung über das Übersetzungsresultat herbeigeführt wurde, allerdings immer noch auf der Grund lage separater Teilmodelle für den lexikalischen Transfer, die Fertilität und die Ober flächenreihung in der Zielsprache. Mit den neuronalen Architekturen liegen nunmehr anwendungsreife Lösungen vor, die den Gedanken der Ende-zu-Ende-Modellierung konsequent umsetzen. Der Begriff der Ende-zu-Ende-Modellierung wird auch verwendet, wenn die Sys temaufgabe eine abgegrenzte Fragestellung betrifft, die traditionell über das Zusam menspiel mehrerer Teilkomponenten gelöst wurde, selbst aber kein eigenständig
14.4 Architekturen für die Sprachverarbeitung
| 617
sinnvolles Verarbeitungsszenario darstellt. Solche Systemlösungen kommen deshalb auch nur als Teil einer modularen Architektur infrage. Hierzu gehören z. B. die syn taktische oder semantische Strukturanalyse (parsing), die Koreferenzauflösung bzw. ihr Gegenstück, die Generierung von referenziellen Ausdrücken oder aber die Dialog modellierung. Modulare Architekturen erfordern die Spezifikation geeigneter Repräsentationsfor mate für die Kommunikation von Informationen an den Schnittstellen zwischen den Komponenten. Solche Repräsentationen stehen dann auch für eine Inspektion des Systemverhaltens und der Evaluation von Teilaspekten der Verarbeitungsaufgabe zur Verfügung. Diese Möglichkeit entfällt bei Ende-zu-Ende-Modellen weitgehend, sodass sich die Beobachtungsmöglichkeiten auf eine Blackbox-Evaluation beschrän ken. Dadurch lässt sich die Systementwicklung im Wesentlichen nur durch die ge zielte Modifikation von Systemparametern und die Analyse der dadurch verursachten Auswirkungen auf das Verhalten des Gesamtsystems steuern. Auch wenn bei Ende-zu-Ende-Lösungen die internen Details der Modellierung nach außen hin gar nicht in Erscheinung treten, ist eine sorgfältige Wahl geeigneter Strukturrepräsentationen erforderlich. Letztendlich müssen ja die intern verwende ten Repräsentationen in jedem Falle ausdrucksstark genug sein, um die relevanten Aspekte der jeweiligen Verarbeitungsaufgabe, z. B. den Kontexteinfluss, ausreichend präzise erfassen zu können. Andererseits sollte die Ausdrucksstärke der Repräsenta tion aber auch nicht zu groß sein, da dann in der Regel mehr bzw. qualitativ hochwer tigere Trainingsdaten erforderlich sind. Grundsätzlich sind immer solche Repräsen tationen zu bevorzugen, die über die minimale Ausdrucksstärke verfügen, die für die jeweilige Problemstellung unbedingt erforderlich ist. Diese zu finden ist allerdings kei ne triviale Aufgabe. Aus diesem Grund erfordert das Systemdesign auch im Fall von Ende-zu-Ende-Modellen eine intensive Auseinandersetzung mit den jeweils gegebe nen Anforderungen. Auf der anderen Seite gibt es nach wie vor eine Vielzahl von Verarbeitungsaufga ben, für die eine Ende-zu-Ende-Modellierung beim gegenwärtigen Entwicklungsstand gar nicht infrage kommt, entweder weil die erforderlichen Daten für das Training prin zipiell nicht zur Verfügung stehen oder aber nicht mit erträglichem Aufwand gesam melt und aufbereitet werden können. Hierunter fallen vor allem Anwendungen zur Sprachkommunikation in dynamischen bzw. nicht vorhersehbaren Einsatzszenarien z. B. mit Robotern in unbekannten Umgebungen. Angesichts der kombinatorischen Vielfalt und hochgradigen inneren Komplexität sprachlicher Ausdrucksmittel müssen in solchen Fällen dann doch wieder mehrstu fige Verarbeitungsarchitekturen konzipiert werden, in denen unterschiedliche Reprä sentationsformate miteinander kombiniert oder sukzessive ineinander umgewandelt werden. Hierfür steht eine Vielzahl von Datenstrukturen zur Verfügung, mit denen se quenzielle, hierarchische oder gar vernetzte Beziehungen in sprachlichen Äußerun gen modelliert werden können. Welche davon relevante Information zur Lösung eines
618 | 14 Sprachverarbeitung
gegebenen Verarbeitungsproblems beitragen können, muss in der Phase des System entwurfs geklärt und kann bestenfalls in einer Gesamtevaluation unter vergleichba ren Bedingungen überprüft werden. Eine erste Orientierung bietet oftmals die Aufteilung in sprachliche Beschrei bungsebenen und die zwischen ihnen erforderlichen Transformationsschritte. Dem entsprechend gelten Komponenten für Syntax und Semantik gemeinhin als Standard, ggf. sind auch solche für Morphologie, Pragmatik, Prosodie usw. vorgesehen (vgl. z. B. die Systemstruktur in einem System zum Gesprächsdolmetschen [73]). Allerdings müssen hierbei auch ebenenübergreifende Aspekte der Sprache be rücksichtigt werden. Eine zu rigorose Modularisierung bringt unter Umständen ein er hebliches Risikopotenzial mit sich, da bei der Wahl zu stark eingeschränkter Schnitt stellenprotokolle ebenenübergreifende Aspekte der Sprache nur noch unzureichend berücksichtigt werden können. Ein Beispiel für ein solches Querschnittsphänomen ist etwa mit der Prosodie gegeben, deren Einfluss auf praktisch allen Ebenen der Sprache nachweisbar ist. Hinzu kommt, dass es zahlreiche Wechselwirkungen zwischen den Beschrei bungsebenen gibt, die sich durch einseitig gerichtete Kommunikationsprotokolle nicht adäquat behandeln lassen. So ist z. B. in vielen Fällen das Wissen um die wörtli che Bedeutung einer Äußerung Voraussetzung für die Analyse ihrer kommunikativen Funktion. Umgekehrt muss aber auch die kommunikative Funktion als Voraussetzung für eine erfolgreiche Bedeutungsanalyse angesehen werden. Ähnlich zirkuläre Beziehungen findet man auch in anderen Bereichen der Sprach verarbeitung, etwa bei der Auflösung pronominaler Referenzen, die gleichermaßen stark auf syntaktische und semantische Information zurückgreift. So muss für die deutschen Personalpronomen einerseits eine Übereinstimmung mit dem Bezugsno men in den syntaktischen Merkmalen Genus, Numerus und Person gegeben sein, an dererseits sollte aber auch semantische Passfähigkeit vorliegen. Liegen mehrere Kan didaten für das Bezugsnomen vor, so kann sowohl eine Übereinstimmung in der syn taktischen Funktion als auch in der semantischen Rolle disambiguierend wirken. Da alle diese Kriterien nur einen mehr oder weniger stark ausgeprägten präferenziellen Charakter besitzen, müssen Syntax und Semantik hier und in vielen anderen Zusam menhängen offensichtlich als wechselseitige Voraussetzungen füreinander betrachtet werden. Zudem kann die durch die Referenz vermittelte lexikalische Information sehr hilfreich für die syntaktisch-semantische Analyse sein, sodass auch hier eine Wech selwirkung statt einer einseitigen Informationsweitergabe vorzusehen ist. Modularisierungsentscheidungen können einen erheblichen Einfluss auf die Ef fizienz einer Systemlösung haben, wenn etwa wegen einer lokal nicht verfügbaren Information die Entscheidung über alternative Hypothesen auf die globale Ebene des Systems verlagert werden muss [60]. All dies spricht für eine sehr enge informatio nelle Kopplung der Komponenten bereits auf der Modellebene, die jedoch nicht nur unter dem Gesichtspunkt einer arbeitsteiligen Systementwicklung, sondern auch im Hinblick auf die robuste Verarbeitung problematisch ist (Abschnitt 14.6.4.2).
14.4 Architekturen für die Sprachverarbeitung
|
619
Die Schwierigkeiten, die mit Modularisierungsentscheidungen verbunden sein können, werden besonders deutlich, wenn es sich bei den zu verarbeitenden Daten um unsichere Hypothesen über die sprachlichen Eingaben handelt. Dies ist insbe sondere bei der Verarbeitung gesprochener Sprache der Fall, die in den letzten Jahren verstärkt in den Mittelpunkt des Interesses gerückt ist. Dabei stellt Unsicherheit in diesem Zusammenhang eine inhärente Eigenschaft des (akustischen) Eingabekanals dar und kann nicht als ein ausmerzbares Artefakt betrachtet werden, wie dies oftmals für Tippfehler angenommen wird. Die Unsicherheit betrifft überdies verschiedene Aspekte der sprachlichen Form, wie die Segmentierung des Eingabestroms, die Iden tität der sprachlichen Einheiten und das Vorliegen suprasegmentaler Eigenschaften (Prosodie). Zusätzlich muss bei der Verarbeitung spontan gesprochener Sprache mit dem massiven Auftreten von Performanzphänomenen (Häsitationen (ähm), Abbrü chen, Korrekturen usw.) gerechnet werden, die erhebliche Abweichungen vom Ideal wohlgeformter sprachlicher Äußerungen mit sich bringen: Ich möchte am äh, Drei zehnten, nein Zwölften, also übermorgen, nach Berlin fahren, über Hannover. Rein sequenzielle Architekturen, bei denen die Daten nacheinander eine Rei he von Verarbeitungsstufen durchlaufen, führen zwangsläufig auf das Problem der Fehlerfortpflanzung und -verstärkung. Zudem sind sie für die Verarbeitung von ge sprochener Sprache allein schon wegen des ebenenübergreifenden Charakters der prosodischen Information nicht mehr angemessen. Überdies weiß man vom mensch lichen Vorbild, dass eine wirksame Strategie zur Kompensation der gravierenden Unsicherheit in den Eingabedaten in einer stark erwartungsgesteuerten Verarbeitung besteht. Ein derartiger Verarbeitungsmodus wird derzeit allerdings nur in monoli thischen Systemen recht gut beherrscht. So basieren z. B. die üblichen Verfahren zur Worterkennung auf Erkennungshypothesen, die aus dem Aussprachewörterbuch (ggf. unter weiterer Einschränkung durch ein Sprachmodell) generiert und anschließend am Sprachsignal verifiziert werden. Solange hierbei die verfügbaren Erwartungen an die Eingabedaten stark genug sind, können auf diese Weise sensorische Unsicherheit und grammatikalisch abweichende Konstruktionen in erheblichem Umfang kom pensiert werden. Ein ähnliches Verarbeitungsprinzip liegt dem Top-Down-Parsing (Abschnitt 14.6.4.1) bei der syntaktischen Analyse von idealem sprachlichen Input zugrunde. Weitgehend unklar ist jedoch noch, inwieweit man eine solche Verarbeitungsstra tegie auch auf komplexe Systeme übertragen kann. Hier hat man es üblicherweise mit mehreren potenziellen Quellen für Erwartungen zu tun (Dialogmodell, Weltmo dell, Grammatik usw.), und es ist nicht ohne Weiteres klar, wie man diese (möglicher weise widersprüchlichen) Informationsbeiträge geeignet kombinieren und zu den re levanten Entscheidungspunkten propagieren kann. Ein populärer Ansatz besteht in der Kommunikation von Entscheidungsalternativen etwa in Form von Worthypothe sengraphen [126] (Abbildung 14.1). Ein solcher Graph enthält dann leicht einige Zehn tausend Erkennungshypothesen pro Äußerung und seine Weiterverarbeitung erfor dert sehr leistungsfähige Algorithmen zur strukturellen Analyse [137]. Eine Alternative
620 | 14 Sprachverarbeitung
danke Mann wann dann dann lang
nehmen
vierzehn Montag wir Wochen tag so vier auch den ¨ahm lag legen wen hier doch so’n immer wieso wir
legen
Abb. 14.1: Ein einfacher Worthypothesengraph für die Äußerung Dann nehmen wir doch den Montag
hierzu besteht möglicherweise in der gezielten Etablierung geeigneter Interaktions pfade zwischen den betroffenen Komponenten [20]. Überzeugende Lösungen stehen aber noch aus. Eine weitere Möglichkeit zur Realisierung eines robusten Systemverhaltens ist schließlich das Vorhandensein struktureller Redundanz innerhalb einer lose gekop pelten Systemarchitektur. Hierfür sind mehrere alternative und voneinander unab hängige Verarbeitungsstränge erforderlich wie z. B. – syntaktisch vs. semantisch orientierte Analyse, – probabilistische vs. klassische Ansätze, – regelbasierte vs. beispielbasierte Verfahren oder – akustischer vs. visueller Eingabekanal. Im Idealfall können sie unterschiedliche Verarbeitungsergebnisse zur Verfügung stel len, aus denen dann eine geeignete Auswahl getroffen werden muss [163]. Kann mit komplementären Informationsbeiträgen gerechnet werden, sollte eine Integration von Teilergebnissen angestrebt werden [138]. In einigen Fällen konnte so die Leis tungsfähigkeit des Gesamtsystems über die der Einzelkomponenten hinaus gesteigert werden [74]. Ein solcher Synergieeffekt stellt sich jedoch nicht zwangsläufig ein [29].
14.4.2 Trainierbare Architekturen Das manuelle Zusammenstellen des lexikalischen und grammatischen Wissens, das für die Verarbeitung natürlicher Sprache benötigt wird, ist nicht nur arbeitsaufwän dig, sondern auch sehr fehleranfällig und kann nur bedingt arbeitsteilig erfolgen. Da bei steht der verhältnismäßig geringe Aufwand, mit dem man für stark beschränkte Sprachausschnitte rechnen muss, in deutlichem Kontrast zu den Anforderungen, die sich für größere Anwendungsdomänen bzw. gar für unrestringierte Sprachdaten erge ben. Ausgehend von diesen Erfahrungen ist die Wissensakquisition mit Methoden des Maschinellen Lernens zur (semi-)automatischen Informationsgewinnung immer stär ker in den Mittelpunkt des Interesses gerückt. Als besonders erfolgreich haben sich dabei neuronale Ansätze herausgestellt. Die wesentliche Voraussetzung für eine Anwendung von Verfahren des Maschi nellen Lernens ist die Verfügbarkeit großer Datenmengen für das Training der Model
14.4 Architekturen für die Sprachverarbeitung
|
621
le. Zwar stehen natürlichsprachliche Texte inzwischen für zahlreiche Sprachen in fast unbegrenzter Menge zur Verfügung, doch eignen sich diese nur für relativ einfache Aufgaben der Sprachverarbeitung, die vorrangig auf sequenzielle Abfolgebeziehun gen zurückgreifen, z. B. die Sprachmodellierung (Abschnitt 14.6.1) oder das Lernen von verteilten (lexikalischen) Repräsentationen (Abschnitt 14.6.3). Sehr erfolgreich ist auch die Anwendung zur maschinellen Übersetzung, da hier die Zielstruktur wieder eine sequenzielle Datenstruktur ist, für die Beispieldaten (zumindest für die häufigen Sprachpaare) in größerem Umfang gewonnen werden können. Verfahren zur Sprachstrukturverarbeitung hingegen erfordern überwachte Lern verfahren, für die große Mengen an Korpusdaten benötigt werden, die auf den ver schiedenen sprachlichen Ebenen mit Annotationen versehen sind. Entsprechende Annotationsstandards wurden inzwischen für praktisch alle Bereiche linguistischer Strukturbeschreibungen entwickelt, angefangen von laut- bzw. schriftsprachlichen Transkriptionen über syntaktische Kategorien und Strukturen (Baumbanken), seman tische Klassen, Relationen und Koreferenzbeziehungen bis hin zu den pragmatischen Aspekten der Sprecherintention (Dialogakte) und der Textstruktur. Im Rahmen des Maschinellen Lernens stellt sich die Architekturfrage nicht nur im Rahmen des Gesamtsystems, sondern auch auf einer sehr feingranularen Ebene, z. B. für die Variablen eines stochastischen Modells und deren Abhängigkeiten bzw. für die Zahl der Knoten eines neuronalen Netzes und die Verbindungen zur Aktivi tätsausbreitung zwischen ihnen. Beim Entwurf eines Modells ergibt sich dabei stets ein grundlegendes Spannungsverhältnis zwischen der gewünschten (linguistischen) Ausdruckskraft einerseits und ihrer durch die Menge der verfügbaren Daten begrenz ten Trainierbarkeit. Um hier zu tragfähigen Kompromissen zu kommen, werden z. B. flache Strukturbeschreibungen eingesetzt, die die strukturellen Zusammenhänge in den sprachlichen Äußerungen nur in vereinfachter Form wiedergeben oder aber Mo delltopologien, die die gewünschten Zusammenhänge nur approximativ erfassen können.
14.4.3 Inkrementelle Verarbeitung Ein weiterer Aspekt des Architekturdesigns, der sich in der Komponentenaufteilung nicht direkt widerspiegelt, ist die zeitliche Charakteristik der Modulinteraktion. Klas sische Ansätze zur Mensch-Maschine-Interaktion greifen hier ausnahmslos auf expli zite zeitliche Grenzmarker (Entertaste, Mausklick, Sprechtaste usw.) zurück, wodurch insbesondere die Phase der Informationseingabe von der Phase der Informationsver arbeitung klar getrennt werden soll. Abgesehen davon, dass ein solches Vorgehen im Vergleich zur zwischenmenschlichen Kommunikation recht artifiziell erscheint, kön nen leistungsfähige Lösungen zur Echtzeitverarbeitung erst erreicht werden, wenn Eingabe, Verarbeitung und Ausgabe auf allen Beschreibungsebenen der Sprache zeit lich überlappend erfolgen kann. Sprachverarbeitende Systeme, die dieser Forderung
622 | 14 Sprachverarbeitung
nach strikter temporaler Inkrementalität genügen, weisen dann eine Reihe von Vor teilen auf [82]. – Strukturelles Echtzeitverhalten: Dank der zeitlichen Überlappung von Eingabe und Analyse kann die Sprechzeit des Dialogpartners bereits zur Verarbeitung (Sprachverstehen und Handlungsplanung) genutzt werden. Gleiches gilt auch für den Ausgabekanal: Frühe Teile einer Äußerung stehen bereits zur Versprach lichung bereit, während für spätere noch Verbalisierungsprozesse ablaufen. Län gere monologische Beiträge lassen sich wegen des prinzipiell beschränkten Spei cherplatzes ohnehin nur inkrementell produzieren und analysieren. – Teilnahme an natürlichen Dialogen: Unmittelbare Reaktion und ggf. auch die Übernahme der Gesprächsinitiative ist nur möglich, wenn zumindest Sprachver stehen und Handlungsplanung nebenläufig erfolgen. Wegen der informationellen Abhängigkeiten zwischen den Komponenten einer Gesamtarchitektur gilt diese Forderung dann natürlich für alle Ebenen der Sprachverarbeitung. – Effiziente Verarbeitung: In modularen Architekturen können bestimmte Teil aufgaben von Sprachverstehen und -produktion partiell nebenläufig realisiert werden (z. B. Worterkennung, syntaktische Analyse, semantische Interpretation, Transfer, Generierung). Problematisch ist jedoch, dass während der Analyse der rechte, ja in der Zukunft lie gende Kontext noch nicht verfügbar ist. Daher entfällt auch die Möglichkeit zur globa len Optimierung für eine komplette Äußerung. Das somit unvermeidlich erhöhte Ri siko für lokale Fehlentscheidungen kann nur durch stark erweiterte Suchräume bzw. geeignete Korrekturmechanismen kompensiert werden. Auf der anderen Seite bietet erst eine inkrementelle Analyse überhaupt die Voraussetzungen, um dynamisch gene rierte Erwartungen an den rechten Kontext zur Steigerung der Robustheit einzusetzen. Schlangen und Skantze [140] beschreiben eine generelle Architektur für die in krementelle Verarbeitung in einem Dialogsystem. Sie basiert auf der Möglichkeit zur Kommunikation und expliziten Revision von Hypothesen in einem System aus meh reren Komponenten, die über referenziell gekoppelte Ein-/Ausgabepuffer miteinan der verbunden sind. Die Architektur wurde bereits erfolgreich für einfache interakti ve Sprachdialogaufgaben (z. B. zur Eingabe von Ziffernfolgen mit verzögerungsfreier Korrekturmöglichkeit bzw. zur Feinpositionierung von grafischen Objekten in einer virtuellen Umgebung) eingesetzt [11]. In diesen Fällen konnte die Natürlichkeit der Mensch-Computer-Interaktion deutlich gesteigert werden. Eine Einbeziehung von Er wartungshypothesen ist aber noch nicht vorgesehen.
14.4.4 Multimodale Kommunikation Eine wesentliche Herausforderung für die Realisierung sprachverarbeitender Systeme ist deren erfolgreiche Einbettung in komplexe Nutzungsschnittstellen zur multimoda len Kommunikation. In einem solchen Umfeld ist es oftmals nicht mehr möglich, von
14.5 Sprachliche Strukturen und ihre Beschreibung | 623
bestimmten Aspekten der Sprache zu abstrahieren, sondern es ist im Gegenteil eine explizite Behandlung für eine Reihe von Fragen erforderlich, z. B. – die Fusion von sensorischer Evidenz aus mehreren Eingabekanälen, – die Repräsentation von sprachlichen Einheiten und Domänenobjekten, – die Modellierung des Dialogpartners im Hinblick auf sein Wissen sowie seine In teressen, Intentionen und Bewertungen, – die Auflösung bzw. Herstellung sprachlicher und außersprachlicher Referenzen, – die zeitliche Koordination von Ereignissen in unterschiedlichen Informationska nälen, – die Auswahl der optimalen Modalität für die Informationsvermittlung usw. Daher zählen solche Szenarien auch zu den großen Herausforderungen der KI-For schung insgesamt. Eine typische Beispielanwendung ist etwa die Kommunikation mit einem autonomen Roboter, der neben der Spracheingabe über alternative sensorische Eingabekanäle verfügt [118]. Auf der Generierungsseite ergeben sich vergleichbare An forderungen bei der multimodalen Informationspräsentation [164]. Über den unmittelbaren praktischen Aspekt hinaus sind derartige Untersuchun gen von ganz prinzipieller Bedeutung für solch grundlegende Fragestellungen wie die nach der Repräsentation des eigenen Körpers im Verhältnis zur Umwelt (Embod iment), die z. B. für eine adäquate Behandlung des Phänomens der Metaphorik ganz entscheidend ist [9].
14.5 Sprachliche Strukturen und ihre Beschreibung Die formalen Mittel zur Beschreibung sprachlicher Strukturen kann man grundsätz lich in symbolische und verteilte Repräsentationen unterteilen. Symbolische Re präsentation beschreiben explizit die Relationen zwischen sprachlichen Elementen (Wortformen, Wörter, Phrasen, Sätze usw.), während mit verteilten Repräsentationen versucht wird, solche Relationen implizit über die Nachbarschaftsbeziehungen in einem hochdimensionalen Vektorraum zu erfassen (Kapitel 12). Damit sind Erstere in härent diskret, während Letztere auch graduelle Übergänge modellieren und ggf. das Fehlen einer Information über die räumliche Nachbarschaft zu anderen Elementen kompensieren können. Verteilte Repräsentationen wurden durch die frühen Arbeiten zur Dokumentenrecherche inspiriert, bei denen solch ein Vektor ein komplettes Do kument charakterisiert und zwar durch die Häufigkeit der Wortformen im Text (bzw. daraus abgeleitete Kenngrößen, wie das tf-idf -Maß [7]). Die Ähnlichkeit zweier Vek toren – und damit der durch sie beschriebenen sprachlichen Konstrukte – kann über einfache arithmetische Operationen berechnet werden. In der Sprachverarbeitung finden vor allem dicht besetzte Vektoren Verwendung, bei denen die Dimensionalität künstlich beschränkt wird, um dadurch eine stärkere Generalisierung über den Einzelfall hinaus zu erzwingen. Die Wahl einer geeigneten Dimensionalität ist dann ein wichtiger Entwurfsparameter. Entscheidender ist jedoch
624 | 14 Sprachverarbeitung
die Wahl des Trainingsverfahrens, das sicherstellen muss, dass die relevante Problem information aus den Daten auch in die Vektorrepräsentation übertragen werden kann. Gelingt dies, kann man davon ausgehen, dass die maßgeblichen strukturellen Bezie hungen in der sprachlichen Äußerung tatsächlich implizit in den Vektoren kodiert sind (Abschnitt 14.6.1). Der entscheidende Nachteil verteilter Repräsentationen besteht sicherlich in ih rer eingeschränkten Interpretierbarkeit. Im Gegensatz dazu versuchen symbolische Repräsentationsformate die strukturellen Beziehungen in einer sprachlichen Äuße rung explizit zu machen. Das grundlegende Strukturierungsprinzip ist dabei die zeitli che Abfolge von Einheiten auf den unterschiedlichen Repräsentationsebenen. Für die phonetische Ebene sind dies etwa Sequenzen von (kontinuierlichen) Artikulations bewegungen, und ihren (diskret wahrgenommenen) lautlichen Korrelaten. Eine Be schreibung sprachlicher Beobachtungsdaten durch Folgen von diskreten Phonsymbo len ist daher bereits mit einer wichtigen Abstraktion verbunden. Sie stellt den subjekti ven Wahrnehmungsaspekt in den Vordergrund und vernachlässigt den asynchronen Charakter der menschlichen Artikulation. Das Problem tritt in anderer Form wieder auf, wenn auch prosodische Merkmale, wie Akzent, Rhythmus und Satzmelodie, mit in die Verarbeitung einbezogen werden sollen. Diese Signalbestandteile sind inhärent suprasegmental und erfordern daher eine entsprechende Erweiterung der Repräsen tation durch nicht lautliche Kategorien oder zusätzliche Beschreibungsebenen. Auf einer höheren Granularitätsebene gruppieren sich Phone zu Silben, als den elemen taren Artikulationseinheiten einer Sprache, sodass sich bereits auf der phonetischen Ebene erste Ansätze für eine hierarchische Strukturierung ergeben. Sie kann aber für viele praktische Verarbeitungsaufgaben vernachlässigt werden. So greifen etwa Er kenner für gesprochene Sprache zumeist auf Wortmodelle zurück, die durch Verket tung von Phonmodellen entstehen. Hierbei erfolgt eine unmittelbare Abbildung aus einer Sequenz von Signalbeobachtungen in eine Sequenz von Wortformen, die im Fal le von Diktieranwendungen dann auch die gewünschte Zielstruktur darstellt. Derartige Ganzwortmodelle ignorieren auch die Ebene der Morphologie, auf der untersucht wird, wie sich Wortformen aus ihren elementaren Bausteinen (Wurzeln, Flexionsendungen, Präfixen, Suffixen usw.) zusammensetzen. Sie sind daher vor al lem für morphologisch relativ arme Sprachen geeignet, die kaum spontane Neubil dungen zulassen. Auch auf der morphologischen Ebene wird die lineare Abfolge durch eine hier archische Struktur überlagert, die hier jedoch weitaus stärker in den Vordergrund tritt, da sie die grammatischen Eigenschaften der Wortformen sowie deren Bedeutung wesentlich beeinflussen kann. Damit bieten sich Baumstrukturen als geeignetes Be schreibungsmittel an, die hier durch eine entsprechende Klammerung illustriert sind: – Flexion: (((arbei)te)ten), – Präfigierung: ((aus(arbeit))en), – Suffigierung: (((aus(arbeit))ung), – Zirkumfigierung (aus(ge(arbeit)t)).
14.5 Sprachliche Strukturen und ihre Beschreibung | 625
Zur Vereinfachung wird oftmals angenommen, dass sich zumindest die Zirkumfigie rung auch auf eine Kombination von Prä- und Suffigierung zurückführen lässt. Die Infigierung hingegen entzieht sich einer systematischen und strikt hierarchischen Strukturierung, sodass hier Abstriche an der Modelladäquatheit im Interesse einer einfachen und effizient verarbeitbaren Repräsentation in Kauf genommen werden (müssen): ((aus(arbeit)en) → ((aus[zu](arbeit)en). Die Kompositumsbildung ist ein weiterer Wortbildungsprozess, der (mehrere) ei genständige Formen miteinander kombiniert und gravierende Auswirkungen auf die Bedeutung hat. Sie ist gerade im Deutschen sehr produktiv und ermöglicht zahlrei che spontane Neubildungen. Auch hier bilden sich hierarchische Strukturen heraus, an denen sich die Bedeutungsermittlung orientieren muss: ((Eisen bahn) strecke) aber (Güter (bahn hof )). Für viele praktische Anwendungen lassen sich morphologische Strukturen bei der Sprachverarbeitung ohne gravierenden Verlust an problemrelevanter Informati on mithilfe von einfachen Sequenzen approximieren. Oftmals, insbesondere in einge schränkten Domänen, wird zusätzlich sogar angenommen, dass der Wortschatz eben falls begrenzt ist und daher auch ein Vollformenlexikon ohne Berücksichtigung der internen Wortstruktur verwendet werden kann. Derartige Vereinfachungen sind im Bereich der Syntax nicht mehr möglich, da man hier davon ausgehen muss, dass – auch rekursive Einbettungsstrukturen auftreten und – es selbst in beschränkten Anwendungsdomänen keine obere Schranke für die Menge der wohlgeformten Sätze gibt. Für die Inhaltserschließung wird zudem das Kompositionalitätsprinzip angenommen, dem zufolge sich die Bedeutung eines Satzes kompositional aus der Bedeutung seiner Bestandteile ergibt [56], sodass die Kenntnis der hierarchischen Beziehungen im Satz Voraussetzung für seine semantische Analyse ist. Zur Repräsentation hierarchischer Beziehungen in Sätzen haben sich zwei alter native Herangehensweisen herausgebildet. Sie zeichnen sich jeweils durch spezifi sche Vor- und Nachteile aus: – Konstituentenstrukturen stellen den konfigurationalen Aufbau eines Satzes aus seinen (strukturell weniger komplexen) Bestandteilen in den Mittelpunkt, wohin gegen – Abhängigkeitsstrukturen (Dependenzstrukturen) sich eher an den funktionalen Beziehungen zwischen einzelnen Wortformen oder Teilbäumen eines Satzes ori entieren. Konstituentenstrukturen sind besonders gut geeignet, um bereichsabhängige Infor mation darzustellen, wie sie etwa bei der Modellierung der Informationsstruktur auf treten. Typinformation kann ganzen Konstituenten und nicht nur einzelnen Wortfor men zugewiesen werden. Durch die Vergabe von Namen für die Konstituenten eines
626 | 14 Sprachverarbeitung
S NP
VP
PPer
V
CP Comp
IP NP D
I’ N
VP
I
PP
V
P Er
best¨atigte,
dass
die
Feier
SUBJ
NP
auf
D jeden
N Fall
stattfinden
wird.
OBJC KONJ SUBJ DET
AUX
PP PN DET
Er
best¨atigte,
dass
die
Feier
auf
jeden
Fall
stattfinden
wird.
Abb. 14.2: Konstituenten- und Dependenzstruktur für einen Satz (Abhängigkeitsbeziehungen sind von unten nach oben gerichtet)
Satzes stehen zudem recht effiziente Lösungsverfahren für die Strukturanalyse zur Verfügung (Abschnitt 14.6.4.1). Dependenzbeziehungen hingegen sind im Grunde anordnungsfrei und daher bes ser geeignet, die verschiedenen Linearisierungsvarianten in Sprachen mit freier An ordnung der Satzglieder zu berücksichtigen. Dies führt auch dazu, dass sich syntak tische Beziehungen, die sich nicht in hierarchische Einbettungsstrukturen einfügen (Nichtprojektivitäten) auch ohne zusätzliche Operatoren adäquat beschreiben lassen. Diese größere Flexibilität ruft zwar Effizienzprobleme bei der Analyse hervor, an dererseits stehen dadurch aber auch alternative Lösungsverfahren zur Verfügung (Ab schnitt 14.6.4.4). Für Dependenzbeziehungen gestaltet sich auch die Zuordnung der syntaktischen Valenzen (bei Verben etwa Subjekt, direktes Objekt usw.) auf die Argumente der korrespondierenden semantischen Struktur (Agens, Patiens, Instrument usw.) erfreu lich einfach. Hinzu kommt, dass Dependenzstrukturen Vorteile bei der Evaluation von syntaktischen Analyseverfahren bieten, da sie die Unähnlichkeit verschiedener Strukturvarianten weitaus besser widerspiegeln als Konstituentenstrukturen und somit eine sinnvollere quantitative Bewertung fehlerhafter Analyseergebnisse ermög lichen [92]. Noch deutlicher als bei den morphologischen Phänomenen lässt sich im Bereich der Syntax beobachten, dass Strukturbeschreibungen immer nur bestimmte Aspek
14.5 Sprachliche Strukturen und ihre Beschreibung | 627
te eines linguistischen Phänomens widerspiegeln. Im Rahmen des Systementwurfs ist daher wieder zu entscheiden, ob eine bestimmte Repräsentation die Anforderun gen der jeweiligen Aufgabe hinreichend gut erfüllt. Baumbanken, in denen für For schungs- und Entwicklungszwecke authentisches Satzmaterial gesammelt und mit Strukturbeschreibungen annotiert wird, versuchen daher oftmals diese unterschiedli chen Aspekte angemessen zu berücksichtigen. Ein Beispiel hierfür ist das NEGRA-Kor pus [147], in dem die Konstituentenstruktur zusätzlich durch Dependenzinformation angereichert ist, indem der Kopf einer Konstituente (von dem die anderen Bestandtei le der Konstituente abhängig sind) ausgezeichnet wird. Im Falle von syntaktischen Konstruktionen, bei denen eine Wortform in Relation zu mehreren anderen steht, stoßen Baumstrukturen an die Grenzen ihrer Ausdrucks kraft. Dies ist etwa bei elliptischen Konstruktionen wie z. B. kleine Muttern und Schrau ben der Fall, wo sich die beiden Substantive das gemeinsame Attribut kleine teilen. Auch wenn für eine adäquate Repräsentation eigentlich allgemeine Graphen erforder lich wären, beschränkt man sich wegen der deutlich geringeren Verarbeitungskom plexität trotzdem auf approximative Strukturbeschreibungen mithilfe von Bäumen. Zur Repräsentation der kompositionalen Bedeutung einer Äußerung wird zumeist auf das Beschreibungsinventar der formalen Logik zurückgegriffen. Damit ergeben sich auch hier strukturelle Beziehungen, die sich aber allein auf der Basis hierarchi scher Einbettung nicht mehr angemessen darstellen lassen. Ursache dafür sind die die Quantoren sowie Koreferenzen zwischen den Individuenvariablen eines komple xen Ausdrucks: Marie liest ein Buch. ∃x . Buch(x) ∧ lesen(Marie, x) Eine adäquate Darstellung erfordert hier zwangsläufig den Rückgriff auf gerichtete azyklische Graphstrukturen: buch ∃
∧
Marie lesen
x
Ähnliche Probleme ergeben sich auch bei der Behandlung sprachlicher Koreferenzen. Derartige, oftmals satzgrenzenüberschreitende Bezugnahmen überlagern in Form von Koreferenzketten sowohl die linearen Anordnungsbeziehungen im Satz als auch deren (hierarchische) Struktur. Im Falle pronominaler Bezugnahmen handelt es sich dabei um einfache Äquivalenzrelationen, mithilfe von Nominalkoreferenz lassen sich auch semantische Relationen etablieren (z. B. Teil-von-Beziehungen). Stärker an der pragmatischen Ebene orientiert ist die Informationsstruktur eines Satzes. Hier unterscheidet man bereits vorerwähnte Information (Thema, Topik) von neu hinzukommender Information (Rhema, Fokus), wobei für die gegebene Informa
628 | 14 Sprachverarbeitung
tion üblicherweise die besonders prominente, satzinitiale Position reserviert ist. Wie stark dieser Normalfall der Informationsstruktur im allgemeinen Sprachbewusstsein präsent ist, zeigt sich etwa am Beginn deutscher Märchen, wo eine Bezugnahme auf gegebene Information ja noch nicht möglich ist und daher ein semantisch leeres Füll pronomen gewählt werden muss: Es war einmal . . . Abweichend von der unmarkierten Reihenfolge kann in der satzinitialen Po sition auch solches syntaktisches Material untergebracht werden, das durch diese prominente Position besonders hervorgehoben werden soll, auch wenn dadurch die Standardreihung der Konstituenten im Satz aufgegeben werden muss. Solche Anord nungsvarianten haben dann in vielen Fällen eine systematische Nichtprojektivität zur Folge: AUX SUBJ PP PN
DOBJ DET
DET
In die Werkstatt
hat er den Drucker gebracht.
Im Deutschen bildet sich die Informationsstruktur unmittelbar auf die topologischen Felder eines Satzes ab, wobei zwischen Vorfeld-, Mittelfeld- und Nachfeldpositionen sowie der linken und rechten Satzklammer unterschieden wird: Vorfeld
Linke Klammer
Mittelfeld
Rechte Klammer
Nachfeld
In die Werkstatt Er
hat packt
er den Drucker den Drucker
gebracht. aus,
der in der Werkstatt war.
Da sich die topologischen Felder im Satz vergleichsweise leicht identifizieren lassen, eignen sie sich hervorragend zur Vorstrukturierung des Suchraums für die syntakti sche Analyse. Zudem stellen sie eine Repräsentationsebene dar, die sich gut für die Modellierung von Anordnungsphänomenen eignet [21]. Angesichts der Tatsache, dass es mit den topologischen Feldern und der Informa tionsstruktur neben der eigentlichen syntaktischen Struktur weitere Beschreibungs ebenen gibt, die ebenfalls zwischen der Form eines Satzes und seinem semantischen und pragmatischen Gehalt vermitteln, ergibt sich die Notwendigkeit, verschiedene strukturelle Aspekte zu repräsentieren und systematisch aufeinander zu beziehen. Ein Modellierungsansatz, der dies leistet, findet sich in z. B. in [40]. Für zahlreiche praktische Sprachverarbeitungsaufgaben, insbesondere im Umfeld der Dialogsysteme und des maschinellen Dolmetschens, reicht eine Beschreibung der syntaktischen und semantischen Aspekte natürlichsprachlicher Äußerungen
14.6 Modelle und Verfahren der Sprachverarbeitung
| 629
allein nicht aus, um qualitativ hochwertige Verarbeitungsresultate zu erhalten. Zu sätzlich ist auch die Erfassung der Sprecherintentionen z. B. in Form von Sprechakten wesentlich. Im Kontext des Gesprächsdolmetschens spricht man dann auch von Dia logakten [2]. Dialogakte bilden nicht die wörtliche Bedeutung, sondern den vom Sprecher in tendierten kommunikativen Gehalt ab (Begrüßung, Zustimmung, Ablehnung). In ei nigen Fällen können Dialogakte auch durch den propositionalen Gehalt der jeweiligen Äußerung parametrisiert werden, etwa im Falle eines Vorschlags. Über die Modellie rung von Abfolgebeschränkungen lassen sich Bedingungen für die Kohärenz eines Dialogs erfassen und in den Entscheidungsprozess über eine angemessene System reaktion einbringen. Während Kohärenz den Diskurszusammenhalt auf der inhaltlichen Ebene beschreibt, orientiert sich die Kohäsion stärker an den sprachlichen Ausdrucksmitteln für den Zu sammenhang zwischen den elementaren Textbausteinen. Derartige Zusammenhänge lassen sich mithilfe von rhetorischen Relationen [100] modellieren. Diese beschrei ben die funktionalen Beziehungen zwischen benachbarten, hierarchisch gegliederten Textelementen in Kategorien wie Motivation, Elaboration oder Kontrast. Die Repräsentation unterscheidet systematisch zwischen Nukleus und Satellit einer Relation, wobei die im Satelliten codierte Information entfallen kann, ohne die Textverständlichkeit entscheidend zu beeinträchtigen. Somit stellt die rhetorische Struktur wichtige Grundlagen für die Textplanung und die Zusammenfassung von Texten bereit.
14.6 Modelle und Verfahren der Sprachverarbeitung 14.6.1 Sprachmodelle Anders als es der Name vermuten lässt, beschreiben Sprachmodelle ausschließlich die sequenziellen Beziehungen zwischen den Elementen einer sprachlichen Äuße rung. Ein oft genutztes Hilfsmittel dafür sind endliche Automaten bzw. deren Er weiterungen zu probabilistischen Markov-Ketten. Sie können verwendet werden, um die Fortsetzungsmöglichkeiten einer gegebenen Symbolsequenz vorherzusagen bzw. die Wahrscheinlichkeit für das Auftreten einer bestimmten Beobachtungsse quenz zu ermitteln. Dies allein ist jedoch noch keine genuine Aufgabenstellung der Sprachverarbeitung. Sprachmodelle sind daher auch kaum als Grundlage eigenstän diger Verarbeitungskomponenten geeignet. Sie treten vielmehr in Kombination mit anderen Modellen auf, die tatsächlich in der Lage sind, eine gegebene Eingabesym bolfolge auf eine gewünschte Ausgabesymbolfolge abzubilden, z. B. Transduktoren (Abschnitt 14.6.2).
630 | 14 Sprachverarbeitung
14.6.1.1 Markov-Ketten Eine einfache Markov-Kette modelliert die Übergänge zwischen zwei aufeinanderfol genden Beobachtungen (Phone, Silben, Wörter, Wortarten usw.) durch die bedingten Wahrscheinlichkeiten p t (o i |o i−1 ) für das Auftreten eines Symbols o i bei gegebenem Vorgänger o i−1 . Diese können durch einfache Maximum-Likelihood-Schätzung auf ei nem Textkorpus ermittelt werden. Die Wahrscheinlichkeit einer beliebig langen Sym bolfolge o1,n berechnet sich dann als das Produkt der Übergangswahrscheinlichkei ten in der Folge n
p(o1...n ) = p i (o1 ) ∏ p t (o i |o i−1 ) , i=2
wobei p i (o1 ) für die Anfangsverteilung des ersten Symbols der Sequenz steht. Die ser Berechnung liegt die Annahme zugrunde, dass das Folgesymbol von weiter zu rückliegenden Beobachtungen statistisch unabhängig ist und dass sich die bedingten Übergangswahrscheinlichkeiten über die gesamte Beobachtungsfolge hinweg nicht ändern. Die Gesamtwahrscheinlichkeit einer Folge wird genutzt, um alternative Hypothe sen für das Berechnungsergebnis, z. B. Wortfolgen in der Spracherkennung oder der maschinellen Übersetzung, gegeneinander abzuwägen. Von besonderem Vorteil ist dabei, dass die Berechnung inkrementell und zeitsynchron zur Beobachtungssequenz erfolgen kann. Ein weiterer Vorteil besteht darin, dass für das Schätzen der Wahr scheinlichkeiten nur eine hinreichend große Menge an unannotierten Symbolfolgen benötigt wird, das Training also unüberwacht ist. Soll eine Markov-Kette als Sprachmodell zum Einsatz kommen, sollte der ihr zu grunde liegende endliche Automat grundsätzlich übergenerierend sein. Normalerwei se wird man hierfür sogar ein ergodisches Modell wählen, bei dem jede Beobachtung auf jede andere folgen kann. Die einschränkende Information des Modells stammt dann aus den im Vergleich zu anderen eher unwahrscheinlichen Transitionen, was natürlich den Fall der Nullwahrscheinlichkeit auch mit einschließt. Als Maß für die Güte eines Sprachmodells wird die auf einer Testdatenmenge berechnete Entropie ver wendet bzw. die daraus abgeleitete Perplexität. Die Verwendung übergenerierender, aber statistisch gewichteter Modellstruktu ren stellt einen generellen Lösungsansatz zur Verbesserung der Robustheit von Ana lyseverfahren dar. Er reduziert die Empfindlichkeit eines symbolischen Modells ge genüber Datenkombinationen, die bei der Systementwicklung unberücksichtigt ge blieben sind und kommt in dieser Form auch bei anderen Grammatikmodellen zum Einsatz (Abschnitt 14.6.4.1). Die Struktur eines Markov-Modells lässt sich auf zwei verschiedene Weisen visua lisieren, entweder als Zustandsübergangsdiagramm oder als Bayes’sches Netz. In ei nem Zustandsübergangsdiagramm (Abbildung 14.3a) entsprechen die Knoten den Zu ständen des Modells, d. h. den Beobachtungen, und die Kanten den Übergängen zwi
14.6 Modelle und Verfahren der Sprachverarbeitung
| 631
schen ihnen, während ein Knoten in einem Bayes’schen Netz (Abbildung 14.3b bzw. c) für eine Variable steht, die den jeweils aktuellen Zustand als Wert annimmt. Die Kanten, die in einen solchen Knoten führen, stellen dann die bedingten Wahrschein lichkeitsverteilungen der Zustandsübergänge dar.
p 3,3
c p
,3
3,
1
p2
p 1,
1
p , 3 3, 2 p1 p2,1
a
p1,1 P(o i |o i−1 ) = (p2,1 p3,1
p1,3 p2,3 ) p3,3
b (a)
p 2,
p1,2
p1,2 p2,2 p3,2
2
ab c (b)
ab c
ab c
ab c
ab c
ab c
(c)
Abb. 14.3: Ein ergodisches Bigramm-Modell für drei Beobachtungen: (a) als Zustandsübergangsdia gramm mit der zugehörigen Matrix der Übergangswahrscheinlichkeiten p t (o i |o i−1 ) = p i−1,i , (b) als Bayes’sches Netz für eine einzelne Beobachtung und (c) als Bayes’sches Netz „ausgerollt“ auf eine Beobachtungsfolge der Länge fünf
Ein Bigramm-Modell lässt sich durch die Berücksichtigung einer größeren Vorge schichte zu einem N-Gramm-Modell erweitern (Abbildung 14.4)⁵. Typische N-GrammModelle auf der Wortformenebene verwenden Tupelgrößen zwischen drei und fünf. Dabei erlaubt die Wahl eines größeren Werts für N eine bessere Approximation der tat sächlichen Sequenzwahrscheinlichkeiten, allerdings nur, wenn die Übergangswahr scheinlichkeiten ausreichend zuverlässig geschätzt werden konnten. Dies ist jedoch bei größeren N wegen der exponentiell anwachsenden Zahl möglicher N-Gramme und angesichts einer extrem schiefen Verteilung der Tupel in jeder zufällig zusam mengestellten Sprachdatensammlung immer schlechter möglich. Da im Training zufällig nicht beobachtete Tupel zu einer Übergangswahrschein lichkeit von null führen, ergibt sich für jede Zustandssequenz, in der ein solches Tupel
5 Bei N-Gramm-Modellen mit N > 2 geht aber die direkte Analogie zu einem endlichen Automaten verloren, weil die Wahrscheinlichkeit eines Nachfolgersymbols nicht mehr nur vom unmittelbar vor angegangenen Symbol abhängig ist. Daher kommt eine Darstellung als Zustandsübergangsdiagramm auch nicht mehr infrage.
632 | 14 Sprachverarbeitung
(a)
ab c
ab c
ab c
ab c
ab c
(b)
ab c
ab c
ab c
ab c
ab c
Abb. 14.4: Markov-Ketten höherer Ordnung: (a) ein Trigramm-Modell, (b) ein Quadrogramm-Modell
auftritt, ebenfalls eine Wahrscheinlichkeit von null, was zu einer inakzeptablen Emp findlichkeit des Modells gegenüber im Training (zufällig) nicht gesehenen Beobach tungen führt. Um dieses Problem zu beheben, werden Glättungsverfahren (smoothing) eingesetzt, die einen bestimmten Anteil der Wahrscheinlichkeitsmasse im trainierten Modell von den häufig auftretenden auf die nie beobachteten Tupel umverteilen, so dass Nullwahrscheinlichkeiten vollständig vermieden werden [34]. Dabei wird auch auf generellere Beobachtungsklassen zurückgegriffen (back-off [76]). So lässt sich z. B. die bedingte Wahrscheinlichkeit für ein im Training nicht beobachtbares WortformenTrigramm auf der Basis entsprechender Bigramm-Information schätzen. Darüber hin aus ist es möglich, zusätzliche Trainingsdaten mithilfe des bereits trainierten Modells zu erzeugen (boosting, z. B. Wang et al. [168]). 14.6.1.2 Neuronale Sprachmodelle Eine Alternative zu den N-gramm-basierten Sprachmodellen stellen kontinuierliche Sprachmodelle auf der Basis von verteilten Repräsentationen dar [12; 143]. Ein ein faches Beispiel ist in Abbildung 14.5 dargestellt. Derartige Modelle können ebenfalls unüberwacht trainiert werden. Dafür betrachtet der Trainingsalgorithmus die Wort formen in einem Beobachtungsfenster der Breite n, das die (vorherzusagende) Wort form w(t) zum Zeitpunkt t sowie eine Sequenz aus n − 1 vorangegangenen Kontext wortformen (c(t − 1), . . . , c(t − n)) enthält. Dies entspricht genau einem N-Gramm in einer Markov-Kette. Die Kontextwortformen werden dem Netz in Form von Indexvektoren (one-hot vec tor) mitgeteilt, in denen jede Dimension einer Wortform im Lexikon entspricht. Für die gegebene Wortform wird der Wert auf eins gesetzt, für alle anderen auf null. Diese Vek toren werden mit einer (zu lernenden) Matrix C multipliziert, was einem Lexikonzu griff entspricht, bei dem die Eingabewortform durch ihre interne verteilte Repräsen tation ersetzt wird. Zur Vereinfachung des Trainings teilen sich alle Kontextwortfor men die gleiche Matrix C, was letztendlich auf eine Mittelung des Kontexteinflusses hinausläuft. Eine Gewichtung des Kontexts etwa nach seiner Entfernung zur vorher zusagenden Wortform w(t) findet bei diesem einfachen Ansatz nicht statt.
14.6 Modelle und Verfahren der Sprachverarbeitung
|
633
Eingabeschicht Indexvektoren für die Kontextwortformen
Ausgabeschicht
c1 Projektionsschicht
c(t − n + 1)
wordembeddings Dimensionalität k
C
k × |V|
W
w1
U
k×h
c(t − 1)
c1
Dimensionalität h
tanh
w(t)
cm
verborgene Schicht
Wahrscheinlichkeiten für die vorherzusagende Wortform
|V| × h wm
Softmax
m = |V| cm Abb. 14.5: Neuronales Sprachmodell (vereinfacht nach [12])
Die verteilte Repräsentation auf der Projektionsschicht wird mit einer Matrix W multipliziert, durch die tanh-Funktion nicht linear intervallbegrenzt und nach einer Multiplikation mit der Matrix U durch die Anwendung der Softmax-Funktion p(x i ) =
esi ∑j e s j
auf die Ausgabeschicht abgebildet, wobei die s i für die Aktivierung der Neuronen auf der Ausgabeschicht stehen. Dadurch wird jeder Wortform w i , i = 1 . . . m die beding te Wahrscheinlichkeit ihres Auftretens im Kontext der bereits beobachteten Einga bewortformen p(w i |c s (t − 1), . . . c t (t − n)) zugeordnet. Dementsprechend muss die Zahl der Dimensionen für die Vektoren in der Eingabe- und der Ausgabeschicht gleich der Zahl der Wortformen im Lexikon sein. Die Dimensionalitäten der anderen beiden Schichten sind hingegen geeignet zu wählende Parameter, die den Zwang zur Gene ralisierung steuern: Wenige Dimensionen erzwingen eine starke Generalisierung, be deuten möglicherweise aber auch den Verlust relevanter Information. Im Training werden in einem Onlineverfahren die Gewichte in den Matrizen C, W und U (sowie die dazugehörigen Bias-Vektoren) systematisch variiert, mit dem Ziel die Wahrscheinlichkeit für das gesamte Trainingskorpus zu maximieren.
634 | 14 Sprachverarbeitung
14.6.2 Transformation von Symbolsequenzen Eine Vielzahl von Sprachverarbeitungsaufgaben lässt sich auf die Transformation ei ner Eingabesequenz in eine Ausgabesequenz von Symbolen zurückführen. Ein einfa ches Werkzeug dafür sind endliche Transduktoren (finite-state transducer) [85]. Dabei handelt es sich um endliche Automaten, die mit Paaren aus je einem Eingabesymbol und einem Ausgabesymbol arbeiten, wobei der Symbolvorrat auch das leere Symbol ϵ enthalten kann. Solche Transduktoren werden für zahlreiche Verarbeitungsaufgaben, insbeson dere auf der Wortformenebene, eingesetzt, z. B. zur Vorverarbeitung und Normalisie rung von sprachlichen Daten, zur Silbentrennung oder zur morphologischen Analyse. Sie spielen außerdem eine wichtige Rolle bei der Modellierung phonologischer Pro zesse, so z. B. – bei der Rückführung orthografischer Varianten eines Morphems auf eine kanoni sche Wörterbuchrepräsentation: ich handl+e aber er handel+t, wir handel+n aber wir sprech+en – bei der Generierung von Aussprachevarianten eines Morphems: der Tag ([taːk]) aber die Tage ([taːɡə]), lustig ([lʊstıç]) aber lustige ([lʊstıɡə]) Endliche Transduktoren sind prinzipiell bezüglich ihrer Verarbeitungsrichtung neu tral und können daher sowohl für die Analyse als auch für die Generierung der Einga bedaten genutzt werden. Einschränkungen gelten nur bei der Verwendung des leeren Symbols. 14.6.2.1 Hidden-Markov-Modelle Im Vergleich zu den morphologischen und phonologischen Verarbeitungsaufgaben sind endliche Transduktoren auf der Ebene der Syntax wegen der hier vorherrschen den größeren Ausdrucksvielfalt nur noch für Spezialaufgaben verwendbar. Bereits ei ne so einfache Aufgabenstellung wie die Wortartendisambiguierung (part-of-speech tagging) erfordert den Übergang zu probabilistischen Ansätzen. Für eine zuverlässige Bestimmung ihrer Wortart müssen systematisch Indikatoren aus dem Kontext der je weiligen Wortform einbezogen werden. Dadurch ergeben sich wechselseitige Abhän gigkeiten zwischen den Wortformen im Satz, die bei einer lokalen Entscheidung zu inkonsistenten Resultaten führen würden. Dies lässt sich vermeiden, wenn nicht die optimale Einzelentscheidung, sondern das globale Optimum für die gesamte Folge von Eingabewortformen angestrebt wird. Probabilistische Ansätze sind hierfür sehr gut geeignet. Markov-Ketten bilden die Beobachtungen eindeutig auf die Zustände des Modells ab. Dabei wird jedem Vorkommen einer Wortform der gleiche Modellzustand zugeord net, was eine angemessene Behandlung von entsprechenden Mehrdeutigkeiten aus schließt. Hidden-Markov-Modelle (HMM) hingegen trennen diese beiden Ebenen und
14.6 Modelle und Verfahren der Sprachverarbeitung
s1
s2
s3
s4
s5
ab c
ab c
ab c
ab c
ab c
|
635
Abb. 14.6: Hidden-Markov-Modell mit Bigramm-Übergangswahrscheinlichkeiten
stellen den Bezug über eine probabilistische Verteilung, die Emissionswahrschein lichkeiten, her (Abbildung 14.6). Damit besteht ein Hidden-Markov-Modell aus drei Komponenten: – der initialen Verteilung für den Startzustand p i (s1 ), – den Übergangswahrscheinlichkeiten zwischen den Modellzuständen p t (s i |s i−1 ) sowie – den Emissionswahrscheinlichkeiten für die Beobachtungen p e (o i |s i ). Auch hier sind wieder Übergangswahrscheinlichkeiten höherer Ordnung möglich. Durch die Trennung zwischen Zuständen und Beobachtungen wird es möglich, den Modellzuständen eine Bedeutung zuzuweisen. Im Falle der Wortartendisambigu ierung sind dies die Wortarten. Ähnliche Modelle kommen aber auch zum Tagging mit Baumfragmenten (Supertags) oder semantischen Kategorien zum Einsatz. Das Modell selbst ist generativ angelegt und basiert auf den Wahrscheinlichkei ten, mit denen ein gegebener Zustand (eine Wortart) durch eine Beobachtung (Wort form) realisiert werden kann. Bei der Verwendung des Modells zum Tagging verläuft der Informationsfluss jedoch in der entgegengesetzten Richtung: Es wird diejenige Zustandssequenz und damit die Sequenz der Wortarten-Tags ermittelt, die die Wahr scheinlichkeit der Beobachtungsfolge für ein gegebenes Modell maximiert. ̂s1...n = arg max p(o1...n |M) s 1...n
Dieser Prozess wird als Decoding bezeichnet. Er basiert auf dem Prinzip der dynami schen Programmierung, das es gestattet, die Lösung eines komplexen Optimierungs problems auf die Kombination optimaler Teillösungen zurückzuführen. Dabei kommt in der Regel der Viterbi-Algorithmus zur Anwendung [162], bei dem sich die Wahr scheinlichkeit des Erreichens eines Zustands rekursiv aus dem Maximum der Wahr scheinlichkeiten für die jeweiligen Vorgängerzustände sowie für den Übergang von den Vorgängerzuständen ergibt. Letztere setzt sich aus der Transitionswahrschein lichkeit für den Übergang und der aktuellen Emissionswahrscheinlichkeit für das be obachtete Eingabesymbol zusammen: p(s i |o1...i ) = p e (o i ) ⋅ max p(s i−1 |o1...i−1 ) ⋅ p t (s i |s i−1 ) s i−1
succ(s i , s i+1 ) .
Auf diese Weise erfolgt die Optimierung tatsächlich über die gesamte Beobach tungssequenz, sodass lokale und damit möglicherweise inkonsistente Entscheidun
636 | 14 Sprachverarbeitung
gen vermieden werden. Typische HMM-basierte Wortartentagger erreichen eine Ge nauigkeit von über 96 %. Eine alternative Verwendungsweise für das Modell der Wortartenzuordnung ist das Multitagging, bei dem für jede Wortform im Satz ein Ranking der verschiedenen Wortarthypothesen aufgrund ihrer jeweiligen Wahrscheinlichkeiten berechnet wird p(s k |o1...n )
1 z, y ≥ z, x − y > z, z ≠ 4}. Abbildung 16.1 zeigt einen Graphen für P. Neben den die Variablen repräsentierenden Knoten sind die jeweiligen Variablen-Domänen angegeben. z ≠ 4 z
{1, 2, 3, 4}
z
y
>
≥
x
z
x−y>z x
x>y
{1, 2, 3, 4}
y {1, 2, 3, 4}
Abb. 16.1: Constraint-Netzwerk als Graph
Constraint-Lösungstechniken Eine Möglichkeit für ein gegebenes CSP Lösungen zu ermitteln oder seine Inkonsistenz nachzuweisen, ist die systematische Untersuchung des Suchraums. Da der Suchraum sehr groß sein kann, versucht man zunächst, ihn mithilfe der einzelnen Constraints des CSP lokal einzuschränken. Die Behandlung eines Constraints setzt sich aus drei Verfahren zusammen: (1) Do mänenreduktion, (2) Propagation und (3) Suche. Die Domänenreduktion oder -filte rung entfernt Werte aus den Domänen der an einem Constraint c beteiligten Variablen, wenn sie nicht mit dem Constraint c konsistent sind. Die Propagation bezeichnet die weitere Domänenreduktionen aufgrund von Constraints c , die mit c gemeinsame Va riable haben. Dieser iterative Prozess wird fortgesetzt bis ein Fixpunkt erreicht ist. In diesem Zustand ist das CSP lokal konsistent, d. h., jedes Constraint für sich ist lokal bzw. individuell konsistent. Trotzdem bedeutet das aber auch, dass in den Domänen Werte verblieben sein können, die an keiner Lösung beteiligt sind und sogar, dass trotz nicht leerer Variablen-Domänen das CSP inkonsistent ist. Eine Suche nach Lösungen findet schließlich verschränkt mit der Herstellung der lokalen Konsistenz statt. Die Domänenreduktion führt zu einer Reduktion des Suchraums und damit zu einer Be
718 | 16 Constraints
schleunigung der Lösungsfindung, wobei gleichzeitig der Aufwand für die Domänen reduktion selbst zu berücksichtigen ist. Wir gehen in Abschnitt 16.2.2 auf die Domänenreduktion ein und stellen Konsis tenzbegriffe vor. In Abschnitt 16.2.3 diskutieren wir Propagation und Suchtechniken.
16.2.2 Lokale und globale Konsistenz Lokale Konsistenz bezeichnet Konsistenzzustände eines CSP nach der Propagierung einzelner Constraints. Die im Folgenden diskutierten Konsistenzalgorithmen beseiti gen lokale Inkonsistenzen eines Constraint-Netzwerks, d. h., sie identifizieren und lö schen anhand lokaler Constraints Variablenbelegungen, die niemals Teil einer Lösung sein können. Die Lösungsmenge eines CSP P mit durch Konsistenzherstellung redu zierten Variablendomänen entspricht der des ursprünglichen CSP P, d. h., durch die Herstellung lokaler Konsistenz gehen weder Lösungen verloren noch kommen neue hinzu. Die einfachste Form der Konsistenz ist die Knotenkonsistenz. Die Analyse der Kno tenkonsistenz identifiziert nicht mit unären Constraints verträgliche Werte der Varia blendomänen, die somit entfernt werden können. Definition 16.2.4 Knotenkonsistenz (engl. node consistency). Gegeben sei ein CSP P = (X, D, C). Ein unäres Constraint c ∈ C, vars(c) = {x}, ist knotenkonsistent, wenn D x ⊆ c. Das CSP P ist knotenkonsistent, wenn alle unären Constraints aus C knotenkonsistent sind. Listing 16.1 gibt einen Algorithmus zur Herstellung der Knotenkonsistenz für ein ge gebenes CSP P über den Variablen {x1 , . . . , x n } an. Anhand der Menge C un ⊆ C der unären Constraints von P werden die Variablendomänen eingeschränkt.
Listing 16.1: Knotenkonsistenz 1 2 3 4 5 6
nodeConsistency(P) = foreach c ∈ C un do { Sei {x i } = vars(c). D x i := D x i ∩ c } return P mit neuen Domänen D
Kantenkonsistenz bezeichnet die Verträglichkeit der Domänen von Variablen binärer Constraints. Das Ziel ist auch hier wieder die Entfernung von Domänenwerten, die die lokalen Constraints nicht erfüllen.
16.2 Finite-Domain-Constraints |
719
Definition 16.2.5 Kantenkonsistenz (engl. arc consistency). Gegeben sei ein CSP P = (X, D, C). Ein binäres Constraint c ∈ C über den Variablen x i und x j , i ≠ j, ist kanten konsistent, wenn gilt: ∀d i ∈ D x i , ∃d j ∈ D x j mit (d i , d j ) ∈ c und ∀d j ∈ D x j , ∃d i ∈ D x i mit (d i , d j ) ∈ c . Das CSP P ist kantenkonsistent, wenn alle binären Constraints aus C kantenkonsistent sind. Listing 16.2 zeigt das Vorgehen des Algorithmus AC-1 [47]. Für jedes binäre Constraint c ∈ C bin ⊆ C werden die Werte der beteiligten Variablen aus den Domänen gelöscht, die nicht mit c verträglich sind (Zeilen 4–8). Aufgrund gemeinsamer Variablen von Constraints kann eine Domänenreduktion durch ein Constraint c weitere Reduktionen durch ein anderes Constraint c zur Folge haben. Daher wird der vollständige Durch lauf über alle binären Constraints wiederholt, bis es zu keinen Änderungen der Do mänen mehr kommt (Zeilen 2–9). Man beachte, dass ein CSP als inkonsistent erkannt werden kann, wenn während der Herstellung der lokalen Konsistenz mindestens ei ne Variablendomäne leer wird (somit also keine zulässige Belegung für diese Variable mehr gefunden werden kann).
Listing 16.2: Kantenkonsistenz AC-1 1 2 3 4
arcConsistency(P) = do { D := D foreach c ∈ C bin do {
5
Sei {x i , x j } = vars(c).
6
D x i := {d ∈ D x i | ∃e ∈ D x j : (d, e) ∈ c} D x j := {e ∈ D x j | ∃d ∈ D x i : (d, e) ∈ c}
7 9
} } while D ≠ D
10
return P mit neuen Domänen D
8
Der Algorithmus AC-1 birgt Verbesserungsmöglichkeiten. Selbst wenn nur die Varia blendomäne einer einzigen Variablen x reduziert wurde, betrachtet der Algorithmus im darauf folgenden Durchlauf erneut sämtliche binären Constraints, insbesondere auch solche, deren Variablen möglicherweise gar nicht mit der Variablen x in Verbin dung stehen. Genau diese Beobachtung wird zu einer Verbesserung im Algorithmus AC-3 [47] in Listing 16.3 ausgenutzt. Hier wird eine Menge C work binärer, noch einmal
720 | 16 Constraints
zu betrachtender Constraints verwaltet (Zeile 2). Bereits untersuchte Constraints wer den aus C work entfernt. Wurde die Domäne einer Variablen x reduziert, so werden all die binären Constraints in C work aufgenommen, die x enthalten (Zeilen 8 und 12). AC-3 ist weit verbreitet und häufig genutzt. Der Algorithmus hat im schlechtesten Fall einen Aufwand von O(ed3 ), wobei e die Anzahl der Constraints ist und d die Kardinalität der größten Domäne. Diese und weitere Verbesserungen und Varianten von Kantenkon sistenzalgorithmen (bis hin zu einem Aufwand von O(ed2 ) im schlechtesten Fall) stellt im Detail [7] vor.
Listing 16.3: Kantenkonsistenz AC-3 1
arcConsistency3(P) =
2
C work := C bin
3
do { c := arb(C work ), C work := C work \{c}
4 5
Sei {x i , x j } = vars(c).
9
Dx i := {d ∈ D x i | ∃e ∈ D x j : (d, e) ∈ c} if Dx i ≠ D x i then C work := C work ∪ {c ∈ C bin \{c} | x i ∈ vars(c )} D x i := Dx i
10
Dx j := {e ∈ D x j | ∃d ∈ D x i : (d, e) ∈ c}
11
if Dx j ≠ D x j
6 7 8
12 13
then C work := C work ∪ {c ∈ C bin \{c} | x j ∈ vars(c )} D x j := Dx j
14
} while C work ≠ 0
15
return P mit neuen Domänen D
Die Verallgemeinerung der Kantenkonsistenz für n-stellige Constraints, n ≥ 2, führt zur sog. generalisierten Kantenkonsistenz (engl. generalized arc consistency, GAC, hy per-arc consistency) [20; 81]. Definition 16.2.6 Generalisierte Kantenkonsistenz. Gegeben sei ein CSP P = (X, D, C). Ein n-stelliges Constraint c ∈ C, n ≥ 2, über den Variablen x1 , . . . , x n ist hyperkanten konsistent, wenn gilt: Für alle i ∈ {1, . . . , n} gilt: Für alle Werte d i ∈ D x i gibt es für alle j ∈ {1, . . . , n}, j ≠ i, Werte d j ∈ D x j , sodass die Belegung σ mit σ(x k ) = d k , k ∈ {1, . . . , n} das Constraint c erfüllt.
16.2 Finite-Domain-Constraints
| 721
Generalisierte Kantenkonsistenz bedeutet also, dass es für jede Variable eines Con straints c für jeden ihrer möglichen Domänenwerte für alle anderen Variablen von c gleichzeitig konsistente Domänenwerte geben muss. Bei der Herstellung von GAC werden zur Domänenreduktion einer Variablen x eines Constraints c Domänenwerte aufgespürt, für die es keine kompatiblen Wertetupel für die anderen an c beteiligten Variablen gibt.¹ Als weitere Stufe der lokalen Konsistenz wurde Pfadkonsistenz (engl. path consis tency) untersucht. Entsprechende Algorithmen beschränken die Variablendomänen durch Betrachtung impliziter Constraints, die durch die transitive Verknüpfung binä rer Constraints bestehen [7]. Eine Verallgemeinerung der vorgenannten Konsistenzbe griffe ist die k-Konsistenz, die beschreibt, dass jede konsistente Belegung von (k − 1) Variablen zu einer solchen über k Variablen erweitert werden kann [18]. Die starke k-Konsistenz eines CSP setzt darüber hinaus seine i-Konsistenz für i ∈ {1, . . . , k} vor aus. Ist ein CSP mit n Variablen stark n-konsistent, so sind die Domänen der Variablen minimal, d. h., sie enthalten keine Werte, die nicht an einer Lösung beteiligt sind. Das CSP ist dann global konsistent [7]. Definition 16.2.7 Globale Konsistenz. Sei P = (X, D, C) ein CSP mit den Variablen X = {x1 , . . . , x n }, deren Domänen D = (D x1 , . . . , D x n ) und einer Menge von Constraints C = {c1 , . . . , c k } über X. Das CSP P ist global konsistent, wenn gilt: ∀i ∈ {1, . . . , n} : ∀d i ∈ D x i : ∃d1 ∈ D x1 , . . . , ∃d i−1 ∈ D x i−1 , ∃d i+1 ∈ D x i+1 , . . . , ∃d n ∈ D x n , sodass die Belegung σ mit σ(x k ) = d k , k ∈ {1, . . . , n} eine Lösung für C∧ ist. Beispiel 16.2.3. Nach Herstellung von Knoten- und Kantenkonsistenz bzw. GAC erhal ten wir für das CSP P aus Beispiel 16.2.2 ein äquivalentes CSP P mit folgenden reduzier ten Domänen: D x = {3, 4} , D y = D z = {1, 2} . Das CSP P ist nicht global konsistent, da der Wert zwei aus der Domäne der Variablen z an keiner Lösung von P beteiligt ist. Das CSP P bzw. P hat drei Lösungen: σ 1 = {x/3, y/1, z/1} ,
σ 2 = {x/4, y/1, z/1} und σ 3 = {x/4, y/2, z/1} .
Aufgrund des mit dem Grad der Konsistenz steigenden Aufwands der Algorithmen zu ihrer Herstellung beschränkt man sich in der Regel auf Knoten- und Kantenkonsistenz bzw. GAC. Zur Lösung eines CSP werden Konsistenzalgorithmen und Suchverfahren verzahnt angewendet.
1 Dies entspricht im Kantenkonsistenzalgorithmus in Listing 16.3 den Zeilen 6 und 10.
722 | 16 Constraints
16.2.3 Suchtechniken Ein lokal konsistentes CSP liefert weder direkt Lösungen noch sichern Knoten- und Kantenkonsistenz bzw. GAC deren Vorhandensein. Im Folgenden betrachten wir da her (vollständige) Suchtechniken. Wie bisher gehen wir von CSP mit endlichen Domä nen aus, somit ist eine vollständige und terminierende Untersuchung des Suchraums möglich. Da ein einfaches Generieren und Testen einer Belegung zur Berechnung von Lö sungen aufgrund des im Allgemeinen sehr großen Suchraums sehr ineffizient ist, nutzt man das Wissen aus den Constraints, um die Domänen bereits vor bzw. wäh rend der Generierung von Teillösungen einzuschränken. In einfacher Weise wendet man dies bereits beim (chronologischen) Backtracking an. Schrittweise werden Variable mit Werten ihrer Domänen belegt, bis eine Lösung gefunden ist oder die Inkonsistenz des CSP nachgewiesen wurde. Der Suchraum wird in Form eines sog. Suchbaums durchlaufen. In jedem Schritt, d. h. nach jeder Bele gung einer Variablen, wird die Konsistenz der aktuellen Teilbelegung hinsichtlich der Constraints des CSP überprüft. Treten Inkonsistenzen auf, so wird die Belegung für diese Variable rückgängig gemacht und eine alternative Wertauswahl getroffen. Ist die Wertemenge leer, so wird weiter zurückgegangen und die Wertauswahl der vorherge henden Variablen widerrufen. Tatsächlich wird Backtracking aber in Kombination mit Konsistenztechniken, Suchstrategien und Heuristiken verwendet, um schneller eine, alle oder eine beste Lösung zu generieren oder die Inkonsistenz des Netzwerks nachzuweisen. Konsistenztechniken Techniken zur Herstellung lokaler Konsistenz können unmittelbar vor der Suche zur initialen Suchraumbeschränkung oder mit der Suche verzahnt, d. h. im Wechsel mit dieser, angewendet werden. Letzteres erlaubt den Suchraum sukzessive und nach je der Erweiterung einer Teillösung einzuschränken. Suchstrategien Man unterscheidet rückwärts gerichtete (look back) und vorwärts gerichtete (look ahead) Suchstrategien. Wir skizzieren kurz Verfahren beider Klassen, eine ausführ liche Darstellung, die auch Kombinationen solcher Strategien diskutiert, findet man z. B. in [56; 78]. Look-back-Verfahren zielen darauf ab, das wiederholte Durchlaufen fehlgeschla gener Zweige im Suchbaum zu vermeiden. So versucht beispielsweise Backjumping diejenige Variable im Suchbaum zu identifizieren, deren inkonsistente Belegung für das Backtracking verantwortlich war und springt an diese Stelle im Suchbaum zu rück, möglicherweise über mehrere Ebenen. Backchecking und Backmarking vermer
16.2 Finite-Domain-Constraints
| 723
ken weiterhin inkonsistente und konsistente Teilbelegungen, um diese nicht erneut prüfen zu müssen. Look-ahead-Strategien schließen vorausschauend inkonsistente Belegungen aus, indem sie Konsistenztechniken innerhalb der Suche nach jeder Wertauswahl anwen den, um so den Suchraum zu reduzieren. Diese Strategien unterscheiden sich in Form und Umfang der verwendeten Konsistenztechniken. Während z. B. Forward Checking Kantenkonsistenz nur für Constraints mit noch genau einer ungebundenen Variablen herstellt, tut der MAC-Algorithmus (Maintaining Arc Consistency [65]) dies für alle Con straints mit noch unbelegten Variablen. Listing 16.4 zeigt den MAC-Algorithmus. Zunächst wird in Zeile 2 lokale Konsis tenz, also beispielsweise Knoten- und generalisierte Kantenkonsistenz, hergestellt. Wird hierbei bereits die Domäne mindestens einer Variabler leer, so können wir keine Lösung finden und das gegebene CSP war inkonsistent (Zeilen 3, 4). Sind zu diesem Zeitpunkt hingegen die Domänen aller Variablen einelementig, so haben wir eine Lö sung gefunden (Zeilen 5, 6): Wir geben das aktuelle CSP mit seinen einelementigen Domänen, die diese Lösung repräsentieren, aus. Anderenfalls erweitern wir die ak tuelle Teillösung, indem wir eine Variable y mit mindestens zweielementiger Domäne auswählen (Zeile 8) und für sie eine Belegung d y bestimmen (Zeile 10). Mit dieser neu en Domänenbeschränkung wird erneut der Algorithmus MAC aufgerufen (Zeilen 12, 13). Hierdurch wird die Herstellung der lokalen Konsistenz mit der eigentlichen Suche verschränkt. Die Zeilen 9–15 realisieren Backtracking über der Wertauswahl. Variablenauswahl- und Wertauswahlheuristiken Heuristiken bei der Variablen- und Wertauswahl können sich deutlich auf eine schnel le Lösungsfindung von Constraint-Problemen auswirken. In Listing 16.4 wurden in den Zeilen 8 und 10 Freiheitsgrade bei der Auswahl der nächsten zu instanziieren den Variablen und des nächsten Domänenwertes gelassen. Hier setzen Variablen- und Wertauswahlheuristiken an. Beide können statisch oder dynamisch sein, d. h., die Reihenfolgen der Variablen bzw. Werte zur Auswahl ist entweder a priori vorgegeben oder wird während des Such prozesses ermittelt. Dynamische Variablenauswahlheuristiken wählen die nächste zu instanziieren de Variable entweder anhand der Größe der aktuell verbleibenden Domänen oder ba sierend auf der Struktur des CSP. Die Variablenauswahl beeinflusst die Struktur des Suchbaums. Ihr Ziel ist es, im Sinne einer schnellen Lösungsfindung den Suchbaum möglichst schlank zu halten. Weit verbreitet und einfach zu entscheiden ist beispiels weise das Fail-First-Prinzip: Man wählt eine Variable mit der aktuell kleinsten Domä ne. Eine andere Heuristik, die auch in Kombination mit der ersteren angewendet wird, ist das Most-Constrained-Prinzip. Dabei werden Variablen, die in vielen Constraints auftreten, bevorzugt ausgewählt.
724 | 16 Constraints
Listing 16.4: Maintaining Arc Consistency (MAC) 1
MAC(P) =
2
P := localConsistency(P)
3
if ∃i ∈ {1, . . . , n} : D x i = 0 then return false if ∀i ∈ {1, . . . , n} : D x i = 1 then return P
4 5 6 7
else {
// inkonsistentes CSP
// Lösung gefunden
// erweitere Teillösung
Wähle y ∈ X mit D y ≥ 2. while D y ≠ 0 do {
8 9 10
Wähle d y ∈ D y .
11
D y := D y \{d y }
13
R := MAC(P ), wobei P = (X, (D x1 , . . . , Dy , . . . , D x n ), C) und Dy = {d y }
14
if R ≠ false then return R
12
15
}
16
return false
17
}
In der Regel wird die Größe und prinzipielle Suchbaumstruktur durch eine Wert auswahlheuristik nicht verändert, lediglich die Reihenfolge der Zweige im Suchbaum wird variiert. In diesem Fall sind solche Heuristiken nur dann von Nutzen, um schnell eine erste Lösung oder die ersten n Lösungen zu finden. Sollen alle Lösungen aufge zählt werden oder ist das CSP inkonsistent, so muss der gesamte Suchbaum abgelau fen werden, wobei die Reihenfolge der Wertauswahl dann irrelevant ist. Wird wäh rend der Suche hingegen zusätzliches Wissen gewonnen und ausgenutzt, z. B. durch Lernen mittels Nogoods [15; 78], oder handelt es sich um ein COP, so kann die Wahl der Wertauswahlheuristik auf die Größe und die Struktur des Suchbaumes und, damit verbunden, auf die Lösungsgeschwindigkeit des Constraint-Problems wieder einen er heblichen Einfluss haben. So kann man beispielsweise für ein zu minimierendes COP aus einer ersten Lösung eine obere Schranke gewinnen. Mit dieser können bei der Su che nach besseren Lösungen ggf. bestimmte Zweige des Suchbaums, die keinen bes seren Zielwert mehr erreichen können, erkannt und ausgeschlossen werden. Anstelle einer konkreten Wertauswahl und Instanziierung einer Variablen ist es auch möglich, ein Domänen-Splitting-Verfahren anzuwenden. Dies bedeutet für das aktuell betrachtete CSP die Domäne D x einer Variablen x aufzuteilen und verschiede
16.2 Finite-Domain-Constraints
| 725
i ne Instanzen des CSP mit den Teildomänen D1x , . . . , D m x mit D x = ⋃i∈{1,...,m} D x von x zu untersuchen. Eine ausführlichere Diskussion von Heuristiken zur Variablen- und Wertauswahl findet man z. B. in [31; 78].
16.2.4 Globale Constraints Globale Constraints erlauben eine globale Sicht auf bestimmte logische Verknüpfun gen lokaler Constraints, die bei der Modellierung einer Anwendung einen gemeinsa men Sachverhalt beschreiben. Ein globales Constraint legt in der Regel eine Relation über einer nicht fixierten Anzahl von Variablen fest. Bei seiner Behandlung und Lö sung kann der Lösungsalgorithmus die Problemstruktur ausnutzen, eine Information, die bei der individuellen Betrachtung lokaler Constraints eher verloren geht. Das alldifferent-Constraint Die paarweise Verschiedenheit von n Variablen x1 , . . . , x n , n ≥ 2, wird durch das globale Constraint alldifferent(x1 , . . . , x n ) repräsentiert. Es ist äquivalent zu einer Konjunktion von n∗(n−1) Ungleichungen: 2 alldifferent(x1 , . . . , x n ) ←→ ⋀ i= plan1d[day] \/ plan1d[day+1] == 0 49 ); 47
48
50
% mindestens 2 Tage in je 2 Wochen sind frei
51
constraint forall(day in 1..(weeks - 2) * days) ( at_least(2, plan1d[day..day + days * 2], 0) );
52 53 54 55
solve :: int_search(plan1d, input_order, indomain_min, complete) satisfy;
Eine weitere wichtige Bedingung ist die Vorwärtsrotation in der Schichtfolge (An forderung 7): Auf eine Schicht am Tag i muss am Tag i + 1 immer eine Schicht mit gleichem oder größerem Wert des Schichttyps folgen. Dies wird durch arithmetische Constraints und ein Oder-Constraint in den Zeilen 46–49 realisiert.
16.4 Anwendungsbeispiele | 745
Anforderung 8 nach mindestens zwei freien Tagen, d. h. Freischichten, innerhalb von je zwei Wochen wird in den Zeilen 50–53 durch das Constraint at_least, einer Variante des globalen count-Constraints, realisiert. Anmerkung: Aufgrund des o. g. Rotationsprinzips über alle Mitarbeiter müssten die Constraints so formuliert werden, dass sie auch im Übergang von der letzten auf die erste Woche gelten. Dies ist im hier vorgestellten, vereinfachten Model unberück sichtigt geblieben. Tabelle 16.3 zeigt eine Lösung des Schichtplanungsproblems für die erste Woche, angegeben für alle Mitarbeiter. In Woche 2 hat Mitarbeiter 1 den Wochenplan von Mit arbeiter 2, Mitarbeiter 2 arbeitet zu diesem Zeitpunkt nach dem Plan von Person 3 usw. Hierdurch ergibt sich automatisch ein Plan für alle acht Mitarbeiter über acht Wochen. Tab. 16.3: Eine Lösung des Schichtplanungsproblems
Mitarbeiter 1 Mitarbeiter 2 Mitarbeiter 3 Mitarbeiter 4 Mitarbeiter 5 Mitarbeiter 6 Mitarbeiter 7 Mitarbeiter 8
Mo
Di
Mi
Do
Fr
Sa
So
Frei Früh Früh Spät Frei Nacht Nacht Frei
Frei Spät Früh Frei Frei Nacht Nacht Früh
Frei Spät Früh Frei Spät Frei Nacht Früh
Frei Frei Früh Früh Spät Frei Nacht Nacht
Früh Frei Spät Früh Spät Früh Frei Nacht
Früh Frei Spät Nacht Nacht Früh Frei Nacht
Früh Frei Spät Nacht Nacht Früh Frei Nacht
16.4.4 Verbesserung der Modelle durch Reformulierung Die in den vorangehenden Abschnitten gezeigten Beispiele sind für gängige Con straint-Solver, wie z. B. Choco, Gecode oder die Google OR-Tools in wenigen Millise kunden bis Sekunden lösbar. Allerdings steigt die Problemgröße mit zunehmender Variablenanzahl exponentiell. So führt beispielsweise eine Erweiterung des Schicht planungsproblems auf zehn Wochen bereits zu einem erheblichen Zeitmehraufwand zur Lösungsfindung. Aus diesem Grund beschäftigt sich die aktuelle Forschung im Bereich der Constraint-Programmierung u. a. mit der Reformulierung und Ergänzung von Constraint-Problemen mit dem Ziel der Verbesserung der Lösungsgeschwindig keit. Wir stellen im Folgenden zwei dieser Forschungsansätze kurz vor. Weitere Hin weise auf aktuelle Forschungsgebiete der Constraint-Programmierung geben wir in Abschnitt 16.7. Implizite Constraints Durch sog. implizite (oder auch redundante) Constraints kann Wissen, das in einem CSP prinzipiell bereits vorhanden ist, noch einmal explizit gemacht werden. Hier
746 | 16 Constraints
durch ist es oft möglich, deutlich schneller eine Lösung zu finden. Ein klassisches Bei spiel ist das Problem der magischen Quadrate: Den n2 Plätzen eines Quadrats mit der Kantenlänge n sollen die Ziffern 1, . . . , n2 so zugeordnet werden, dass die Summen jeder Zeile, jeder Spalte und jeder Diagonalen jeweils gleich sind. Implizit ist in ei 2 ner solchen naiven Modellierung bereits auch der Summenwert mit n∗(n2 +1) gegeben. Macht man diese Information durch ein zusätzliches, redundantes Constraint expli zit, so hat dies in der Regel einen signifikanten Einfluss auf die Geschwindigkeit der Lösungsfindung. Für unser Schichtplanungsproblem lässt sich beispielsweise zusätzlich durch red undante Constraints explizit angeben, wie viele Frei-, Früh-, Spät- und Nachtschich ten es insgesamt über die acht Wochen verteilt geben muss. Implizit ist dies durch die Angabe der Schichtanforderungen für jeden Wochentag und jede Schicht bereits ge geben. Eine explizite Angabe führt aber auch hier zu einer signifikanten Performance verbesserung. Remodellierung mit globalen Constraints Eine weitere, vielversprechende Technik ist die Zusammenfassung von Constraints ei nes CSP in ein globales Constraint, z. B. ein regular-Constraint. Dies kann zu einer Erhöhung des Konsistenzlevels bei der Propagation und damit zu einer deutlichen Verringerung der Backtracking-Schritte während der Suche führen [1; 42; 43; 44; 45]. Im Schichtplanungsproblem können beispielsweise die Constraints, die die An forderungen 4–8 garantieren (Zeilen 30–53 in Listing 16.11), jeweils zu regular-Con straints transformiert werden. Darüber hinaus können die so entstandenen regularConstraints durch Kombination (Vereinigung und Schnittmengenbildung) der zugrun de liegenden DFA, zu einem einzigen regular-Constraint zusammengefasst werden, was nachweislich zu einer erheblichen Beschleunigung der Lösungsfindung führt [43].
16.5 Soft-Constraints Bei der Constraint-basierten Modellierung größerer realer Probleme, wie z. B. von Stundenplanungsproblemen, kommt es schnell dazu, dass die spezifizierte Cons traint-Menge nicht mehr erfüllbar ist. Man spricht dann von einem überspezifizierten (engl. overconstrained) Constraint-Problem. Diese Situation tritt z. B. dann auf, wenn Constraints nicht nur zur Beschreibung von zwingend notwendigen, sondern auch für erwünschte Bedingungen und Eigenschaften (und damit im Prinzip „missbräuch lich“) genutzt werden. Eine manuelle und möglicherweise heuristische Verfeinerung des Constraint-Problems mit dem Ziel, die Überspezifikation aufzulösen ohne ganz auf Präferenzen zu verzichten, ist aufwendig und nicht zwingend zielführend. Der Begriff Soft-Constraints steht für eine Reihe von Verfahren, die eine partielle Erfüllung von Constraints unterstützen. Sie eignen sich insbesondere zur Modellie
16.5 Soft-Constraints
| 747
rung von Präferenzen, Wahrscheinlichkeiten, Unsicherheiten und Kosten, aber auch zur Bewertung und dem Vergleich von Lösungen. Während bei der Lösung eines Soft-Constraint-Problems sog. harte Constraints (engl. hard/crisp constraints) zwingend erfüllt sein müssen, beschreiben Soft-Con straints Bedingungen, deren Erfüllung lediglich erwünscht ist. Eine Lösung ist hier eine Belegung, die einen besten Wert hinsichtlich eines bestimmten vorgegebenen Kriteriums darstellt. Bei der Stundenplanung in Universitäten ist das Ziel die Zuordnung von Kursen und Lehrenden zu Räumen, Zeitblöcken und Hörsälen unter Berücksichtigung von zwingenden Bedingungen, aber auch von Präferenzen. Harte Constraints sind bei spielsweise die Anzahl und Größe der Räume, die Zahl der Kurse, geschätzte Zuhö rerzahlen, Lage und Anzahl der Zeitblöcke. Auch kann ein Lehrender nicht gleichzei tig mehrere Kurse durchführen. Hingegen stellen Zeit- und Raumwünsche der Lehren den und z. B. Universitätsrichtlinien, wie eine bevorzugte Nutzung bestimmter Räume oder Zeitblöcke, Soft-Constraints dar. Partielle Constraint-Erfüllung (engl. partial constraint satisfaction) und Con straint-Hierarchien wurden Ende der 1980er-Jahre zur Behandlung überspezifizierter Constraint-Probleme entwickelt. Ab Anfang der 1990er-Jahre wurden spezielle SoftConstraint-Konzepte untersucht, hierunter beispielsweise gewichtete Constraints und Fuzzy-Constraints. Eine Generalisierung bieten zwei wesentliche Soft-ConstraintFrameworks. Eine detaillierte Darstellung von Soft-Constraints und entsprechenden Lösungsalgorithmen, die sich häufig an denen zur Lösung von harten Constraints anlehnen, findet man in [51]. Wir skizzieren im Folgenden wesentliche Konzepte. Spezielle Ausprägungen In gewichteten Constraint-Netzen [51; 71] wird jedem Constraint ein Gewicht bzw. ein Kostenwert zugeordnet. Die Kosten einer Belegung berechnet sich aus der Summe der Gewichte aller Constraints, die von dieser Belegung verletzt werden. Eine Lösung mit minimalen Kosten ist optimal. Gewichtete Constraint-Netze sind ein sehr ausdrucksstarker Formalismus, auf den andere Soft-Constraint-Konzepte, hierunter possibilistische Constraints [66] und probabilistische Constraints [17] effizient reduziert werden können. Werden die Kosten für alle Constraints mit eins bewertet, so handelt es sich um ein sog. MaxCSP [21]. In diesem Fall charakterisiert das Gewicht einer Belegung die Anzahl der verletzten Constraints. Fuzzy-Constraints [16; 64] trennen nicht zwischen zulässigen und unzulässigen Variablenbelegungen, sondern beschreiben stattdessen, inwieweit Wertetupel von je weiligen Sollwerten abweichen. Hierzu wird für jedes Wertetupel ein Grad der Erfül lung (ein Wert zwischen null und eins) berechnet. Basierend auf den Werten der ato maren Constraints wird der Erfüllungsgrad der Belegung (dies entspricht dem Mini mum der Erfüllungsgrade) bestimmt. Eine Optimallösung ist hier eine Belegung mit
748 | 16 Constraints
maximalem Erfüllungsgrad. Eine typische Anwendung von Fuzzy-Constraints sind kritische Anwendungen, an die man möglichst vorsichtig herangeht. Das bedeutet, man betrachtet insbesondere die ungünstigsten Folgen oder Ergebnisse, wählt unter diesen aber die beste Lösung aus. Generelle Soft-Constraint-Frameworks Den speziellen Ausprägungen der Soft-Constraints unterliegt eine gemeinsame Struk tur: Für eine gegebene Variablenbelegung eines Constraint-Problems wird für jedes Constraint angegeben, ob und zu welchem Anteil es erfüllt oder verletzt ist. Hieraus wird ein Grad der Erfüllung für die Belegung berechnet. Eine Optimallösung ist eine Lösung mit optimalem Erfüllungsgrad. Die Ansätze differieren somit im Wesentlichen hinsichtlich des Operators zur Kombination der Bewertungen von Wertetupeln und der Ordnung der Erfüllungsgrade. Generelle Soft-Constraint-Frameworks, insbesondere Semiring-basierte Con straints und Valued Constraints (eine ausführliche Darstellung und Diskussion beider findet sich in [8]), unterstützen eine verallgemeinerte Darstellungsform der speziali sierten Ansätze. Semiring-basierte Constraints gründen auf einer Semiring-Struktur. Ihre Opera tionen erlauben die Formalisierung der Kombination von Erfüllungsgraden und der Ordnung über diesen. In einem Semiring-basierten Constraint-Netzwerk bildet jedes Constraint seine Wertetupel auf Werte des Semirings ab. Durch Instanziierung des Semirings erhält man die o. g. speziellen Ausprägungen, aber auch die klassischen CSP. Valued Constraints sind eine alternative Beschreibungsform zum Semiring-basier ten Constraint-Formalismus. Sie basieren auf einer monoidartigen Struktur und haben die gleiche Ausdrucksstärke wie total geordnete Semiring-basierte Constraints. Partielle Constraint-Erfüllung und Constraint-Hierarchien Zur Behandlung überspezifizierter Constraint-Probleme wurden Ende der 1980erJahre zunächst (und vor den verschiedenen Soft-Constraint-Konzepten) die partielle Constraint-Erfüllung und Constraint-Hierarchien entwickelt. Partielle Constraint-Erfüllung [21] hat das Ziel, zu einem überspezifizierten Con straint-Problem ein anderes Constraint-Netzwerk zu finden, das erfüllbar ist und sich dabei weitestgehend am ursprünglichen Problem orientiert. Dies wird durch Abschwächung der Constraints (engl. constraint relaxation) auf vier möglichen We gen erreicht: durch die Erweiterung von Variablendomänen, durch das Hinzufügen neuer Wertetupel zu Constraints, durch das Löschen von Constraints und durch das Löschen von Variablen. Die unvollständige Formalisierung des Ansatzes behindert seine Abbildung in ein generelles Soft-Constraint-Framework [51]. Hierarchische Constraints [9; 10] verfolgen einen ähnlichen Ansatz wie gewich tete Constraints. Jedem Constraint wird eine Prioritätsstufe (z. B. weak – medium –
16.6 Temporale Constraints
| 749
strong – required) innerhalb einer totalen Ordnung zugeordnet. Anhand der Priori tätsstufen werden Kosten von Belegungen ermittelt und verglichen. Eine Belegung ist dabei nur dann eine Lösung, wenn sie mindestens die Hard-Constraints erfüllt. Die Möglichkeiten zur Definition von Vergleichsoperatoren (engl. comparators) und zur Kostenberechnung gehen über die der generalisierten Frameworks hinaus [51].
16.6 Modellierung und Schließen mit temporalen Constraints Viele Anwendungen der KI, hierunter Planungsprobleme, die Spezifikation reaktiver Systeme, Model Checking von Hard- und Software, die Verarbeitung natürlicher Spra che und die Analyse zeitabhängiger Daten, z. B. in Expertensystemen, beinhalten zeit liche Aspekte. Kautz [37] unterteilt Verfahren und Ansätze zum zeitlichen Schließen in drei Ka tegorien: temporale Logiken, Aktionslogiken und algebraische Systeme. Während mit temporalen Logiken, wie beispielsweise LTL und CTL [6; 14; 55] temporale Be ziehungen zwischen Aussagen formuliert und mit Model-Checking-Techniken über prüft werden können, werden bei Aktionslogiken wie dem Situationskalkül [49], dem Fluentenkalkül [76] und der dynamischen Logik [28] Abläufe durch Überführung von Zuständen in Folgezustände mittels Aktionen beschrieben, wobei temporales Wis sen nur implizit auftritt. Algebraische Systeme hingegen beschreiben qualitativ oder quantitativ Relationen zwischen Zeitpunkten oder Zeitintervallen. In dieser Weise be schriebene Probleme können als temporale Constraint-Probleme betrachtet und be handelt werden. Beispielsweise kann die Konsistenz der Beschreibungen zeitlicher Beziehungen überprüft werden, konsistente Belegungen können berechnet und Zeit abläufe optimiert werden. Zeit wird dabei als kontinuierliche lineare Struktur aufge fasst. Beim Temporal Constraint Programming werden drei wesentliche Forschungsrich tungen unterschieden: 1. das Schließen auf der Basis metrischer Information (sog. quantitative Ansätze), 2. qualitative Ansätze basierend auf Allens Intervallalgebra und 3. gemischte Ansätze (z. B. [38; 50]) basierend auf metrischen und qualitativen Con straints mit dem Ziel einer verbesserten Ausdrucksstärke bei Vermeidung einer Erhöhung der Komplexität. Quantitative Algebren erlauben das zeitliche Schließen mit metrischer Information. Als primitive temporale Objekte werden Zeitpunkte als reelle (oder rationale) Zah len betrachtet. Constraints beschreiben reellwertige Intervalle. Die Algorithmen zur Behandlung solcher Constraints nutzen die metrischen Eigenschaften der Domänen. In [24; 70] werden effizient handhabbare Problemklassen diskutiert, hierunter das Simple Temporal Problem (STP) und seine Erweiterungen sowie Verfahren zur Über prüfung der Erfüllbarkeit und zur Berechnung von Lösungen.
750 | 16 Constraints
Bei den qualitativen Ansätzen werden Constraints als Relationen zwischen Inter vallen oder Zeitpunkten definiert. Die bekannteste Variation ist Allens Intervallalge bra (IA) [2]. Andere qualitative Ansätze betreffen Subalgebren von IA, hierunter die qualitative Punktalgebra (PA) [77; 83] und die NB-Algebra [52], eine maximale Subal gebra von IA, bei der die Erfüllbarkeit in polynomieller Zeit entscheidbar ist. Weiterführende Darstellungen hierzu findet man in [24; 39; 70] sowie in Kapitel 4.
16.7 Zusammenfassung Die Constraint-basierte Programmierung hat sich von ihren Ursprüngen als Erweite rung der logischen Programmierung hin zu einem etablierten Bereich der KI entwi ckelt. Ursache des Erfolgs der Constraint-Programmierung sind vor allem ihre vielfäl tigen Anwendungsgebiete in Praxis und Wissenschaft und ihre Integration mit Metho den der klassischen KI und des Operations Research. Dieser Artikel gibt einen Überblick und eine Einführung in den Bereich der Con straints, ihrer Lösungsverfahren, Programmiermethodik und Anwendungen sowie in spezielle Ausprägungen wie Soft-Constraints und temporale Constraints. Andere The men, hierunter weitere Domänen und ihre Lösungsmethoden, die Kombination von Lösungsverfahren, Implementierungstechniken und die nebenläufige Constraint-Pro grammierung (engl. Concurrent Constraint Programming, CCP) haben wir ausgelassen. Das Handbook of Constraint Programming [62] gibt eine weitreichende Darstellung. Constraints, Constraint-basierte Programmierung und Verfahren sind Thema vie ler Konferenzen und Workshops, insbesondere der International Conference on Princi ples and Practice of Constraint Programming (CP) und der International Conference on Integration of AI and OR Techniques in Constraint Programming (CP AI OR) sowie weite rer KI-Konferenzen. Die Zeitschrift Constraints (Springer-Verlag) vertritt das Themen gebiet ebenso wie Theory and Practice of Logic Programming (Cambridge University Press). Seit 2005 bildet die Association of Constraint Programming (ACP) eine Vereini gung von Wissenschaftlern mit Themengebieten im Bereich Constraints. Aktuelle Forschungsschwerpunkte umfassen Themen wie die Parallelisierung und Remodellierung von Constraints (Abschnitte 16.3.3 und 16.4.4), die Verbesse rung und Spezialisierung der verschiedenen Solver, Algorithmen und Heuristiken zur Lösung von Constraint-Problemen [32; 63; 67] und die Erschließung neuer Anwen dungsfelder. Darüber hinaus ist in den letzten Jahren durch die aktuellen Entwick lungen und Fortschritte im Bereich des Maschinellen Lernens auch die Kombination von Methoden dieses Gebiets mit denen der Constraint-Programmierung in den For schungsfokus gerückt. Die Tatsache, dass Techniken der Constraint-Programmierung in immer mehr An wendungen zum Einsatz kommen, z. B. nicht mehr nur in der industriellen Praxis und Wirtschaft, sondern auch im Alltag, wie beispielsweise in Navigationsgeräten, zur Fahrplanoptimierung oder beim automatischen Layout von UI-Elementen auf dem
Literaturverzeichnis
| 751
Handy, sorgt dafür, dass die Constraint-Programmierung auch in der Zukunft ein wich tiges Teilgebiet der KI darstellen wird. Seit der letzten Dekade ist die Constraint-Programmierung auch im InformatikStudienplan vieler Universitäten vertreten, weiterhin sind eine Reihe von Büchern im Lehr- und Forschungskontext erschienen, darunter [4; 15; 23; 31; 48; 62].
Literaturverzeichnis [1]
[2] [3]
[4] [5] [6] [7] [8]
[9] [10]
[11]
[12]
[13] [14]
[15] [16]
Akgün, Ö., Gent, I. P., Jefferson, C., Miguel, I., Nightingale, P. und Salamon, A. Z. Automatic Dis covery and Exploitation of Promising Subproblems for Tabulation. In Principles and Practice of Constraint Programming - 24th International Conference, CP 2018, Lille, France, August 27-31, 2018, Proceedings, S. 3–12, 2018. Allen, J. F. Maintaining Knowledge about Temporal Intervals. Communications of the ACM, 26(11):832–843, 1983. Amadini, R., Gabbrielli, M. und Mauro, J. A Multicore Tool for Constraint Solving. In Yang, Q. und Wooldridge, M. J. (Hrsg.), Proceedings of the Twenty-Fourth International Joint Conference on Artificial Intelligence – IJCAI, S. 232–238. AAAI Press, 2015. Apt, K. Principles of Constraint Programming. Cambridge University Press, 2003. Apt, K. und Wallace, M. Constraint Logic Programming using Eclipse. Cambridge University Press, 2007. Bérard, B., Bidoit, M., Finkel, A., Laroussinie, F., Petit, A., Petrucci, L., Schnoebelen, P. und McKenzie, P. Systems and Software Verification. Springer, 2010. Bessiere, C. Constraint Propagation. In [62], Kapitel 3, S. 29–83. Bistarelli, S., Montanari, U., Rossi, F., Schiex, T., Verfaillie, G. und Fargier, H. Semiring-Based CSPs and Valued CSPs: Frameworks, Properties, and Comparison. Constraints, 4(3):199–240, 1999. Borning, A., Freeman-Benson, B. N. und Wilson, M. Constraint Hierarchies. Lisp and Symbolic Computation, 5(3):223–270, 1992. Borning, A., Maher, M. J., Martindale, A. und Wilson, M. Constraint Hierarchies and Logic Pro gramming. In Levi, G. und Martelli, M. (Hrsg.), International Conference on Logic Programming (ICLP), S. 149–164. MIT Press, 1989. Bundesamt für Justiz und für Verbraucherschutz. Arbeitszeitgesetz vom 6. Juni 1994 (BGBl. I S. 1170, 1171), zuletzt geändert durch Artikel 3 Absatz 6 des Gesetzes vom 20. April 2013 (BGBl. I S. 868). http://www.gesetze-im-internet.de/arbzg/BJNR117100994.html, 1994. zuletzt be sucht 2020-02-25. Bundesanstalt für Arbeitsschutz und Arbeitsmedizin (BAuA). Gestaltung von Nacht- und Schichtarbeit. https://www.baua.de/DE/Themen/Arbeitsgestaltung-im-Betrieb/Arbeitszeit/ Nacht-und-Schichtarbeit.html, 2020. zuletzt besucht 2020-02-25. Carlsson, M. und Mildner, P. SICStus Prolog - The first 25 years. Theory and Practice of Logic Programming – TPLP, 12(1-2):35–66, 2012. Clarke, E. M. und Emerson, E. A. Design and Synthesis of Synchronization Skeletons using Branching Time Temporal Logic. In Logics of Programs Workshop, Band 131 von Lecture Notes in Computer Science, S. 52–71. Springer, 1981. Dechter, R. Constraint Processing. Morgan Kaufmann, 2003. Dubois, D., Fargier, H. und Prade, H. The Calculus of Fuzzy Restrictions as a Basis for Flexi ble Constraint Satisfaction. In 2nd IEEE International Conference on Fuzzy Systems, Band 2, S. 1131–1136, 1993.
752 | 16 Constraints
[17] Fargier, H. und Lang, J. Uncertainty in Constraint Satisfaction Problems: a Probalistic Ap proach. In Clarke, M., Kruse, R. und Moral, S. (Hrsg.), Symbolic and Quantitative Approaches to Reasoning and Uncertainty (ECSQARU), Band 747 von Lecture Notes in Computer Science, S. 97–104. Springer, 1993. [18] Freuder, E. C. Synthesizing Constraint Expressions. Communications of the ACM, 21(11):958–966, 1978. [19] Freuder, E. C. In Pursuit of the Holy Grail. Constraints, 2(1):57–61, 1997. [20] Freuder, E. C. und Mackworth, A. K. Constraint Satisfaction: An Emerging Paradigm. In [62], Kapitel 2, S. 13–27. [21] Freuder, E. C. und Wallace, R. J. Partial Constraint Satisfaction. Artificial Intelligence, 58(1-3):21–70, 1992. [22] Frühwirth, T. Constraint Handling Rules. Cambridge University Press, 2009. [23] Frühwirth, T. und Abdennadher, S. Essentials of Constraint Programming. Springer Verlag, 2003. [24] Gennari, R. Temporal Reasoning and Constraint Programming. A Survey. CWI Quarterly, 11(2&3):163–214, 1998. CWI, University of Amsterdam. [25] Gent, I. P., Miguel, I., Nightingale, P., McCreesh, C., Prosser, P., Moore, N. C. A. und Unsworth, C. A review of literature on parallel constraint solving. Theory and Practice of Logic Programming – TPLP, 18(5-6):725–758, 2018. [26] Global Constraint Catalog. https://sofdem.github.io/gccat/, 2014. zuletzt besucht 2020-02-25. [27] Google OR-Tools. Route. Schedule. Plan. Assign. Pack. Solve. https://developers.google.com/ optimization/, 2020. zuletzt besucht 2020-02-25. [28] Harel, D. First-Order Dynamic Logic, Band 68 von Lecture Notes in Computer Science. Springer, 1979. [29] Hofstedt, P. Constraint-Based Object-Oriented Programming. IEEE Software, 27(5):53–56, 2010. [30] Hofstedt, P. Multiparadigm Constraint Programming Languages. Springer, 2011. [31] Hofstedt, P. und Wolf, A. Einführung in die Constraint-Programmierung. Springer, 2007. [32] Hooker, J. N. (Hrsg.). Principles and Practice of Constraint Programming - 24th International Conference, CP 2018, Lille, France, August 27-31, 2018, Proceedings, Band 11008 von Lecture Notes in Computer Science. Springer, 2018. [33] Hopcroft, J. E. und Ullman, J. D. Introduction to Automata Theory, Languages and Computation. Addison-Wesley, 1979. [34] IBM. IBM ILOG CPLEX Optimization Studio. https://www.ibm.com/de-de/products/ilog-cplexoptimization-studio, 2020. zuletzt besucht 2020-02-25. [35] Jaffar, J. und Lassez, J. L. Constraint Logic Programming. In 14th ACM Symposium on Principles of Programming Languages (POPL), S. 111–119, 1987. [36] Jaffar, J. und Maher, M. J. Constraint Logic Programming: A Survey. Journal of Logic Pro gramming, 19/20:503–581, 1994. [37] Kautz, H. Temporal Reasoning. In Wilson, R. A. und Keil, F. C. (Hrsg.), The MIT Encyclopedia of the Cognitive Science, S. 829–831. MIT Press, Cambridge, 1999. [38] Kautz, H. A. und Ladkin, P. B. Integrating Metric and Qualitative Temporal Reasoning. In Dean, T. L. und McKeown, K. (Hrsg.), 9th National Conference on Artificial Intelligence (AAAI), Volume 1, S. 241–246. AAAI Press / The MIT Press, 1991. [39] Koubarakis, M. Temporal CSPs. In [62], Kapitel 19, S. 665–697. [40] Kuchcinski, K. und Szymanek, R. JaCoP Library User’s Guide, October 10, 2018. version 4.6. [41] Laurière, J. L. A Language and a Program for Stating and Solving Combinatorial Problems. Arti ficial Intelligence, 10(1):29–127, 1978. [42] Lecoutre, C. STR2: optimized simple tabular reduction for table constraints. Constraints, 16(4):341–371, 2011.
Literaturverzeichnis
|
753
[43] Löffler, S., Liu, K. und Hofstedt, P. The Power of Regular Constraints in CSPs. In 47. Jahresta gung der Gesellschaft für Informatik, Informatik 2017, Chemnitz, Germany, September 25-29, 2017, S. 603–614, 2017. [44] Löffler, S., Liu, K. und Hofstedt, P. The Regularization of CSPs for Rostering, Planning and Re source Management Problems. In Artificial Intelligence Applications and Innovations - 14th IFIP WG 12.5 International Conference, AIAI 2018, Rhodes, Greece, May 25-27, 2018, Proceedings, S. 209–218, 2018. [45] Löffler, S., Liu, K. und Hofstedt, P. A Meta Constraint Satisfaction Optimization Problem for the Optimization of Regular Constraint Satisfaction Problems. In Proceedings of the 11th Interna tional Conference on Agents and Artificial Intelligence, ICAART 2019, Volume 2, Prague, Czech Republic, February 19-21, 2019., S. 435–442, 2019. [46] López-Ortiz, A., Quimper, C. G., Tromp, J. und Van Beek, P. A Fast and Simple Algorithm for Bounds Consistency of the AllDifferent Constraint. In Gottlob, G. und Walsh, T. (Hrsg.), Joint Conference on Artificial Intelligence (IJCAI), S. 245–250. Morgan Kaufmann, 2003. [47] Mackworth, A. K. Consistency in Networks of Relations. Artificial Intelligence, 8(1):99–118, 1977. [48] Marriott, K. und Stuckey, P. J. Programming with Constraints: An Introduction. The MIT Press, 1998. [49] McCarthy, J. und Hayes, P. J. Some Philosophical Problems from the Standpoint of Artificial Intelligence. Machine Intelligence, 4:463–502, 1969. [50] Meiri, I. Combining Qualitative and Quantitative Constraints in Temporal Reasoning. Artificial Intelligence, 87(1-2):343–385, 1996. [51] Meseguer, P., Rossi, F. und Schiex, T. Soft Constraints. In [62], Kapitel 9, S. 281–328. [52] Nebel, B. und Bürckert, H. J. Reasoning about Temporal Relations: A Maximal Tractable Sub class of Allen’s Interval Algebra. Journal of the ACM, 42(1):43–66, 1995. [53] Niederlinski, A. A Quick and Gentle Guide to Constraint Logic Programming via ECLi PSe. Jacek Skalmierski Computer Studio Gliwice, Poland, 3. Aufl., 2014. [54] OscaR: Operational Research in Scala. https://bitbucket.org/oscarlib/oscar, 2020. zuletzt besucht 2020-02-25. [55] Pnueli, A. The Temporal Logic of Programs. In 18th IEEE Symp. Foundations of Computer Sci ence (FOCS), S. 46–57, 1977. [56] Prosser, P. Hybrid Algorithms for the Constraint Satisfaction Problem. Computational Intelli gence, 9:268–299, 1993. [57] Prud’homme, C., Fages, J. G. und Lorca, X. Choco Documentation. TASC - LS2N CNRS UMR 6241, COSLING S.A.S., 2017. [58] Puget, J. F. A Fast Algorithm for the Bound Consistency of alldiff Constraints. In Mostow, J. und Rich, C. (Hrsg.), Artificial Intelligence and Innovative Applications of Artificial Intelligence (AAAI), Madison, Wisconsin, USA, S. 359–366. AAAI Press / The MIT Press, 1998. [59] RecentToys. https://www.recenttoys.com. Zuletzt besucht 2020-10-05. [60] Régin, J. und Malapert, A. Parallel Constraint Programming. In Hamadi, Y. und Sais, L. (Hrsg.), Handbook of Parallel Constraint Reasoning., S. 337–379. Springer-Verlag, 2018. [61] Régin, J. C. A Filtering Algorithm for Constraints of Difference in CSPs. In Hayes-Roth, B. und Korf, R. E. (Hrsg.), 12th National Conference on Artificial Intelligence, Seattle, WA, USA (AAAI 94), Volume 1, S. 362–367. AAAI Press / The MIT Press, 1994. [62] Rossi, F., Van Beek, P. und Walsh, T. (Hrsg.). Handbook of Constraint Programming. Elsevier, 2006. [63] Rousseau, L. und Stergiou, K. (Hrsg.). Integration of Constraint Programming, Artificial Intelli gence, and Operations Research - 16th International Conference, CPAIOR 2019, Thessaloniki,
754 | 16 Constraints
[64] [65]
[66]
[67]
[68] [69] [70] [71] [72]
[73] [74] [75] [76] [77] [78] [79] [80] [81] [82] [83]
[84] [85]
Greece, June 4-7, 2019, Proceedings, Band 11494 von Lecture Notes in Computer Science. Sprin ger, 2019. Ruttkay, Z. Fuzzy Constraint Satisfaction. In Third IEEE International Conference on Fuzzy Sys tems, S. 1263–1268. IEEE Press, 1994. Sabin, D. und Freuder, E. C. Understanding and Improving the MAC Algorithm. In Smolka, G. (Hrsg.), Principles and Practice of Constraint Programming (CP), Band 1330 von Lecture Notes in Computer Science, S. 167–181. Springer, 1997. Schiex, T. Possibilistic Constraint Satisfaction Problems or How to Handle Soft Constraints? In Dubois, D. und Wellman, M. P. (Hrsg.), Uncertainty in Artificial Intelligence (UAI), S. 268–275, 1992. Schiex, T. und de Givry, S. (Hrsg.). Principles and Practice of Constraint Programming - 25th International Conference, CP 2019, Stamford, CT, USA, September 30 - October 4, 2019, Pro ceedings, Band 11802 von Lecture Notes in Computer Science. Springer, 2019. Schrijvers, T., Stuckey, P. und Wadler, P. Monadic Constraint Programming. Journal of Func tional Programming, 19(6):663–697, 2009. Schulte, C., Tack, G. und Lagerkvist, M. Z. Modeling and Programming with Gecode, 2019. Gecode 6.2.0. Schwalb, E. und Vila, L. Temporal Constraints: A Survey. Constraints, 3(2/3):129–149, 1998. Shapiro, L. G. und Haralick, R. M. Structural Descriptions and Inexact Matching. IEEE Transac tions on Pattern Analysis and Machine Intelligence, 3:504–519, 1981. Stuckey, P. J., Becket, R., Brand, S., Brown, M., Feydy, T., Fischer, J., de la Banda, M. G., Mar riott, K. und Wallace, M. The Evolving World of MiniZinc. In Frisch, A. M. und Lee, J. (Hrsg.), International Workshop on Constraint Modelling and Reformulation (ModRef), S. 156–170, 2009. Stuckey, P. J., Becket, R. und Fischer, J. Philosophy of the MiniZinc challenge. Constraints, 15(3):307–316, 2010. Stuckey, P. J., Feydy, T., Schutt, A., Tack, G. und Fischer, J. The MiniZinc Challenge 2008-2013. AI Magazine, 35(2):55–60, 2014. Stuckey, P. J., Marriott, K. und Tack, G. MiniZinc Handbook, Release 2.3.2, September 2019. https://www.minizinc.org/resources.html, zuletzt besucht 2020-02-25. Thielscher, M. Introduction to the Fluent Calculus. Electronic Transactions on Artificial Intelli gence, 2(3-4):179–192, 1998. Van Beek, P. Reasoning about Qualitative Temporal Information. Artificial Intelligence, 58(1-3):297–326, 1992. Van Beek, P. Backtracking Search Algorithms. In [62], Kapitel 4, S. 85–134. Van Hentenryck, P. The OPL Optimization Programming Language. The MIT Press, 1999. Van Hentenryck, P. und Michel, L. Constraint-Based Local Search. MIT Press, 2005. Van Hoeve, W. J. The Alldifferent Constraint: A Survey. In Sixth Annual Workshop of the ERCIM Working Group on Constraints, 2001. Prague. Van Hoeve, W. J. und Katriel, I. Global Constraints. In [62], Kapitel 6, S. 169–208. Vilain, M. B. und Kautz, H. A. Constraint Propagation Algorithms for Temporal Reasoning. In Kehler, T. (Hrsg.), 5th National Conference on Artificial Intelligence (AAAI), Band 1, S. 377–382. Morgan Kaufmann, 1986. Wielemaker, J., Schrijvers, T., Triska, M. und Lager, T. SWI-Prolog. Theory and Practice of Logic Programming – TPLP, 12(1-2):67–96, 2012. Zhou, N. F., Kjellerstrand, H. und Fruhman, J. Constraint Solving and Planning with Picat. Sprin ger-Verlag, 2015.
17 Multiagentensysteme Franziska Klügl Multiagentensysteme – als Manifestation von Verteilter Künstlicher Intelligenz – ent stehen, wenn mehrere weitgehend autonome „Agenten“ (Hardware, Software, Men schen) als Elemente eines kohärenten Gesamtsystems zusammengebracht werden. Ein Agent ist dabei eine Art (mehr oder weniger) intelligente, situierte Einheit, die mittels Sensoren ihre (lokale) Umwelt wahrnimmt und mittels Effektoren ihre (lokale) Umwelt verändern kann. Diesem Konzept eines Agenten begegnet man auch in an deren Kapiteln dieses Handbuchs, z. B. Kapitel 10. Gibt es mehrere Agenten, kommt zur individuellen die soziale Intelligenz hinzu. Die Entitäten können interagieren und kommunizieren, teilen Information, kooperieren, koordinieren ihre Aktionen oder stehen im Wettbewerb zueinander. Bringt man mehrere Agenten zusammen, entsteht ein System, das der Metapher einer Gesellschaft folgt.
17.1 Was ist ein Multiagentensystem? Das Gebiet der Multiagentensysteme – früher auch als „verteilte Künstliche Intelli genz“ bezeichnet, ist als solches seit Anfang der 1980er-Jahre ein fester Bestandteil der KI-Forschungslandschaft. Während in den ersten 20 Jahren die Unterscheidung in „verteilte Problemlösung“ und „Multiagentensystem“ noch wichtig war (siehe [23] für eine Diskussion), bezeichnet man mittlerweile jede Form von System mit meh reren, interagierenden „Agenten“ als Multiagentensystem. Abbildung 17.1 visualisiert verschiedene Aspekte, die für ein Multiagentensystem wichtig sind.
Organisaon
Interakon Agent
Agent
Wahrnehmungsund Einflussgebiet Umwelt
Abb. 17.1: Elemente eines Multiagentensystems und Kontext (nach [76]) https://doi.org/10.1515/9783110659948-017
756 | 17 Multiagentensysteme
Die Agenten sind in eine Umwelt eingebettet, in der sie eine lokale Wahrnehmung und auch lokale Einflussmöglichkeiten haben. Neben der Interaktion mit ihrer Umwelt gibt es Interaktion mit anderen Agenten. Letztere wird durch die Organisation struk turiert: Nur Agenten innerhalb einer Gruppe kommunizieren miteinander. In Multi agentenorganisationen werden oft noch weitere Aspekte definiert. Je nach Organisa tionsmodell werden Rollen, Erlaubnisse, Verpflichtungen etc. formuliert. Interessant ist der Begriff der „Umwelt“. Aus der Sicht eines einzelnen Agenten ist alles, in das er eingebettet ist und mit dem er interagiert, seine individuelle Umwelt. Diese indivi duelle Umwelt enthält also auch die anderen Agenten. Die Umwelt eines Multiagen tensystems als Ganzes ist das, was übrig bleibt, wenn man alle Agenten entfernt. In wirklich komplexen Systemen kann es mehrere Multiagentensysteme in einer Umwelt oder Multiagentensysteme, die aus anderen Multiagentensystemen zusammengesetzt sind, geben.
17.1.1 Was charakterisiert ein Multiagentensystem? So wie es viele verschiedene Formen von Gesellschaften und Organisationen gibt, fin det man eine Vielfalt von Multiagentensystemen. Es gibt Multirobotersysteme aus Tau senden von Drohnen, die selbstständig zu einer jeweils gegebenen Position fliegen, um zusammen ein besonderes Muster am Himmel zu generieren (z. B. mit 100 Droh nen in 2016¹, mehr als 2000 Drohnen in 2018²). Am anderen Ende der Skala gibt es den einzelnen intelligenten Roboteragenten oder virtuellen Interaktionspartner, der mit einem oder mehreren Menschen intensiv kommuniziert und so komplexe Proble me löst. Ein Beispiel für ein solches Zweiagentensystem aus Mensch und Agent be steht aus einem künstlichen Schlagzeuger, der so intensiv einen menschlichen Jazz pianisten beobachtet und auf bestimmte Eigenschaften dessen Spiels reagiert, dass ein interessantes Zusammenspiel entsteht [72]. Auch wenn auf vielen Multiagenten systemkonferenzen Beiträge über spezielle Fähigkeiten einzelner intelligenter Agen ten präsentiert werden, soll in diesem Kapitel das „Multi-“ betont werden, da solche relevanten Agentenfähigkeiten, z. B. autonomes Planen (Kapitel 10) oder Schließen (Kapitel 5) schon an anderer Stelle diskutiert werden. Schon 1998 haben N. Jennings et al. [37] die folgenden definierenden Eigenschaf ten identifiziert: – Jeder Agent besitzt nur eine unvollständige Sicht auf das Gesamtsystem. Das be deutet, dass jeder Agent nur beschränkte Information und begrenzte Problemlö sefähigkeiten hat. – Es gibt keine zentrale Systemkontrolle. – Daten werden dezentral gespeichert. – Berechnungen sind asynchron. 1 https://www.youtube.com/watch?v=MkoHK0mjjEs 2 https://www.youtube.com/watch?v=xwQ31-vSgfs
17.1 Was ist ein Multiagentensystem? |
757
Nicht alle dieser Eigenschaften werden in der Praxis immer realisiert. So gibt es z. B. bei Systemen zur Computational Social Choice oft eine zentrale Komponente, die alle Stimmen sammelt und daraus die gemeinsam gewählte Option bestimmt. Viele Multi agentenplaner nutzen eine zentrale Einheit, die Koordinationsaktionen in die lokalen Pläne einfügt. Es gibt also keine etablierte Form eines Multiagentensystems, sondern viele ver schiedene, mit unterschiedlichen Eigenschaften und Strukturen. Will man nun ein Multiagentensystem näher charakterisieren, kann das entlang verschiedener Dimen sionen geschehen. In den Beispielen oben ist es vor allem die Anzahl der Agenten. Auch andere Dimensionen können sinnvoll sein und sind dabei oft nicht unabhängig voneinander. Die vielen Drohnen einer Lichtshow sind einfach und nicht besonders intelligent. Sie bekommen Position und Farbe für jeden Moment der Show als Ziel ex plizit vorgegeben. Sie haben daher eine sehr niedrige Autonomie. Dimensionen, die sich für eine Charakterisierung als geeignet erwiesen haben, sind u. a. die folgenden: – Wie oben erwähnt, die Anzahl der Agenten beeinflusst Organisation, Kommuni kationsstrukturen etc. – Die Komplexität der einzelnen Agenten ist oft, aber nicht notwendigerweise, mit der Anzahl der Agenten verknüpft. Wie komplex ein Agent ist, hängt von dessen Architektur, seinem Verhaltensrepertoire, den Inhalten seines internen Zustands etc. ab. – Die Homogenität der Agenten lässt sich auf unterschiedlichen Ebenen angehen: Es gibt Multiagentensysteme mit identischen Agenten, die alleine dadurch, dass sie die Umwelt von unterschiedlichen Positionen aus betrachten, unterschiedli che Elemente wahrnehmen und so unterschiedliches Verhalten zeigen. In ande ren Systemen benutzen Agenten zwar den gleichen Mechanismus oder Architek tur, verwenden aber individuelle Parameterwerte oder unterschiedliche Informa tion in ihren Beliefs. Richtig heterogene Multiagentensysteme zeichnen sich durch das Vorhandensein unterschiedlicher Agentenarchitekturen aus oder bestehen aus Agenten, die auf unterschiedlichen Plattformen laufen etc. Solche Heteroge nität entsteht, wenn sie von unterschiedlichen Entwicklern in die gleiche Umwelt „geworfen“ wurden. – Wie die Ziele der einzelnen Agenten zueinander stehen, ist eine zentrale Charakte risierung eines Multiagentensystems: Ein Gesamtsystem kann so designed sein, dass die Ziele seiner Agenten zueinander passen. Agenten mit kompatiblen Zie len können gemeinsame Ziele identifizieren und kooperieren. Bei Agenten mit in kompatiblen Zielen muss deren Zusammenspiel so organisiert werden, dass z. B. der Agent die Ressource, die alle wollen, bekommt, der sie tatsächlich am drin gendsten braucht oder dass z. B. die Entscheidung getroffen wird, die für alle „am besten“ ist. – Wie Agenten miteinander interagieren, ist nur zum Teil eine technische Frage. Es hat auch Einfluss darauf, wie Kooperation geschehen kann: Kommunizieren die
758 | 17 Multiagentensysteme
–
Agenten nur indirekt miteinander, d. h., ein Agent nimmt eine durch einen ande ren Agenten veränderte Umwelt war? Werden Marker in der Umwelt hinterlassen, die einer oder mehrere andere Agenten lesen können? Existiert eine Art gemeinsa mer Speicherbereich, der als Blackboard funktionieren kann? Erlaubt das Interak tionsmedium einfache Signale oder komplexe Nachrichten? Andere Aspekte der Interaktion betreffen die Komplexität der Interaktionsprotokolle, ob Nachrichten direkt verschickt werden oder als Broadcast an alle Agenten gehen, die zuhören oder einen bestimmten Kanal abonniert haben etc. Wie eng oder wie flexibel sind die Agenten aneinander gekoppelt und welche Or ganisationsform hat das Gesamtsystem? Die Kopplung bestimmt wie fest Inter aktionen vorgegeben sind: Gibt es klare, vorgegebene Interaktionspartner oder kann – z. B. wegen der Mobilität der Agenten – eigentlich jeder mit jedem anderen interagieren? Dies betrifft die übergreifende Struktur, die Architektur des Gesamt systems. Organisation wird oft mit einer Top-down-Sicht auf das Multiagenten system assoziiert, die bei der Entwicklung und einem klar strukturierten Design des Multiagentensystems eine Rolle spielen kann. Explizite Organisationsstruk turen können sich in Gruppenstrukturen mit definierten Schnittstellen und Ver antwortlichkeiten äußern, ebenso wie verschiedene statische oder dynamische Relationen zwischen Agenten, z. B. Autoritätsrelationen, explizit entworfen wer den können.
Natürlich spielen auch die Charakteristika der Umwelt [61], wie Zugänglichkeit, Dy namik etc. eine Rolle. Aus der Sicht eines individuellen Agenten jedoch ist eine Welt, in der der Agent mit anderen koexistiert, per se nicht vollständig zugänglich; es gibt andere Akteure, die die Welt ändern, während der Agent noch „nachdenkt“. Relevant ist zudem, ob für alle Agenten ausreichend Ressourcen in der Umwelt vorhanden sind oder ob Konflikte über Ressourcen behandelt werden müssen. Beispiele für Multiagentensysteme findet man in allen Anwendungsgebieten, bei denen folgende Charakteristika wichtig sind: Systeme, bei denen Software- oder Hardwareentitäten in einer Umwelt existieren und mit dieser und anderen Agen ten interagieren; bei denen die einzelnen Entitäten ihre eigenen Ziele verfolgen und neue Entitäten von außen dazukommen können (offene Systeme); bei denen eine Verteiltheit von Kontrolle und/oder Daten inhärent gegeben ist oder es sinnvoll ist, eine solche Verteilung einzuführen, weil die Komplexität des Problems seine Lösung mittels einer einzelnen, zentralen Steuerung unmöglich macht; bei denen paralle le, asynchrone Prozesse aktiv sind. Der Einsatz von Agenten kann auch dadurch motiviert sein, dass Agenten durch – im Vergleich zu Objekten – höhere Autono mie, Abstraktionsebene und Kapselung besser in unterschiedlichen Anwendungen wiederverwendet werden können. Mit solchen Charakteristika werden eine Vielzahl moderner Anwendungsgebiete beschrieben, von Ambient Intelligence [65; 69] zu Ver kehrsmanagement [7], von modernen Fabriken [42] zu Werkzeugen für soziale Netz werke [62].
17.1 Was ist ein Multiagentensystem? | 759
17.1.2 Ein Beispiel Multiagentensysteme und verwandte Konzepte findet man – wie oben bereits er wähnt – eigentlich überall. Klassische Anwendungsgebiete sind Systeme mit räum licher Verteilung (Verkehr, Logistik,. . . ) oder mehreren heterogenen Agenten. Bevor wir unterschiedliche Formen von Multiagentensystemen näher beleuchten wollen, soll anhand eines Beispiels erläutert werden, was es eigentlich bedeutet, wenn ein System ein Multiagentensystem ist. Das Beispiel ist inspiriert von einem agentenbasierten Job Shop Scheduling Sys tem, das schon Anfang der 1990er-Jahre für das Scheduling von Lackieraufträgen bei General Motors verwendet worden ist [48] und das als eines der ersten industriellen Multiagentensysteme gilt. Es gibt zwei Typen von Agenten: Lackieraufträge – ein Lastwagen soll in einer bestimmten Farbe lackiert werden – und Lackierkabinen, in denen die Aufträge aus geführt werden können. Das Wechseln von Farben ist teurer, wenn von einer kräf tigen auf eine hellere Farbe gewechselt werden muss. Im Idealfall müssen nur klei ne Anpassungen vorgenommen werden, aber gleichzeitig sollen die Warteschlangen vor den Kabinen einigermaßen gleich lang sein. Wie funktioniert eine Problemlösung durch ein Multiagentensystem? Es existiert keine zentrale Planung, die im voraus eine optimale Zuteilung von Lastwagen auf Lackierkabine berechnet bzw. bei Verzögerun gen immer wieder adaptiert. Wenn ein Lastwagen, d. h. ein Lackierauftrag, ankommt, schickt er eine Anfrage an alle Lackierkabinen mit einer Spezifikation der gewünsch ten Farbe. Jeder Kabinenagent kennt seinen eigenen Zustand, d. h. die letzte Farbein stellung und den Zustand seiner Warteschlange. Auf der Basis dieses Gesamtzustands berechnet der Kabinenagent ein Gebot – wie viel es kosten würde, wenn der Lastwa gen von ihm lackiert werden würde. Nachdem die Gebote von allen Lackierkabinen beim Lastwagenagent angekommen sind, wählt dieser die Kabine mit dem günstigs ten Angebot und reiht sich dort in die Warteschlange ein. Es entsteht eine Form der Farbspezialisierung, die aber dennoch ausreichend flexibel ist, um darauf zu reagie ren, wenn ankommende Lastwägen nur noch z. B. blau sein sollen. Der ankommende Lastwagenagent kann als zentrales Element gesehen werden, da er mit allen Lackier agenten interagiert. Dennoch sind Kontrolle und Daten verteilt. Der Lastwagenagent entscheidet für sich, welche Kabine er nimmt. Die Kabinen brauchen kein Wissen über den Zustand der anderen Kabinen etc. Wenn eine Kabine ausfällt, funktioniert das Ge samtsystem weiter. Abhängig davon, wie die Kabinenagenten ihre Kosten berechnen, wird mehr Gewicht auf das Vermeiden von ungleichmäßigen Warteschlangen oder von Umrüstkosten gelegt. Dies ist ein „klassisches“ Multiagentensystem zur verteilten Problemlösung. Der zugrunde liegende Mechanismus ist eine Auktion, wie sie im Contract-Net-Protokoll, dem wichtigsten Verfahren für die Allokation von Aufträgen in Multiagentensyste men, verwendet wird [70]. Diesem Verfahren werden wir in Abschnitt 17.3.2 nochmals genauer begegnen. Bevor wir uns im Folgenden mit immer komplexeren Formen von
760 | 17 Multiagentensysteme
Multiagentensystemen beschäftigen, wollen wir kurz wichtige Ingredienzien bei der Entwicklung von Multiagentensystem betrachten.
17.1.3 Welche Fragen sind wichtig bei der Entwicklung? Unabhängig von den unterschiedlichen Ausprägungen von Multiagentensystemen gibt es Fragen, die man bei der Entwicklung oder Analyse generell beachten muss. Zunächst muss das generelle Setting des Multiagentensystems geklärt werden: Wel che Form von Multiagentensystem passt grundsätzlich zu dem zu lösenden Problem? Sind die Ziele der Agenten kompatibel? Sind ausreichend Ressourcen verfügbar? Gibt es Abhängigkeiten bezüglich der Fähigkeiten der Agenten? [26] charakterisiert damit Interaktionssituationen. Die Frage ist also, ob ein kooperatives Setting existiert und „nur“ die Problemlösung einzelner Agenten koordiniert werden muss. Das bedeutet, Aufgaben verteilen oder den Zugang zu Ressourcen synchronisieren? Geht es darum, eine gemeinsame Entscheidung von eigennützigen Agenten zu finden, die z. B. ihres eigenen Vorteils wegen auch falsche Angaben machen würden? Andere Aspekte, die bei der Entwicklung betrachtet werden müssen, betreffen den Aufbau der Agenten sowie die Organisation des Multiagentensystems. 17.1.3.1 Architektur der Agenten Welche Architektur liegt den einzelnen Agenten zugrunde? Eine Architektur bestimmt die grundsätzlichen Komponenten, den Aufbau des Agenten. Man kann auch in Multi agentensystemen die bekannten Agentenarchitekturkategorien aus [61] finden: Agen ten, die einfach auf Informationen von außen reagieren, Agenten, die ihr Verhalten auf ein Ziel hin planen oder Agenten, die ihre Präferenzen für verschiedene Situationen formulieren und damit zwischen unterschiedlichen Alternativen entscheiden können. Aufgrund seiner Situiertheit in einer Umwelt benötigt jeder Agent Bausteine, die Infor mationen aus der Umwelt verarbeiten können (Sensoren, Perzeption) und Komponen ten, mit denen er seine Umwelt verändern oder mit anderen Agenten kommunizieren kann³. Elemente der Architektur, die eine Adaption des Agenten und seines Verhaltens bewirken können, werden zunehmend wichtig. Darüber hinaus sollte man zwei klassische Architekturformen kennen: 1. Die BDI-Architektur, die es dem Agenten erlaubt, flexibel mit unterschiedlichen Zielen umzugehen [76, Seite 65 ff.]. BDI steht für „Beliefs, Desires, Intentions“; Diese Begriffe bezeichnen die Elemente dieser Architektur. „Beliefs“ steht für das, was der Agent über sich und seine Umwelt weiß, „Desires“ sind seine Ziele und
3 Kommunikation kann hier als eine besondere Form der Aktion gesehen werden. Agentenkommuni kationssprachen für nachrichtenbasierte, explizite Interaktion basieren auf der Sprechakttheorie [16] und sind weitgehend standardisiert, siehe www.fipa.org
17.1 Was ist ein Multiagentensystem? | 761
2.
„Intentions“ sind die konkreten Ziele⁴, zu deren Erfüllung sich der Agent ver pflichtet hat. Das Procedural Reasoning System (PRS) [36] gilt als Ausgangspunkt für alle heute verfügbaren BDI-Architekturen, z. B. JADEX [54] oder AgentSpeak/ Jason [13]. Der zweite agentenspezifische Architekturtyp ist die geschichtete Architektur, die reaktives und geplantes Verhalten auf eine systematische Art und Weise kombi niert. Bei horizontal geschichteten Architekturen werden Module, die eine spon tane Reaktion berechnen, gleichzeitig mit Modulen, die langfristiger geplantes Verhalten steuern, aktiviert. Ein weiteres Modul kümmert sich darum, welche der von den einzelnen Schichten vorgeschlagenen Aktionen dann wirklich als Aktion ausgeführt wird (z. B. TouringMachines [27]). Bekannter sind vertikal ge schichtete Architekturen, bei denen eine erste Schicht Situationen behandelt, in denen schnell reagiert werden muss. In Standardsituationen wird die Kontrolle nach oben weitergereicht, um den aktuellen Plan weiter auszuführen. Eine drit te Schicht kommt ins Spiel, wenn ein neues Ziel in Verhandlung mit anderen Agenten identifiziert werden muss (z. B. [49]). Auch wenn die Frage nach einer passenden Agentenarchitektur wichtig ist, scheint sie in der aktuellen Forschung nicht mehr so zentral zu sein.
17.1.3.2 Architektur des Gesamtsystems Welche Architektur hat das Gesamtsystem, d. h., in welcher Relation sollen die Agen ten zueinander stehen? Welche Aufgaben, welche Rollen gibt es im System? Wer soll mit wem kommunizieren können? Das sind Fragen, die die Organisation eines Multi agentensystems betreffen. Horling und Lesser [34] geben eine Übersicht über mögli che Organisationsformen, [20] führen in das Konzept einer Multiagentenorganisation generell ein. Interessant ist in dem Zusammenhang das Konzept der holonischen Mul tiagentensysteme, die schon vor ca. 20 Jahren von der Gruppe um Klaus Fischer am DFKI formuliert wurden [28] und vor allem im industriellen Bereich Beachtung fin den [47], [46]. Die Idee ist, dass Agenten sich zu Holonen (rekursiv) zusammenschlie ßen und dann als stabiles Team eng verzahnt ein Problem lösen. Der Holon interagiert dabei als eine Einheit nach außen. 17.1.3.3 Wie bringt man diese Perspektiven zusammen? Darüber hinaus muss die Frage adressiert werden, wie das Multiagentensystem syste matisch entwickelt werden kann. Es handelt sich im Endeffekt um Softwaresysteme, bei denen komplexe, weitgehend autonome Teilsysteme verteilt und nebenläufig zu sammenspielen. Dies wird im Forschungsgebiet des agentenbasierten Software Engi neering betrachtet. Im Laufe der Jahre entstanden Modellierungssprachen – wie z. B.
4 In manchen Architekturen sind Intentionen so konkret, dass sie direkt mit Plänen verknüpft sind.
762 | 17 Multiagentensysteme
AgentUML [6] –, Vorgehensmethoden, Werkzeuge und Sprachen. Einen Überblick fin det man z. B. in [66]. In den letzten Jahren rückt Verifikation und Model Checking in den Vordergrund. Für einen frühen Überblick sei auf [19] und [13], für eine etwas neue re Einführung auf [12] verwiesen. Nachdem die grundlegende Idee klar geworden ist, wollen wir im Folgenden unter schiedliche Formen von Multiagentensystemen näher beleuchten. Dabei wollen wir nach der Komplexität des Agentensystems vorgehen, angefangen von Schwarmin telligenz mit vielen sehr einfachen Agenten, bei denen die besondere Herausforde rung darin besteht, die Verhaltensregeln der einzelnen, nur implizit interagierenden Agenten geeignet aufeinander einzustellen. Dem folgen Multiagentensysteme, die mit kooperierenden Agenten entworfen sind. Dabei können Agenten explizit mit einander kommunizieren, um Aufträge zu verteilen und Pläne zu koordinieren. Als Drittes werden wir kurz verschiedene Szenarien mit Agenten betrachten, die nicht mehr von Kooperation ausgehen können, sondern die möglichen Verhaltensweisen anderer Agenten in ihre Entscheidungsfindung miteinbeziehen müssen. Nach einer kurzen Betrachtung von aktuell wichtigen Themen, wie Verhandlungen von Agenten und lernenden Agenten, wird kurz die Multiagentensimulation als Anwendungsge biet eingeführt. Das Kapitel endet mit einer Übersicht zu weiterführender Literatur, Konferenzen, Wettbewerben und Themen, die hier nicht näher betrachtet werden konnten.
17.2 Einfache Agenten und Schwarmintelligenz Fasziniert durch Forschungsergebnisse zur Selbstorganisation von sozialen Insekten entstanden in den 1990er-Jahren bioinspirierte Multiagentensysteme: E. Bonabeau et al. untersuchten in [11] verschiedene Phänomene aus der Welt sozialer Insekten und übertrugen diese auf künstliche Systeme. Noch heute bilden solche schwarmbasier ten Algorithmen für Clustering, Aufgabenallokation oder Routenplanung die Basis für interessante Systeme. Allen solchen Schwarmsystemen gemeinsam ist, dass die betei ligten Agenten eine sehr einfache, reaktive Architektur besitzen, dafür aber wirklich viele Agenten beteiligt sind. Das Verhalten der Agenten ist durch einfache Regeln be stimmt, die meist eine unmittelbare Reaktion auf Umweltreize darstellen. Es gibt keine direkte Interaktion, sondern indirekte, durch sog. Stigmergie: Agenten verändern ih re Umwelt, indem sie einfach wahrzunehmende, virtuelle Pheromone als Signale für andere hinterlassen. Ein wichtiger Parameter ist hierbei die Verfallsrate der Pheromo ne, die kontrolliert, wie lange Agenten auf das hinterlassene Signal reagieren sollen. Ranjbar-Sahraei et al. [56] realisierten solche Pheromone durch UV-Licht, das von Ro botern auf speziell sensitiven Boden emittiert wird. Auf diese Weise kommunizierten Roboter, die eine Fläche gleichmäßig abdecken sollten. Ein Roboter, der eine solche Lichtspur wahrnimmt, dreht sich weg.
17.2 Einfache Agenten und Schwarmintelligenz
|
763
Andere bioinspirierte Verfahren, die ebenfalls auf der Idee beruhen, dass durch indirekte Interaktion von vielen Agenten eine Problemlösung entstehen kann, findet man bei den bioinspirierten Optimierungsverfahren, wie z. B. die sog. Ant Colony Op timization: Agenten hinterlassen beim Bewegen durch einen Suchgraphen künstliche Pheromone auf den Kanten des Graphs. Nachdem ausreichend viele sich durch das Netz bewegt haben, hat der kürzeste Weg die höchsten Pheromonwerte angesammelt. Nähere Information findet man z. B. in [22]. Ein anderer bekannter Schwarmalgorithmus dient zur die Steuerung von Forma tionsbewegung und ist durch die Bewegung von Vogelschwärmen oder Fischschulen inspiriert: Beim sog. BOIDS-Modell versucht jeder einzelne Agent nahe bei seinen Mit agenten zu bleiben. Gleichzeitig hält er dabei einen Mindestabstand ein. Für die Be wegung beobachtet der Agent seine unmittelbaren Nachbarn und benutzt als eigene Bewegungsrichtung und Geschwindigkeit jeweils den Mittelwert der Nachbarn. Ur sprünglich wurde das Modell in der Computergrafik [57] zur Visualisierung von Vogel schwärmen angewendet. Mittlerweile wurden diese Regeln auch mit einfachen, geflü gelten Robotern [30] oder Drohnen [74] realisiert. Ein Schwarm wird gezielt so entwickelt, dass die vielen einfachen Agenten zusam men ein bestimmtes Ziel erreichen. Dabei ist es nicht trivial, den einzelnen Agenten so zu gestalten, dass garantiert das adressierte Problem gelöst wird. Kein Agent hat die Information, wie das Ziel aussehen soll, die Regeln müssen implizit so zusammenpas sen, dass das richtige, zielführende Verhalten „emergiert“. Als emergente Phänome ne bezeichnet man Strukturen oder Prozesse auf einer aggregierten Ebene, die nicht direkt aus dem Verhalten der Bestandteile, hier der Agenten, hergeleitet werden kön nen [33]. Betrachtet man z. B. Agenten, die Objekte auf Haufen zusammenschieben sollen, sind üblicherweise folgende Verhaltensweisen gegeben [8]: Wenn der Roboter nichts wahrnimmt, führt er ein Defaultverhalten aus, z. B. er fährt eine gerade Linie, bis er auf ein Hindernis stößt (auf den Rand oder auf einen anderen Roboter). Wenn der Roboter ein Hindernis oder einen anderen Roboter wahrnimmt, dreht er sich weg, um das Hindernis zu vermeiden; wenn er ein Objekt, das gesammelt werden soll, wahr nimmt, fängt er an, es durch die Gegend zu tragen. Wenn er mehr als x andere Objekte vor sich wahrnimmt, legt er das Objekt ab. Je nach Aufbau des Roboters⁵ kann auch ein „Loslassen“-Verhalten ausgelöst werden, wenn der Roboter zu viele Objekte aufge sammelt hat bzw. versucht, zu viele gleichzeitig zu verschieben. Diese Kombination von Verhaltensweisen wirkt einfach, aber der Teufel steckt im Detail: Wie weit soll sich ein Roboter wegdrehen? Welche Anzahl von Pucks soll das Loslassen auslösen? Wie verhält sich der Roboter direkt nach dem Auslösen? Die genaue Kalibrierung ei nes Schwarmagentensystems kostet bei der tatsächlichen Implementierung erstaun lich viel Aufwand, eben weil diese Parameterwerte nicht im Detail abgeleitet können, sondern getestet werden müssen. 5 Im Originalpapier von Beckers et al. war es eine Art Zange, mit der mehrere Pucks gleichzeitig ge schoben werden konnten
764 | 17 Multiagentensysteme
In den letzten Jahren sind mehrere Reviews zum Status der Forschung und An wendung von Schwarmrobotik erschienen, z. B. [71] und [50]. Beide sind recht weit gefasst und umfassend. Mit Plattformen, wie z. B. den Kilobots [59] oder anderen [60] lassen sich Schwarmverhaltensweisen relativ einfach mit Robotern testen. Wie ein he terogener Roboterschwarm nicht triviale Aufgaben, z. B. ein Buch aus einem Regal zu holen, realisieren kann, wurde im EU-Projekt „Swarmoid“ untersucht und in einem schönen Video dokumentiert⁶. Auch wenn Schwarmintelligenz nicht ganz dem Bild der klassischen Verteilten KI entspricht bzw. weil die Agenten zu einfach für traditionelle Multiagentensysteme scheinen, ist es eines der aktuell heißen Themen. Es ist deswegen wichtig zu wissen, was Schwarmintelligenz eigentlich bedeutet, auch wenn man einen Schwarm nicht wirklich als Multiagentensystem interpretiert. Viele Aspekte der Selbstorganisation sind extrem in Agentenschwärmen, aber im Prinzip tauchen sie auch in anderen For men von Multiagentensystemen auf. Die Kategorie, die wir im Folgenden betrachten werden, sind Multiagentensysteme, die als Gesamtsystem entwickelt werden, aller dings mit komplexerem Verhalten und Interaktionen.
17.3 Deliberative Agenten, klassische verteilte KI Viele reale Probleme haben eine natürliche Verteilung, z. B. wegen der Heterogeni tät der beteiligten Systeme, wegen der räumlichen Verteilung oder weil man hofft, dass durch den Einsatz mehrerer Agenten das Problem schneller gelöst werden kann. Wie bei den Schwärmen wird ein Multiagentensystem gezielt für die Lösung solcher Probleme entwickelt. Hier sind es allerdings zahlenmäßig weniger Agenten, die aber mehr Handlungsmöglichkeiten und Intelligenz besitzen. Manchmal werden auch existierende Teilsysteme „agentifiziert“, wie [67] es nannte. Man verspricht sich von der Modellierung als Multiagentensystem anstelle einer zentralisierten Lösung fol gende Vorteile: – geringe Berechnungskomplexität, bessere Skalierung, – Robustheit beim Behandeln von Ausfällen, – Unterstützung von Modularisierung, einfachere Entwicklung, – hohe Reaktivität, geringe Antwortzeiten, – hohe Veränderbarkeit der Strukturen, – Finden (fast) optimaler Lösungen, – Kommunikationseffizienz durch lokales Verarbeiten von Rohdaten. Agenten in einem Multiagentensystem zur verteilten Problemlösung sind üblicherwei se in der Lage, Pläne zu erstellen, um ein gegebenes (lokales) Ziel zu erreichen. Deswe gen werden sie als „deliberativ“ bezeichnet, d. h., sie können überlegen, Schlussfol 6 https://www.youtube.com/watch?v=M2nn1X9Xlps
17.3 Deliberative Agenten, klassische verteilte KI |
765
gerungen ziehen und Pläne erzeugen. Kooperativität ist eine in das Gesamtsystem ein gebaute Eigenschaft. Es gibt dabei zwei grundsätzliche Fragen: Wie erhält der Agent sein Ziel und vor allem, wie werden die Aktivitäten und Pläne der einzelnen Agenten koordiniert, sodass ein kohärentes Multiagentensystem entsteht?
17.3.1 Individuelle Ziele versus soziale Ziele? Beim verteilten Problemlösen geht man oft davon aus, dass jeder Agent des Systems seine lokalen Ziele kennt. Ein Entwickler hat zuvor das Gesamtziel analysiert und lokale Ziele abgeleitet, die Agenten zugeordnet werden können. Dies entspricht im Endeffekt einem Top-down-Vorgehen bei der Entwicklung, wie sie von vielen Metho den des agentenbasierten Software Engineering unterstützt wird. Das oben bereits er wähnte Konzept einer Organisation bietet den Ansatzpunkt, um Ziele für das gesam te Agententeam zu verorten. Viele Modellierungssprachen für organisationsbasierte Multiagentensysteme beinhalten Perspektiven, in denen ein Organisationsziel hier archisch aufgeteilt werden kann. In MOISE+ [35] gibt es eine funktionelle Sicht, in der globale, d. h. organisationsweite Ziele in Teilziele aufgeteilt werden. Diese wer den dann durch einen Modellierer in „Missionen“ gebündelt und mit Rollen assozi iert. Übernimmt ein Agent eine Rolle, steht fest, welche Ziele er erreichen will und mit welchen anderen Agenten er z. B. für den Austausch von Informationen oder zur Koor dination von Aktionen interagieren muss. Mit einer expliziten Organisationssicht sind Vorteile verbunden: Das Multiagentensystem ist für den menschlichen Entwickler bes ser durchschaubar, es erscheint verlässlicher, weil offensichtlich „designed“. Ande rerseits wird das Potenzial für strukturelle Anpassung und Resilienz, das in Multi agentensystemen per se steckt, nicht genutzt. Wenn eine vordefinierte Zuordnung von Zielen – in der Form von Aufgaben – zu Agenten nicht möglich oder nötig ist, gibt es verschiedene Methoden, eine Zuordnung zu finden. Die bekannteste ist das Contract Net Protokoll [70] (siehe auch das einfüh rende Beispiel mit den Lackieragenten in Abschnitt 17.1.2). Es ist einem Ausschrei bungsverfahren nachempfunden: Ein Agent übernimmt die Rolle eines Managers, der die Aufgaben/Tasks verwaltet. Der Manager schickt einen Call for Proposals mit einer Beschreibung des Tasks an eine Gruppe von Agenten. Diejenigen, die Kapazitäten frei haben, evaluieren ihre Fähigkeit, den Task auszuführen und schicken ein Gebot zu rück. Der Manager sammelt die Gebote und ordnet dem Agenten mit dem besten Gebot den Task zu. Natürlich gibt es Erweiterungen, die Abhängigkeiten zwischen Aufgaben z. B. damit behandeln, in dem die Rückgabe von Aufgaben gegen Zahlung einer Straf gebühr erlaubt wird etc. Eine alternative Behandlung des Allokationsproblems ohne zentralen Manager wurde z. B. von [77] vorgeschlagen. Dabei verhandeln nicht-kooperative Agenten mit einander, wie eine Menge von Aufgaben am besten zwischen den Agenten aufteilt wer den kann (Abschnitt 17.5).
766 | 17 Multiagentensysteme
17.3.2 Planen und Koordinieren Wenn jeder Agent seine lokalen Ziele kennt, müssen die Aktivitäten des Agententeams so koordiniert werden, dass das Multiagentensystem als Ganzes so effizient wie mög lich arbeitet. Durfee und Zilberstein [24] geben eine sehr klare, systematische Einfüh rung in das Multiagentenplanen. Sie unterscheiden dabei, wann Koordinationsaktio nen in lokale Agentenpläne eingeführt werden. Zudem gibt es noch die zusätzliche Unterscheidung, ob eine zentrale Instanz beteiligt ist oder nicht. Eine Koordination der Aktivitäten ist notwendig, um Abhängigkeiten zwischen den Plänen der einzelnen Agenten aufzulösen. Abhängigkeiten können sein, dass ein Agent Ergebnisse eines anderen benötigt, die Pfade der Agenten sich so kreuzen, dass eine Kollision stattfin den könnte, ein Agent eine Ressource verbraucht, die anderer vorher nutzen sollte. – Die Koordination der Agenten geschieht vor dem lokalen Planen durch sog. Social Laws. Auf einer praktischen Ebene zwingen Social Laws den Agenten Beschrän kungen in ihren Verhaltensoptionen auf, um kritische gemeinsame Zustände zu vermeiden. Ein klassisches Beispiel ist das Rechtsfahrgebot. Fahrzeuge können nicht frei entscheiden, wo sie auf der Straße fahren, sondern sollen auf der rech ten Seite der Straße fahren. Koordination ist nur in Ausnahmefällen notwendig. Social Laws wurden schon Anfang der 1990er-Jahre zur Koordination in Multi agentensystemen vorgeschlagen [29]. Normen – als eine etwas weichere Form der Social Laws – sind ein sehr spannendes Thema (für eine Einführung siehe [10])⁷ Aktuelle Forschungsfragen sind z. B. wie Normen entstehen ohne sie explizit zu erzeugen und wie man egoistische Agenten dazu bringt, sich an diese zu halten. Organisationen in Multiagentensysteme sind oft mit solchen Social Laws oder Normen verknüpft. Die Organisation (oder hier auch explizit „Institution“) kann für ihre Mitglieder deren Zuständigkeiten, Handlungsmöglichkeiten so gestalten, dass keine kritischen Situationen zwischen Agenten entstehen und die Agenten ungestört ihre Pläne berechnen und ausführen können. Eine Organisationslösung wäre z. B. eine fixe Zuordnung von Agent zu Areal, um das er sich kümmern muss. – Koordination geschieht, nachdem die Agenten ihre lokalen Pläne ohne Berück sichtigung der anderen Agenten erzeugt haben. Dies kann durch eine zentrale In stanz geschehen, die potenziell kritische Situationen identifiziert und in die lo kalen Pläne zusätzliche Constraints, z. B. in Form von Semaphoren, einfügt. So hat der Agent in seinem Plan zusätzliche „Aktionen“, währenddessen er auf die Aktionsausführung eines anderen wartet. Das kann auch verteilt geschehen, in dem ein Agent nach dem anderen seine Pläne mit den anderen teilt. Die anderen Agenten adaptieren ihre Pläne so, dass keine Konflikte zwischen ihrem lokalen Plan und allen bereits geteilten existieren. Die lokale Adaption ist nicht trivial, das kooperative Verhalten ist den Agenten vorgegeben. Verschiedene Ansätze un
7 In den letzten Jahren – zuletzt 2018 – haben dazu einige Dagstuhl-Seminare stattgefunden.
17.4 Rationale Agenten und verteilte Entscheidungsfindung | 767
terscheiden sich dadurch, welche Technik genau dafür angewendet wird, die ver schiedenen Pläne zu synchronisieren. Ein Vorschlag, der vor kurzem publiziert wurde, nutzt verschiedene Abstraktionsebenen: Hertle und Nebel [31] lösen das Gesamtproblem auf einer abstrakten Ebene. Dann benutzen sie eine Auktion, um abstrakte Aufgaben Agenten zuzuordnen. Um ihre Gebote zu bestimmen, müs sen die Agenten auf einer genaueren Ebene planen. Der Auktionator wählt dann valide Pläne aus den angebotenen aus; dies wird wiederholt, bis alle abstrakten Aufgaben genauer geplant und zugeordnet sind.
17.3.3 Anwendungsbeispiele Das in Abschnitt 17.1.2 kurz dargestellte Multiagentensystem ist klar ein Vertreter ei nes solchen kooperativen Multiagentensystems, bei dem die Verteilung für Flexibi lität und skalierende Problemlösung sorgt. Schon 1989 hat Parunak in [53] die Idee einer agentenbasierten Produktionssteuerung niedergeschrieben; im Projekt P2000+ hat Daimler die Ideen testweise realisiert und genauer getestet, indem sie die Idee ei ner flexiblen Zuordnung von Auftrag zu Fertigungselement komplett durchdacht ha ben [64]. Man kann bemerken, dass mit diesem Projekt aktuelle Entwicklungen der individualisierten Fertigung zu einem gewissen Grad vorweggenommen wurden. Mul tiagentensysteme sind in der Fertigung immer noch hochaktuell [17; 42]. Besondere Fortschritte wurden für diese Art von Problemen in den letzten Jah ren auch im Bereich der Multirobotersysteme erzielt. Das Multi-Agent-Path-FindingProblem und das Multiagent-Pickup-and-Delivery-Problem sind dabei zwei klassische, verwandte Beispiele [45], die vor allem bei der Lagerlogistik relevant sind. Dabei muss eine Menge von autonomen Fahrzeugen konfliktfrei und so schnell wie möglich von ihrem Start zum Ziel fahren. Dieses Problem wurde von Robotern auf autonome un bemannte Luftfahrzeuge übertragen [32], z. B. auf Servicedrohnen für die Paketzustel lung. Die Preflight Collision Detection and Resolution arbeitet hier mit Arealen als Si cherheitsconstraints, d. h., bestimmte Areale dürfen nur von einem einzigen Agenten benutzt werden, andere Agenten, die ebenfalls durchfahren oder -fliegen wollen, müs sen warten.
17.4 Rationale Agenten und verteilte Entscheidungsfindung Eine grundsätzlich andere Sichtweise steckt hinter Multiagentensystemen zur verteil ten Entscheidungsfindung. Die Idee ist die der „offenen“ Multiagentensysteme: Ein Agent repräsentiert einen Nutzer, der seine individuellen Ziele verfolgt. Es gibt keine Kooperation, die in das System hinein programmiert wurde. Man muss annehmen, dass Ziele inkompatibel sind, bis hin zum Extrem, dass wenn ein Agent gewinnt, der andere verliert – z. B. bei Auktionsplattformen: Zwei Agenten wollen das Gut, das ge
768 | 17 Multiagentensysteme
rade versteigert wird, so günstig wie möglich ersteigern. Am Ende kann es nur einer von beiden bekommen. Keiner weiß aber, wie viel die anderen Agenten letztendlich bereit sind, zu bieten. Das Ziel bei der Entwicklung von solchen Multiagentensyste men ist es, das für die gesamte Gruppe bestmögliche Ergebnis zu finden. Das würde im Falle der Auktion bedeuten, dass der Agent, der bereit ist, am meisten dafür zu bezahlen, gewinnen sollte. Der Entwurf und die Analyse von Protokollen oder Mechanismen, die die Interak tion der Agenten so regeln, dass dieses Ziel erreicht werden soll, geschieht im Mecha nism Design [58; 68]. Dabei versucht man, einen Mechanismus – also die Regeln der Interaktion – so zu entwerfen, dass sie garantiert zum Ziel führen, d. h., dass es zu ei ner Einigung zwischen den egoistischen Agenten kommt, die die für alle beste Lösung darstellt. Dabei sollen diese Regeln auch von keinem Agenten so manipuliert werden können, dass das Ergebnis nicht mehr für alle das beste ist. Manipuliert bedeutet hier nicht, dass sich der Agent nicht an die Regeln hält, sondern dass er z. B. falsche Ein gaben macht, um daraus einen Vorteil zu ziehen. Außerdem soll es für den einzelnen Agenten besser sein teilzunehmen, als außen vor zu bleiben, d. h. individuell rational zu sein. Weitere Anforderungen sind u. a. Verteiltheit (es gibt keinen Agenten, der eine zentrale Stelle einnimmt und so zum Flaschenhals wird), Effizienz und Einfachheit. Die Analyse solcher Mechanismen geschieht auf der Grundlage der Spieltheorie. Eine ausreichend tiefe Einführung in die Spieltheorie ist im Rahmen dieses Kapitels nicht möglich. Shoham und Leyton-Brown [68] geben eine gut verständliche, sehr präzi se Darstellung der Grundlagen der Spieltheorie, soweit sie für Multiagentensysteme relevant ist. Im Folgenden soll daher nur kurz die grundlegende Idee der rationalen Agenten erläutert werden.
17.4.1 Idee des rationalen Agenten Rationalität als Eigenschaft eines Agenten bedeutet zunächst, dass der Agent nichts macht, was seinen Zielen entgegen wirkt. Bei intelligenten Agenten mit dem Ziel, mög lichst viel Geld einzusammeln, bedeutet dies: Ein Agent hat z. B. die Wahl zwischen zwei Aktionen: Aktion A bringt ihm 10,00 € ein, schadet anderen Agenten aber mas siv; mit Aktion B schadet er anderen weniger, verdient aber nur 9,99 €. Dann wird ein rationaler Agent, immer Aktion A wählen, die mehr Geld bringt und ihn damit näher zu seinem Ziel bringt⁸. Die Wahl der Aktion wird dadurch erschwert, dass das Ergebnis nicht nur von sei ner Aktion abhängt, sondern auch von den Aktionen der anderen Agenten, die gleich zeitig ihre Aktion wählen und ausführen. Die für ihn beste Aktion bestimmt ein Agent, indem er alle Ergebnisse betrachtet, die bei allen jeweils möglichen Aktionskombina
8 Deswegen ist die genaue Formulierung des Ziels eines Agenten essenziell.
17.4 Rationale Agenten und verteilte Entscheidungsfindung |
769
tionen aller Agenten erzeugt werden. Hier bietet die Spieltheorie die Grundlage zur Analyse von Mechanismen, die den Kontext für solche Aktionen und Entscheidungen bilden. Mechanism Design ist quasi das Inverse zur Spieltheorie. Im Folgenden sollen die wichtigsten Szenarien für die verteilte Entscheidungsfindung vorgestellt werden. Es ist interessant zu sehen, wie viele dieser Mechanismen durch ein Vorbild aus menschlichen Gesellschaften inspiriert sind.
17.4.2 Computational Social Choice Beim Computational Social Choice trifft eine Gruppe aus egoistischen Agenten eine gemeinsame Entscheidung, die für alle bindend ist. Das kann eine Entscheidung für eine „Regierung“, eine gemeinsame Aktivität, eine (faire) Verteilung von Ressourcen, eine gemeinsame Beurteilung o. Ä. sein. Gegeben sind dabei eine Menge von Agenten und eine Menge von verschiedenen Optionen, aus denen eine gewählt werden muss. Jeder einzelne Agent hat Präferenzen zu diesen Optionen, die auf unterschiedliche Weisen formuliert werden können. Oft verwendet man Präferenzrelationen, bei denen ein Agent alle Optionen in eine Ordnung entsprechend ihres Werts für diesen Agenten bringt. Damit vermeidet man möglicherweise unterschiedliche Interpretation von nu merischen Utility-Werten. Brandt et al. [15] geben eine umfassende Betrachtung des aktuellen Stands der Forschung in den verschiedenen Teilgebieten, den verschiede nen Mechanismen und speziellen Szenarien, z. B. mit strategischen Teilnehmern, un vollständiger Information etc. Wir wollen hier nur das Grundlegendste betrachten: Das Abstimmen – Voting – ist die Form von Social Choice, bei der die Mitglieder ei ner Gruppe über die Auswahl eines Kandidaten aus einer Menge von möglichen Kan didaten abstimmen. Es gibt eine Reihe von Protokollen, wie z. B. Positional Scoring Rules oder Majority Rules. Ein Beispiel für das erstere ist das Borda-Protokoll. Für je den Agenten werden einer Option entsprechend ihrer Position in der Präferenzrelation des Agenten Punkte zugeordnet: Wenn der Agent drei Optionen a, b, c hat und diese folgende Präferenzrelation besitzt: b > a > c, dann erhält Option b zwei Punkte, a ein Punkt und c geht leer aus. Danach werden alle Punkte aus allen Präferenzrelatio nen aller Agenten aufsummiert. Der Gewinner ist die Option, die am Ende die höchste Gesamtzahl hat. Andere Regeln basieren auf Mehrheiten. Die einfachste Form ist das Pluralitätsprotokoll: Jeder Agent schickt die Option, die er am meisten präferiert, an den Mechanismus. Dieser wählt die Option, für die die meisten Agenten gestimmt ha ben. Man kann allerdings sehr leicht Situationen mit mehr als zwei Optionen konstru ieren, in denen die Mehrheit die Option wählt, die die insgesamt meisten Agenten am wenigsten wollen. Andere Protokolle sind schwerer zu berechnen, liefern aber stabi lere Ergebnisse: z. B. die Pairwise Majority: Man bestimmt für jede Kombination aus zwei Optionen den jeweiligen Gewinner. Als nächstes überprüft man, ob eine Option gegen alle anderen Optionen eine Mehrheit an Stimmen bekommen würde. Das ist der
770 | 17 Multiagentensysteme
Condorcet Winner, der leider nicht immer existiert. Insgesamt gibt eine Vielzahl von Protokollen, von denen keines perfekt ist, siehe dazu auch das Arrow-Theorem [3; 43]. Zudem können alle diese Mechanismen von Agenten manipuliert werden. In [68] findet sich ein schönes Beispiel, wie ein Pluralitätsprotokoll manipuliert werden kann: Ein Agent kennt die Präferenzrelationen aller anderen Agenten und weiß, dass seine bevorzugte Option keine Mehrheit finden wird. Die Manipulation ist hierbei, dass der strategisch wählende Agent nicht ehrlich seine bevorzugte Option angibt, sondern eine andere, und so den eigentlichen Gewinner der Abstimmung verhindert. Die Agenten haben einen Anreiz, über mögliche Präferenzrelationen der anderen Agenten zu spekulieren, um die Abstimmung zu ihren Gunsten zu manipulieren. Derartiges Spekulieren und Manipulieren will man durch einen guten Mechanismus verhindern: Es gibt Abstimmungsverfahren – z. B. den Vickrey-Clarke-Groves Mecha nismus [68] – bei denen es für die Agenten am besten ist, ehrlich zu sein, d. h. immer ihre wirklich bevorzugte Option als solche zu benennen. Die Präferenzen werden dabei als Zahlen ausgedrückt, je höher, desto intensiver will der Agent, dass die Ge meinschaft eine bestimmte Option wählt. Der Mechanismus ermittelt dann nicht nur die Option mit der höchsten Bewertungssumme als den Gewinner der Abstimmung, sondern auch eine Art Steuer, die jeder Agent zahlen muss. Die individuelle Höhe der Steuer richtet sich danach, wie viel Einfluss der Agent auf das Ergebnis genommen hat. Die einzig sinnvolle Strategie für einen Agenten ist dabei, ehrlich zu sein. Würde er einen höheren Wert angeben, als die Option für ihn wirklich wert ist, würde er mehr Steuern zahlen als eigentlich notwendig. Würde er zu wenig angeben, um Steuern zu sparen, würde er riskieren, dass etwas anderes gewählt würde.
17.4.3 Auktionen Ebenso wie bei der Social Choice orientieren sich auch Auktionen zunächst an Vorbil dern aus der menschlichen Gesellschaft. Das Ziel ist bei Auktionen nicht, als Gruppe eine gemeinsame Option zu wählen, sondern eine Ressource demjenigen Agenten zu zuordnen, für den dieses am wichtigsten ist bzw. der bereit ist, am meisten dafür zu bezahlen. Das Ziel des Auktionsteilnehmers ist dabei, die Ressource für so geringe Kosten wie möglich zu erhalten. Im Endeffekt ist auch das Herzstück des oben be schriebenen Contract Net Protokolls eine Auktion um einen Auftrag. Elemente jeder Auktion sind dabei das Berechnen und Abgeben von Geboten durch Teilnehmer, das Auswählen eines Gebots durch einen Auktionator und das Festlegen/Zahlen eines Preises. Auch bei Auktionen gibt es diverse Varianten, die sich durch folgendes unterscheiden: 1) ob die Gebote verdeckt oder offen abgegeben werden, 2) ob alle Gebote gleichzeitig abgegeben werden oder iterativ oder 3) welcher Preis gezahlt werden muss. Für die Analyse einer Auktion ist noch dazu wichtig, wie das Auktionsgut bewertet wird: ob nur die persönliche Wertschätzung der Agenten relevant ist oder ob die Auktion benutzt wird, um den Wert zu bestimmen. Ein Beispiel
17.4 Rationale Agenten und verteilte Entscheidungsfindung | 771
für Ersteres findet man bei der Auktion eines Werkzeugs oder einer Aufgabe; Beispiele für Letzteres sind z. B. Kunstauktionen. Weiterführende Information zu Auktionen für Multiagentensysteme findet man in [51; 52] und [43]. Bekannte Formen von Auktionen sind folgende: – Bei der englischen Auktion sammelt ein Auktionator immer höhere Gebote, bis kein Bieteragent mehr ein höheres Gebot einreicht. Die dominante Strategie für einen Bieter ist hierbei, das letzte Gebot um eine kleine Summe zu erhöhen. Das Protokoll ist nicht robust gegen eine versteckte Koalition der Bieter. Der Auktio nator kann den Mechanismus betrügen, indem er Preistreiber unter den Bietern versteckt. Eine Variante ist die japanische Auktion, bei der zunächst alle Bieter agenten dabei sind, der Auktionator erhöht selbst das Gebot in gleichen Schritten; Agenten, die nicht mehr mitbieten wollen, verlassen die Auktion. Die Auktion en det, wenn nur noch ein Agent dabei ist. Die japanische Auktion ist einfacher zu analysieren, da es keine Sprünge in den Geboten geben kann und die Bieter klar signalisieren, ob sie noch teilnehmen oder nicht. – Einfache verdeckte Auktionen (sealed bid, first price) sind nicht iterativ. Jeder Bie ter reicht ein verdecktes Gebot ein. Der Auktionator wählt das höchste Gebot aus, der Bieter zahlt den Preis seines Gebots. Der Bieter hat einen Anreiz, über die Ge bote der anderen Agenten zu spekulieren, um den geringsten Preis herauszufin den, für den er das versteigerte Gut erhalten kann. Wegen der verdeckten Gebote sind Koalitionen zwischen Bietern weniger attraktiv, als bei Auktionen mit offe nen Geboten. Heimliche Koalitionen können gebrochen werden, ohne dass der eigentlich Höchstbietende etwas dagegen machen kann. Die holländische Aukti on ist äquivalent zur Sealed-Bid-first-Price-Auktion. Dabei verringert der Auktio nator den Preis schrittweise, bis der erste Agent den aktuellen Preis akzeptiert. Der Preis, zu dem andere Agenten das Gut ersteigert hätten, bleibt verborgen. Die wichtigste Form der Auktion bei Multiagentensystemen ist allerdings keine der obigen, sondern die Vickrey-Auktion (sealed bid, second price). Alle Bieteragenten ge ben ein verdecktes Gebot ab. Der Agent mit dem höchsten Gebot erhält das Gut, muss aber nur den Preis des zweithöchsten Gebots zahlen. Dadurch, dass die Höhe des zu zahlenden Preise vom eigentlichen Gewinnen entkoppelt ist, ist die dominante Strate gie für einen Agenten, das zu bieten, was er eigentlich dafür zahlen würde. Ein Agent hat bei dieser Auktion keinerlei Motivation beim Gebot zu sparen: Ist sein Gebot nied riger als das, was er eigentlich zahlen würde, läuft er Gefahr, dass ein anderer Agent mehr bietet und der andere gewinnt. Würde der Agent mehr bieten, als er eigentlich will, könnte es sein, dass sein Gebot vom Zweiten so knapp unterboten wird, dass er tatsächlich mehr zahlt, als er eigentlich wollte. Vickrey-Auktionen findet man eigent lich in realen Gesellschaften nicht. Dies liegt vor allem daran, dass die Bieter dem Auk tionator vertrauen müssen. Der gewinnende Bieter kennt die Höhe des zweithöchsten Gebots nicht. Der Auktionator könnte irgendeinen Preis knapp unter dem Höchstge bot nennen.
772 | 17 Multiagentensysteme
Kompliziert wird die Anwendung von Auktionen, wenn der Wert der Güter, die isoliert voneinander versteigert werden, davon abhängt, was der Agent zuvor bereits gewonnen hat oder in Zukunft ersteigern könnte. Das Kombinieren zu Bündeln vor der Auktion macht keinen Sinn, wenn die verschiedenen Agenten verschiedene Bündel präferieren würden. Eine Idee ist es, bei der Berechnung des Gebots für ein Gut voraus schauend zu berücksichtigen, wie sich das Gewinnen des ersten Guts auf das Gewin nen der späteren Auktion(en) auswirkt und Ersparnisse vorwegzunehmen. Diese Be rechnungen sind nicht einfach und funktionieren auch nur, wenn der Agent sehr viel über seine Mitbieter weiß. Die Lösung sind Combinatorial Auctions [18], dabei werden viele Güter gleichzeitig versteigert. Die Agenten können auf Bündel von Items bieten. Auch hier gibt es unterschiedliche Formen, ebenso wie unterschiedliche Sprachen, um Gebote und Präferenzen zu formulieren, z. B. auch logikbasiert [14]. Wer welche Kombinationen von Gütern bekommt, d. h. die Allokation von Bündeln zu Agenten, ist NP-hart [9], die Berechnung der besten Zuordnung von Bündeln auf Bieteragenten ist ein Optimierungsproblem.
17.4.4 Bildung von Koalitionen Die Bildung von Koalitionen ist ein weiterer Problembereich. Dabei sollen sich ego istische Agenten zu einer Gruppe zusammenschließen, um ein Problem gemeinsam zu lösen (oder z. B. in einer Auktion strategisch zu bieten). Eine Liste von Beispielen findet man in [68], z. B. eine Menge von Gemeinden, die gemeinsam einen Flughafen bauen könnten, der größer und effizienter ist, als wenn jede Gemeinde einen eigenen Flughafen bauen würde. Wer beteiligt sich nun an dem gemeinsamen Flughafen, wer baut alleine bzw. wer baut mit wem? Eine vollständige Einteilung der Agenten in Grup pen nennt man auch Koalitionsstruktur. Die Grand Coalition – die große Koalition – ist die Koalitionsstruktur, bei der alle Agenten in einer Koalition zusammenarbeiten. Als Koalitionsstruktur bezeichnet man die Partitionierung der gesamten Agentenmenge in Teilmengen von kooperierenden Agenten. Für egoistische Agenten ist natürlich die Frage, wie genau der Gewinn aus der Koalition verteilt wird, entscheidend dafür, ob sie an einer bestimmten Koalition teil nehmen wollen oder nicht, bzw. von welcher der möglichen Koalitionen sie am meis ten profitieren. Die Berechnung des möglichen Gewinns aus einer Kooperation kann aufwendig sein, ist aber grundlegend für die Bestimmung der Koalitionsstruktur. Des halb ist die wichtige Frage, wie man mit möglichst wenig solchen Berechnungen die bestmögliche Koalitionsstruktur bestimmt. Für die Verteilung des Gewinns gibt es verschiedene Bedingungen, die die Sta bilität einer Koalition beeinflussen: Der Gewinn muss so verteilt werden, dass keine Subgruppe eine Motivation hat, aus der Koalition auszubrechen. Dazu gibt es ver schiedene Vorschläge. Ein Beispiel für ein solches Verteilungsschema ist die Verwen dung des Shapley-Werts. Er bietet eine „faire“ Verteilung des Koalitionsgewinns: Jeder
17.5 Verhandelnde Agenten |
773
Agent erhält die Summe, die seinem Grenznutzen für die Koalition entspricht. Je mehr der Agent beiträgt, desto mehr erhält er. Weitere Bedingungen für eine gute Gewinn verteilung sind, dass Agenten, die austauschbar sind und Gleiches beitragen, auch gleichviel aus dem Koalitionsgewinn erhalten oder, dass sog. „Dummy“-Agenten, de ren Beitrag den Gesamtnutzen der Koalition nicht steigert, genau so viel erhalten, wie sie erhalten würden, wenn sie alleine arbeiten würden. Eine dritte Bedingung betrifft die Additivität der Bewertungsfunktion. Mit dem Shapley-Wert wird der gesamte Ge winn verteilt. Durch diese Bedingungen wird der Shapley-Wert eindeutig bestimmt, und er ist auch der einzige, der alle Bedingungen erfüllt. Der Shapley-Wert für einen Agenten a berechnet sich aus dem Gewinn der Koalition mit und ohne den Agenten a. Zusätzlich wird der Effekt von unterschiedlichen Reihenfolgen, mit denen Agenten zur Koalition hinzugefügt werden, herausgerechnet. Der Beitrag eines Agenten kann ja davon abhängen, welche Agenten bereits in der Gruppe sind, wenn der Agent hin zugefügt wird. Man benötigt also sehr viel Information. Mehr Information findet man in [25] oder [55].
17.5 Verhandelnde Agenten Ein Thema, das in den letzten Jahren populär wurde, sind Verhandlungen. Agenten machen abwechselnd oder gleichzeitig Vorschläge zum Verhandlungsgegenstand. Das kann z. B. die Aufteilung einer Ressource sein; dann spricht man auch von Bar gaining. Der Vorschlag des jeweils anderen Agenten wird akzeptiert oder abgelehnt. Kommt keine Einigung zustande, tritt die sog. Fallback-Lösung ein. Bargaining wurde intensiv entscheidungstheoretisch untersucht, z. B. mit der Frage, welchen Einfluss eine Beschränkung der Verhandlungsiterationen hat, oder welchen Effekt es auf die Entscheidungen der Agenten und die Verteilung der Ressource hat, wenn jeder Vorschlag Kosten involviert. Ein generelles Verhandlungsprotokoll – das auch zum Umverteilen von Aufgaben verwendet werden kann – ist das Monotonic Concession Protocol [77]. Die Menge möglicher Deals ist dabei die Menge aller Aufteilungen zwi schen den Agenten, die für die Agenten jeweils individuell rational und paretoeffizient sind. Individuell rational bedeutet hier, dass die Kosten für die im Deal erhaltenen Aufgaben geringer sind als die ursprünglich zugeordneten Aufgaben – die Agenten haben also einen Vorteil davon, etwas zu ändern. Paretoeffizent bedeutet, dass keine weitere Abgabe oder Tausch möglich ist, bei der ein Agent besser, aber kein anderer schlechter gestellt wird. Das monotone Zugeständnisprotokoll geht nun wie folgt vor: Die Agenten beginnen damit, den für sie jeweils besten Deal aus der Menge der zu lässigen vorzuschlagen. Im Aufgabenszenario bedeutet dies den Vorschlag, dass der jeweils andere alle Aufgaben übernimmt oder dass der Agent selbst den ganzen Ku chen bekommt. In der nächsten Runde ändert derjenige Agent seinen Vorschlag, der beim Rückfall auf die ursprüngliche Verteilung mehr verlieren würde. Dieser Agent schlägt einen neuen Deal vor, der ein Zugeständnis bedeutet. Dies wird wiederholt,
774 | 17 Multiagentensysteme
bis ein Agent den Vorschlag des anderen besser oder zumindest gleich gut wie den eigenen findet. Falls kein Zugeständnis möglich ist, dann wird die Fallback-Lösung realisiert. Eine kurze, aber gut verständliche Erläuterung findet man in [76]. Seit wenigen Jahren gibt es Agenten, die nicht nur untereinander, sondern mit Menschen verhandeln oder zumindest mit menschlichen Strategien [5]. Dabei spielen weitere Themengebiete der KI eine Rolle: Modellierung von Vertrauen und Argumen tationssysteme. Diese Themen werden auch auf Multiagentensystemkonferenzen dis kutiert, sind aber nicht darauf beschränkt. Sie besitzen eine große Bedeutung für den Bereich der Empfehlungssysteme (Recommender Systems) oder auch bei Wissensre präsentation und nichtmonotonem Schließen.
17.6 Lernende Agenten und Multiagentenlernen Man kann 2020 keine Einführung in Multiagentensysteme schreiben, ohne lernende Agenten zu betrachten. In einer unbekannten Umwelt ist Lernen eine zentrale Fähig keit. Lernverfahren erlauben es, Agenten mit erstaunlichen Fähigkeiten auszustatten. Kapitel 11, 12 und 13 im vorliegenden Handbuch behandeln verschiedene Formen und Aspekte des Maschinellen Lernens. Die Kategorie von Lernverfahren, die oft mit Multi agentensystemen assoziiert ist, ist das Reinforcement-Lernen. Das Ziel ist es, einen Me chanismus zu identifizieren, mit dem der Agent eine Folge von Aktionen lernt, die zu einem bestimmten Ziel führen. In Multiagentensystemen gibt es dabei zwei grundsätz liche Herangehensweisen: Jeder Agent lernt unabhängig von den anderen, indem er seine individuellen Sensorwerte und seinen aktuellen Zustand auf seine Aktionen ab bildet. Wenn mehrere oder alle Agenten auf diese Weise lernen, entsteht ein koevolu tionäres System, bei dem Agenten versuchen, sich aneinander anzupassen. Dabei ent stehen ungewollte Effekte auf die Konvergenz des individuellen und sozialen Lernens. Als Alternative wurde Multiagentenlernen vorgeschlagen. Tuyls und Tumer [73] füh ren verschiedene Formulierungen von Multiagentenlernen ein, bei denen die Agenten unterschiedliche Aspekte des Setups teilen: Lernen auf der Basis eines gemeinsamen Zustands und/oder eines gemeinsamen Rewards bis hin zu Lernen einer gemeinsa men Aktion, d. h. einer Aktion, die aus bestimmten Teilaktionen der einzelnen Agen ten besteht.
17.7 Multiagentensimulation Ein besonderes Anwendungsgebiet der Multiagentensysteme ist die Simulation, die sog. Multiagentensimulation oder agentenbasierte Simulation [39; 40]. Dabei bildet ein Multiagentensystem die grundlegende Metapher für das Modell; d. h., anstatt von mathematischen Gleichungen, die den Zustand eines Systems und seine Dynamik fortschreiben, besteht das Gesamtmodell aus Agentenmodellen und einem Umwelt
17.7 Multiagentensimulation |
775
modell. Während der Simulation entsteht das Verhalten des Gesamtsystems aus der Simulation der einzelnen Agenten. Elemente von Organisationen, z. B. welcher Agent welchem anderen Anweisungen geben kann oder ob die Agenten einem globalen Ziel folgen, müssen in den Agenten selbst modelliert werden. Das Verhalten wird aus der Perspektive der Agenten formuliert. Der Vorteil diese Ansatzes ist, dass das, was im Modell formuliert werden kann, nicht durch einen Formalismus beschränkt ist: Hete rogenität, Adaption, wechselnde Interaktionspartner und andersartig variable Struk turen, Sterbe- und Geburtsprozesse lassen sich repräsentieren. Modelle sind genera tiv – das Gesamtverhalten wird erzeugt, nicht nur beschrieben. Diese Expressivität ist der Grund für die Beliebtheit der Multiagentensimulation. In der AgentLink III Road map [44] wurde Simulation sogar als das am besten etablierte Anwendungsgebiet von Multiagentensystemen bezeichnet. In den Sozialwissenschaften und der Ökologie hat es sich als prominente Form der individuenbasierten Simulation etabliert. Es gibt eine Reihe von wegweisenden Beispielmodellen. Das bekannteste ist wohl das Segregationsmodell von Schelling [63]. Agenten aus zwei erkennbaren Populatio nen, z. B. grüne und rote Agenten, leben auf eine Karte mit diskreten Positionen. Wenn mehr als x % der Nachbarn der anderen Population angehören, fühlt sich ein Agent nicht mehr wohl und sucht nach einer Position in der eine Mehrheit seiner eigenen Population lebt. Mit diesen einfachen Regeln konnte Schelling Segregationsprozesse und Ghettobildung in Städten reproduzieren. Während dieses Modell noch sehr abstrakt war, basierte ein anderes bekanntes Modell, das Anasazi-Modell [4] auf umfangreicher Datenanalyse, z. B. von Klimadaten über Jahrhunderte, um den landwirtschaftlichen Ertrag pro Flächeneinheit in jedem simulierten Jahr berechnen zu können. Das Modell diente dazu, eine Erklärung dafür zu finden, warum ein bestimmtes Tal in Arizona (USA) ca. um das Jahr 1300 vollständig verlassen wurde. Dafür wurde der Effekt verschiedener Umwelt- und sozialer Faktoren in einem sehr detaillierten und sorgfältig mit Daten untermauerten Modell untersucht. Auch im Bereich der Verkehrssimulation findet man verschiedene agentenbasier te Simulationsmodelle, bei denen u. a. untersucht wird, wie auf der Basis von adapti ven, individuellen Entscheidungen der Verkehrsteilnehmer ein bestimmter Verkehrs zustand entsteht bzw. kritische Zustände, wie z. B. Stau, verhindert werden können. Individuelle Reaktion auf Verkehrsinformation und Verhaltensanpassungen sind nur mit agentenbasierten Simulationsansätzen gut darstellbar [7]. Die grundlegenden Herausforderungen bei der Multiagentensimulation stammen von der Generierung des Systemverhaltens während der Simulation: Dieses ist nicht vorgegeben, Werte von Zustandsvariablen werden nicht einfach aufgrund von gege benen Formeln aktualisiert. Das Verhalten entsteht, während die Simulation läuft. Interaktionen geschehen hierbei selten „jeder mit jedem“, sondern oft mit mehr oder weniger zufällig gewählten anderen Agenten, z. B. während sich ein simulierter Agent durch seine Umwelt bewegt und dabei Anderen begegnet. Auf Basis dieser Interaktio nen verändert der Agent sein Verhalten, das wiederum Effekt auf seine nächste Inter aktion hat. Das Verhältnis zwischen einem einzelnem Agentenmodell und einem si
776 | 17 Multiagentensysteme
muliertem Gesamtsystem ist deswegen oft nicht linear. Änderungen von augenschein lich einfachen Parameterwerten können überraschende Effekte haben. Dies verstärkt übliche Herausforderungen bei komplexen Modellen, z. B. bei Kalibrierung, Verifika tion und Validierung von Multiagentensimulationen [39].
17.8 Bemerkungen und weiterführende Literatur Es gibt viele Teilgebiete, die wir hier nicht näher betrachtet haben, denen man aber auf den jährlichen Multiagentensystemkonferenzen begegnet. Die zurzeit wichtigste Kon ferenz ist die jährlich stattfindende International Conference on Autonomous Agents and Multiagent Systems (AAMAS), die von der International Foundation for Autono mous Agents and Multiagent Systems (IFAAMAS) organisiert wird. Andere Konferen zen, die ebenfalls schon seit vielen Jahren existieren, sind die International Conference on Practical Applications of Agents and Multiagents Systeme (PAAMS), die als Reakti on auf die immer stärkere theoretische Ausrichtung der AAMAS entstanden ist, und die International Conference on Principles and Practice of Multiagent Systems (PRIMA), die aus einer frühen, eher regionalen Konferenz im Pazifikraum hervorgegangen ist. Zwischen 2003–2017 gab es mit der MATES auch eine Konferenz der GI-Fachgruppe Verteilte Künstliche Intelligenz. Es gibt mittlerweile einige sehr guten Kompendien und Monographien, die sich für eine weiterführende Einführung eignen. Weiss [75] versammelt einführende Kapi tel zu allen wichtigen Teilgebieten. Wooldridge [76] ist ein hervorragendes, etwas ver altetes Lehrbuch. Leider ist der Autorin kein neueres generell einführendes Kompen dium bekannt. Es gibt aber viele Bücher und Artikel, die in spezielle Teilgebiete der Multiagentensystemforschung einführen. Mit dem Journal of Autonomous Agents and Multiagent Systems hat sich seit 1998 eine wissenschaftliche Zeitschrift zum Thema etabliert, die Artikel aus der gesamten Breite der Multiagentensystemforschung abbil det. Publikationen mit Multiagentensystembezug findet man in allen KI-Zeitschriften. Einige Themen, die bei Konferenzen wie der AAMAS einen großen Raum einneh men, wurden hier nur sehr oberflächlich bzw. nicht betrachtet: Die Spieltheorie ist ei ne wichtige Grundlage für die Entwicklung von Mechanismen für die Entscheidungs findung von egoistischen Agenten. Die Darstellung in Abschnitt 17.4 konnte die Vielfalt der Mechanismen sowie die zugrunde liegende Theorie nur anreißen. Shoham und Leyton-Brown [68] führen sehr fundiert in die verteilte Entscheidungsfindung ein. Auch Verifikation und Validierung von Multiagentensystemen ist ein heißes, aktu elles Thema, bei dem durch Offenheit, Verteiltheit, Nebenläufigkeit und Komplexität des individuellen Agentenverhaltens interessante Herausforderungen gemeistert wer den müssen. Wir haben hier keine Formalisierung von Multiagentensystemen vorge stellt; selbstverständlich gibt es verschiedene, die z. B. zum Model Checking verwendet werden können [21] und [41]. Im Jahr 2019 haben J. Dix, B. Logan und M. Winikoff ein
Literaturverzeichnis
| 777
Dagstuhl-Seminar organisiert, das Engineering für Verlässlichkeit von Multiagenten systemen zum Thema hatte. Ebenso wurden die vielen Wettbewerbe, in denen sich Agenten und Multiagen tensysteme messen, ignoriert: Die Trading Agent Competition mit ihren Variationen ist mittlerweile einer der größten. Die Szenarien sind auch unabhängig von den Wett bewerben für die Forschung interessant. Anfangs musste ein Agent mit anderen dar um konkurrieren, die beste Kombination von Flug, Hotel, Aktivitäten für eine Gruppe von Reisenden in einer Folge von Auktionen zu sichern. Mittlerweile gibt den Supply Chain Management Contest, einen Markt Design Contest, einen Wettbewerb um An zeigenauktionen und einen zum Elektrizitätsmarkt (tradingagents.org, [38]). Ein Wett bewerb, der mehr auf Herausforderungen des Problemlösens mit einem Multiagen tensystem zielt, ist der Multiagent Programming Contest (https://multiagentcontest. org [1; 2]).
Literaturverzeichnis [1]
Ahlbrecht, T., Dix, J. und Fiekas, N. Multi-Agent Programming Contest 2017. Annals of Mathe matics and Artificial Intelligence, 84, 2018.
[2]
Ahlbrecht, T., Dix, J. und Fiekas, N. (Hrsg.). Multi-Agent Programming Contest 2018 – Agents Teaming Up in an Urban Environment, Band 11957 von LNAI. Springer, Cham, 2018.
[3]
Arrow, K. J. Social Choice and Individual Values. Yale University Press, 2. Aufl. (1963), 1951.
[4]
Axtell, R. L., Epstein, J. M., Dean, J. S., Gumerman, G. J., Swedlund, A. C., Harburger, J., Chakra varty, S., Hammond, R., Parker, J. und Parker, M. Population Growth and Collapse in a MultiAgent Model of the Kayenta Anasazi in Long House Valley. Proceedings of the National Acad emy of Sciences, 99(3):7275–7279, 2002.
[5]
Baarslag, T., Kaisers, M., Gerding, E. H., Jonker, C. M. und Gratch, J. When Will Negotiation Agents Be Able to Represent Us? The Challenges and Opportunities for Autonomous Negotia tors. In Proc. of the 26th Int. Joint Conference on Artificial Intelligence (IJCAI), S. 4684–4690. AAAI Press, 2017.
[6]
Bauer, B., Müller, J. P. und Odell, J. Agent UML: A Formalism for Specifying Multiagent Software Systems. In First International Workshop on Agent-Oriented Software Engineering (AOSE2001), S. 91–103, Berlin, Heidelberg, 2001. Springer.
[7]
Bazzan, A. L. C. und Klügl, F. A review on agent-based technology for traffic and transportation. The Knowledge Engineering Review, 29(3):375–403, 2014.
[8]
Beckers, R., Holland, O. E. und Deneubourg, J. L. Fom Local Actions to Global Tasks: Stigmergy and Collective Robotics. In Cruse, H., Dean, J. und Ritter, H. (Hrsg.), Prerational Intelligence, S. 1008–1022. Springer Netherlands, Dordrecht, 2000.
[9]
Bichler, M. Combinatorial Auctions: Complexity and Algorithms. In Wiley Encyclopedia of Oper ations Research and Management Science. Wiley, 2011.
[10] Boella, G., van der Torre, L. und Verhagen, H. Introduction to normative multiagent systems. Computational and Mathematical Organization Theory, 12:71–79, 2006. [11] Bonabeau, E., Dorigo, M. und Theraulaz, G. (Hrsg.). Swarm Intelligence – From Natural to Artifi cial Systems. Santa Fe Institute Studies in the Sciences of Complexity. Oxford University Press, 1999.
778 | 17 Multiagentensysteme
[12] Bordini, R. und Dix, J. Programming Multi-Agent Systems. In Weiss, G. (Hrsg.), Multiagent Sys tems, Kapitel 13, S. 587–639. MIT-Press, 2013. [13] Bordini, R., Hübner, J. F. und Wooldrigde, M. Programming Multi-Agent Systems in AgentSpeak using Jason. John Wiley & Sons, 2007. [14] Boutilier, C. und Hoos, H. H. Bidding Languages for Combinatorial Auctions. In Proceedings of the 17th International Joint Conference on Artificial Intelligence – Volume 2, IJCAI 2001, S. 1211–1217, San Francisco, CA, USA, 2001. Morgan Kaufmann Publishers Inc. [15] Brandt, F., Conitzer, V., Endriss, U., Lang, J. und Procaccia, A. D. (Hrsg.). Handbook of Computa tional Social Choice. Cambridge University Press, 2016. [16] Chopra, A. K. und Singh, M. P. Agent Communication. In Weiss, G. (Hrsg.), Multiagent Sys tems – a Modern Approach, Kapitel 3, S. 101–142. MIT Press, 2. Aufl., 2013. [17] Ciortea, A., Meyer, S. und Michahelles, F. Repurposing Manufacturing Lines on the Fly with Multi-Agent Systems for the Web of Things. In Proc. of the 17th Int. Conf. On Autonomous Agents and Multiagent Systems, Stockholm, July 2018, S. 813–822, 2018. [18] Cramton, P., Shoham, Y. und Steinberg, R. Combinatorial Auctions. MIT Press, 2006. [19] Dastani, M., Hindriks, K. V. und Meyer, J. J. (Hrsg.). Specification and Verification of Multi-agent systems. Springer, 2010. [20] Dignum, V. und Padget, J. Multiagent Organizations. In Weiss, G. (Hrsg.), Multiagent Systems – a Modern Approach, Kapitel 2, S. 51–98. MIT Press, 2. Aufl., 2013. [21] Dix, J. und Fisher, M. Specification and Verification of Multiagent Systems. In Weiss, G. (Hrsg.), Multiagent Systems – a Modern Approach, Kapitel 14. MIT Press, 2. Aufl., 2013. [22] Dorigo, M., Birattari, M. und Stützle, T. Ant Colony Optimization – Artificial Ants and Computa tional Intelligence Technique. IEEE Computational Intelligence Magazine, 1(November):28–39, 2006. [23] Durfee, E. H. und Rosenschein, J. S. Distributed Problem Solving and Multi-Agent Systems: Comparisons and Examples. In Proc. of the 13th Int. Distributed Artificial Intelligence Work shop, July 1994, S. 94–104, 1994. [24] Durfee, E. H. und Zilberstein, S. Multiagent Planning, Control and Execution. In Weiss, G. (Hrsg.), Multiagent Systems – a Modern Approach, Kapitel 11, S. 485–546. MIT Press, 2. Aufl., 2013. [25] Elkind, E., Rahwan, T. und Jennings, N. R. Computational Coalition Formation. In Weiss, G. (Hrsg.), Multiagent Systems – a Modern Approach, Kapitel 8. MIT Press, 2. Aufl., 2013. [26] Ferber, J. Multi-Agent System: An Introduction to Distributed Artificial Intelligence. Addison Wesley Longman, 1999. [27] Ferguson, I. A. Towards an Architecture for Adaptive, Rational, Mobile Agents. In Werner, E. und Demazeau, Y. (Hrsg.), Decentralized A.I. 3 – 3rd European Workshop on Modellings Autono mous Agents in a Multi-Agent World, MAAMAW’91, S. 249–263. North Holland, 1992. [28] Fischer, K., Schillo, M. und Siekmann, J. Holonic Multiagent Systems: A Foundation for the Or ganisation of Multiagent Systems. In Mařík, V., McFarlane, D. und Valckenaers, P. (Hrsg.), Holo nic and Multi-Agent Systems for Manufacturing, S. 71–80, Berlin, Heidelberg, 2003. Springer Berlin Heidelberg. [29] Fitoussi, D. und Tennenholtz, M. Choosing social laws for multi-agent systems: Minimality and simplicity. Artificial Intelligence, 119(1):61–101, 2000. [30] Hauert, S., Leven, S., Varga, M., Ruini, F., Cangelosi, A., Zufferey, J. und Floreano, D. Reynolds flocking in reality with fixed-wing robots: Communication range vs. maximum turning rate. In 2011 IEEE/RSJ International Conference on Intelligent Robots and Systems, S. 5015–5020, 2011. [31] Hertle, A. und Nebel, B. Efficient Auction Based Coordination for Distributed Multi-agent Planning in Temporal Domains Using Resource Abstraction. In Trollmann, F. und Turhan, A. Y.
Literaturverzeichnis
[32]
[33] [34] [35]
[36] [37] [38] [39] [40] [41]
[42]
[43] [44] [45] [46]
[47]
[48] [49] [50]
|
779
(Hrsg.), KI 2018: Advances in Artificial Intelligence. KI 2018., Lecture Notes in Computer Sci ence, vol 11117. Springer, Cham, 2018. Ho, F., Salta, A., Geraldes, R., Goncalves, A., .Cavazza, M. und Prendinger, H. Multi-Agent Path Finding for UAV Traffic Management. In Agmon, N., Taylor, M. E., Elkind, E. und Velo so, M. (Hrsg.), Proc. of the 18th Int. Conf. on Autonomous Agents and Multiagent Systems (AA MAS2019), Montreal, May 2019, S. 131–139, 2019. Holland, J. H. Emergence from Chaos to Order. Oxford University Press, 1998. Horling, B. und Lesser, V. A Survey of Multi-Agent Organizational Paradigms. Knowledge Engi neering Review, 19(4):281–316, December 2004. Hübner, J. F., Sichman, J. S. und Boissier, O. Developing Organised Multiagent Systems Using the MOISE+ Model: Programming Issues at the System and Agent Levels. Int. J. Agent-Oriented Software Engineering, 1(3/4):370–395, December 2007. Ingrand, F. F., Georgeff, M. P. und Rao, A. S. An architecture for Real-Time Reasoning and Sys tem Control. IEEE Expert, 7(6):34–44, 1992. Jennings, N. R., Sycara, K. und Wooldridge, M. A Roadmap of Agent Research and Develop ment. Autonomous Agents and Multi-Agent Systems, 1(1):7–38, 1998. Ketter, W. und Symeonidis, A. Competitive Benchmarking: Lessons Learned from the Trading Agent Competition. AI Magazine, 33(2):103–107, Mar. 2012. Klügl, F. Agent-Based Simulation Engineering. Doktorarbeit, Habilitatitionsschrift, University of Würzburg, 2009. Klügl, F. und Bazzan, A. L. C. Agent-Based Modeling and Simulation. AI Magazine, 33(3):29ff, Sep. 2012. Kouvaros, P., Lomuscio, A., Pirovano, E. und Punchihewa, H. Formal Verification of Open MultiAgent Systems. In Agmon, N., Taylor, M. E., Elkind, E. und Veloso, M. (Hrsg.), Proc. of the 18th Int. Conf. on Autonomous Agents and Multiagent Systems (AAMAS2019), Montreal, May 2019, S. 179–187, 2019. Leusin, M. E., Kück, M., Frazzon, E. M., Maldonado, M. U. und Freitag, M. Potential of a MultiAgent System Approach for Production Control in Smart Factories. IFAC-PapersOnLine, 51(11):1459–1464, 2018. 16th IFAC Symposium on Information Control Problems in Manufac turing INCOM 2018. Leyton-Brown, K. und Shoham, Y. Mechanism Design and Auctions. In Weiss, G. (Hrsg.), Multi agent Systems – a Modern Approach, Kapitel 7. MIT Press, 2. Aufl., 2013. Luck, M., McBurney, P., Shehory, O. und Willmott, S. Agent Technology: Computing as Interac tion (A Roadmap for Agent Based Computing). AgentLink, 2005. Ma, H. und Koenig, S. AI buzzwords explained: multi-agent path finding (MAPF). AI Matters, 3(3):15–19, 2017. Mařík, V., Kadera, P., Rzevski, G., Zoitl, A., Anderst-Kotsis, G., Tjoa, A. M. und Khalil, I. (Hrsg.). Industrial Applications of Holonic and Multi-Agent Systems – 9th International Conference, HoloMAS 2019, Linz, Austria, August, 2019, Proceedings. LNAI 11710. Springer, 2019. Mařík, V., Wahlster, W., Strasser, T. und Kadera, P. (Hrsg.). Industrial Applications of Holonic and Multi-Agent Systems – 8th International Conference, HoloMAS 2017, Lyon, France, August 2017, Proceedings. LNCS 10444. Springer, 2017. Morley, R. E. und Schelberg, C. An analysis of a plant specific dynamic scheduler. In Proceed ings of the NSF Workshop on Dynamic Scheduling, Cocoa Beach, Florida., 1993. Müller, J. P. The Design of Intelligent Agents – A Layered Approach, Band 1177 von LNAI. Sprin ger, 1996. Nedjah, N. und Junior, L. S. Review of methodologies and tasks in swarm robotics towards standardization. Swarm and Evolutionary Computation, 50:100565, 2019.
780 | 17 Multiagentensysteme
[51] Noriega, P. und Sierra, C. Auctions and Multi-agent Systems. In Klusch, M. (Hrsg.), Intelligent Information Agents, S. 153–175. Springer, 1999. [52] Parsons, S., Rodriguez-Aguilar, J. A. und Klein, M. Auctions and Bidding: A Guide for Computer Scientists. ACM Comput. Surv., 43(2), February 2011. [53] Parunak, V. D. Manufacturing Experience with the Contract Net. In Huhns, M. N. (Hrsg.), Distrib uted Artificial Intelligence, S. 285–310. Pitman, 1987. [54] Pokahr, A., Braubach, L. und Lamersdorf, W. Jadex: A BDI Reasoning Engine. In Bordini, R. H., Dastani, M., Dix, J. und Seghrouchni, A. E. F. (Hrsg.), Multi-Agent Programming. Multiagent Systems, Artificial Societies, and Simulated Organizations, International Book Series, vol 15., 2005. [55] Rahwan, T., Michalak, T. P., Wooldridge, M. und Jennings, N. R. Coalition Structure Generation: A Survey. Artificial Intelligence, 229:139–174, 2015. [56] Ranjbar-Sahraei, B., Tuyls, K., Caliskanelli, I., Broeker, B., Claes, D., Alers, S. und Weiss, G. Bio-inspired multi-robot systems. In Ngo, T. D. (Hrsg.), Biomimetic technologies. Principles and Applications, Kapitel 13, S. 273–299. Woodhead Publishing Ltd, 2015. [57] Reynolds, C. W. Flocks, Herds and Schools: A Distributed Behavioral Model. SIGGRAPH Comput. Graph., 21(4):25–34, August 1987. [58] Rosenschein, J. S. und Zlotkin, G. Rules of Encounter: Designing Conventions for Automated Negotiation among Computers. MIT Press, 1994. [59] Rubenstein, M., Ahler, C., Hoff, N., Cabrera, A. und Nagpal, R. Kilobot: A low cost robot with scalable operations designed for collective behaviors. Robotics and Autonomous Systems, 62(7):966–975, 2014. Reconfigurable Modular Robotics. [60] Rückert, U., Sitte, J. und Werner, F. (Hrsg.). Advances in Autonomous Mini Robots – Proceed ings of the 6th AMIRE Symposium. Springer, 2012. [61] Russell, S. und Norvig, P. Artificial Intelligence – A Modern Approach. Prentice Hall, 3. Aufl., 1995. [62] Sabater, J. und Sierra, C. Reputation and Social Network Analysis in Multi-Agent Systems. In 1st. Int. Conf. on Autonomous Agents and Multiagent Systems, Bologna July 2002, S. 475–482, 2002. [63] Schelling, T. C. Dynamic models of segregation. The Journal of Mathematical Sociology, 1(2):143–186, 1971. [64] Schild, K. und Bussmann, S. Self-organization in Manufacturing Operations. CACM, 50:74–79, 2007. [65] Seghrouchni, A. E. F., Florea, A. M. und Olaru, A. Multi-Agent Systems: A Paradigm to Design Ambient Intelligent Applications. In Essaaidi, M., Malgeri, M. und Badica, C. (Hrsg.), Intelligent Distributed Computing IV. Studies in Computational Intelligence, vol 315. Springer, Berlin, Heidelberg, 2010. [66] Shehory, O. und Sturm, A. (Hrsg.). Agent-Oriented Software Engineering – Reflections on Archi tectures, Methodologies, Languages, and Frameworks. Springer, 2014. [67] Shoham, Y. Agent-oriented programming. Artificial Intelligence, 60:51–92, 1993. [68] Shoham, Y. und Leyton-Brown, K. Multiagent Systems – Algorithmic, Game-Theoretic and Logi cal Foundations. Cambridge University Press, 2009. [69] Singh, M. P. und Chopra, A. K. The Internet of Things and Multiagent Systems: Decentralized In telligence in Distributed Computing. In 2017 IEEE 37th International Conference on Distributed Computing Systems (ICDCS), S. 1738–1747, 2017. [70] Smith, R. G. The Contract Net Protocol: High-Level Communication and Control in a Distributed Problem Solver. IEEE Trans. Comput., 29(12):1104–1113, 1980. [71] Tan, Y. und Zheng, Y. V. Research Advance in Swarm Robotics. Defence Technology, 9(1):18–39, 2013.
Literaturverzeichnis
| 781
[72] Thörn, O., Fögel, P., Knudsen, P., de Miranda, L. und Saffiotti, A. Anticipation in collaborative music performance using fuzzy systems: a case study. In Proceedings of 31st annual workshop of the Swedish AI Society, 2019, 2019. [73] Tyls, K. und Tumer, K. Multiagent Learning. In Weiss, G. (Hrsg.), Multiagent Systems – a Mo dern Approach, Kapitel 10. MIT Press, 2. Aufl., 2013. [74] Vásárhelyi, G., Virágh, C., Somorjai, G., Tarcai, N., Szörenyi, T., Nepusz, T. und Vicsek, T. Out door flocking and formation flight with autonomous aerial robots. In 2014 IEEE/RSJ Internatio nal Conference on Intelligent Robots and Systems, S. 3866–3873, 2014. [75] Weiss, G. (Hrsg.). Multiagent Systems. MIT Press, 2. Aufl., 2013. [76] Wooldridge, M. An Introduction to MultiAgent Systems. John Wiley, Chichester, 2. Aufl., 2009. [77] Zlotkin, G. und Rosenschein, J. S. A Domain Theory for Task Oriented Negotiation. In Proceed ings of the 13th International Joint Conference on Artifical Intelligence – Volume 1, IJCAI 1993, S. 416–422, San Francisco, CA, USA, 1993. Morgan Kaufmann Publishers Inc.
18 Semantic Web Ansgar Scherp und Gerd Gröner
18.1 Einleitung Im World Wide Web werden unstrukturierte Informationen und informelles Wissen in Form von Hypertext dargestellt, um die Verbreitung von Informationen und Wissen zu erleichtern. Ziel des Semantic Webs ist es, strukturierte Informationen und formales Wissen verteilt im Web bereitzustellen, um daraus mittels automatisierten Schlussfol gerungen Antworten ableiten zu können [26]. Auf diese Weise lassen sich Wissens bestandteile aus verschiedenen Quellen intelligent miteinander integrieren und kom plexe Fragen beantworten. Anfragen, die sich auf diese Weise beantworten lassen, sind z. B. „Welche Arten von Musik werden in britischen Radiostationen gespielt?“ oder „Welche Radiostation spielt Lieder von schwedischen Künstlern?“ Heutige Such maschinen können solche Anfragen nur unzureichend beantworten, obwohl alle be nötigten Informationen bereits im Web verfügbar sind. Insbesondere liegt eine große Menge an Daten bereits in maschinenverarbeitbaren Formaten im Semantic Web vor. Allerdings können die Inhalte nur sehr eingeschränkt von heutigen Suchmaschinen analysiert werden. Im Wesentlichen indizieren Suchmaschinen die Hypertexte und Dokumente im Web, die in natürlicher Sprache vorliegen, einzeln und sind nicht in der Lage, dort vorhandene Inhalte intelligent miteinander zu kombinieren. Die Stärke des Semantic Webs liegt nun darin, Daten und deren Bedeutung aus verschiedenen Quellen miteinander zu kombinieren. Schauen wir uns dazu an, wie man mithilfe des Semantic Webs die o. g. Fragen beantworten kann: Die BBC veröffentlicht die Abspiellisten ihrer Radiostationen on line in Formaten des Semantic Webs. Die Musikgruppe „ABBA“ hat einen eindeutigen Bezeichner in Form einer URI (http://www.bbc.co.uk/music/artists/d87e52c5-bb8d4da8-b941-9f4928627dc8#artist). Diese URI kann verwendet werden, um die Musik gruppe mit Informationen aus dem Musikportal MusicBrainz¹ zu verknüpfen. Music Brainz kennt die Mitglieder der Band, wie beispielsweise Benny Andersson, sowie das Genre und die Lieder. Zudem ist MusicBrainz mit Wikipedia verknüpft, um bei spielsweise Informationen zu Künstlern, wie Biographien auf DBpedia [3], nutzen zu können. Informationen über britische Radiostationen können in Form von Listen auf Web-Seiten wie beispielsweise ListenLive² gefunden werden, welche ebenfalls in eine Repräsentation im Semantic Web, eine sog. Ontologie, überführt werden könnten. Umgangssprachlich ist eine Ontologie eine Beschreibung von Objekten und ihren Beziehungen. Ontologien dienen zur formalen Repräsentation von Wissen im Seman
1 http://musicbrainz.org/ 2 http://www.listenlive.eu/uk.html https://doi.org/10.1515/9783110659948-018
784 | 18 Semantic Web
tic Web. Die Web Ontology Language (OWL) [28] basiert auf Beschreibungslogik und entsprechend werden Schlussfolgerungsdienste von wissensbasierten Systemen für OWL-Ontologien angeboten. Ontologien können im Semantic Web miteinander ver bunden sein. So ist die MusicBrainz-Ontologie mittels der Playcount-Ontologie³ mit der BBC-Ontologie verbunden. Derzeit werden von der BBC mindestens neun verschie dene Ontologien mit unterschiedlichem Grad an Formalität und verschiedenen Bezie hungen zueinander genutzt, um ihre Daten zu beschreiben [50]. Die Bedeutung von Beziehungen zwischen Daten wird ebenfalls mittels Ontologien des Semantic Webs be schrieben. Zum Beispiel bietet Dublin Core⁴ ein Metadatenschema zur Beschreibung allgemeiner Eigenschaften von Objekten an, wie der Ersteller der Information, Typ, Datum, Titel, Nutzungsrechte usw. Dadurch, dass diese Daten im Semantic Web ver fügbar sind, können weitere Fragen beantwortet werden, wie z. B. wie oft Musik eines bestimmten Genre von britischen Radiostationen gespielt wird oder welche Radiosta tionen Lieder von schwedischen Künstlern spielen. Um Fragen in diesem und in ande ren Szenarien zu beantworten, werden im Semantic Web generische Softwarekompo nenten, Sprachen und Protokolle benötigt, die nahtlos miteinander interagieren kön nen. Das Szenario zeigt, dass die Daten im Semantic Web aus verschiedenen Quel len stammen können und miteinander vernetzt sind. Abgesehen von technischen Ge sichtspunkten ist das Semantic Web auch als ein gesellschaftspolitisches Phänomen zu verstehen. Ähnlich dem World Wide Web veröffentlichen verschiedene Personen und Organisationen ihre Daten im Semantic Web und arbeiten zusammen, um diese Daten miteinander zu verknüpfen und zu verbessern. Neben dem o. g. Beispiel ist das Semantic Web auch für eine Vielzahl anderer Anwendungsgebiete einsetzbar (siehe Beispiele in Abschnitt 18.8). Im Folgenden wird zunächst der prinzipielle Aufbau des Semantic Webs vorge stellt. Analog zu einschlägiger Grundlagenliteratur im Bereich Semantic Web [1; 35; 37] befasst sich dieses Kapitel mit den verschiedenen grundlegenden Technologien des Semantic Webs und deren Anwendungen. Sehr viele dieser Technologien stammen aus der KI oder haben zumindest einen starken Bezug dazu [26]. Im nächsten Ab schnitt stellen wir die allgemeine Architektur des Semantic Webs vor. Anschließend zeigen wir in Abschnitt 18.3, wie verteilte Daten mithilfe von Technologien des Se mantic Webs verwaltet, d. h. verknüpft und angefragt werden können. Das im obigen Beispiel skizzierte Netzwerk von Ontologien wird in Abschnitt 18.4 näher analysiert und allgemeine Strategien zur verteilten Wissensrepräsentation und -integration im Semantic Web vorgestellt. In Abschnitt 18.5 zeigen wir, wie Schlussfolgerungen aus semantischen Daten gezogen werden können. Um die Daten in einer sich über das Web erstreckenden Wissensbasis verwalten zu können, sind eine Reihe von Heraus
3 http://dbtune.org/bbc/playcount/ 4 http://dublincore.org/documents/dc-rdf/
18.2 Architektur des Semantic Web | 785
forderungen zu lösen. Diese sind zum einen die Identifizierung von Ressourcen und deren Verknüpfung (Abschnitt 18.6), Herkunft und Vertrauenswürdigkeit von Daten (dargelegt in Abschnitt 18.7), zum anderen Anwendungen des Semantic Webs (Ab schnitt 18.8). Der Artikel schließt mit einer Übersicht der aktuellen, praktischen Nut zung von semantischen Technologien in der Praxis.
18.2 Architektur des Semantic Web Das Szenario in Abschnitt 18.1 beschreibt was das Semantic Web als Infrastruktur rea lisiert, aber nicht wie dies erreicht wird. In der Tat wurden die beschriebenen Fähigkei ten im Kleinen bereits von einigen wissensbasierten Systemen, die aus der Forschung der KI stammen, umgesetzt. Für eine Umsetzung im Großen mangelte es diesen Syste men aber an Flexibilität, Robustheit und Skalierbarkeit. Teilweise lag dies an der Kom plexität der verwendeten Algorithmen. So waren beispielsweise Wissensbasen in der Beschreibungslogik, die als Grundlage von Webontologien dienen, in den 1990er-Jah ren bezüglich ihrer Größe so eingeschränkt, dass sie höchstens einige Hundert Kon zepte handhaben konnten [36]. Zwischenzeitlich wurden enorme Verbesserungen er reicht. Stark angestiegene Rechenleistung und optimierte Algorithmen ermöglichen eine praktische Handhabung von großen Ontologien wie SNOMED⁵ mit Hunderttau senden von Axiomen. Allerdings gibt es einige grundlegende Unterschiede zwischen klassischen wissensbasierten Systemen und dem Semantic Web. Die Verwaltung von Daten in traditionellen wissensbasierten Systemen weist Schwachstellen in Bezug auf die Verarbeitung großer Mengen an Daten und Da tenquellen auf, u. a. wegen (1) unterschiedlicher zugrunde liegender Formalismen, (2) verteilten Standorten, (3) verschiedenen Befugnissen, (4) unterschiedlicher Da tenqualität und (5) einer hohen Änderungshäufigkeit der verwendeten Daten. Um mit diesen Problemen umgehen zu können, wendet das Semantic Web einige grundle gende Prinzipien an: 1. Explizite und einfache Datendarstellung: Eine allgemeine Datenrepräsentation abstrahiert von den zugrunde liegenden Formaten und erfasst nur das Wesentli che. 2. Verteilte Systeme: Ein verteiltes System arbeitet auf einer großen Menge an Daten quellen, ohne dass eine zentrale Steuerung regelt, welche Informationen wohin und wem gehören. 3. Querverweise: Die Vorteile eines Netzwerks von Daten bei der Beantwortung von Anfragen begründen sich nicht alleine aus der reinen Mengen von Daten, sondern aus ihrer Verknüpfung, die es erlaubt, Daten und Datendefinitionen aus anderen Quellen wiederzuverwenden.
5 http://www.snomed.org/
786 | 18 Semantic Web
4. Lose Koppelung mit gemeinsamen Sprachkonstrukten: Das World Wide Web und ebenso das Semantic Web sind Megasysteme, also Systeme, die aus vielen Teil systemen bestehen, die ihrerseits groß und komplex sind. In einem solchen Me gasystem müssen einzelne Bestandteile lose gekoppelt sein, um größtmögliche Flexibilität zu erreichen. Die Kommunikation zwischen den Bestandteilen erfolgt auf Grundlage von standardisierten Sprachen, wobei diese individuell an spezifi sche Systeme angepasst werden können. 5. Einfaches Veröffentlichen und einfacher Konsum: Gerade in einem Megasystem muss die Teilnahme, also das Veröffentlichen und der Konsum von Daten, mög lichst einfach sein. Diese Prinzipien werden durch einen Mix an Protokollen, Sprachdefinitionen und Softwarekomponenten erzielt. Einige dieser Bestandteile sind bereits durch das World Wide Web Consortium (W3C) standardisiert, das sowohl Syntax als auch formale Se mantik der Sprachen und Protokolle festgelegt hat. Weitere Bestandteile sind noch nicht standardisiert, aber sie sind bereits im sog. Semantic Web Layer Cake von Tim Berners-Lee vorgesehen (http://www.w3.org/2007/03/layerCake.png). Wir stellen eine Variante der Architektur des Semantic Webs vor, wobei wir zwischen standardisierten Sprachen und derzeitigen Entwicklungen unterscheiden. Eine grafische Darstellung der Architektur ist in Abbildung 18.1 zu finden. Nachfolgend werden die entsprechen den Bausteine kurz vorgestellt.
Abb. 18.1: Darstellung der Bestandteile des sog. „Semantic Web Layer Cake“. W3C-Sprachstandards sind in dunkelgrau dargestellt. Derzeitige Entwicklungen sind in hellgrau abgebildet
HTTP/URI/IRI Da das Semantic Web dezentral organisiert ist, benötigt man Mechanismen, um nicht nur auf selbst eingeführte Entitäten zu verweisen, sondern auch auf Entitäten, die von Dritten veröffentlicht wurden. Entitäten (auch Ressourcen genannt) werden im Inter net durch sog. Uniform Resource Identifiers (URIs) [6] identifiziert. Wie im Web halten sich URIs auch im Semantic Web an das Domain Name System (DNS), das die globale Eindeutigkeit von Domainnamen und URIs garantiert, welche mit „http“ beginnen. In unserem Beispiel beschreibt die URI http://www.bbc.co.uk/music/artists/2f031686-
18.2 Architektur des Semantic Web | 787
3f01-4f33-a4fc-fb3944532efa#artist den Musiker Benny Andersson der schwedischen Popgruppe ABBA. Ein Anwender kann eine URI, die beispielsweise auf ABBA ver weist, dereferenzieren, indem ein sog. Look-up mittels HTTP ausgeführt wird, um ei ne ausführliche Beschreibung der URI zu erhalten. Internationalized Resource Identi fiers (IRIs) [16] ergänzen URIs um internationale Zeichensätze aus Unicode/ISO10646. HTTP-Anfragen und URI/IRI-Referenzen werden in Abschnitt 18.3 detaillierter behan delt. XML Nachdem nun Ressourcen mittels URIs eindeutig referenzierbar und dereferenzierbar sind, wird eine Syntax benötigt, um Beschreibungen von Ressourcen im Web auszu tauschen. Die Extensible Markup Language (XML) wird zur Strukturierung von Doku menten verwendet und ermöglicht die Spezifikation und Serialisierung strukturierter Daten. RDF Neben der Referenzierbarkeit von Ressourcen und einer einheitlichen Syntax für den Austausch von Daten benötigt man ein Datenmodell, das es erlaubt, Ressourcen so wohl im Einzelnen als auch in ihrer Gesamtheit und ihrer Verknüpfung zu beschrei ben. Eine integrierte Darstellung von Daten aus mehreren Quellen wird durch ein auf gerichteten Graphen basierendes Datenmodell erreicht [49]. Die entsprechende W3CStandardsprache ist das Resource Description Framework (RDF). Ein RDF-Graph be steht aus einer Menge von RDF-Tripeln, wobei ein Tripel aus Subjekt, Prädikat (Eigen schaft) und Objekt besteht. Auf RDF wird, in Verbindung mit der Verteilung von Daten, in Abschnitt 18.3 weiter eingegangen. RDF-Graphen können auf verschiedene Arten serialisiert werden. Häufig wird ei ne XML-basierte Serialisierung verwendet, wie z. B. im Ontologie-Editor Protégé [45]. Andere sehr populäre Formate sind N-triple⁶ und Turtle⁷. Diese lassen sich einfacher in einem Text-Editor betrachten und somit verstehen und verändern. Nachdem diese Formate zunächst nicht in Standards hinterlegt worden waren, so hat ihre Popularität dazu geführt, dass sowohl N-Tripels als auch Turtle seit 2014 offizielle W3C-Empfeh lungen sind. SPARQL Nachdem RDF die Integration von Daten verschiedener Quellen ermöglicht, ist der nächste Schritt die Anfrage von RDF-Graphen. SPARQL⁸ (ein rekursives Akronym für
6 https://www.w3.org/TR/n-triples/ 7 https://www.w3.org/TR/turtle/ 8 http://www.w3.org/TR/rdf-sparql-query/
788 | 18 Semantic Web
SPARQL Protocol and RDF Query Language) ist eine deklarative Anfragesprache für RDF-Graphen. Die Syntax von SPARQL ist an die in relationalen Datenbanken do minierende Anfragesprache SQL [43] angelehnt. SPARQL 1.1⁹ ist die aktuelle Version von SPARQL. Details und Beispiele von SPARQL-Anfragen werden ausführlich in Ab schnitt 18.3 vorgestellt. RDFS RDF-Graphen können die Bedeutung von Daten nur teilweise beschreiben. Sehr oft werden Konstrukte zur Modellierung von hierarchischen Beziehungen zwischen Klas sen und Eigenschaften benötigt. Derartige Beziehungen werden typischerweise in Taxonomien und Ontologien beschrieben. RDFS (RDF-Schema) ist eine Ontologie beschreibungssprache, die u. a. Hierarchien zwischen Klassen und Eigenschaften beschreiben kann [11]. OWL Daten von verschiedenen Quellen sind sehr heterogen. RDFS ist nicht ausdrucks stark genug, um Daten aus verschiedenen Quellen zusammenzuführen und darüber Konsistenzkriterien zu definieren, wie beispielsweise die Disjunktheit von Klassen. Die Web Ontology Language (OWL) ist eine Ontologiebeschreibungssprache, die im Vergleich zu RDFS ausdrucksstärkere Sprachkonstrukte bereithält. Beispielsweise ermöglicht OWL die Spezifikation von Äquivalenzen zwischen Klassen und Kardina litätseinschränkungen von Eigenschaften [28]. Die Bedeutung von OWL-Konstrukten kann durch zwei alternative Semantiken de finiert werden. Die RDF-basierte Semantik und die direkte modelltheoretische Seman tik, die auf der Semantik von Beschreibungslogik aufbaut, ermöglichen Schlussfol gerungen in Form von deduktiver Inferenz. OWL 2 als die aktuelle Version von OWL beinhaltet mehrere Untersprachen, sog. Profile, die je nach Anwendungskontext zwi schen Ausdrucksmächtigkeit und effizienter Schlussfolgerung abwägen. OWL wird ausführlich in Abschnitt 18.4 behandelt und Inferenz in OWL wird in Abschnitt 18.5 beispielhaft dargestellt. RIF Regeln sind weitere Formalismen zur Repräsentation von Wissen im Semantic Web. Rule Interchange Format (RIF)¹⁰ beinhaltet eine Menge von Regelsprachen, die in lo gische Regelsprachen und ereignisbasierte Regelsprachen unterteilt werden können. RIF Core Dialect [9] beschreibt eine Teilmenge von verbreiteten Regelsprachen aus bei den Mengen.
9 http://www.w3.org/TR/sparql11-query/ 10 http://www.w3.org/2005/rules/wiki/RIF_Working_Group
18.2 Architektur des Semantic Web |
789
SHACL Die Shapes Constraint Language (SHACL)¹¹ erlaubt mit der RDF-Klasse Shape die Spezi fikation von Graphmustern (engl. shape graphs). Ein Graphmuster in SHACL definiert eine Menge an Bedingungen, die von einem RDF-Graphen eingehalten werden sollen. Beispiel ist das Adressdatenmuster: Dieses modelliert, dass eine Adresse die Attribute Name, Straße, Postleitzahl usw. haben muss. Anwendungen der SHACL-Muster finden sich also in der Überprüfung von Datengraphen. Sie sind aber auch zum Programmie ren von Benutzungsschnittstellen, der automatischen Programmcodegenerierung für den Zugriff auf Graphen in einem SHACL-Muster sowie zur Datenintegration geeignet. Das Konzept der seit 2017 vom W3C standardisierten SHACL-Sprache ist im En gineering von OWL-Ontologien seit Langem unter dem Begriff der Ontologiemuster (engl. ontology patterns) bekannt. Ontologiemuster werden insbesondere zum Ent wurf von formalen, auf OWL-basierenden Ontologien verwendet (Kapitel 18.4.2). Mit hilfe von Beschreibungslogik lassen sich in OWL geeignete Muster definieren. Aller dings steht in OWL kein syntaktisches Konstrukt zur Verfügung, mit dem man explizit ausdrücken kann, dass es sich bei einer Ontologie um ein Muster handelt. Dies ist nur aus dem Kontext für den Entwickler ersichtlich. Mit SHACL wurde also mit Hinblick auf RDF-Graphen ein Konstrukt zur expliziten Definition von Mustern eingeführt. Crypto Weitere Aspekte im Semantic Web sind Verschlüsselung und Authentifizierung, um sicherzustellen, dass Datenübertragungen nicht abgehört, gelesen oder modifiziert werden können. Kryptomodule, wie beispielsweise Secure Socket Layer (SSL), veri fizieren digitale Zertifikate und ermöglichen Datenschutz und Authentifizierung. Dar über hinaus gibt es digitale Signaturen für Graphen, die sich nahtlos in die Architektur des Semantic Web integrieren und selbst wieder als Graphen modelliert werden [42]. Damit lassen sich Graphsignaturen iterativ anwenden und ermöglichen den Aufbau von Vertrauensnetzwerken. Identifizierung und Verknüpfung Graphdaten, die aus vielen Datenquellen aggregiert sind, können viele verschiede ne Identitäten beinhalten, die jedoch dasselbe reale Objekt repräsentieren. Integra tion und Verknüpfungsmechanismen ermöglichen Bezüge zwischen Daten aus ver schieden Quellen herzustellen. Eine weitere Betrachtung dieser Themen erfolgt in Ab schnitt 18.6.
11 https://www.w3.org/TR/shacl/
790 | 18 Semantic Web
Herkunft und Vertrauenswürdigkeit Daten im Semantic Web können mit zusätzlicher Information über ihre Vertrauens würdigkeit und Herkunft erweitert werden. Dies berührt und nutzt die o. g. Aspekte Crypto und Identifizierung und Verknüpfung. Abschnitt 18.7 beschreibt die Herkunft und Vertrauenswürdigkeit von Daten ausführlich. Benutzungsoberfläche und Anwendungen Eine Benutzungsoberfläche ermöglicht Anwendern die Interaktion mit Daten im Se mantic Web. Aus funktioneller Sicht sind einige Benutzungsoberfläche generisch und arbeiten auf der Graphstruktur der Daten, wobei andere auf bestimmte Aufgaben, An wendungen oder Ontologien zugeschnitten sind. Neue Paradigmen untersuchen ak tuell das Spektrum an möglichen Benutzungsoberflächen zwischen Allgemeingültig keit und speziellen Anforderungen von Endanwendern. Anwendungen des Semantic Webs werden in Abschnitt 18.8 behandelt.
18.3 Verteilte semantische Graphdaten im Web Das zentrale Ziel des Semantic Webs ist das Teilen von Wissen und Informationen und das Zusammenwirken und die Kooperation von menschlichen und maschinellen Akteuren. Jeder kann eine Ontologie erstellen und sie mit anderen Datenquellen so verknüpfen, dass daraus ein Mehrwert für diesen Akteur entsteht und dass dabei aber als „Abfallprodukt“ andere Akteure diese neuen Verknüpfungen ebenfalls verwenden können. Auf diese Weise entsteht eine Daten- und Wissensbasis, die es erlaubt, aus der enormen Menge an Informationen und ihrer Verknüpfungen neue Zusammenhänge abzufragen und zu entdecken. Seit einiger Zeit ist in diesem Zusammenhang auch der Begriff Knowledge Graph sowohl in der Forschung als auch der Industrie geläufig. Um diese Art der kollektiven Wissensgenerierung zu unterstützen, sind effizien te Zugriffe auf verteilte Daten, klar definierte Veröffentlichungsprinzipien und geeig nete Anfragemöglichkeiten notwendig. Diese werden in den folgenden Abschnitten beschrieben.
18.3.1 Verknüpfte Graphdaten auf dem Web Die Linked-Data-Prinzipien¹² beschreiben relevante Methoden zur Darstellung, Veröf fentlichung und Verwendung von Daten im Semantic Web. Sie können wie folgt zu sammengefasst werden: 1. URIs werden als Namen für Entitäten verwendet.
12 http://www.w3.org/DesignIssues/LinkedData.html
18.3 Verteilte semantische Graphdaten im Web |
2. 3. 4.
791
Das Protokoll HTTP GET wird verwendet, um Beschreibungen zu einer URI abzu rufen. Datenanbieter sollen auf HTTP-GET-Anfragen auf URIs relevante Informationen mithilfe von Standardsprachen (z. B. in RDF) zurückgeben. Verknüpfungen (Links) zu anderen URIs sollen verwendet werden, um die Entde ckung und Verwendung von weiteren Informationen zu erleichtern.
Die Veröffentlichung von Daten anhand der Linked-Data-Prinzipien ermöglicht einfa chen Zugriff auf Daten via HTTP. Dies erlaubt die Erkundung von Ressourcen und die Navigation über Ressourcen im Semantic Web. URIs (siehe 1.) werden mittels HTTPAnfragen dereferenziert (2.), um zusätzliche Informationen über eine bestimmte Res source zu erhalten. Insbesondere können diese Informationen mittels standardisier ter Syntax (3.) ebenfalls Verknüpfungen zu anderen Ressourcen enthalten (4.). Abbil dung 18.2 stellt ein Beispiel für Linked Data zur Popgruppe ABBA dar. Das Beispiel stammt von MusicBrainz. Es beschreibt verschiedene Beziehungen, die Entitäten mit der URI von ABBA verknüpfen, wie beispielsweise foaf:member und rdf:type. In der Abbildung ist ABBA, oder genauer die URI von ABBA, das Subjekt, Property bezieht sich auf Beziehungen und die Werte (Value) stellen Objekte der RDF-Tripel dar. Die Beziehung owl:sameAs wird im weiteren Verlauf noch ausführlicher betrachtet. Die Präfixe foaf, rdf und owl beziehen sich auf Vokabulare der FOAF-Ontologie¹³ bzw. der W3C-Sprachspezifikationen von RDF und OWL.
18.3.2 Anfragen auf Graphdaten mit SPARQL Die Verknüpfung von Daten nach den Linked-Data-Prinzipien ermöglicht Anfragen über sehr große (verknüpfte) Datenmengen. Allerdings sind in vielen Anwendungen einfache Anfragen, wie beispielsweise die Ausgabe aller Prädikate der Ressource AB BA (Abbildung 18.2), nicht ausreichend, sondern komplexe Anfragen mit mehreren Anfragebedingungen werden benötigt. SPARQL ist eine Anfragesprache für RDF. Ähn lich zu SQL beschreibt die WHERE-Klausel unter welchen Bedingungen Daten selektiert werden. Neben der eigentlichen Anfragesprache definiert SPARQL auch Zugriffsprotokol le und Datenformate für RDF-Repositorien. Ein Repositorium für RDF-Daten ist ver gleichbar mit der Rolle einer Datenbank im relationalen Datenbankmanagementsys tem [43]. Repositorien, die SPARQL unterstützen, müssen bestimmte Protokolle und Datenformate einhalten. Einige der meistgenutzten Repositorien sind RDF4J [12], Je na [67] und Virtuoso¹⁴. Repositorien übernehmen neben der Speicherung von Daten auch die Bereitstellung von Anfragemöglichkeiten in Form von SPARQL-Endpunkten. 13 http://xmlns.com/foaf/spec/ 14 http://virtuoso.openlinksw.com
792 | 18 Semantic Web
Abb. 18.2: Linked-Data-Beispiel für ABBA
Datensätze, die einen SPARQL-Endpunkt haben, sind in der Regel mittels REST-Pro tokoll [20] zu erreichen. Neben der Anfrage von explizit vorhandenen Fakten sieht SPARQL auch die Un terstützung durch sog. Entailment-Regimes vor. Ein Regime erweitert die Abfrage von explizit vorhandenen Fakten um Fakten, die anhand von RDFS- und OWL-Konstruk ten geschlussfolgert werden können (Abschnitt 18.5), wie z. B. die Erweiterung von Fakten über Unterklassen mittels rdfs:subClassOf. Dazu werden von den SPARQL-End punkten geeignete Schlussfolgerungsdienste unter Verwendung von Reasoner bereit gestellt. Je nach Funktionsumfang des jeweiligen SPARQL-Repositoriums werden ver schiedene (oder auch gar keine) Entailment-Regimes unterstützt. Diese unterscheiden sich hinsichtlich ihrer Mächtigkeit in den unterstützen Schlussfolgerungsmöglichkei ten über RDFS/OWL-Klassen und -Beziehungen. Es ist also bei der Formulierung einer Anfrage an ein SPARQL-Repositorium drauf zu achten bzw. vorab zu prüfen, ob und welche Entailment-Regimes unterstützt werden. Nachfolgend wird nochmals das Beispiel von MusicBrainz betrachtet, in dem In formationen über ABBA gesucht werden. Wir sind nun an den Interpreten von AB BA interessiert, die auch Mitglieder anderer Bands sind. Folgen wir dem Linked-DataPrinzip, so würde das bedeuten, dass zunächst nach der URI angefragt wird, die für ABBA steht, dann würde zu den einzelnen Bandmitgliedern navigiert werden, und anschließend den Links zu allen Bands der Mitglieder gefolgt werden. SPARQL geht über das prozedurale Verfolgen von Links hinaus und basiert auf dem Abgleich von Graphmustern. Graphmuster aus der SPARQL-Anfrage werden mit
18.3 Verteilte semantische Graphdaten im Web |
793
Abb. 18.3: Grafische Darstellung einer Anfrage für Musikgruppen (dargestellt durch die Variable ?groupName), deren Mitglieder ebenfalls Mitglieder bei ABBA sind. Die Variable ?m bezieht sich auf die Mitglieder von ABBA. Der Knoten mit Beschriftung „ABBA“ stellt die URI für ABBA dar. Das Präfix mo bezieht sich auf die Musikontologie, foaf auf die FOAF-Ontologie und rdf auf das Vokabular der RDF-Spezifikation
vorhandenen RDF-Tripeln in den (verteilt vorliegenden) RDF-Graphen verglichen und eventuell nach weiteren Kriterien gefiltert. Das Graphmuster für Bands, deren Mit glieder ebenfalls ABBA-Mitglied sind, ist in Abbildung 18.3 dargestellt, und die ent sprechende SPARQL-Anfrage ist in Abbildung 18.4 beschrieben. Die eigentlichen Ver gleichsbedingungen der Graphmuster mit RDF-Tripeln werden in der WHERE-Klausel beschrieben. Das Graphmuster besteht aus einzelnen Tripelmustern. An jeder Stelle eines Tripelmusters (Subjekt, Prädikat, Objekt) kann entweder eine URI oder eine Va riable stehen, in der Objektposition auch ein Literal (eine Art String). Wenn die Nicht variablen eines Tripelmusters mit vorhandenen Tripeln übereinstimmen, dann kön nen die Variablen an die entsprechenden Werte dieser Tripel gebunden werden. Wenn mehrere Tripelmuster ein Graphmuster bilden, dann muss es Kombinationsmöglich keiten dieser Variablenbindungen geben, die in der Belegung der gemeinsamen Va riablen übereinstimmen, damit das Gesamtmuster passen kann. Der WHERE-Klausel kann ein FILTER-Ausdruck folgen, der die Ergebnisse nach dem angegebenen Krite rium (hier muss der Name der Gruppe ungleich zum Namen „ABBA“ sein) reduziert. Das Schlüsselwort PREFIX ermöglicht die Einführung von Bezeichnern für URIs (Ab bildung 18.4). PREFIX PREFIX PREFIX PREFIX SELECT WHERE
rdf: mo: foaf: bbc: ?memberName ?groupName { bbc:artists/d87e52c5-bb8d-4da8-b941-9f4928627dc8#artist mo:member ?m . ?x mo:member ?m . ?x rdf:type mo:MusicGroup . ?m foaf:name ?memberName . ?x foaf:name ?groupName } FILTER (?groupName "ABBA")
Abb. 18.4: SPARQL-Anfrage für Musikgruppen, deren Mitglieder auch Mitglieder bei ABBA sind. Im ersten Tripelmuster des WHERE-Teils ist die URI von ABBA das Subjekt
794 | 18 Semantic Web
18.3.3 Anfragen auf verknüpfte, verteilte Graphdaten Anfragen auf einzelne Datenquellen sind die Grundbausteine verteilter Anfragen, allerdings bedarf es noch Erweiterungen, um mehrere Datenquellen anzufragen. Ein möglicher Ansatz sind Anfragen von mehreren, benannten RDF-Graphen (engl. named graphs). Ein benannter Graph in RDF ist eine Menge von RDF-Tripeln. Eine Datenquelle kann aus mehreren benannten Graphen bestehen. Einige konkrete Im plementierungen realisieren Anfragen über mehrere RDF-Graphen. Eine Architektur sowie Indexstrukturen und Algorithmen zur Ausführung von verteilten Anfragen wurden in [58] vorgestellt. Dieser Ansatz wurde in Form von sog. Networked Graphs verfeinert und erweitert [53]. Networked Graphs ermöglichen neben der Anfrage auf verteilten Quellen und der Generierung von Sichten auf verteilte Graphen auch die Verbindung dieser Graphen in Form von rekursiven Sichten, die als CONSTRUCT-Anfra gen definiert werden. Eine Beispielanfrage auf DBpedia und MusicBrainz ist in Abbildung 18.5 darge stellt. Es werden alle Künstler von ABBA (dargestellt durch das Subjekt bbc:artists/ d87e52c5-bb8d-4da8-b941-9f4928627dc8#artist) mit Namen und Biographie ge sucht. Die Ergebnisse sind verknüpfte Informationen über Künstler, die aus zwei Da tenquellen stammen: DBpedia und MusicBrainz. Die Variable für Mitglieder (?member) ist das Verknüpfungselement beider Graphen, wie in Abbildung 18.6 dargestellt. Es ist durchaus möglich, dass URIs derselben Interpreten in DBpedia und MusicBrainz verschieden sind. In diesem Fall kann mittels der Beziehung owl:sameAs die Äquiva lenz beider URIs definiert werden. Aus Sicht des Anwenders wird eine Anfrage, wie in Abbildung 18.5 dargestellt, über SPARQL-Endpunkte ausgeführt. Über SPARQL-End punkte werden Daten zweier benannter RDF-Graphen extrahiert. Networked Graphs verbergen die Komplexität von Anfragen auf verteilten Repositorien. Sie kombinieren die Ergebnisse der verteilten Anfragen zu einem Gesamtergebnis.
PREFIX mo: PREFIX foaf: PREFIX bbc: CONSTRUCT { ?member mo:wikipedia ?biography . ?member foaf:name ?name} FROM NAMED :MusicBrainz FROM NAMED :DBpedia WHERE { GRAPH :MusicBrainz { bbc:artists/d87e52c5-bb8d-4da8-b941-9f4928627dc8#artist mo:member ?member . ?member foaf:name ?name } GRAPH :DBpedia { ?member mo:wikipedia ?biography } }
Abb. 18.5: SPARQL-Anfrage für ABBA-Mitglieder
18.4 Wissensrepräsentation und -integration
| 795
Abb. 18.6: Verknüpfte Information über ABBA aus zwei Datenquellen
Anfragen auf verteilte RDF-Daten sind sehr ähnlich zu Anfragen auf schemalo sen und verteilten Datenbanken oder auf Peer-to-peer-Datenbanken [30]. Es gibt noch weitere Anfrageparadigmen, welche direkt die Vorteile von Linked Data und den Lin ked-Data-Prinzipien nutzen. Das Anfrageprinzip von Hartig et al. [33] kombiniert die grundlegende Eigenschaft der Dereferenzierbarkeit von URIs in Linked Data mit Da ten-Crawling. Es umgeht das Problem mangelnder Indizes, indem während der Anfra geausführung den RDF-Links gefolgt wird, die für die Anfrage relevant sein könnten, um weitere Informationen zu entdecken. Der Suchraum wird also während der Aus führung der Anfrage durch das Daten-Crawling erweitert zu den nächsten, verbun denen Datenquellen, die zum Anfrageergebnis beitragen könnten. Umgesetzt wird dies mittels eines Indexmechanismus, der Datenbeschreibungen benutzt, die auf In formationen über Instanzen und Schemata beruhen [30]. Solche Indexstrukturen er möglichen die Auswahl von relevanten Datenquellen für Anfragen, die sich auf meh rere, anfangs eventuell noch unbekannte Datenquellen beziehen. Dieser Ansatz er möglicht auch Anfragen an Linked-Data-Quellen, die keinen SPARQL-Endpunkt an bieten. Nachteile dieses Ansatzes sind jedoch die höheren Kosten bei der Anfrage ausführung und die nicht garantierbare Vollständigkeit der Anfrageergebnisse. De taillierte Aussagen zur Vollständigkeit dieses Anfrageparadigmas werden in [32; 34] getroffen.
18.4 Wissensrepräsentation und -integration Eine Ontologie wird allgemein verstanden als formale, maschinenverarbeitbare Re präsentation von relevanten Begriffen und Relationen einer Domäne [46; 48]. Ontolo gien stellen damit eine gemeinsame Sicht dar [48], d. h., die formale Begriffsbildung von Ontologien drückt eine übereinstimmende Meinung verschiedener Stakeholder aus. In diesem Abschnitt beschäftigen wir uns mit der Wissensrepräsentation mittels Ontologien. Beginnend mit einer ausführlichen Analyse des eingangs genannten Bei spiels, diskutieren wir anschließend die verschiedenen Arten von Ontologien und wie diese in einem Netzwerk zur Wissensrepräsentation genutzt werden können.
796 | 18 Semantic Web
18.4.1 Analyse des einführenden Beispiels Um das Beispielszenario aus Abschnitt 18.1 zur Verknüpfung von MusicBrainz und dem BBC-Programm zu modellieren, werden mehrere Ontologien verwendet und zu einem Netzwerk im Web verbunden. Der Ansatz eine Ontologie nicht monolithisch zu definieren, sondern als einen Baustein in einem miteinander verknüpften Netzwerk von Ontologien zu betrachten, ist eine wesentliche Neuorientierung im Semantic Web im Vergleich zu den klassischen Ansätzen der künstlichen Intelligenz. Ein Ausschnitt für das im Szenario verwendete Netzwerk von Ontologien ist in Abbildung 18.7 darge stellt. Die Rechtecke wie beispielsweise ProgrammeItem oder MusicArtist stellen die relevanten Konzepte der Musikdomäne dar. Diese sind aus verschiedenen Ontolo gien entnommen, die über die gestrichelten Kästen angedeutet sind. Beziehungen zwischen Konzepten sind über einen beschrifteten Pfeil dargestellt. Zur Illustration von Vererbungsbeziehungen zwischen Konzepten wird wie in UML ein Dreieckpfeil verwendet. Es wird bewusst eine an UML angelehnte grafische Notation zur Darstel lung der Ontologien verwendet, da uns in Abbildung 18.7 ausschließlich das Schema der modellierten Daten interessiert und um so eine Abgrenzung zu den obigen Da ten-Beispielen zu ermöglichen. Die UML-Notation ist in der Ontologiemodellierung weitverbreitet und leicht verständlich. Insbesondere bei den in den nachfolgenden Abschnitten diskutierten Kernontologien wird der Vorteil dieser Notation bei der Modellierung deutlich und wird in der Literatur gegenüber anderen Notationen be vorzugt. In MusicBrainz werden Künstler durch das Konzept MusicArtist aus der Music Ontology¹⁵ repräsentiert. Diese werden über die Relation object mit dem Konzept Playcount der Playcount-Ontology verknüpft. Das Konzept Playcount wird verwen det, um die Anzahl der gespielten Musikstücke eines Künstlers darzustellen. Die Playcount-Ontology ist über das Konzept Brand (dt. Handelsmarke) mit der Program montologie der BBC¹⁶ verbunden. Des Weiteren ist das Konzept Brand über seine Oberklasse Programme mit dem Konzept Service verbunden, welches beschreibt, wo eine Handelsmarke bzw. Künstler gespielt wird. Ein Service kann beispiels weise ein auf eine bestimmte Region zugeschnittene Version des BBC-Programms sein. Ein Programme wird von einem Broadcaster übertragen, welches vom Konzept Organization der FOAF-Ontologie spezialisiert wurde. Zudem wird das Ereignis einer Übertragung, d. h. eines Broadcast, in der BBC-Ontologie als Spezialisierung des Kon zeptes Event der Event-Ontologie¹⁷ modelliert. Ein Broadcast steht über die Relation broadcast_of in Bezug zu einer bestimmten Version eines übertragenen Elements wie beispielsweise eine bestimmte Version eines gekürzten Radioprogramms. Das
15 http://musicontology.com 16 http://www.bbc.co.uk/ontologies 17 http://motools.sourceforge.net/event
18.4 Wissensrepräsentation und -integration
BBC Progamme Ontologie ProgrammeItem
Programme
Brand
Playcount playcount object
Service
Broadcaster broadcaster
broadcast_on
MusicArtist
broadcast_of Version
797
Playcount Ontologie service
version
|
Broadcast
Music Ontologie
time Interval
Event
Timeline Ontologie Event Ontologie
Organization
FOAF Ontologie
Abb. 18.7: Ausschnitt der BBC-Ontologie mit Verknüpfungen zu anderen Ontologien (Notation ange lehnt an UML, hier ohne Präfix für Namensräume)
Konzept Version hat die Relation time und assoziiert damit ein Interval mit dem übertragenen Element für temporale Annotationen wie beispielsweise Untertitel und abgespielte Tracks. Das Interval-Konzept stammt von der Timeline-Ontologie¹⁸. Die Ontologien in dem Netzwerk, wie es in Abbildung 18.7 dargestellt ist, sind hin sichtlich ihrer Größe und formalen Beschreibung sehr homogen. Dies muss jedoch nicht so sein. So können die Ontologien auch sehr verschieden groß oder sehr for mal definiert sein oder auch nicht. Insgesamt lassen sich Ontologien aufgrund un terschiedlicher nicht funktionaler Eigenschaften in drei verschiedene Arten untertei len [55]. Diese verschiedenen Arten von Ontologien werden im folgenden Abschnitt eingeführt, bevor wir das o. g. Beispiel noch einmal und zusammen mit diesem Hin tergrundwissen betrachten.
18.4.2 Verschiedene Arten von Ontologien Ein Netzwerk von Ontologien, wie das in Abbildung 18.7 dargestellte Beispiel, kann aus einer Vielzahl von Ontologien bestehen, die von unterschiedlichen Akteuren und Communities erstellt wurden. Ontologien können das Ergebnis einer Transformati on oder einer Reengineering-Tätigkeit eines Altsystems sein, wie beispielsweise einer relationalen Datenbank oder existierender Taxonomie wie z. B. der Dewey Decimal Classification¹⁹ oder Dublin Core. Andere Ontologien werden von Grund auf neu er stellt. Dabei werden existierende Methoden und Werkzeuge zum Ontologie-Enginee ring angewendet und eine geeignete Repräsentationssprache für die Ontologie ge wählt (Abschnitt 18.5). Ontologien können sehr einfach, wie die o. g. FOAF-Ontologie oder Event-Ontologie, oder sehr komplex und umfangreich sein, da sie von Domänen
18 http://motools.sourceforge.net/timeline 19 http://dewey.info/
798 | 18 Semantic Web
experten entwickelt wurden, wie die medizinische Ontologie SNOMED. Eine der ersten und bekanntesten Ontologien zur Modellierung von Forschern und deren Beziehun gen ist Semantic Web for Research Communities (SWRC) [60]. Es liegt einer detaillier ten Diskussion der Methodik zum Ontologie-Engineering zugrunde. Ontologie-Engineering beschäftigt sich mit den Methoden zur Erstellung von On tologien [27] und hat seinen Ursprung im Software-Engineering in der Erstellung von Domänenmodellen und im Datenbankentwurf in der Erstellung von konzeptuellen Modellen. Eine gute Übersicht zum Thema Ontologie-Engineering ist in verschiedenen Referenzbüchern zu finden [27]. Ontologien unterscheiden sich stark in ihrer Struktur, Größe, angewendeten Entwicklungsmethoden und betrachteten Anwendungsberei chen. Komplexe Ontologien werden zudem hinsichtlich ihres Zwecks und ihrer Gra nularität unterschieden. Domänenontologien Domänenontologien wie SNOMED und SWRC stellen die Repräsentationen von Wis sen dar, das spezifisch für eine bestimmte Domäne ist [18; 46]. Domänenontologien werden als externe Quellen von Hintergrundwissen verwendet [18]. Sie können auf Basisontologien [47] oder Kernontologien [55] aufbauen, die der Domänenontologie präzise Strukturierungen vorgeben und damit die Interoperabilität zwischen verschie denen Domänenontologien verbessern. Kernontologien Kernontologien stellen eine präzise Definition strukturierten Wissens in einem be stimmten Bereich dar, der sich über mehrere Anwendungsdomänen hin erstreckt [46; 55]. Beispiele für Kernontologien sind die Kernontologie für Softwarekomponenten und Web-Services [46], für Ereignisse und Ereignisbeziehungen [54] oder für Multime diametadaten [52]. Kernontologien sollten dabei auf Basisontologien aufsetzen, um von deren Formalisierung und starker Axiomatisierung zu profitieren [55]. Dazu wer den in Kernontologien neue Konzepte und Relationen für den betrachteten Anwen dungsbereich hinzugefügt und von den Basisontologien spezialisiert. Basisontologien Basisontologien haben einen sehr breiten Anwendungsbereich und können in den verschiedensten Modellierungsszenarien wiederverwendet werden [10]. Sie dienen daher zu Referenzzwecken [46] und haben zum Ziel, die allgemeinen und generi schen Konzepte und Relationen zu modellieren, mit denen fast beliebige Aspekte unserer Welt beschrieben werden können [10; 46], wie beispielsweise Objekte und Ereignisse. Ein Beispiel ist die Basisontologie Descriptive Ontology for Linguistic and Cognitive Engineering (DOLCE) [10]. Basisontologien haben eine reichhaltige Axioma tisierung, die zum Entwicklungszeitpunkt von Ontologien wichtig ist. Sie helfen dem
18.4 Wissensrepräsentation und -integration
| 799
Ontologieentwickler eine formale und in sich konsistente Konzeptualisierung des be trachteten Ausschnitts der Welt, die zu modellieren und auf Konsistenz zu überprüfen ist. Für die spätere Anwendung von Basisontologien in einer konkreten Anwendung, d. h. während der Laufzeit einer Anwendung, kann oftmals die reichhaltige Axiomati sierung entfernt und durch eine leichtgewichtigere Version der Basisontologie ersetzt werden. Im Gegensatz dazu werden Domänenontologien spezifisch dafür gebaut, um zur Laufzeit automatische Schlussfolgerungen ziehen zu können. Daher ist beim Entwurf und der Entwicklung von Ontologien immer die Vollständigkeit und Komplexität auf der einen Seite mit der Effizienz von Schlussfolgerungsmechanismen auf der anderen Seite abzuwägen. Um strukturiertes Wissen, wie das in Abbildung 18.7 dargestellte Szenario, abzubilden, werden vernetzte Ontologien benötigt, die in einem Netzwerk über das Internet aufgespannt werden. Dazu müssen die verwendeten Ontologien zu einander passen und abgeglichen werden.
18.4.3 Verteiltes Netzwerk von Ontologien im Web Ein Netzwerk von Ontologien muss hinsichtlich der ihr auferlegten funktionalen An forderungen flexibel sein. Dies liegt daran, dass Systeme über die Zeit hin verändert, erweitert, kombiniert oder integriert werden. Zudem müssen die vernetzten Ontolo gien zu einem gemeinsamen Verständnis der modellierten Domäne führen. Dieses gemeinsame Verständnis kann durch ein ausreichendes Maß an Formalisierung und Axiomatisierung sowie durch Verwendung von Ontologiemustern erzielt werden. Ein Ontologiemuster stellt ähnlich wie ein Entwurfsmuster in der Softwaretechnik eine generische Lösung für ein wiederkehrendes Modellierungsproblem dar. Ontologie muster erlauben Teile aus der Originalontologie auszuwählen. Es können entweder alle oder nur bestimmte Muster einer Ontologie im Netzwerk wiederverwendet wer den. Um ein Netzwerk von Ontologien zu schaffen, können also beispielsweise bereits existierende Ontologien und Ontologiemuster im Web zusammengeführt werden. Der Ontologieentwickler kann die Modularisierung von Ontologien mithilfe von Ontolo giemustern vorantreiben bzw. explizit vorsehen. Einen Ansatz um ein Netzwerk von Ontologien zu entwerfen, stellen die Kernontologien dar (siehe im Detail [55]). Sie er lauben strukturiertes Wissen in komplexen Domänen zu erfassen und auszutauschen. Wohldefinierte Kernontologien erfüllen die im vorangegangenen Abschnitt genann ten Eigenschaften und ermöglichen eine einfache Integration und ein reibungsloses Zusammenspiel der Ontologien [55]. Der Ansatz der vernetzten Ontologien führt zu einer flachen Struktur, wie in Abbildung 18.7 dargestellt, bei der alle verwendeten On tologien auf derselben Ebene verweilen. Solche Strukturen lassen sich bis zu einem gewissen Grad an Komplexität beherrschen. Der Ansatz der vernetzten Kernontologien wird am Beispiel von Ontologieschich ten beginnend bei Basis- über Kern- zu Domänenontologien veranschaulicht. Wie
800 | 18 Semantic Web
Music Annotation Album & Track
Audio IR
Decomposition
Annotation
Information Realization (IR)
Descriptions & Situations DOLCE (core)
Basisontologie Kernontologie Domänen(DOLCE) (M3O) ontologie (Music)
Spezifität
Abb. 18.8: Ontologieschichten mit der Kombination von DOLCE, M3O, domänenspezifischen Erwei terungen der M3O zur Annotation von Audiodaten und Musik und eine Domänenontologie für Alben und Tracks
in Abbildung 18.8 dargestellt, ist DOLCE als Basisontologie auf der unteren Schicht, die Multimedia Metadata Ontology (M3O) [52] als Kernontologie für Multimediame tadaten und eine Erweiterung der M3O für die Musikdomäne. Kernontologien sind typischerweise in Beschreibungslogik definiert und decken mit ihrer Wissensmodel lierung einen Bereich ab, der größer ist, als es die spezifische Anwendungsdomäne erfordert [22]. Konkrete Informationssysteme werden typischerweise nur einen Teil der Kernontologien nutzen. Um eine Modularisierung von Kernontologien zu errei chen, sollten sie mithilfe von Ontologiemustern entworfen sein. Durch eine präzise Abstimmung der Konzepte in der Kernontologie mit den angebotenen Konzepten der Basisontologie stellen sie eine solide Basis für zukünftige Erweiterungen dar. Neue Muster können hinzugefügt werden, und existierende Muster können durch Spezialisierung der Konzepte und Rollen erweitert werden. Abbildung 18.8 zeigt ver schiedene Muster der M3O- und DOLCE-Ontologien. Im Idealfall werden die Onto logiemuster der Kernontologien in den Domänenontologien wiederverwendet [22], wie in Abbildung 18.8 dargestellt. Da jedoch nicht davon ausgegangen werden kann, dass alle Domänenontologien mit einer Basis- oder Kernontologie abgestimmt sind, muss auch die Option berücksichtigt werden, dass Domänenontologien unabhän gig davon entwickelt und gepflegt werden. In diesem Fall kann Domänenwissen in Kernontologien durch die Anwendung des Ontologiemusters Descriptions and Situations (DnS) der Basisontologie DOLCE wiederverwendet werden. Das Onto logiemuster DnS ist eine ontologische Formalisierung von Kontext [46] durch die Definition verschiedener Sichten mittels Rollen. Diese Rollen können sich auf Do mänenontologien beziehen und erlauben eine klare Trennung des strukturierten
18.5 Inferenz im Web | 801
Wissens der Kernontologie und domänenspezifischen Wissens. Zur Modellierung ei nes Netzwerkes von Ontologien, wie das oben beschriebene Beispiel, wird die Web Ontology Language (OWL) und deren Möglichkeit zur Axiomatisierung mittels Be schreibungslogik [4] verwendet. Neben der Verwendung zur Modellierung einer verteilten Wissensrepräsentation und -integration wird OWL, wie in Abschnitt 18.5 beschrieben, insbesondere auch verwendet, um Schlussfolgerungen mittels Infe renz aus diesem Wissen abzuleiten. Diesem Thema widmen wir uns im nächsten Abschnitt.
18.5 Inferenz im Web In Abschnitt 18.2 wurden verschiedene formale Sprachen zur Wissensrepräsentation im Semantic Web vorgestellt. RDF ermöglicht die Beschreibung einfacher Fakten (Aus sagen mit Subjekt, Prädikat und Objekt, sog. RDF-Tripel), z. B. „Anni-Frid Lyngstad“ „ist Mitglied von“ „ABBA“. Als Prädikat werden mit benannten Beziehungen Entitäten (Subjekt und Objekt) verknüpft. Die Menge von solchen Verknüpfungen bildet einen gerichteten Graphen. RDFS ermöglicht die Definition von Typen von Entitäten (Klas sen), Beziehungen zwischen Klassen und eine Sub- und Superklassenhierarchie zwi schen Typen. OWL ist noch ausdrucksstärker als RDF und RDFS. OWL erlaubt bei spielsweise die Definition von disjunkten Klassen (Begriffen) oder die Beschreibung von Klassen in Form von Schnitt, Vereinigung und Komplement anderer Klassen (Ab schnitt 18.4).
18.5.1 Transformation von Daten Um eine weitgehende und umfassende Datenerfassung und somit Wissensrepräsen tation zu ermöglichen, wurden Abbildungen und Transformationen (auch Mappings genannt) erarbeitet, um diese von verschiedenen Datenhaltungsmodellen in Seman tic-Web-Sprachen wie RDF abbilden zu können. Die Abbildungssprache R2RML [13] definiert Abbildungsregeln von relationalen Datenbanken (relationalen Datenmodel len) zu RDF-Graphen. Diese Abbildungen selbst sind ebenfalls RDF-Tripel, dargestellt in Turtle-Syntax [5]. Turtle wird als benutzerfreundliche, da kompakt darstellbare, Notation von RDF-Graphen betrachtet, wie im Abschnitt 18.2 diskutiert. Die Struk tur von R2RML ist in Abbildung 18.9 dargestellt. Im Wesentlichen werden Tabellen inhalte durch die Klassen SubjectMap, PredicateMap und ObjectMap in Tripel abge bildet. Ist das Objekt eine Referenz auf eine andere Tabelle, so wird diese Referenz als RefObjectMap bezeichnet. SubjectMap beinhaltet dabei Primärschlüsselattribute der entsprechenden Tabelle. Somit existiert eine in RDF-Graphen darstellbare Abbil dungsregel, mittels der Tabellen relationaler Datenbanken als RDF-Graphen repräsen tiert werden können.
802 | 18 Semantic Web
Abb. 18.9: Struktur der Mapping-Repräsentation in Turtle (Quelle: [13])
18.5.2 Schlussfolgerungen über Daten Basierend auf diesen formalen Sprachen und deren Semantik können durch deduk tive Inferenz weitere (implizite) Fakten aus der Wissensbasis abgeleitet werden. Im Folgenden wird beispielhaft die Herleitung von impliziten Fakten aus einer Menge von explizit gegebenen Fakten mittels des RDFS-Konstrukts rdfs:subClassOf und des OWL-Konstrukts owl:sameAs dargestellt. rdfs:subClassOf beschreibt hierarchi sche Beziehungen zwischen Klassen, und mit owl:sameAs können zwei Ressourcen als identisch definiert werden. Als erstes Beispiel betrachten wir die Klasse foaf:Person, welche in der FOAFOntologie definiert ist, und die Klassen mo:Musician und mo:Group, die in der Musik ontologie definiert sind. In der Musikontologie gibt es zusätzlich ein Axiom, welches mo:Musician als Subklasse von foaf:Person mittels rdfs:subClassOf definiert. Auf grund dieses Axioms kann durch deduktive Inferenz hergeleitet werden, dass Instan zen von mo:Musician auch Instanzen von foaf:Person sind. Falls es nun eine solche Hierarchie von Klassen gibt und zusätzlich noch eine Aussage das Anni-Frid Lyngstad vom Typ mo:Musician ist, so kann mittels Inferenz hergeleitet werden, dass Anni-Frid Lyngstad auch vom Typ foaf:Person ist. Dies bedeutet, dass alle Anfragen die nach Entitäten vom Typ foaf:Person fragen, auch Anni-Frid Lyngstad im Anfrageergebnis enthalten, auch wenn diese Instanz nicht explizit als Instanz von foaf:Person defi niert ist. Abbildung 18.10 stellt diese Fakten und die entsprechende Klassenhierarchie in RDFS als gerichteten Graph dar. Im zweiten Beispiel werden mittels des OWL-Konstrukts owl:sameAs zwei Ressour cen als identisch definiert, z. B. http://www.bbc.co.uk/music/artists/d87e52c5-bb8d4da8-b941-9f4928627dc8#artist und http://dbpedia.org/resource/ABBA. Identisch
18.6 Identität und Verknüpfung von Objekten und Begriffen |
803
Abb. 18.10: Visualisierung der RDF-Beispieldaten über ABBA und Anni-Frid Lyngstad zur Veranschau lichung von Schlussfolgerungen in RDFS
bedeutet hier, dass diese beiden URIs dasselbe Objekt der realen Welt repräsentieren. Durch Schlussfolgerung können nun Informationen über ABBA aus verschiedenen Quellen verbunden werden (Abschnitt 18.3.3). Da Ontologien im Web unabhängig voneinander erstellt werden und URIs lokalen Namenskonventionen unterliegen, ist es durchaus möglich, dass ein reales Objekt durch verschiedene URIs (in verschiede nen Ontologien) referenziert wird. OWL bietet noch eine Vielzahl weiterer Konstrukte zur Beschreibung von Klas sen, Beziehungen und konkreten Fakten. OWL ermöglicht beispielsweise die Defini tion von transitiven Beziehungen und inversen Beziehungen (z. B. ist die Beziehung „ist-Mitglied“ invers zu „hat-Mitglieder“). Für OWL-Ontologien gibt es Schlussfolge rungsdienste wie Pellet²⁰ oder Hermit [25], die u. a. die Konsistenzprüfung einer Onto logie oder die Überprüfung der Erfüllbarkeit von Klassen ermöglichen. Eine Klasse ist erfüllbar, wenn es Instanzen dieser Klasse geben kann. Auch eine Kombination von Beschreibungslogik und Regeln ist möglich. So haben Motik et al. [44] eine Kombina tion von Beschreibungslogik und Regeln vorgestellt, die berechenbare Schlussfolge rungen auf OWL-Ontologien erlauben.
18.6 Identität und Verknüpfung von Objekten und Begriffen Im Semantic Web kann nicht die Annahme getroffen werden, dass zwei URIs auf zwei verschiedene Objekte der realen Welt verweisen. Eine URI hat von sich aus bzw. in sich keine Identität [29]. Vielmehr wird die Identität bzw. die Interpretation einer URI durch den Kontext, in dem sie im Semantic Web verwendet wird, deutlich. Zu bestim men, ob zwei URIs auf dieselbe Entität verweisen oder nicht, ist keine einfache Aufga be und wurde in der Vergangenheit intensiv im Data Mining und im Sprachverstehen
20 https://github.com/stardog-union/pellet
804 | 18 Semantic Web
untersucht. Um zu erkennen, ob sich die Autorennamen von Forschungsbeiträgen auf dieselbe Person beziehen oder nicht, ist es oftmals nicht ausreichend den Namen, den Veranstaltungsort, Titel und Koautoren aufzulösen und zu betrachten [39]. Der Vorgang zur Bestimmung der Identität einer Ressource wird oftmals als Enti tätenauflösung [39], Koreferenzauflösung [65], Objektidentifikation [51] und Normali sierung [65; 66] bezeichnet. Die korrekte Bestimmung der Identität von Entitäten im Internet wird zunehmend wichtiger, da immer mehr Datensätze im Internet erschei nen und dies eine signifikante Hürde für sehr große Semantic-Web-Anwendungen dar stellt [24]. Um dem gerecht zu werden, existieren eine Reihe von Diensten, die Entitäten erkennen und ihre Identität bestimmen können: Thomson Reuters bietet mit Open Calais²¹ einen Dienst an, mit dem Text in natürlicher Sprache mittels Erkennung von Entitäten mit anderen Ressourcen verknüpft werden kann. Ziel des OKKAM-Projekts²² ist die Entwicklung von skalierbaren Systemen zur Erkennung von Entitäten im Inter net, wie beispielsweise Personen, Orte, Organisationen und Ereignisse, um diese mit anderen Entitäten im Internet zu verknüpfen. Der Dienst sameAs²³ zielt auf die Erken nung von doppelten Ressourcen im Semantic Web unter Verwendung der OWL-Bezie hung owl:sameAs ab. Damit können Koreferenzen zwischen verschiedenen Datensät zen aufgelöst werden. Zum Beispiel wird für die Anfrage mit der URI http://dbpedia. org/resource/ABBA eine Liste von 139 Ressourcen zurückgegeben, die ebenfalls auf die Musikgruppe ABBA verweisen. Eine davon ist die BBC mit der Ressource http: //www.bbc.co.uk/music/artists/d87e52c5-bb8d-4da8-b941-9f4928627dc8#artist. Weiterhin ist das Problem des Schema-Matching [66] sehr verwandt mit der Pro blemstellung von Auflösung von Entitäten, Koreferenzauflösung und Normalisierung. Ziel von Schema-Matching ist die, selbst für kleine Schemata nicht triviale Frage, wie Daten integriert werden können [66]. Im Semantic Web bedeutet Schema-Matching der Abgleich von verschiedenen Ontologien bzw. die in den diesen Ontologien de finierten Konzepte. Verschiedene (halb-)automatische Verfahren oder Verfahren des Maschinellen Lernens zum Abgleich von Ontologien wurden in der Vergangenheit ent wickelt [8; 17; 19]. Kernontologien wie in Abbildung 18.4.2 stellen generische Model lierungsframeworks zur Integration und Abgleich mit anderer Ontologien dar. Zudem können Kernontologien auch Linked Open Data integrieren, das typischerweise kei ne oder nur sehr wenige Schemainformationen beinhaltet. Die YAGO-Ontology [59] wurde aus der Verschmelzung von Wikipedia und Wordnet unter Verwendung von re gelbasierten und heuristischen Methoden generiert. Eine manuelle Evaluation konn te eine Genauigkeit von 95 % nachweisen. Ein manueller Abgleich von verschiede nen Datenquellen wird auch im Linked-Open-Data-Projekt der Deutschen National
21 http://www.opencalais.com/opencalais-api/ 22 http://www.okkam.org/ 23 http://sameas.org/
18.7 Herkunft und Vertrauenswürdigkeit von Daten | 805
bibliothek verfolgt²⁴. Beispielsweise wurde die Datenbank mit den Autoren aller in Deutschland publizierten Dokumente händisch mit der DBpedia und anderen Daten quellen verknüpft. Eine besondere Herausforderung war dabei die Identität der Au toren – wie oben beschrieben – zu identifizieren. Zum Beispiel hat der frühere Bundes kanzler Helmut Kohl einen Schiedsrichter als Namensvetter, dessen Arbeiten nicht mit dem DBpedia-Eintrag des Kanzlers verknüpft werden sollten. Beziehungen zwischen Schlüsselwörtern zur Beschreibung von Publikationen werden mit dem SKOS-Voka bular (Simple Knowledge Organization System, SKOS) beschrieben.²⁵ Beispielsweise werden Schlüsselwörter über die Relation skos:related zueinander in Beziehung ge setzt. Hyponyme und Hypernyme werden durch die Relationen skos:narrower und skos:broader ausgedrückt. Schließlich sei die Ontology Alignment Evaluation Initia tive²⁶ erwähnt, die zum Ziel hat, einen etablierten Konsensus zur Evaluation von Me thoden des Ontologie-Matching zu erreichen.
18.7 Herkunft und Vertrauenswürdigkeit von Daten Vertrauenswürdigkeit von Web-Seiten und Daten im Web kann anhand verschiede ner Indikatoren erkannt werden, z. B. durch Zertifikate, anhand der Platzierung von Ergebnissen von Suchmaschinen und über Links (Forward- und Backward-Links) zu anderen Seiten. Allerdings gibt es im Semantic Web für Benutzer nur wenig Möglich keiten, die Vertrauenswürdigkeit von einzelnen Daten zu bewerten. Vertrauenswürdigkeit von Daten im Web kann von der Vertrauenswürdigkeit an derer Benutzer („Wer sagt das?“), der zeitlichen Gültigkeit von Fakten („Wann wurde ein Fakt beschrieben?“) oder in Bezug auf Unsicherheit von Angaben („Zu welchem Grad ist die Aussage wahr?“) abgeleitet werden. Artz und Gil [2] fassen Vertrauens würdigkeit wie folgt zusammen: „Vertrauenswürdigkeit von Daten ist kein neues For schungsgebiet der Informatik, sondern sie existiert bereits in verschiedenen Berei chen der Informatik, z. B. in Form von Sicherheit und Zugriffskontrolle in Netzwerken, Zuverlässigkeit in verteilten Systemen, in Agentensystemen, und bei Richtlinien und Regeln zur Entscheidungsfindung unter Unsicherheit. Vertrauenswürdigkeit wird in jedem dieser Bereiche unterschiedlich behandelt.“ Obwohl Vertrauenswürdigkeit in diesen Bereichen schon lange betrachtet wird, bringt die Bereitstellung und Veröffentlichung von Daten durch viele Benutzer an ver schiedenen Quellen im Semantic Web neue und einzigartige Herausforderungen mit sich. Des Weiteren spielt Vertrauenswürdigkeit auch für Schlussfolgerungsdienste im Semantic Web eine Rolle, da bei der Herleitung von Daten Angaben bezüglich der Ver
24 http://www.d-nb.de/ 25 https://www.w3.org/TR/2009/REC-skos-reference-20090818/ 26 http://oaei.ontologymatching.org/
806 | 18 Semantic Web
trauenswürdigkeit zu beachten sind und Daten nach ihrer Vertrauenswürdigkeit zu bewerten sind. Wichtige Aspekte für Vertrauenswürdigkeit von Daten sind u. a.: (i) die Herkunft von Daten, (ii) das Vertrauen, das anhand vorheriger Interaktionen bereits gewonnen wurde, (iii) Bewertungen, die durch Richtlinien eines Systems zugewiesen wurden, und (iv) Zugriffskontrollen und teilweise auch Sicherheit und Wichtigkeit von Informationen. Diese Aspekte werden in verschiedenen Systemen realisiert. Datenherkunft und Vertrauenswürdigkeit von Daten im Semantic Web wurde für RDF-Daten in [15; 21] und für OWL und Regeln in [15] behandelt. Andere Arbeiten be fassen sich mit Zugriffskontrollen über die verteilten Daten im Semantic Web [23]. Des Weiteren gibt es noch Ansätze zur Berechnung von Vertrauenswerten [57] und der Informativität von Teilgraphen [40]. Eine aktuelle Entwicklung sind digitale Si gnaturen für Graphen. Analog zu digitalen Signaturen für Dokumente werden ganze Graphen oder ausgewählte Knoten und Kanten eines Graphen mit einer digitalen Si gnatur versehen, um die Authentizität der Daten sicherzustellen und damit unbefug te Veränderungen aufdecken zu können [41]. Bei dem von Kasten et al. entwickelten Ansatz für digitale Graphsignaturen werden Graphdaten auf dem Web im RDF-For mat als auch in OWL unterstützt [42]. Die digitale Graphsignatur wird selbst wieder als Graph repräsentiert und kann damit wie die eigentlichen Nutzdaten zusammen im Web veröffentlicht werden. Die Verknüpfung zwischen dem Signaturgraphen und dem signierten Graphen wird durch den Mechanismus der benannten Graphen (Ab schnitt 18.3.3) hergestellt [42], wobei andere Mechanismen auch möglich sind. Durch diesen Mechanismus ist es möglich, signierte Graphen miteinander zu kombinieren und zu verschachteln. Es können somit bereits signierte Graphen zusammen mit an deren, neuen Graphdaten erneut signiert werden etc. Dies ermöglicht es, komplexe Vertrauensketten zwischen den Veröffentlichern von Graphdaten aufzubauen und die Herkunft von Daten nachweisen zu können [41; 42].
18.8 Anwendungen des Semantic Web Mit der zunehmenden Verbreitung und Verwendung von semantischen und verknüpf ten Daten im Web sind gleichzeitig, neben den Anforderungen an Semantic-WebAnwendungen, auch deren Anwendungsmöglichkeiten gestiegen. Die generellen An forderungen an Anwendungen auf Basis von semantischen Daten im Web sind durch ihre flexible und vielfältige Repräsentation und Beschreibungen gegeben. Anwen dungen, die Daten aus relationalen Datenbanken oder XML-Dokumenten verwenden, können von einem festgelegten Schema ausgehen. Dies kann allerdings bei Daten im Web nicht vorausgesetzt werden. Oft sind weder die Datenquellen noch die Art und Menge der Daten einer Quelle vollständig bekannt. Die Dynamik von semantischen Daten im Web muss von Anwendungen entsprechend berücksichtigt werden, sowohl bei der Anfrage und Aggregation von Daten als auch bei der Visualisierung von Daten. Die eigentliche Herausforderung von Semantic-Web-Anwendungen liegt also darin,
18.8 Anwendungen des Semantic Web | 807
eine bestmögliche Flexibilität der Anwendung zu garantieren, um die Dynamik von Datenquellen, Daten und Schemas bei der Eingabe, Verarbeitung und Ausgabe zu berücksichtigen. Nachfolgend werden ausgewählte Beispiele von Semantic-Web-Anwendungen bzw. Anwendungsbereichen vorgestellt. Sie verdeutlichen wie Flexibilität und Quali tät der Suche, Integration, Aggregation und Darstellung von Daten aus dem Web rea lisiert werden können. Sie zeigen zugleich das Potenzial von Semantic-Web-Anwen dungen. Zunächst werden einheitliche Vokabulare und Schemas am Beispiel von schema.org vorgestellt. Diese dienen als Grundlage für eine semantische Suche, um Suchmaschinen Informationen über die Bedeutung von Inhalten von Web-Dokumen ten zu geben. Die Suche und Integration von Daten aus verschiedenen Quellen wird von Sig.ma unterstützt. Sig.ma ist ein Semantic Web Browser. Andere Anwendun gen realisieren semantische Suche durch weitere Repräsentationsformalismen (z. B. Knowledge Graphs). Anschließend wird die Facebook-Graph-API, eine Programmier schnittstelle (engl. application programming interface, API) zum Facebook-Graph, kurz vorgestellt.
18.8.1 Vokabulare und Schemas In HTML-Dokumenten kann die Struktur und der Aufbau von Seiten mit Tags beschrie ben werden, nicht aber die Bedeutung der Informationen. Vokabulare, Schemas und Mikrodaten können als Mark-up in HTML-Dokumenten verwendet werden, um Anga ben über Seiteninhalte und deren Bedeutung so zu beschreiben, dass Suchmaschinen diese Information verarbeiten können. Schema.org²⁷ ist eine Sammlung von Vokabularen und Schemas um HTML-Sei ten mit zusätzlichen Informationen anzureichern. Das Vokabular von Schema.org be inhaltet eine Menge von Entitäten und deren Eigenschaften. Eine universelle Entität „Thing“ ist die allgemeinste Entität, die eine Art Oberbegriff aller Entitäten ist. Weitere geläufige Entitäten sind Organization, Person, Event und Place. Eigenschaften werden zur genaueren Beschreibung von Entitäten verwendet. Zum Beispiel hat eine Person die Eigenschaften wie Name, Adresse und Geburtsdatum. Neben Vokabularen wird in Schema.org auch die Anwendung von HTML-Mikro daten festgelegt, mit dem Ziel, Daten in HTML-Dokumenten in einer möglichst eindeu tigen Form darzustellen, sodass Suchmaschinen diese richtig interpretieren können. Ein Beispiel hierfür sind Formate für eindeutige Datums- und Zeitangaben, die auch Intervalle zur Angabe der Dauer von Ereignissen beschreiben können. Unterstützt wird Schema.org u. a. von den Suchmaschinen Bing, Google und Yandex. Es gibt Erweiterungen und Bibliotheken für verschiedene Programmierspra
27 http://schema.org
808 | 18 Semantic Web
chen, u. a. für PHP, JavaScript, Ruby und Python, um Webseiten und Web-Anwen dungen mit Vokabularen und Mikrodaten von Schema.org zu erstellen. Ebenso gibt es Abbildungen von Vokabularen und Mikrodaten aus Schema.org zu RDFS.
18.8.2 Semantische Suche Ein klassischer Web-Browser ermöglicht die Darstellung von Web-Seiten. Ein Seman tic-Web-Browser geht noch einen Schritt weiter, indem zusätzlich noch die zugrun de liegenden Informationen einzelner Seiten, die z. B. in Form von RDF-Metadaten vorliegen, dem Anwender visualisiert werden können. Semantic-Web-Browser wer den auch als Hyperdata-Browser bezeichnet, da diese die Navigation zwischen Daten erlauben und man zugleich die Verbindung zu Informationen über diese Daten explo rieren kann. Somit sind gewöhnliche Nutzer in der Lage, Semantic-Web-Daten für ihre Informationssuche zu verwenden und auszunutzen. Sig.ma [63] ist eine Anwendung zum (Durch-)Suchen von Semantic-Web-Daten, die aus mehreren verteilten Datenquellen stammen können. Sig.ma stellt eine API zur automatischen Integration von mehreren Datenquellen im Web zur Verfügung. Die an gefragten Datenquellen beschreiben Informationen in RDF. Eine Suche in Sig.ma wird durch eine textuelle Anfrage vom Anwender gestartet. Dabei kann nach Entitäten wie Personen, Orten oder Produkten gesucht werden. Ergebnisse einer Anfrage werden in aggregierter Form dargestellt, d. h. Eigenschaften der gesuchten Entität, wie z. B. einer Person, werden aus verschiedenen Datenquellen zusammengefasst dargestellt. Beispielsweise können bei einer Personensuche Informationen wie E-Mail-Adresse, Anschrift oder aktueller Arbeitgeber angezeigt werden. Neben den eigentlichen Infor mationen werden auch Links zu den zugrunde liegenden Datenquellen angezeigt, um Anwendern eine Navigation zur Verfeinerung ihrer Suche zu ermöglichen. Sig.ma un terstützt auch strukturierte Anfragen, in denen zu einer Entität bestimmte Merkmale angefragt werden können, wie z. B. Kontaktdaten einer bestimmten Person. Anfragen an Datenquellen erfolgen parallel. Die Ergebnisse aus den einzelnen Datenquellen in Form von RDF-Graphen werden zusammengefasst, indem Eigenschaften von Links in RDF-Daten, wie beispielsweise owl:sameAs oder invers-funktionale Prädikate, ver wendet werden. Bei der Suche in Datenquellen werden Techniken wie Indizes, logi sche Inferenz und Heuristiken zur Datenaggregation verwendet. OntoBroker²⁸ [14] und OntoEdit [61] sind Ontologie-Editoren mit Such- und Inferenzsystem für Ontologien. Mittels OntoBroker können komplexe Anfragen über verteilte Semantic-Web-Ressour cen (z. B. dargestellt in OWL, RDF, RDFS, SPARQL und auch F-Logik) effizient bearbei tet werden.
28 https://www.semafora-systems.com/ontobroker-and-ontostudio-x
18.8 Anwendungen des Semantic Web | 809
Watson²⁹ ist ein Programm von IBM, um Fragen, die in natürlicher Sprache gestellt sind, zu beantworten. Watson verwendet eine Vielzahl von Algorithmen und Techni ken zur Verarbeitung von natürlichen Sprachen, Methoden aus dem Information Re trieval und Machine Learning, aber auch Wissensrepräsentation und Inferenz.
18.8.3 Knowledge Graphs und Wikidata Es gibt zunehmend Wissensbasen für strukturierte Daten, z. B. die sekundäre Daten bank Wikidata [64]. Eine sekundäre Datenbank beinhaltet neben den (eigentlichen) Aussagen auch Beziehungen zu deren Quellen und anderen Datenbanken (sog. sekun däre Informationen). Wikidata ist eine gemeinsame Datenbasis von Wikipedia und Wikimedia. Wikidata beinhaltet hauptsächlich eine Sammlung von Objekten, welche als Tripel über die Eigenschaften der Objekte und den entsprechenden Werten dar gestellt sind. Semantic MediaWiki³⁰ ist eine Erweiterung von MediaWiki. Es dient als flexible Wissensbasis und Wissensverwaltungssystem. Semantic MediaWiki erweitert ein klassisches Wiki um die Möglichkeit, Inhalte mittels semantischen Annotationen maschinenlesbar anzureichern. Eine weitere Wissensbasis ist Freebase³¹, eine ebenfalls offene und kollaborative Plattform, die 2007 initiiert und 2010 durch Google übernommen wurde. Der Inhalt aus Freebase wurde aus verschiedenen Quellen entnommen, u. a. auch von Teilen aus der bereits erwähnten Ontologie MusicBrainz. Der Erfolg und die weite Verbreitung von Wikidata veranlasste Google zur Migration von Freebase in Wikidata [62]. Somit soll verstärkt das Ziel einer umfassenden, kollaborativen Basis strukturierter Daten erreicht werden. Google bietet mit Google Knowledge Graph³², ³³ eine semantische Suchfunktion. Ein Knowledge Graph ist, wie RDF-Graphen, eine Menge von Tripel, die Verknüpfun gen von Entitäten darstellen. Dies bildet eine semantische Datenbank. Mögliche En titätstypen sind u. a. auf schema.org beschrieben. Tritt nun ein Suchbegriff in einer Anfrage auf, so wird nach der entsprechenden Entität im Knowledge Graph gesucht. Ausgehend von dieser Entität kann dann mittels der Verknüpfungen zu weiteren En titäten navigiert werden. Benutzerinnen und Benutzer wird somit als Ergebnis von Suchanfragen zusätzlich noch weitere Informationen zu diesen Ergebnissen geliefert.
29 30 31 32 33
http://www-03.ibm.com/innovation/us/watson/index.html https://www.semantic-mediawiki.org/wiki/Semantic_MediaWiki https://www.freebase.com http://www.google.com/insidesearch/features/search/knowledge.html https://developers.google.com/knowledge-graph/
810 | 18 Semantic Web
18.8.4 Zugriff auf soziale Netzwerke Ein soziales Netzwerk ist im Wesentlichen ein Graph, in dem Verbindungen von Be nutzern zu anderen Benutzern (z. B. in Form einer Freundschaftsbeziehung) oder zu Ereignissen und Gruppen existieren. Die Graph-API von Facebook beschreibt eine Programmierschnittstelle zum Facebook-Graph (genannt Open Graph). Inner halb des Graphen werden Personen, Ereignisse, Seiten und Fotos als Objekte dar gestellt, wobei jedes Objekt einen eindeutigen Bezeichner hat. Zum Beispiel ist https://graph.facebook.com/abba der Bezeichner der Facebook-Seite von ABBA. Für die möglichen Beziehungsarten eines Objekts gibt es ebenfalls eindeutige Bezeichner, die das Navigieren von einem Objekt zu allen verbundenen Objekten bezüglich einer bestimmten Beziehung ermöglichen. Die Graph-API ermöglicht neben dem Navigieren im Facebook-Graph und dem Le sen von Objekten, einschließlich deren Eigenschaften und Beziehungen zu anderen Objekten, auch das Erstellen von neuen Objekten im Facebook-Graph und das Bereit stellen von Applikationen. Die API unterstützt ebenfalls Anfragen von Metadaten ei nes Objekts, wie beispielsweise wann und von wem ein Objekt erstellt wurde.
18.9 Bedeutung für die Praxis Die Verknüpfung und Nutzung von graphbasierten Daten auf dem Web ist zu einer weitverbreiteten Praxis geworden. Heute gibt es eine große Menge an offenen Daten in verschiedenen Formaten und Domänen, wie z. B. in der bibliographischen Informa tionsverwaltung, Bioinformatik und E-Government. DBpedia ist dabei die Kerndaten quelle, um die verschiedene Bereiche gruppiert sind [7]. Dies wird beispielsweise an dem enormen Wachstum der Linked Open Data Cloud³⁴ seit 2007 deutlich. Zwei der neuesten, namhaften Unterstützer von graphbasierten Daten sind Onlineauktionator eBay mit ihrer Graphdatenbank³⁵ sowie die amerikanische Weltraumfahrtbehörde NA SA mit der Vereinigung der internen, verteilten Falldatenbanken als Wissensgraph³⁶. Die Wichtigkeit von Graphdatenbanken spiegelt auch ein aktueller Artikel des Wirt schaftsmagazins Forbes wider, das Graphdatenbanken als die nächste MainstreamDatenbanktechnologie prognostiziert.³⁷ Hinsichtlich leichtgewichtiger offener Graphdaten werden mit Schema.org Sche mas zur ausführlicheren Beschreibung von Daten auf Webseiten definiert, um Infor mationen über die zugrunde liegenden Datenstrukturen und die Bedeutung der Daten
34 Das Wachstum der Linked Open Data Cloud wird dokumentiert unter: http://linkeddata.org/. 35 https://github.com/eBay/akutan 36 https://blog.nuclino.com/why-nasa-converted-its-lessons-learned-database-into-a-knowledgegraph 37 https://www.forbes.com/sites/cognitiveworld/2019/07/18/graph-databases-go-mainstream
18.9 Bedeutung für die Praxis
| 811
zu geben. Suchmaschinen können diese zusätzlichen Information nutzen, um die In halte von Webseiten besser analysieren zu können. Schema.org wird von Suchmaschi nen wie z. B. Bing, Google und Yandex unterstützt. Studien über ausgewählte Quellen haben gezeigt, dass Webseiten unter den Top-10-Ergebnissen eine um bis zu 15 % hö here Klickrate haben³⁸. Andere Unternehmen wie BestBuy.com berichten sogar von bis zu 30 % höheren Zugriffsraten, seit der Erweiterung ihrer Webseiten mit semanti schen Daten (Abschnitt 18.8) in 2009. BestBuy.com benutzt das GoodRelations-Voka bular³⁹, um Onlineangebote zu beschreiben. Ebenso nutzt Google die semantischen Daten von Onlinehandelsportalen, die das GoodRelations-Vokabular benutzen, und berücksichtigt diese bei der Suche⁴⁰. Ein weiterer Erfolg ist die Veröffentlichung von Regierungsdaten. Zum Beispiel stellt die US-Regierung mit Data.gov⁴¹ Regierungsdaten öffentlich bereit, und US Census⁴² veröffentlicht statistische Daten über die USA. In Großbritannien ist da ta.gov.uk⁴³ ein wesentlicher Teil eines Programms zu mehr Transparenz von Daten im öffentlichen Sektor. Auch in Deutschland werden zunehmend offene Daten frei zur Verfügung gestellt. Eine Übersicht über offene Daten in Deutschland ist u. a. im Katalog für offene Daten unter http://de.ckan.net dargestellt. Schließlich kann ein starkes Wachstum von semantischen Daten der Biomedizin im Web festgestellt werden. Im Rahmen von Bio2RDF⁴⁴ wurden viele Datenbanken der Bioinformatik miteinander verknüpft. Die Transinsight GmbH bietet die wissens basierte Suchmaschine GoPubMed⁴⁵ an, um Forschungsartikel der Biomedizin zu fin den. Ontologien werden zur Suche verwendet. Hinsichtlich schwergewichtigerer Ontologien in OWL ist in den letzten Jahren ebenfalls Bewegung zu beobachten. Neben zahlreichen aus der Forschung stam menden Schlussfolgerungsmaschinen wie die o. g. Pellet und Hermit sind Inferenz mechanismen für OWL inzwischen auch in kommerziellen Graphdatenbanken wie neo4j⁴⁶ zu finden. Darüber hinaus finden sich musterbasierte Kernontologien zudem in Workflows der Softwareentwicklung wieder [56]. Die Entwicklung und Nutzung von Kernontologien ist dabei Bestandteil eines Continuous-Delivery-Prozesses, der in der Praxis Verwendung findet.
38 http://developer.yahoo.net/blog/archives/2008/07/ 39 http://www.heppnetz.de/projects/goodrelations/ 40 http://www.ebusiness-unibw.org/wiki/GoodRelationsInGoogle#GoodRelations_in_Google_ Rich_Snippets 41 http://www.data.gov/ 42 http://www.rdfabout.com/demo/census/ 43 http://data.gov.uk 44 http://bio2rdf.org/ 45 http://www.gopubmed.org/ 46 https://neo4j.com/blog/neo4j-rdf-graph-database-reasoning-engine/
812 | 18 Semantic Web
18.10 Zusammenfassung Das Semantic Web besteht aus einer Vielzahl von Techniken, die stark von der Lang zeitforschung der KI und deren Ergebnissen beeinflusst wurden. Methoden aus der KI zur Modellierung, Darstellung und Inferenz werden um verteiltes Wissen und verteil te Wissensrepräsentation erweitert. Ausgehend von dem Web in seiner aktueller Form beinhaltet das Semantic Web weitere Standards und Sprachen, um die Semantik von Dokumenten und Daten in maschinenverarbeitbarer Form darzustellen. Das volle Po tenzial des Semantic Webs wurde allerdings noch nicht vollständig ausgenutzt, da vor allem einige wichtige Komponenten der Semantic-Web-Architektur noch erforscht werden, wie z. B. die Datenherkunft und Vertrauenswürdigkeit. Allerdings gewinnt das Semantic Web stetig an Bedeutung, wie in dem vorangegangenen Kapitel dar gelegt. Zusammenfassend kann daher beobachtet werden, dass semantische Daten im Web einen echten Einfluss auf kommerzielle Anbieter von Produkten und Dienst leistungen und auch auf Regierungen und öffentliche Verwaltungen haben. Dies ver spricht eine erfolgreiche Zukunft des Semantic Webs. Danksagung: Die Autoren danken Steffen Staab für Beiträge an der vorherigen Ver sion des Buchbeitrages. Teile dieses Kapitels basieren auf Janik et al. [38] und Harth et al. [31].
Literaturverzeichnis [1]
Allemang, D. und Hendler, J. Semantic Web for the Working Ontologist: Effective Modeling in RDFS and OWL. Morgan Kaufmann, 2011.
[2]
Artz, D. und Gil, Y. A Survey of Trust in Computer Science and the Semantic Web. J. Web Sem., 5(2):58–71, 2007.
[3]
Auer, S., Bizer, C., Kobilarov, G., Lehmann, J., Cyganiak, R. und Ives, Z. DBpedia: A Nucleus for a Web of Open Data. In Semantic Web Conference and Asian Semantic Web Conference, S. 722–735, November 2008.
[4]
Baader, F., Calvanese, D., McGuinness, D. L., Nardi, D. und Patel-Schneider, P. F. (Hrsg.). The Description Logic Handbook: Theory, Implementation, and Applications. Cambridge University Press, 2003.
[5]
Beckett, D., Berners-Lee, T., Prud’hommeaux, E. und Carothers, G. Terse RDF Triple Language, 2014. http://www.w3.org/TR/turtle/.
[6]
Berners-Lee, T. Universal Resource Identifiers in WWW: A Unifying Syntax for the Expression of Names and Addresses of Objects on the Network as used in the World-Wide Web. RFC 1630, Internet Engineering Task Force, June 1994.
[7]
Bizer, C. The Emerging Web of Linked Data. IEEE Intelligent Systems, 24(5):87–92, 2009.
[8]
Blomqvist, E. OntoCase-Automatic Ontology Enrichment Based on Ontology Design Patterns. In International Semantic Web Conference, S. 65–80, 2009.
[9]
Boley, H., Hallmark, G., Kifer, M., Paschke, A., Polleres, A. und Reynolds, D. RIF Core Dialect. W3C Candidate Recommendation, W3C, October 2009. http://www.w3.org/TR/rif-core/.
Literaturverzeichnis
| 813
[10] Borgo, S. und Masolo, C. Handbook on Ontologies, Kapitel Foundational choices in DOLCE. Springer, 2. Aufl., 2009. [11] Brickley, D. und Guha, R. V. RDF Vocabulary Description Language 1.0: RDF Schema. W3C Re commendation, W3C, February 2004. http://www.w3.org/TR/rdf-schema/. [12] Broekstra, J., Kampman, A. und Harmelen, F. V. Sesame: A Generic Architecture for Storing and Querying RDF and RDF Schema. In International Semantic Web Conference, S. 54–68. Springer, 2002. [13] Das, S., Sundara, S. und Cyganiak, R. R2RML: RDB to RDF Mapping Language, 2012. https: //www.w3.org/TR/r2rml/. [14] Decker, S., Erdmann, M., Fensel, D. und Studer, R. Database Semantics: Semantic Issues in Multimedia Systems, Kapitel Ontobroker: Ontology Based Access to Distributed and SemiStructured Information. Springer, 1999. [15] Dividino, R. Q., Schenk, S., Sizov, S. und Staab, S. Provenance, Trust, Explanations - and all that other Meta Knowledge. KI, 23(2):24–30, 2009. [16] Duerst, M. und Suignard, M. Internationalized Resource Identifiers (IRIs). RFC 3987, Internet Engineering Task Force, January 2005. [17] Ehrig, M. Ontology Alignment: Bridging the Semantic Gap, Band 4 von Semantic Web and Be yond. Springer, 2007. [18] Euzenat, J. und Shvaiko, P. Ontology matching, Kapitel Classifications of ontology matching techniques. Springer, 2007. [19] Euzenat, J. und Shvaiko, P. Ontology matching. Springer, 2007. [20] Fielding, R. T. Architectural Styles and the Design of Network-based Software Architectures. Doktorarbeit, University of California, Irvine, USA, 2000. [21] Flouris, G., Fundulaki, I., Pediaditis, P., Theoharis, Y. und Christophides, V. Coloring RDF Triples to Capture Provenance. In International Semantic Web Conference, Band 5823 von LNCS, S. 196–212. Springer, 2009. [22] Gangemi, A. und Presutti, V. Handbook on Ontologies, Kapitel Ontology Design Patterns. Sprin ger, 2009. [23] Gavriloaie, R., Nejdl, W., Olmedilla, D., Seamons, K. E. und Winslett, M. No Registration Needed: How to Use Declarative Policies and Negotiation to Access Sensitive Resources on the Semantic Web. In European Semantic Web Symposium, Band 3053 von LNCS, S. 342–356. Springer, 2004. [24] Glaser, H., Jaffri, A. und Millard, I. Managing Co-reference on the Semantic Web. In WWW2009 Workshop: Linked Data on the Web, 2009. [25] Glimm, B., Horrocks, I., Motik, B., Stoilos, G. und Wang, Z. HermiT: An OWL 2 Reasoner. J. Autom. Reasoning, 53(3):245–269, 2014. [26] Glimm, B. und Stuckenschmidt, H. 15 Years of Semantic Web: An Incomplete Survey. KI, 30(2):117–130, 2016. [27] Gómez-Pérez, A., López, M. F. und Corcho, O. Ontological engineering. Springer, 2004. [28] Group, W. O. W. OWL 2 Web Ontology Language Document Overview. W3C Recommendation, W3C, October 2009. http://www.w3.org/TR/owl2-overview/. [29] Halpin, H. und Presutti, V. An Ontology of Resources: Solving the Identity Crisis. In European Semantic Web Conference, S. 521–534, 2009. [30] Harth, A., Hose, K., Karnstedt, M., Polleres, A., Sattler, K. U. und Umbrich, J. Data Summaries for On-Demand Queries over Linked Data. In World Wide Web. ACM, 2010. [31] Harth, A., Janik, M. und Staab, S. Semantic Web Architecture. Handbook of Semantic Web Techologies, 1:43–76, 2011. [32] Hartig, O. SPARQL for a Web of Linked Data: Semantics and Computability. In Extended Seman tic Web Conference. Springer, 2012.
814 | 18 Semantic Web
[33] Hartig, O., Bizer, C. und Freytag, J. C. Executing SPARQL Queries over the Web of Linked Data. In International Semantic Web Conference, S. 293–309, 2009. [34] Hartig, O. und Freytag, J. C. Foundations of Traversal Based Query Execution over Linked Data. In Conference on Hypertext and Social Media. ACM, 2012. [35] Hebeler, J., Fisher, M., Blace, R. und Perez-Lopez, A. Semantic Web Programming. Wiley, 2014. [36] Heinsohn, J., Kudenko, D., Nebel, B. und Profitlich, H. J. An Empirical Analysis of Terminological Representation Systems. Artif. Intell., 68(2):367–397, 1994. [37] Hitzler, P., Krötzsch, M., Rudolph, S. und Sure, Y. Semantic Web: Grundlagen. Springer-Verlag, 2008. [38] Janik, M., Scherp, A. und Staab, S. The Semantic Web: Collective Intelligence on the Web. Infor matik Spektrum, 34(5):469–483, 2011. [39] Kanani, P., McCallum, A. und Pal, C. Improving author coreference by resource-bounded in formation gathering from the web. In Conference on Artifical intelligence. Morgan Kaufmann, 2007. [40] Kasneci, G., Elbassuoni, S. und Weikum, G. MING: Mining Informative Entity Relationship Sub graphs. In Information and Knowledge Management. ACM, 2009. [41] Kasten, A. Secure semantic web data management: confidentiality, integrity, and compliant availability in open and distributed networks. Doktorarbeit, University of Koblenz and Landau, Germany, 2016. [42] Kasten, A., Scherp, A. und Schauß, P. A Framework for Iterative Signing of Graph Data on the Web. In Extended Semntic Web Conference. Springer, 2014. [43] Kemper, A. und Eickler, A. Datenbanksysteme - Eine Einführung. De Gruyter Studium. de Gruy ter Oldenbourg, 10. Aufl., 2015. [44] Motik, B., Sattler, U. und Studer, R. Query Answering for OWL-DL with Rules. In International Semantic Web Conference. Springer, 2004. [45] Musen, M. A. The protégé project: a look back and a look forward. AI Matters, 1(4):4–12, 2015. [46] Oberle, D. Semantic Management of Middleware. Springer, 2006. [47] Oberle, D., Ankolekar, A., Hitzler, P., Cimiano, P., Sintek, M., Kiesel, M., Mougouie, B., Bau mann, S., Vembu, S., Romanelli, M., Buitelaar, P., Engel, R., Sonntag, D., Reithinger, N., Loos, B., Zorn, H. P., Micelli, V., Porzel, R., Schmidt, C., Weiten, M., Burkhardt, F. und Zhou, J. DOLCE ergo SUMO: On foundational and domain models in the SmartWeb Integrated Ontology (SWIntO). Web Semant., 5(3):156–174, September 2007. [48] Oberle, D., Guarino, N. und Staab, S. What is an Ontology? In Staab, S. und Studer, R. (Hrsg.), Handbook on Ontologies. Springer, 2. Aufl., 2009. [49] Papakonstantinou, Y., Garcia-Molina, H. und Widom, J. Object Exchange Across Heterogeneous Information Sources. In Data Engineering, S. 251–260, Washington, DC, USA, 1995. IEEE Com puter Society. [50] Raimond, Y., Sutton, C. und Sandler, M. B. Interlinking Music-Related Data on the Web. IEEE MultiMedia, 16(2):52–63, 2009. [51] Rendle, S. und Schmidt-Thieme, L. Object Identification with Constraints. In International Con ference on Data Mining. IEEE, 2006. [52] Saathoff, C. und Scherp, A. Unlocking the semantics of multimedia presentations in the web with the multimedia metadata ontology. In International Conference on World Wide Web. ACM, 2010. [53] Schenk, S. und Staab, S. Networked graphs: a declarative mechanism for SPARQL rules, SPARQL views and RDF data integration on the web. In World Wide Web, S. 585–594. ACM, April 21-25, 2008. [54] Scherp, A., Franz, T., Saathoff, C. und Staab, S. A core ontology on events for representing occurrences in the real world. Multimedia Tools Appl., 58(2):293–331, 2012.
Literaturverzeichnis
|
815
[55] Scherp, A., Saathoff, C., Franz, T. und Staab, S. Designing core ontologies. Applied Ontology, 6(3):177–221, 2011. [56] Schönteich, F., Kasten, A. und Scherp, A. A Pattern-Based Core Ontology for Product Lifecycle Management based on DUL. In Workshop on Ontology Design and Patterns, Band 2195 von CEUR Workshop Proceedings. CEUR-WS.org, 2018. [57] Stoilos, G., Stamou, G. B., Pan, J. Z., Tzouvaras, V. und Horrocks, I. Reasoning with Very Expres sive Fuzzy Description Logics. J. Artif. Intell. Res., 30:273–320, 2007. [58] Stuckenschmidt, H., Vdovjak, R., Broekstra, J. und Houben, G. J. Towards distributed proces sing of RDF path queries. Int. J. Web Eng. Technol., 2(2/3):207–230, 2005. [59] Suchanek, F. M., Kasneci, G. und Weikum, G. Yago: a core of semantic knowledge. In Internatio nal Conference on World Wide Web. ACM, 2007. [60] Sure, Y., Bloehdorn, S., Haase, P., Hartmann, J. und Oberle, D. The SWRC Ontology - Semantic Web for Research Communities. In Portuguese Conference on Artificial Intelligence. Springer, 2005. [61] Sure, Y., Erdmann, M., Angele, J., Staab, S., Studer, R. und Wenke, D. OntoEdit: Collaborative Ontology Development for the Semantic Web. In International Semantic Web Conference. Springer, 2002. [62] Tanon, T. P., Vrandecic, D., Schaffert, S., Steiner, T. und Pintscher, L. From Freebase to Wiki data: The Great Migration. In International Conference on World Wide Web, 2016. [63] Tummarello, G., Cyganiak, R., Catasta, M., Danielczyk, S. und Decker, S. Sig.ma: live views on the Web of Data. In Semantic Web Challenge 2009 at the 8th International Semantic Web Conference (ISWC2009), 2009. [64] Vrandecic, D. und Krötzsch, M. Wikidata: a free collaborative knowledgebase. Commun. ACM, 57(10):78–85, 2014. [65] Wick, M. L., Culotta, A., Rohanimanesh, K. und McCallum, A. An Entity Based Model for Corefer ence Resolution. In SIAM International Conference on Data Mining, S. 365–376, 2009. [66] Wick, M. L., Rohanimanesh, K., Schultz, K. und McCallum, A. A unified approach for schema matching, coreference and canonicalization. In International Conference on Knowledge Discov ery and Data Mining. ACM, 2008. [67] Wilkinson, K., Sayers, C., Kuno, H. A. und Reynolds, D. Efficient RDF Storage and Retrieval in Jena2. In International Workshop on Semantic Web and Databases, 2003.
19 Universelle Spielprogramme Michael Thielscher It’s the program that has to do the thinking. It’s like opening a box of Scrabble and saying, „Here’s the rule book. Play.“ Michael Genesereth, Stanford
Der spielerische Wettbewerb zwischen Mensch und Maschine übt seit langem eine besondere Faszination aus. Schon der Computer- und KI-Pionier Alan Turing hat sich ernsthaft mit der Programmierung von Schachcomputern auseinandergesetzt, denn er sah darin ein wichtiges Experimentierfeld für die KI – erfordert doch das Schach spielen eine ganze Reihe von Fähigkeiten, die als charakteristisch für höhere Intel ligenz gelten: vorausschauendes Denken, Planen, Entscheiden, Erwerben von Spe zialwissen und vieles mehr. Wenig später begann Arthur Samuel mit der Entwicklung eines selbstlernenden Programms für das Brettspiel Dame, das als eine der frühesten Anwendungen der KI nach einiger Zeit in der Lage war, seinen eigenen Programmierer zu schlagen. Als ultimativer Erfolg in der Schachprogrammierung gilt der legendäre Computer „Deep Blue“, der im Jahr 1997 den damaligen Schachweltmeister in einem Sechs-Par tien-Match bezwingen konnte. Mittlerweile gibt es mehrere kommerzielle Schachpro gramme, deren Spielstärke die der weltbesten menschlichen Spieler überragt. Weitere Meilensteine waren im Jahr 2007 die vollständige Lösung des Damespiels nach meh reren Jahren Berechnungszeit sowie in den Jahren 2016 der Sieg eines Go-Programms über einen mehrfachen Weltmeister und 2017 der überzeugende Sieg eines von KI-For schern entwickelten Computers für Texas Hold’em gegen vier Pokerspieler der Welt spitze. Generell gibt es heute für eine Vielzahl von Spielen – seien es Brett-, Kartenoder Computerspiele selbst – Wettbewerbe, bei denen KI-Systeme gegeneinander oder gegen menschliche Gegner antreten, und die zum Teil sehr lukrativ sein können. Erfolge der KI-Spieleprogrammierung in einzelnen Spielen tragen jedoch wenig zu der von Alan Turing erhofften Erkenntnis über die generelle Funktionsweise der menschlichen Intelligenz, wie sie sich im Spielen erweist, bei. Jedes speziell für ein bestimmtes Spiel entwickelte Programm basiert nämlich im Wesentlichen auf einer reinen Suche nach vorgegebenen Heuristiken, ggf. unterstützt durch große Daten banken. Oft sind diese Heuristiken sehr ausgeklügelt, stets aber von menschlichen Programmierern vorgegeben. Damit endet aber die Intelligenz z. B. eines Schachcom puters an den Grenzen seines Spiels, also sobald er mit einer anderen als der vor programmierten Aufgabe konfrontiert wird – und sei diese noch so trivial. Aufgrund dieser Einsicht besteht seit wenigen Jahren ein besonderes Interesse der KI an der Au tomatisierung der menschlichen Fähigkeit, immer wieder auch neue Spiele erlernen zu können. Dieses sog. universelle Spielen (engl. general game playing) erfordert von einem Programm, die Regeln eines beliebigen, zuvor unbekannten Spiels zu verste hen und ohne weiteres menschliches Zutun zu erlernen. Solche Systeme sind für die https://doi.org/10.1515/9783110659948-019
818 | 19 Universelle Spielprogramme
KI-Forschung von großem Interesse, weil sie neben der klassischen Problemlösung durch Suche viele weitere Aspekte menschlicher Intelligenz erfordern: Repräsentati on von Wissen, logisches Schließen, selbstständiges Erarbeiten von Heuristiken so wie Lernen aus Erfahrung, um nur die Wichtigsten zu nennen. Vereinzelt haben sich KI-Wissenschaftler bereits seit den 1960er-Jahren mit den Prinzipien universeller Spielprogramme beschäftigt, aber erst mit der Ausrufung ei nes internationalen Wettbewerbs im Jahr 2005 – der dann lange Zeit jährlich ausge tragenen „AAAI General Game Playing Competition“ – wurde die Erforschung solcher Systeme mit allgemeiner Intelligenz (AGI, von engl. artificial general intelligence) zu einem wichtigen Teilgebiet der KI. Ein Grund für das Interesse an universellen Spiel programmen sind auch deren vielfältige Anwendungsmöglichkeiten: Schachcompu ter etwa, bei denen der Endbenutzer die Spielregeln nach Belieben ändern und somit jede denkbare Variante des klassischen Schachs spielen kann; weitere Beispiele sind generische KI-Programme, die sich nur durch Eingabe der Spielregeln zu computerge steuerten Gegenspielern für im Prinzip jedes Computerspiel instanziieren lassen, und Softwareagenten (Kapitel 17), die sich automatisch an neue Umgebungen und Anfor derungen anpassen können. Im Grunde eignet sich jedes Entscheidungsproblem, das als Spiel modelliert werden kann, etwa auch aus dem Wirtschafts- oder Finanzbereich, für die Anwendung universeller Spielprogramme. Dieses Kapitel behandelt die Grundlagen universeller KI-Spielprogramme und die wichtigsten Methoden auf diesem Gebiet, von denen viele nach 2005 entwickelt wur den und einen Einblick in die aktuelle Forschung gewähren lassen.
19.1 Spielregeln beschreiben: Wissensrepräsentation Die praktische Umsetzung von universellen Spielprogrammen erfordert zunächst eine Eingabesprache, in der die Regeln beliebiger Spiele für einen Computer einfach und unmissverständlich beschrieben werden können. Dabei sollte eine Spielbeschreibung stets vollständig sein, d. h., sie sollte neben den angegebenen Regeln kein zusätzli ches (Allgemein-)Wissen erfordern, um ein Spiel korrekt spielen zu können. Prinzipi ell können Spiele in jeder Programmiersprache algorithmisch codiert werden. Für die KI ist es jedoch von besonderem Interesse, eine deklarative Sprache zu verwenden, die sich stark an natürlichsprachlichen Spielregeln orientiert. Die in diesem Abschnitt be handelte Spielbeschreibungssprache GDL (engl. Game Description Language) erfüllt dieses Kriterium und hat sich als Standard in der Forschung und bei internationalen Wettbewerben etabliert.
19.1.1 Spielzustände und Züge Wer ein Spiel in GDL beschreiben möchte, muss sich zunächst überlegen, wie die
19.1 Spielregeln beschreiben: Wissensrepräsentation
×
3
⃝
2
1
× 1
2
3
| 819
cell(1,1,x) cell(1,2,b) cell(1,3,b) cell(2,1,b) cell(2,2,o) cell(2,3,b) cell(3,1,b) cell(3,2,b) cell(3,3,x) control(oplayer)
Abb. 19.1: Ein Spielzustand in Tic Tac Toe
verschiedenen Spielzustände (Positionen) mithilfe einzelner Stellungsmerkmale re präsentiert werden sollen. Als Beispiel betrachten wir im Folgenden das klassische und einfache Spiel Tic Tac Toe. Abbildung 19.1 illustriert, wie ein Spielzustand auf dem zweidimensionalen Spielbrett mit Stellungsmerkmalen der Form cell(_,_,_) beschrieben werden kann. Jedes dieser Merkmale gibt für ein bestimmtes Feld an, ob es mit x oder o markiert bzw. leer (b für engl. blank) ist. Das zusätzliche Stellungs merkmal control(_) besagt, welcher der beiden Spieler am Zug ist. Als Nächstes muss die Codierung der einzelnen Züge der Spieler festgelegt wer den. Züge in Tic Tac Toe bestehen im Markieren einzelner Felder, z. B. (1,2), was mit mark(1,2) bezeichnet werden soll. Darüber hinaus benötigen wir noch einen Namen – nennen wir ihn noop – für den einzig möglichen „Zug“, den ein Spieler ausführt, der nicht als Nächstes markieren darf. Dies ist notwendig, da in GDL gene rell jeder Spieler zu jedem Zeitpunkt zieht, um auf diese Weise auch Spiele mit echt gleichzeitigen Zügen modellieren zu können.
19.1.2 Spielregeln GDL-Spielbeschreibungen setzen sich aus Fakten und Regeln zusammen. Dabei wer den alle Ausdrücke in Präfixnotation geschrieben und Variablen durch ein führen des „?“ gekennzeichnet. Fakten sind „atomare“ Aussagen (Kapitel 5), während Regeln die Form (