148 90 77MB
German Pages 512 [729] Year 2023
Künstliche Intelligenz für Dummies
Schummelseite (KÜNSTLICHE) INTELLIGENZ IST … Intelligenz ist die Summe von Denk- und Wahrnehmungsprozessen eines Objektes oder Subjekts, um auf Umwelt- und Umgebungseinflüsse angemessen (also logisch korrekt) zu reagieren. Menschen, aber auch technische Systeme reagieren jedoch nicht immer angemessen auf Umgebungsreize. Intelligenz ist im Kontext dieses Buches daher neben folgerichtigem Schlussfolgern das autonome Schaffen eines Modells der Umgebung, um auf äußere (und innere) Reize adäquat reagieren zu können und bei beobachteten Fehlern das eigene Modell über die Umgebung selbstständig so anzupassen, dass beim nächsten Mal eine adäquate Reaktion erfolgen kann. Wir nennen das Lernen. Die Intelligenz des Menschen ist sehr vielschichtig und vielgestaltig, man spricht von rationaler (kognitiver) Intelligenz, aber auch von sozialer und emotionaler Intelligenz uvm. Für die Schaffung von Künstlicher Intelligenz ist insbesondere die kognitive Intelligenz des Menschen maßgebend. Künstliche Intelligenz ist der Versuch, rationale bzw. kognitive menschliche Intelligenz auf (technischen) Maschinen zu simulieren, um sie für den Menschen gewinn- und nutzbringend einzusetzen. Eine solche Art von Künstlicher Intelligenz ist in ihren Anwendungen überaus erfolgreich. Aktuell sind jedoch bereits Grenzen für das Vordringen der KI in Technik und Gesellschaft abzusehen. Künstliche Intelligenz mit dem Anspruch der Simulation von Intelligenz nennen wir Schwache KI, um sie von einer sogenannten Starken KI zu unterscheiden, die an die Intelligenz von Menschen heranreichen soll.
STARKE KI VS. SCHWACHE KI Die Starke KI ist ein Konstrukt, das eine KI beschreibt, die neben ihrer Intelligenz auch ein künstliches Bewusstsein, einen Willen und sogar Emotionen ausprägen können soll. So etwas technisch zu erzeugen, ist heute in keinster Weise realistisch. Irrationale Ängste gegenüber einer Starken KI sind deshalb nicht angebracht. Es ist mit heutigen technologischen Mitteln (noch) nicht möglich, Maschinen mit nachweislichem Bewusstsein zu entwickeln. Aktuell existieren zwar rudimentäre Theorien, wie Bewusstsein technisch erzeugbar wäre, aber auch wenn diese Ansätze stimmen, wird es noch sehr lange dauern, bis eine KI entsteht, die ein Bewusstsein, ähnlich dem des Menschen, ausprägen könnte. Starke KI ist und bleibt Science-Fiction.
Schwache KI ist jedoch allgegenwärtig. Heutige KI-Systeme erscheinen sehr intelligent, man könnte sogar sagen, dass heutige KI-Systeme denken können, wenn man Denken als mechanisierbare Symbolmanipulation definiert. Dieses KI-Denken entspricht natürlich nicht dem Denken von Menschen, aber das »Maschinendenken« ist – in Verbindung mit dem »Maschinenlernen« – bereits so leistungsfähig, dass die heutige KI gegen unsere Weltmeister im Schach und Go gewinnt, Roboter steuert, teilautonom Auto fährt und intelligente Chatbots in natürlicher Sprache mit uns sprechen lässt.
MACHINE LEARNING UND NEURONALE NETZE Der Schwerpunkt heutiger KI-Anwendungen liegt nicht mehr auf dem Denken, sondern auf dem Lernen. Beim Machine Learning geht es darum, Maschinen und Algorithmen zu schaffen, die aus vorhandenen Daten selbstständig und vollautonom lernen können. Dabei unterscheidet man in symbolische Lernverfahren, wie Entscheidungsbäume oder Assoziationsregeln und sub-symbolische Lernverfahren. Eine der wichtigsten Basistechnologien für sub-symbolisches, maschinelles Lernen stellen Künstliche Neuronale Netze (KNN) dar. Neuronale Netze sind den Informationsverarbeitungseinheiten des biologischen Gehirns nachgebildet. Eine Vielzahl einfacher Prozessorelemente, sogenannte Neuronen, ist mit einer großen Anzahl von Nachbarneuronen über sogenannte Synapsen (gewichtete Verbindungen) verbunden. Das neuronale Netz sammelt Informationen und berechnet Ergebnisse durch sehr einfache Rechenschritte. Die Leistungsfähigkeit des neuronalen Ansatzes besteht allerdings nicht in den Berechnungen der einzelnen Neuronen, sondern in der parallelen Datenverarbeitung von mehreren Millionen Einzelelementen. Obwohl die Informationsverarbeitung eines einzigen Neurons im Prinzip einfach ist, kann durch die hohe Vernetzung der Neuronen untereinander eine enorme Leistung des Gesamtsystems erreicht werden. Das menschliche Gehirn ist das Vorbild zur Wissensverarbeitung schlechthin und es gibt mittlerweile weit über hundert Arten künstlicher neuronaler Netze. Die Theorie der KNN ist dadurch äußerst komplex geworden und es wurden viele Netztypen für ganz spezielle technische Aufgaben entwickelt. Die Informationsverarbeitung im Gehirn ist so gigantisch, dass es nahezu unendlich viele Möglichkeiten zu geben scheint, Teilaspekte des Gehirns herauszugreifen und technisch nachzubilden, mit immer neuen Möglichkeiten einer Datenverarbeitung. Im mathematischen Sinne realisiert ein künstliches neuronales Netz ein Verfahren zur nichtlinearen multivariaten Datenanalyse, etwas, was man seit 100 Jahren aus der Statistik kennt. Die Netze sind damit ein sehr cleverer Ansatz, eine solche Datenanalyse durch eine technische Struktur ausführen zu lassen, und sie sind biologisch sehr plausibel. Man weiß, dass das menschliche Gehirn so lernt, dass beim Lernen die Verbindungsstärke der eingehenden Signale zu einem Neuron angepasst wird. Die Synapsen des Gehirns – oder besser – die Verarbeitungen in den synaptischen Spalten entsprechen dabei den Gewichtswerten eines künstlichen Neurons an seinen Eingängen.
Beim Aufbau von KNN entstehen drei grundsätzliche Fragen, die für jeden neuronalen Netztyp geklärt werden müssen: Das Neuronenmodell: Welche der mathematischen Übertragungsgleichungen gilt für ein einzelnes Neuron? Die Topologie von neuronalen Netzwerken: Welche Neuronen sind mit welchen verbunden? Die neuronalen Lernverfahren: Wie werden die Gewichtswerte (in Anlehnung an die biologischen Synapsen) eingestellt, das heißt, wie wird das Wissen in das Netz eincodiert? Ein künstliches Neuron in einem Computer stellt entweder eine lineare oder eine nichtlineare mathematische Funktion dar. Mehrere Neuronen werden zu einem Netzwerk zusammengeschaltet. Die berühmteste Topologie sind sogenannte Feed-forwardNetze, die aus zwei, drei oder mehreren hintereinander geschalteten neuronalen Schichten besteht, in der sich eine bestimme Anzahl von Neuronen befindet. Die Schicht am Eingang heißt Eingabeschicht, die Schicht am Ausgang Ausgabesicht und die Schichten in der Mitte des Netzwerks heißen verdeckte Schichten oder auch Hidden-Layer. Es ist bei diesen Netztypen üblich, dass die Neuronen einer Schicht vollständig mit den Neuronen der nachfolgenden Schicht verbunden werden. Das berühmteste Lernverfahren, das auf einer solchen Netzstruktur aufbaut, ist das Backpropagation-Lernverfahren. Seit Ende der 1980er-Jahre ist bekannt, dass man mit neuronalen Netzen mit drei oder mehr Schichten jeden stetigen Zusammenhang zwischen Eingangsgrößen und Ausgangsgrößen beliebig genau approximieren kann. Damit sind neuronale Netze universelle Approximatoren mit umfangreichen Anwendungsfällen in Industrie und Gesellschaft.
Künstliche Intelligenz für Dummies Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. 2. Auflage 2023
© 2023 Wiley-VCH GmbH, Boschstraße 12, 69469 Weinheim, Germany All rights reserved including the right of reproduction in whole or in part in any form. This book published by arrangement with John Wiley and Sons, Inc. Alle Rechte vorbehalten inklusive des Rechtes auf Reproduktion im Ganzen oder in Teilen und in jeglicher Form. Dieses Buch wird mit Genehmigung von John Wiley and Sons, Inc. publiziert. Wiley, the Wiley logo, Für Dummies, the Dummies Man logo, and related trademarks and trade dress are trademarks or registered trademarks of John Wiley & Sons, Inc. and/or its affiliates, in the United States and other countries. Used by permission. Wiley, die Bezeichnung »Für Dummies«, das Dummies-Mann-Logo und darauf bezogene Gestaltungen sind Marken oder eingetragene Marken von John Wiley & Sons, Inc., USA, Deutschland und in anderen Ländern. Das vorliegende Werk wurde sorgfältig erarbeitet. Dennoch übernehmen Autoren und Verlag für die Richtigkeit von Angaben, Hinweisen und Ratschlägen sowie eventuelle Druckfehler keine Haftung. Coverfoto: Blue Planet Studio –stock.adobe.com
Korrektur: Petra Heubach-Erdmann Print ISBN: 978-3-527-72099-6
ePub ISBN: 978-3-527-84290-2
Über den Autor Prof. Dr.-Ing. Ralf Otte ist Hochschullehrer für Industrieautomatisierung und Künstliche Intelligenz an der Technischen Hochschule Ulm (THU). Seit den 1990er-Jahren beschäftigt er sich mit den Möglichkeiten der Künstlichen Intelligenz, denn die KI hatte ihn bereits zum Ende seiner Studienzeit so fasziniert, dass er auf einem Spezialgebiet der Künstlichen Intelligenz, den neuronalen Netzen, promovierte. 1992 ging er in die Industrie und arbeitete 12 Jahre bei einem Großkonzern als verantwortlicher Manager für Business Intelligence und Data Mining. Später wechselte er zu einem Mittelständler und war über 10 Jahre als Geschäftsführer für die Umsetzung von KI-Projekten in der Industrie tätig. Seit 2015 ist Ralf Otte Hochschullehrer in Ulm, lehrt dort u.a. Künstliche Intelligenz in den Masterstudiengängen und erforscht Grundlagen für neuartige KIMaschinen, Maschinen, die in baldiger Zukunft vielleicht einmal maschinelles Bewusstsein auszuprägen vermögen. Zu erreichen ist Ralf Otte unter [email protected] oder über seine Webseite profralfotte.com.
Widmung Für meine Familie, für die inhaltliche, organisatorische und mentale Unterstützung während der Erstellung des Buches, insbesondere für meine Frau Marén.
Danksagung Dieses Buch ist das Ergebnis der Ideen und Arbeit von vielen Menschen. Ohne die offenen Diskussionen mit den Ingenieuren und Informatikern aus der Industrie und Gesellschaft, ohne die vielseitigen Gespräche mit meinen Studenten wäre es mir nicht möglich gewesen, dieses Buch zu erstellen. Neben den Diskussionen haben zahlreiche Menschen aber auch viel Zeit in die Unterstützung für das Buch investiert.
Ein herzlicher Dank geht an Prof. Dr.-Ing. Robert Watty, den Dekan meiner Fakultät, für den Ansporn und Zuspruch zu diesem Buch, an die Herren Dipl.-Ing. Helmut Alders von der THU, Dipl.-Ing. Werner Gertz aus Windhoek (Namibia) und Dipl.-Informatiker Michael Schmitt für das Korrekturlesen und die vielen kritischen Hinweise zur ersten Auflage. Michael danke ich auch für die tollen Anregungen bei unseren ausgedehnten Wanderungen. Ganz besonders herzlich möchte ich meinem Vater, Univ. Prof. (em.) Dr.-Ing. habil. Viktor Otte, für die mehrmaligen Korrekturdurchläufe und zahlreichen inhaltlichen Anregungen danken. Auch die Ausführungen zum »maschinellen Bewusstsein« wären ohne seine Hilfe nicht entstanden, denn wir arbeiten auf diesem Gebiet seit über 15 Jahren erfolgreich zusammen. Ein großer Dank geht an das Lektorat von Wiley für die sehr gute Unterstützung während der gesamten Zeit der Bucherstellung, hierbei danke ich insbesondere Herrn Marcel Ferner für seine professionelle Hilfe und seine ruhige Art, Probleme anzugehen und zu lösen. Und ich danke dem Fachkorrektor der ersten Auflage für seine kritischen und wichtigen Hinweise und der Dudenkorrektorin der zweiten Auflage, Frau Petra Heubach-Erdmann, für ihre fachkundige Unterstützung. Mein besonderer Dank geht selbstverständlich an meine Leserinnen und Leser. Ohne ihr Interesse gäbe es dieses Buch gar nicht, zumindest nicht in der zweiten Auflage. Insbesondere möchte ich hier den zahlreichen Lesern danken, die mir teilweise sehr lange Mails geschrieben haben, mich zum Buch beglückwünschten und/oder auch konstruktive Kritik übten. Ich kann hier nicht alle nennen und bedanke mich deshalb exemplarisch und ganz herzlich bei Henning Moritz, Stephan Fuchs, Wolfgang Böhm, Rhaban Lammeyer, Dietmar Schmidt, Thomas Speer und Stefan Klemens für all die nützlichen Korrekturhinweise. Ein Großteil ihrer Hinweise ist in der zweiten Auflage eingearbeitet. Mein abschließender Dank geht erneut an meine Familie, an meine beiden erwachsenen Töchter Julia und Caroline, und an meine Frau Marén, für all ihre Geduld, ihre Ideen, Grafiken, Fotos, Gespräche und Korrekturhinweise.
Leserhinweise Aus dem Feedback früherer Leser weiß ich, dass das Buch teilweise doch nicht so einfach zu lesen ist, wie man es bei einer für DummiesReihe hofft oder denkt. Nicht mathematisch versierte Leserinnen und Leser können jedoch den gesamten Mathematikteil und die zahlreichen Theorieboxen überspringen und alle anderen Themen trotzdem gut verstehen. Für mathematische Interessierte stellen die Theorieabschnitte vielleicht weiterhin eine nützliche Hilfe dar, um die Thematik noch detaillierter zu verstehen. In der zweiten Auflage gibt es neben der Fehlerkorrektur zahlreiche Überarbeitungen und Weiterführungen. Die KI hat sich in den letzten vier Jahren nochmals sehr stark verändert, was Eingang in das Buch fand. Daher sind auch kleinere Abschnitte hinzugekommen, wie beispielsweise »Zehn Gründe, warum vollautonomes Fahren niemals funktionieren wird«, ein möglicher »Turing-Test auf Bewusstsein« oder »neuronale Netze auf Quantencomputern«. Aus Gründen der besseren Lesbarkeit wird in diesem Buch nicht gegendert. Das Buch richtet sich jedoch mit großer Freude auch an die weibliche Leserschaft.
Inhaltsverzeichnis Cover Titelblatt Impressum Über den Autor Widmung Danksagung Leserhinweise
Einführung Über dieses Buch Wie dieses Buch aufgebaut ist Symbole, die in diesem Buch verwendet werden Was nun?
Teil I: Ganz schön clever Kapitel 1: Einführung in die Thematik Was ist Intelligenz? Intelligenz messen Schwache KI Starke KI Kann eine KI ein Bewusstsein entwickeln?
Kapitel 2: Eine kurze Geschichte der intelligenten Maschinen Autonom vs. intelligent Denken mit Mathematik formalisieren Der Universalcomputer Die Geburtsstunde der Künstlichen Intelligenz Wichtige Meilensteine der KI
Kapitel 3: Wie intelligent ist die Künstliche Intelligenz wirklich? Die angemessene Intelligenz – Intelligenzstufe I1 Die lernende Intelligenz – Intelligenzstufe I2 Die kreative Intelligenz – Intelligenzstufe I3 Die bewusste Intelligenz – Intelligenzstufe I4 Die selbstbewusste Intelligenz – Intelligenzstufe I5 Einordnung der KI im Rahmen der verschiedenen Intelligenzstufen und Anmerkungen zu Bots Zusammenfassung
Kapitel 4: Alles, was Sie über das Wissen wissen müssen Von Daten zu Informationen zu Wissen Alles digital oder was … – Die große Digitalisierungswelle KI, Datenbanken und Wissensbasierte Systeme KI und neuronale Netze oder: Wie speichert der Mensch sein Wissen? KI-Systeme sind etwas Technisches Wir erzeugen neues Wissen
Kapitel 5: Alles logisch oder was? KI umfasst noch sehr viel mehr Die Grundlagen der Logik Aussagenlogik Prädikatenlogik 1. Stufe (PL1) Prädikatenlogik 2. Stufe (PL2) Unabhängig von der KI: Was bedeutet das Ergebnis von Gödel erkenntnistheoretisch? Zusammenfassung und Kritikpunkte zur klassischen Logik
Teil II: Wie lernt und denkt eine Maschine heute Kapitel 6: Die Grundlagen des maschinellen Lernens Die Rohstoffe des maschinellen Lernens Einordnung des maschinellen Lernens Bauen wir Modelle von der Welt
Statistik im Überblick Von Datentypen, Kennzahlen und fiesen Fallstricken Multivariate Statistik im mathematischen Detail Zusammenfassung
Kapitel 7: Kaum zu glauben – Die Maschine lernt richtige Regeln Entscheidungsbäume Assoziationsregeln Ein interessantes Gütemaß: Die Interessantheit
Kapitel 8: Neuronale Netze – Auf dem Weg zum künstlichen Gehirn Das Neuronenmodell Die Topologie von neuronalen Netzwerken Überblick über neuronale Lernverfahren Probleme der neuronalen Netze beim Einsatz in der Praxis Zusammenfassung
Kapitel 9: Deep Learning – Der neue Clou der Künstlichen Intelligenz Ein kleines bisschen Bildverarbeitung Convolutional Neural Networks (CNN) – Neuronale Faltungsnetzwerke Kritische Anmerkungen zum Deep Learning
Teil III: Eine bunte Umsetzung der Künstlichen Intelligenz, denn alle Theorie ist grau Kapitel 10: Ist KI nur Mathematik? Grenzen von Mathematik und Computern
Kapitel 11: Klüger als die alten Meister – Wieso gewinnt die KI im Schach und Go? Wie konnte es so weit kommen? Deep Blue gewinnt im Schach AlphaGo gewinnt im Go AlphaZero gewinnt alles
Zusammenfassung
Kapitel 12: Mal was Nützliches – KI in Industrie und Gesellschaft Künstliche Intelligenz in der Industrie Künstliche Intelligenz in der Gesellschaft Zusammenfassung und Diskussion
Kapitel 13: Und immer wieder lernen – KI und die Daten unserer Welt Was es alles gibt Was ist Data Mining? Der Data-Mining-Prozess in der Praxis KI als die Data-Mining-Technologie der Industrie Zusammenfassung KI & Big Data – Fluch und Segen zugleich
Kapitel 14: KI zum Anfassen – Arbeiten mit Tools 1. Matlab – MATrix LABoratory 2. R und Python 3. KNIME – Konstanz Information Miner 4. TensorFlow – Das KI-Framework von Google 5. LabelMe – ein Tool zum Annotieren von Bildern Überleitung zu Teil IV
Teil IV: Ist die Maschine bald klüger als der Mensch und fühlt sie sich wenigstens gut dabei Kapitel 15: Materie und Geist – Ein notwendiger Ausflug in die Philosophie Wie klug ist die KI heute schon? Generelles Nachdenken über den Geist und das Bewusstsein Zusammenfassung
Kapitel 16: Mit der Lupe ins Gehirn geschaut: Bewusstsein – Wo bist du? Von der Philosophie des Geistes zurück zur empirischen Forschung
Wo und wie ist denn nun die Qualia abgespeichert? Die Anatomie neuronaler Netze im menschlichen Gehirn Die Physiologie der neuronalen Informationsverarbeitung Eine wichtige Diskussion: Wetware vs. Hardware Der große Vorteil der Wetware – Unsere heutige Hardware besitzt keine Qualia Eine Hypothese: Zur Erzeugung und Nutzung von Bewusstsein benötigen wir quantenphysikalische Systeme Zusammenfassung
Kapitel 17: Zukünftige Entwicklungen und ethische Fragen Quo vadis KI oder warum die Singularität ausfällt Die Evolution der Schwachen KI Die Evolution der Starken KI Wider alle Technik – Wir müssen über Ethik reden Diskussion
Teil V: Der Top-Ten-Teil Kapitel 18: Zehn Begriffe und Einordnungen Damit Sie die KI nicht missverstehen Tipps für Studenten Tipps für Manager Und ein kleiner Tipp für Politiker und interessierte Laien Es gibt auch Big Data Ein Einstieg für Interessierte mithilfe des Internets Werden Sie aktiv – Probieren Sie selbst mal was aus Haben Sie Freude mit KI-Anwendungen KI ist gut organisiert Führen Sie KI in Ihrem Unternehmen ein oder werden Sie dafür verantwortlich
Literaturliste Abbildungsverzeichnis Stichwortverzeichnis
End User License Agreement
Tabellenverzeichnis Kapitel 2 Tabelle 2.1: Überblick über Meilensteine bei der Entwicklung der KI
Kapitel 3 Tabelle 3.1: Beispielhafte Lerndaten für eine KI zum selbstständigen Erlernen de... Tabelle 3.2: Einordnung der Künstlichen Intelligenz in verschiedene Intelligenzs...
Kapitel 4 Tabelle 4.2: Datentabelle aus einem technischen Prozess
Kapitel 5 Tabelle 5.1: Gegenüberstellung Mensch und Maschine Tabelle 5.2: Zwei Wahrheitstabellen der Negation mit Ziffern (0, 1) beziehungswe... Tabelle 5.3: Möglichkeiten einer logischen Verknüpfung zweier Aussagen Tabelle 5.4: Die klassischen Junktoren der Aussagenlogik Tabelle 5.5: Intuitive Implikation Tabelle 5.6: Wahrheitstabelle für die Implikation Tabelle 5.7: Darstellung der Implikation mit NICHT- und UND-Gliedern Tabelle 5.8: Einführung eines NICHT-ODER-Junktors Tabelle 5.9: Überblick zur klassischen Logik
Kapitel 6 Tabelle 6.1: Messergebnisse für einen Drehzahlmessversuch Tabelle 6.2: Vor- und Nachteile der verschiedenen Arten der Modellbildung Tabelle 6.3: Tabelle mit zwei Spalten von Daten Tabelle 6.4: Mögliche Korrelationsergebnisse aus der Praxis und ihre Interpretat... Tabelle 6.5: Praxisanwendungen für multivariate Regressionsanalysen Tabelle 6.6: Eine für Data Mining geeignete Datentabelle zur Struktursuche durch...
Kapitel 7 Tabelle 7.1: Datentabelle mit relativen und bedingten Häufigkeiten und zwei visu... Tabelle 7.2: Modelldatensatz zur Regelgenerierung für eine Zielgröße X4 Tabelle 7.3: Berechnung der Interessantheit von Regeln
Kapitel 8 Tabelle 8.1: Wahrheitstabelle einer logischen AND- und XOR-Verknüpfung Tabelle 8.2: Neuronale Lernregeln im Überblick, Details auf den Folgeseiten Tabelle 8.3: Anwendung der Delta-Lernregel zum Erlernen einer Addition Tabelle 8.4: Überblick über neuronale Netze
Kapitel 10 Tabelle 10.1: Unendlich ist nicht gleich unendlich.
Kapitel 13 Tabelle 13.1: Anwendungen von Data-Mining-Verfahren in Industrie und Gesellschaf... Tabelle 13.2: Übersicht über Modellbildungsverfahren Tabelle 13.3: Vergleich von Modellgenauigkeiten für lineare und neuronale Regres... Tabelle 13.4: Typische Optimierungsziele in technischen Prozessen Tabelle 13.5: Gewichtung konkurrierender Prozessziele für eine Polyoptimierung Tabelle 13.6: Überblick über den Stand der Technik kommerzieller Anwendungsziele...
Kapitel 15 Tabelle 15.1: Wie klug war die KI im Jahre 2014? Tabelle 15.2: Wie klug war die KI im Jahre 2016? Tabelle 15.3: Gegenüberstellung der Fähigkeiten von Mensch und Maschine
Kapitel 16 Tabelle 16.1: Gegenüberstellung technischer Parameter von Gehirn und speziellen... Tabelle 16.2: Gegenüberstellung Gehirn und Tianhe-3
Illustrationsverzeichnis Kapitel 3 Abbildung 3.1: Grundstruktur eines Regelkreises zur Toilettenspülung Abbildung 3.2: Wirkschaltbild einer Steuerung Abbildung 3.3: Wirkschaltbild eines Regelkreises der Intelligenzstufe I1 Abbildung 3.4: Erzeugung von neuem Wissen über die Welt Abbildung 3.5: Anwendung des deduktiven Wissenserwerbs an einem Beispiel Abbildung 3.6: Mögliche Kausalketten zur Erzeugung von Kopfschmerzen Abbildung 3.7: Legen Sie ein Streichholz so um, dass die mathematische Aussage w... Abbildung 3.8: Anwendung der KI zur Addition von Quadratzahlen Abbildung 3.9: Der Turing-Test auf Intelligenz Abbildung 3.10: Microsofts Chatbot Tay meldet sich im Netz ab. Abbildung 3.11: Das Chinesische Zimmer
Kapitel 4 Abbildung 4.1: Ein elementares Datum – ein schwarzer Punkt auf einem weißen Papi... Abbildung 4.2: Eine chinesische Zeitung (© Paco Ayala - stock.adobe.com) Abbildung 4.3: Die Übertragung von Bedeutung geht nur mittels materieller Zeiche... Abbildung 4.4: Nachbau eines der ersten Computer der Welt nach Konrad Zuse (© Ud... Abbildung 4.5: Wir speichern zwei Zustände 0 oder 1 mit einem Relais. Abbildung 4.6: Architektur einer Datenbank Abbildung 4.7: Aufbau eines Expertensystems Abbildung 4.8: Das logische UND mit Relais gebaut Abbildung 4.9: Ein Agent bildet Eingangsdaten (Sensoren) auf Ausgangsdaten (Akto... Abbildung 4.10: Verteilte Agenten in einem Multi-Agenten-System Abbildung 4.11: Agenten (Ai) in einem technischen Prozess Abbildung 4.12: Semantisches Netz Abbildung 4.13: Ausschnitt aus einem neuronalen Netz im Gehirn
Kapitel 5 Abbildung 5.1: Elektrisches Schaltbild eines NOR-Gatters
Kapitel 6 Abbildung 6.1: Eine mögliche Klassifikation der Künstlichen Intelligenz Abbildung 6.2: Methoden der Modellbildung Abbildung 6.3: Getriebe zur Übersetzung einer Drehzahl (Getriebe © Sashkin - st... Abbildung 6.4: Visualisierung von Ausgangsdrehzahl (y in u/min) über Eingangsdre... Abbildung 6.5: Modell eines Getriebes mit geschätzter Übertragungsfunktion Abbildung 6.6 Zusammenhang zwischen persönlichen Merkmalen und Bonitäts-Score be... Abbildung 6.7: Welche Möglichkeiten bietet das maschinelle Lernen? Abbildung 6.8: Unterschied zwischen Median und Mittelwert an einem Beispiel Abbildung 6.9: Darstellung der Datentabelle in einem x-y-Scatterplot mithilfe de... Abbildung 6.10: Lineare Schätzung (Regressionsgerade) für eine gegebene Punktwol... Abbildung 6.11: Nichtlineare Schätzung für eine gegebene Punktwolke Abbildung 6.12: Zwei Untergruppen in einer Punktwolke aus Daten Abbildung 6.13: Erderwärmung von 1975 bis 2022, Abbildung 6.14: Erderwärmung von 2016 bis 2022, Abbildung 6.15: Zwei Sinuskurven im Zeitverlauf Abbildung 6.16: rxy = +1: lineare Abhängigkeit zwischen zwei Sin... Abbildung 6.17: Die Korrelation zwischen den Variablen x und y ist rxy = 0, denn... Abbildung 6.18: rxy = 0: Keine stochastische Abhängigkeit zwischen X und Y Abbildung 6.19: Verteilungshistogramm von verkauften Zahncreme-Tuben pro Monat Abbildung 6.20: Der Abverkauf der Zahncreme (y-Achse) hängt vom Preis (x-Achse) ... Abbildung 6.21: Ein lineares Modell für den Zusammenhang Abverkauf und Preis
Abbildung 6.22: Zwei Bestimmtheitsmaße für eine schlechte (links) und eine gute ... Abbildung 6.23: Schätzung des Abverkaufs mit Polynom 4. Ordnung Abbildung 6.24: Ein Datensatz aus drei Merkmalen angeordnet in drei Clustern Abbildung 6.25: Zugehörigkeit eines Datensatzes beim Fuzzy-Clustern
Kapitel 7 Abbildung 7.1: Berechnung des Informationsgewinns Igain auf der ersten Entscheid... Abbildung 7.2: Entscheidungsbaum mit insgesamt sieben grauen Blättern auf Daten ... Abbildung 7.3: C5.0-Entscheidungsbaum auf Daten nach Tabelle 7.1 Abbildung 7.4: C4.5-Entscheidungsbaum auf Daten nach Tabelle 7.1 Abbildung 7.5: Anwendungsbeispiel eines Entscheidungsbaums in einer chemischen F... Abbildung 7.6: Gerichtete Assoziationsregeln auf Datensatz nach Tabelle 7.2 Abbildung 7.7: Assoziationsregeln sortiert nach Konfidenz auf Viskositätsdaten n... Abbildung 7.8: Regelbaum zur Optimierung einer Marketingaktion
Kapitel 8 Abbildung 8.1: Schematischer Aufbau eines künstlichen Neurons Abbildung 8.2: Aufbau eines binären Neurons als einfaches Perceptron Abbildung 8.3: Das Problem der linearen Separierbarkeit Abbildung 8.4: Gescheiterte Versuche der Darstellung einer logischen XOR-Verknüp... Abbildung 8.5: Architektur eines Perceptron-Netzwerks mit zwei neuronalen Schich... Abbildung 8.6: Architektur von neuronalen Feed-Forward-Modellen Abbildung 8.7: Zwei aktive Neuronen i und j in einem Netzwerk Abbildung 8.8: Topologie eines neuronalen Netzes zum Lernen mit der Delta-Lernre... Abbildung 8.9: Adaption eines Gewichts wij für einen gegebenen Datensatz {x1 = 3... Abbildung 8.10: Aktivierungsfunktion (tanh) eines Neurons i der Ausgabeschicht
Abbildung 8.11: Sechs Neuronen mit jeweils zwei Eingängen in einem Competitive N... Abbildung 8.12: Vektordarstellung eines Competitive Network in einem zwei-dimens... Abbildung 8.13: Aufbau einer 6 · 6-SOM-Karte mit jeweils drei Eingängen. Jedes E... Abbildung 8.14: Gegenüberstellung von Kohonen-Karte und Merkmalsraum Abbildung 8.15: Entfaltung einer SOM-Karte mit 6 · 7 Neuronen auf einer 3dimens... Abbildung 8.16: Darstellung von drei Clustern C1, C2, C3 und Initialisierungspun... Abbildung 8.17: Visualisierung von Clustern auf einer SOM-Karte Abbildung 8.18: SOM-Karten zum optimalen Entwurf eines chemischen Prozesses Abbildung 8.19: Das Generalisierungsproblem anhand optimaler und nichtoptimaler ... Abbildung 8.20: Overfitting eines neuronalen Netzes mit 300 HiddenNeuronen (hel... Abbildung 8.21: Optimal gelerntes neuronales Netz mit sieben HiddenNeuronen (he... Abbildung 8.22: Aufteilung der Originaldaten in Lern- und Validierungsdaten
Kapitel 9 Abbildung 9.1: Ein Bild mit verschiedenen Farb-/Grauwerten (Grauwerte sind um de... Abbildung 9.2: Darstellung der Grauwerte und ihrer Ableitungen von einer Bildzei... Abbildung 9.3: Prinzip der Detektion waagerechter Kanten mit Faltungskernen der ... Abbildung 9.4: Anwendung eines modifizierten Sobel-Operators (KantenOperators) ... Abbildung 9.5: Von einem CNN selbst gelernte Faltungskerne [Hinton 2012]. Mit fr... Abbildung 9.6: Faltungsoperation eines Bildes mit einem vorher angelernten Faltu... Abbildung 9.7: Die KI von Google klassifiziert das Bild als Hund aus [labsix.com
Abbildung 9.8: Deep-Learning-Netze sind sich zu 99 Prozent sicher, in den Bilder... Abbildung 9.9: Der Google-Inception-v3-Classifier erkennt Bilder in einigen Posi...
Kapitel 10 Abbildung 10.1: Ein Algorithmus erzeugt aus Eingangsdaten Ausgangsdaten. Abbildung 10.2: Die Künstliche Intelligenz beherrscht die mathematische (algorit...
Kapitel 11 Abbildung 11.1: Die Zerlegung eines Schachspiels in eine Baumstruktur Abbildung 11.2: MIN-MAX-Suche in einer Baumstruktur, modifiziert nach [Russell 2... Abbildung 11.3: Go-Spiel mit 19 * 19 Feldern (© Peter Hermes Furian stock.adob...
Kapitel 12 Abbildung 12.1: Entwicklungsphasen und Einführungsphasen der KI in der Industrie... Abbildung 12.2: Die Dichte der eingesetzten Industrieroboter weltweit [aus IFR.o... Abbildung 12.3: Zwei kognitive Roboter der Firma NEURA Robotics. Mit freundliche... Abbildung 12.4: Die vierte Industrielle Revolution Abbildung 12.5: So sieht ein RFID-Chip mit Antenne aus (Onidji stock.adobe.com... Abbildung 12.6: Dezentrale Produktion im Rahmen von Industrie 4.0 Abbildung 12.7: Testung von autonomen Lkws und automatisierten Bussen (Dieter Ho... Abbildung 12.8: Autonomes Fahren (Level 5) gibt es frühestens ab 2050 oder auch ... Abbildung 12.9: Abstimmung: Wen soll das selbstfahrende Auto opfern [aus MoralMa...
Kapitel 13 Abbildung 13.1: KI-Anwendungen des maschinellen Lernens sind Datenverarbeitungsv... Abbildung 13.2: Datenanalyse als wichtigste Teildisziplin der heutigen KI
Abbildung 13.3: Der Data-Mining-Prozess Abbildung 13.4: Prinzipschaltbild zum Lernen eines neuronalen Scharniermodells Abbildung 13.5: What-if-Analysen an einem Neuro-Scharniermodell, basierend auf e... Abbildung 13.6: Abhängigkeit zwischen Drehmoment und ausgewählter Einflussgröße ... Abbildung 13.7: Hardware-Architektur der neuronalen Scharniersteuerung Abbildung 13.8: Online-Steuerung eines Produktionsprozesses basierend auf nichtl... Abbildung 13.9: Vorhersage einer Dispergierzeit mittels eines neuronalen Netzes Abbildung 13.10: Darstellung einer Funktion y = f(x1, x2) mit unterschiedlich se... Abbildung 13.11: Schätzung eines neuronalen Netzes und Originalverlauf einer Dis... Abbildung 13.12: Verteilung der Kornfeinheit in der Grundgesamtheit Abbildung 13.13: Prozessregel zur Produktion kleiner Körner Abbildung 13.14: Prozessregel zur Produktion großer Körner Abbildung 13.15: Bestimmung der Bestrafungsterme für drei Prozessgrößen mit MATL... Abbildung 13.16: Polyoptimierung eines chemischen Prozesses mit neuronalen SOM-K... Abbildung 13.17: SAP-Benutzerschnittstelle zur Online-Analyse und Korrektur des ... Abbildung 13.18: Big Data – Anzahl der Suchanfragen, die Google weltweit pro Jah... Abbildung 13.19: Bestellung eines Glasrundschneiders bei einem OnlineAnbieter Abbildung 13.20: Die Online-Anbieter-KI hat sich verrechnet.
Kapitel 14 Abbildung 14.1: Benutzeroberfläche der maschinellen Lernen-Plattform KNIME. Mit ... Abbildung 14.2: Eine leicht bedienbare Demonstration von Googles TensorFlow Abbildung 14.3: Das Annotieren eines Helikopters mittels LabelMe
Abbildung 14.4: Das automatische Erkennen von elektronischen Bauelementen auf Le...
Kapitel 15 Abbildung 15.1: Elektrische Ableitungen vom Gehirn einer Probandin mittels EEG Abbildung 15.2: Auswertung von Hirnaktivitäten mittels fMRT-Methoden Abbildung 15.3: Das MRT-Aktivitätsmuster eines Probanden
Kapitel 16 Abbildung 16.1: Eine grüne Folie (im SW-Druck grau) Abbildung 16.2: Nervengeflecht in einem Gehirn (© Naeblys stock.adobe.com) Abbildung 16.3: Schematische Darstellung einer neuronalen Synapse Abbildung 16.4: Ableitung eines Aktionspotenzials mit EEG-Technik [eigene Grafik... Abbildung 16.5: Codierung der neuronalen Erregung in die Dichte der Aktionspoten... Abbildung 16.6: Die Synchronisation von Neuronen zu einem Ganzen Abbildung 16.7: Messung von neuronalen Zuständen mittels EEG Abbildung 16.8: Das Sehen einer grünen Folie und seine Weiterleitung ins Gehirn ... Abbildung 16.9: Eine Hypothese, Materie und Geist wechselwirken über quantenphys... Abbildung 16.10: Ein Auto mit diversen Sensorsystemen (Blue Planet Studio - stoc...
Kapitel 17 Abbildung 17.1: Klassifikation und Evolution der KI Abbildung 17.2: Kommt die Singularität? – Eher nicht, diese Grafik ist falsch. Abbildung 17.3: Deep Learning muss wahrscheinlich durch das Tal der Tränen. Abbildung 17.4: Die Evolution der Schwachen KI Abbildung 17.6: Rückkopplungsschleifen zwischen dem System und seinen Teilen
Kapitel 18 Abbildung 18.1: Ein moderner Bedienroboter in einem Steakhouse. Mit freundlicher...
Abbildung 18.2: Vermessung des Menschen und Bewegungsanalyse ein...
Einführung Künstliche Intelligenz (künftig vereinfacht auch KI genannt) wird heutzutage überall diskutiert. Es ist ein Thema, das die Menschen bewegt, denn intelligent sein, das wollen wir doch alle. Und nun sollen selbst die Maschinen intelligent sein oder zumindest bald intelligent werden. Wie soll das gehen? Wieso können Maschinen auf einmal intelligent sein und sogar selbstständig lernen? Und wieso gewinnen Maschinen sogar im Schach oder im Go gegen die besten Spieler der Welt? Ist das dann bereits intelligent? Sie werden erstaunt sein, dass fast jeder, auch jeder Fachmann, darauf eine andere Antwort hat. Das liegt daran, dass es sehr viele Erklärungen für Intelligenz gibt, doch leider keine eindeutige Definition. Natürlich ist man erst einmal enttäuscht, wenn man bemerkt, dass in einem solch bedeutenden Fachgebiet mit Begriffen operiert wird, die nicht exakt geklärt sind und die keine eindeutigen Abgrenzungen besitzen. Aber der Mensch ist sehr flexibel. Mit unscharfen und nicht korrekt definierten Begriffen kann er ganze Weltgebäude aufbauen. Er kann das, weil er wahrlich intelligent ist. Ob dazu auch eine Maschine fähig sein kann? Was also ist maschinelle oder künstliche Intelligenz? Dies werden wir gleich zu Beginn des Buches klären oder zumindest uns auf einige Arbeitsbegriffe einigen. Aber unabhängig von allen Definitionen, eines ist uns intuitiv klar: Intelligenz ist das Gegenteil von Dummheit und Dummheit bedeutet, aus Wahrnehmungen nicht die richtigen Schlüsse zu ziehen. Dies bedeutet jedoch im Umkehrschluss, mit Intelligenz kann man aus Wahrnehmungen, in der Maschinensprache »Daten« und »Speicherinhalten«, die richtigen Schlussfolgerungen ableiten. So einleuchtend diese Erklärung auch erscheinen mag, so erweist sie sich bei näherem Hinsehen doch als äußerst problematisch, denn dazu müsste man stets wissen, was richtige Schlüsse wären. Leider weiß man das aber oft nicht, oder noch schlimmer: Es gibt manchmal gar keine objektive Wahrheit. Selbst in der klaren und rationalen Mathematik gibt es tatsächlich Aussagen, deren Wahrheitsgehalt nicht prüfbar ist. Damit werden wir uns auseinandersetzen müssen, denn es könnte zu
Überraschungen führen, wenn man bedenkt, dass die Künstliche Intelligenz zurzeit noch voll und ganz auf Mathematik setzt. Viele Menschen meiner Generation (in ihren 50ern) sind zumindest früher sorglos mit Computern umgegangen. Wir wussten, dass die Computer einige Dinge besser können als ein Mensch, doch damit hatten wir kein Problem. Uns war klar, dass ein Bagger viel besser Erde ausheben kann als ein Mensch, doch niemand fühlt sich von einem Bagger in seinem Menschsein bedroht und auch nicht von seinem Taschenrechner. Wir wussten rein intuitiv, dass wir klüger, und zwar viel klüger sind als unsere coolsten Rechner. Denn wir haben eine Eigenschaft, die uns von all diesen Maschinen unterscheidet, oder vorsichtiger ausgedrückt, bisher unterschied. Wir Menschen können lernen! Unsere Intelligenz hat also etwas mit der Fähigkeit zum Lernen zu tun. Doch seit einigen Jahren sind viele Menschen irritiert und überrascht, denn es ist klar geworden, auch ein technisches KI-System kann lernen. Es kann Regeln lernen, Wissen generieren und dies alles vollautomatisch. Aber das ist noch nicht alles. Man kann davon ausgehen und sogar beweisen, dass KI-Systeme mittlerweile (fast) alles lernen können, was lernbar ist. Lesen Sie diesen Satz ruhig zweimal, denn durch diese Fähigkeit dringen die KI-Systeme weit in unser Leben vor. Sie rücken uns ziemlich dicht auf die Pelle. Manche von uns denken und glauben daher, die KI könne uns im Intellekt bald einholen oder gar überholen. Man nennt diesen Punkt Singularität, also jenen einmaligen Punkt in der Geschichte der Menschheit, an dem sich ein künstlich geschaffenes System ohne unser Zutun weiterentwickeln könnte, klüger und klüger und klüger wird … und letztlich seinen Schöpfer überholt. Das klingt gar nicht mehr so nett. Was kommt da auf uns zu? Es ist wirklich an der Zeit, sich die KI näher anzusehen. In diesem Sinne wünsche ich Ihnen viel Spaß und Neugier beim Lesen!
Über dieses Buch
Das Buch besteht aus mehreren Teilen. Die Teile bauen zwar aufeinander auf, aber man kann sie auch einzeln lesen. Jeder Teil besteht aus mehreren Kapiteln, diese beziehen sich aufeinander, sollten also in dieser Reihenfolge gelesen werden. Da die KI in der Fachsprache sehr mathematisch ist, kommen auch wir nicht umhin, einige Zusammenhänge mathematisch zu beschreiben. Das ist immer auch der erste Schock, wenn Studenten eine Einführung zur Künstlichen Intelligenz hören. Ich hoffe, Sie sind jedoch nicht erschrocken. Ich habe mich bemüht, die Mathematik in »Mathe-Boxen« zu verstecken; diese sind für Fachleute und Studenten geschrieben. Der mathematisch nicht interessierte Leser kann diese Boxen getrost auslassen und versteht dennoch alle weiteren Texte. Das Buch soll Ihnen als Nachschlagewerk dienen. Ich habe daher versucht, überall dort, wo es irgendwie möglich war, Online-Quellen zu zitieren (zum Beispiel auch Wikipedia), damit Sie sofort weiter recherchieren können, ohne sich mühsam neue Bücher zum Thema zu besorgen. Betrachten Sie das Buch als ordnende Hand und Struktur, wenn Sie sich zum weiteren Studium der KI durch das große weite Netz arbeiten wollen. Allerdings sollten Sie auf weitergehende Literatur nicht verzichten. Eines der besten deutschsprachigen Bücher zum Thema KI mit Schwerpunkt Problemlösen, Planen und Schließen ist das Buch »Künstliche Intelligenz« von Stuart Russell und Peter Norvig aus dem Jahre 2012 [Russell 2012]. In dem vorliegenden für Dummies-Buch wird der Schwerpunkt jedoch auf die heute ganz besonders favorisierte Seite der KI, auf das sogenannte maschinelle Lernen, gelegt, da man heute unter Künstlicher Intelligenz fast nur noch die Fähigkeit zum maschinellen Lernen versteht. Damit Sie eine realistische Einschätzung der »aktuellen KI-Szene« erhalten, werde ich in diesem Buch aber auch intensiv über die jetzt schon sichtbaren Grenzen des maschinellen Lernens berichten. Neben Lehr- und Fachbüchern zu KI gibt es hervorragende Sachbücher. Ein solches Sachbuch ist das Buch »Künstliche Intelligenz« von Manuela Lenzen [Lenzen 2018]. Ein anderes KI-Sachbuch ist
»Allgemeinbildung Künstliche Intelligenz« aus dem Wiley-Verlag [Otte 2021a]. Dort habe ich versucht, die Künstliche Intelligenz (ohne Formeln) einer allgemeinen Leserschaft nahezubringen. Und für Programmierfreunde: Ein praktisch orientiertes Buch über ein wichtiges Thema der KI stellt das Buch »Neuronale Netze programmieren mit Python« von [Steinwendner 2020] dar. Dies sei den informatikaffinen Lesern empfohlen, da mein KI-Buch keine Programmierhinweise gibt. Das vorliegende Buch ist – wie bei der für Dummies-Reihe üblich – als Grundlagenbuch konzipiert, um sich in das Gebiet einzuarbeiten. Erfahrene für Dummies-Leser wissen, es kann auch anspruchsvoll werden, und einige Themen in diesem Buch sind tatsächlich anspruchsvoll und mathematisch geworden. Was das Buch eventuell von anderen Fachbüchern unterscheidet, ist, dass ich an vielen Stellen persönliche Einwürfe einbringe. Ich hoffe, das stört Sie nicht. So wie in der Vorlesung und den Seminaren auch, beziehe ich Stellung zu vielen Kernaussagen der KI und vertrete meine persönliche Meinung. Der Grund ist, dass viele KI-Verfahren noch voll und ganz in den Bereich der Forschung und Entwicklung einzustufen sind. Das Buch geht deshalb an zahlreichen Stellen auf solche Forschungsfragen ein und damit über die übliche Beschreibung der KI hinaus. Beispiele dafür sind die Abschnitte über Bewusstsein und »Bewusstsein auf Maschinen« ab Kapitel 15. In jenen Kapiteln vertrete ich auch eigene Forschungspositionen, werde Ihnen aber auch gegensätzliche Meinungen aufzeigen, damit Sie sich ein besseres Bild machen können. Wer sich näher für solche Themen interessiert, dem sei eventuell das Buch »Maschinenbewusstsein« aus dem Campus-Verlag empfohlen [Otte 2021b]. Dort gebe ich einen umfangreicheren Einblick zu diesen Fragen als hier möglich. Viele Themen der KI – so die mathematischen Grundlagen – sind Stand der Technik und werden an Universitäten und Hochschulen gelehrt. Diese Grundlagen werden in dem hier vorliegenden Buch vorgestellt, doch selbst hier gilt: Zahlreiche Anwendungsfragen obliegen erneut den persönlichen Ansichten der KI-Entwickler. Ein Paradebeispiel für eine solche persönliche Sichtweise bietet das »vollautonome Fahren«. Trotz
der großen Euphorie und all den Ankündigungen der Konzerne seit 2015 glaube ich beispielsweise überhaupt nicht daran, dass vollautonome Roboterautos in den nächsten Jahrzehnten auf unseren Straßen fahren werden. Auch heute - beim Überarbeiten des Buches zur zweiten Auflage - gilt meine Skepsis gegenüber dem autonomen Fahren. Aber das ist eine rein persönliche Meinung, die ich in dem betreffenden Kapitel dann einbringe und natürlich auch erkläre. Sie müssen sie nicht teilen, denn niemand weiß, was die Zukunft bringen wird, der Autor ganz gewiss auch nicht. Allerdings habe ich bemerkt, dass ich die Studenten mit vielen solchen Denkanstößen zum eigenen Nachdenken anregen kann. Es würde mich daher freuen, wenn mir das bei meinen Lesern auch gelingt. Denn eins ist klar: Die weiteren Entwicklungen und vor allem Anwendungen der KI können und dürfen wir nicht nur den Experten und Konzernen überlassen.
Wie dieses Buch aufgebaut ist Das Buch besteht aus fünf Teilen, die wiederum in zahlreiche Kapitel unterteilt sind. Man kann – wie bereits erwähnt – alle Teile separat lesen, eventuell muss man das eine oder andere Mal zurückblättern, wenn ein Thema der vorherigen Teile nochmals aufgegriffen wird.
Teil I: Ganz schön clever Der Teil I führt in das Fachgebiet der Künstlichen Intelligenz ein. Die Begriffe werden – wo es möglich ist – definiert und es folgt ein historischer Überblick. Natürlich müssen wir uns hier auch mit den Grundfragen der Künstlichen Intelligenz auseinandersetzen und wir werden klären, ob es Zwischenstufen zwischen den Positionen intelligent und nicht-intelligent geben könnte. Dabei werden wir uns auch die Begriffe »Daten«, »Information« und »Wissen« genauer ansehen, da diese Begriffe heute oftmals völlig wahllos miteinander vermischt werden. All das wollen wir in diesem Teil ordnen, denn schließlich leben wir in einer Informationsgesellschaft und wollen verstehen, was »Information« eigentlich ist.
Abschließend in Teil I wird es bereits fachlich, denn es wird auf »Logik« eingegangen. Mathematische Logik hat viele Jahrzehnte die gesamte KISzene beherrscht und letztlich den Grundstein der heutigen KIEntwicklungen gelegt.
Teil II: Wie lernt und denkt eine Maschine heute Heutzutage konzentrieren wir uns in der KI nicht mehr nur auf Logik. Der Zeitgeist hat sich gewandelt. Jeden Tag werden wir von neuen Erkenntnissen überrascht. Wir lesen beispielsweise in unserer Morgenzeitung, dass man herausgefunden hat, dass die tägliche Einnahme von Himbeerjoghurt das Krebsrisiko um 15,38 Prozent verringern kann. Solche und viele ähnliche Meldungen erreichen uns täglich. All dieses Wissen – falls es überhaupt welches ist – wurde nicht mit den Mitteln der in Teil I erklärten Logik erzeugt, es ist nicht deduktiv entstanden. Nein, der Zeitgeist hat sich auf sogenannte induktive Methoden des Wissenserwerbs fokussiert. Kurzum: Statistik ist die Methode der Wahl zur Wissensentdeckung geworden. Aus diesem Grund müssen wir uns wichtige statistische Methoden genauer ansehen. Letztlich baut nahezu die gesamte heutige KI auf statistischen Methoden des maschinellen Lernens auf, daher werden wichtige Vertreter, wie Regelgenerierung, Clusterverfahren oder Künstliche Neuronale Netze, in diesem Teil genauer erklärt. Es ist wichtig zu verstehen, wie die Menschheit heutzutage ihr Wissen erzeugt und welche Risiken wir damit eingehen. Es sind enorme Risiken. Natürlich werden wir uns im Rahmen des maschinellen Lernens auch der heutigen Königsdisziplin der KI, dem Deep Learning, zuwenden.
Teil III: Eine bunte Umsetzung von Künstlicher Intelligenz, denn alle Theorie ist grau Hier lesen Sie spannende und wichtige Anwendungen der KI. Davor gibt es aber nochmals eine detaillierte Diskussion darüber, ob die Künstliche Intelligenz letztlich nur Mathematik ist oder doch mehr. Dieses Verständnis brauchen wir, wenn wir an Anwendungen in der
Gesellschaft denken und erkennen wollen, was prinzipiell machbar ist und was nicht. Danach schauen wir uns Meilensteine von KIAnwendungen an. Vor über 25 Jahren hatte die KI bereits den Schachweltmeister Garri Kasparow besiegt, im März 2016 gewann die KI im Go gegen den Weltranglistenersten Lee Sedol. Wir wollen verstehen, wie die KI das genau bewerkstelligt hat. Natürlich werden wir in diesem Kapitel auch einige Industrieanwendungen besprechen – beispielgebend sozusagen –, denn Sie sollen sehen und später selber einschätzen können, was mit Methoden der KI in der Industrie alles möglich ist, insbesondere, wenn man an Industrie 4.0 (wird noch erklärt) denkt. In diesem Teil werde ich auch verstärkt auf das Thema Data Mining eingehen, denn Data Mining ist maschinelles Lernen par excellence. Dieses Modewort der 90er-Jahre hat sich bereits in der Industrie etabliert und es gibt Tausende von Fallbeispielen, wie man KI-Verfahren zur Auswertung von Daten benutzen kann. In diesem Sinne wird auch das Thema Big Data aufgegriffen, denn Big Data betrifft uns alle, denken Sie an Facebook & Co. Abschließend werde ich in einer knappen Kurzvorstellung auf einige KIWerkzeuge und Plattformen eingehen, damit Sie mit KI unmittelbar starten können. Falls Sie nicht glauben, dass jedermann das kann, dann blättern Sie gleich durch das Kapitel. Sehr viele hervorragende KIWerkzeuge sind kostenlos erhältlich. Es macht große Freude, damit zu experimentieren.
Teil IV: Ist die Maschine bald klüger als der Mensch und fühlt sie sich wenigstens gut dabei Dieser Teil führt uns von den heutigen State-of-the-Art-Anwendungen wieder weg. Wir wollen sehen, worin der Unterschied zwischen dem menschlichen Geist und der KI eigentlich besteht und ob man jemals den menschlichen Geist maschinell nachbauen können wird. Wir werden dazu verhältnismäßig tief ins Gehirn schauen, um dem Geist auf die Spur zu kommen. In diesem Teil werde ich unter anderem meine eigenen Forschungen zum »Künstlichen Bewusstsein« erläutern. Eine
ausführliche Beschreibung dazu befindet sich im bereits erwähnten Buch »Maschinenbewusstsein«. Um sich schneller zu derartigen Fragen zu informieren, könnte man sich auch den Podcast »In der heutigen KI ist kein Geist« vom KIT Karlsruhe anhören. Das KIT hat 2021 ein Projekt zum »Künstlichen Bewusstsein« gestartet und verschiedene Forscher so auch den Autor - um Stellungnahmen gebeten und diese veröffentlicht [Otte 2021c]. In weiteren Abschnitten des Kapitels versuchen wir, in die Zukunft der KI zu blicken. Neuromorphe Computer und neuronale Netze auf Quantencomputern sind sicherlich die nächste Etappe, der nächste große Hype. Wir wollen in diesen Kapiteln diskutieren, was die Zukunft bringen könnte. Abschließen werde ich den Teil mit einer Diskussion über Ethik. Wir werden uns fragen: Dürfen wir eigentlich alles bauen, was wir bauen können? Diesem Thema müssen wir Fachleute uns stellen, aber mit diesem Thema muss sich die gesamte Gesellschaft auseinandersetzen, auch wenn Sie – falls Sie bis dahin gelesen haben – bereits wissen, dass sich die Singularität der KI noch sehr, sehr lange Zeit lassen wird. Falls Sie Politiker sind und über Gesetze zur KI zu entscheiden haben, zum Beispiel zur Rechtslage beim autonomen Fahren, ist der Teil IV wahrscheinlich der wichtigste.
Teil V: Der Top-Ten-Teil In diesem Teil werden – ganz in der Tradition der für Dummies-Reihe – zehn wertvolle Tipps zum Thema KI gegeben. Dort nenne ich auch wichtige Webseiten, die Sie im Netz finden können. Und es gibt eine Literaturliste.
Symbole, die in diesem Buch verwendet werden Hier finden Sie zusätzliche Tipps, die den Haupttext erklären.
An dieser Stelle werden konkrete Beispiele durchgerechnet. Wichtige Definitionen finden Sie in dieser Box. Aufpassen! Spezielle Formeln und mathematische Zusammenhänge für den mathematisch Interessierten. Zusammenfassung wichtiger Inhalte in kurzer Merkform.
Was nun? Jetzt haben Sie es bereits vom Inhaltsverzeichnis über die Einführung bis hierher geschafft. Es würde mich freuen, wenn ich Ihr Interesse wecken konnte und wenn Sie nun Lust und Zeit haben, umzublättern, um mit Teil I fortzufahren. Vielleicht wird dieses für Dummies-Buch sogar Ihr Wegbegleiter für die nächsten Tage, vielleicht sogar ein guter Freund? Ich freue mich jedenfalls erneut über jedes Feedback zu diesem BuchExperiment, der Verlag besteht in dieser Reihe auf einer einfachen und doch klaren Sprache. Teilen Sie mir mit, ob es mir gelungen ist, was Ihnen gefallen hat und was nicht. Ich bin für jeden Verbesserungsvorschlag dankbar. Dem obigen Wunsch aus der ersten Auflage haben, wie bereits erwähnt, eine Vielzahl von Lesern entsprochen und mir zahlreiche Mails geschrieben. Durch diese Hinweise konnte das Buch für meine neuen Leser weiter verbessert werden. Gerne schreiben Sie mir wieder an [email protected].
Teil I
Ganz schön clever
IN DIESEM TEIL … Erfahren Sie die Grundlagen der Künstlichen Intelligenz Tauchen Sie ein in eine kurze Geschichte der KI Lesen Sie das Wichtigste zu Daten, Informationen und Wissen Es wird bereits fachlich: Erleben Sie, wie logisch ein Computer arbeiten kann
Kapitel 1
Einführung in die Thematik IN DIESEM KAPITEL Begriffsbestimmung der Künstlichen Intelligenz Starke und Schwache KI Kennenlernen verschiedener Intelligenzstufen
»Künstliche Intelligenz« – dieser Begriff ist heutzutage in aller Munde. Aber was soll das eigentlich sein? Intelligenz? Und jetzt auch noch künstlich. Für die meisten von uns ist KI – wenn auch interessant – ein Buch mit sieben Siegeln. Wir wissen ja nicht einmal, was Intelligenz ist, und jetzt soll sie sogar nachgebildet werden. Wie, worauf? Nun gut, Letzteres wissen wir. Künstlich meint auf jeden Fall technisch. Wir wollen Intelligenz auf technischen Geräten nachbilden. Überall erscheinen Roboter in den Zeitschriften oder Blockbustern. Sogar unsere frühere Bundeskanzlerin reichte nahezu auf jeder Hannover-Messe einem Roboter zur Begrüßung die Hand. Ob sie wusste, wer oder was ihr Gegenüber war? Würde unser jetziger Bundeskanzler einem Kühlschrank die Hand geben? Oder dem Getriebe seines Autos? Die sind doch auch schon »intelligent«. Oder etwa nicht? Das werden wir klären müssen. Halten wir den Begriff »technisch« aber schon mal fest. Man könnte Intelligenz ja eventuell auch chemisch oder biologisch konstruieren oder wie auch immer, aber all dies ist nicht Inhalt des Buches. Uns geht es tatsächlich darum, Intelligenz auf technischen Geräten zu simulieren oder nachzubauen. Das ist ein bescheidener und vielversprechender Ansatz.
Wann betrachten wir das Verhalten eines Menschen als intelligent? Nun, wie in der Einführung besprochen, wenn er auf Reize aus der Umwelt adäquat, also angemessen reagiert. Und sollte er einmal unangemessen reagieren, sich zum Beispiel unnötig in Gefahr begeben, so erwarten wir, dass der Mensch daraus lernt. Wenn zum Beispiel jemand beim Anblick eines Tigers im Fernsehen aus dem Fenster springen will, so ist das nicht angemessen. Wir würden ihm Paranoia oder irgendeine andere Störung attestieren. Wenn jemand beim Diebstahl erwischt wird (eine weitere unangemessene Verhaltensweise auf das zu verlockende Warenangebot der Händler), seinen Fehler aber später erkennt und dies nie wieder macht, würden wir das getrost als intelligent akzeptieren. Der- oder diejenige hat etwas gelernt. Unser ganzes Leben werden wir mit Reizen aus der Umgebung konfrontiert und bis ins hohe Alter müssen wir lernen, adäquat, also intelligent darauf zu reagieren.
Was ist Intelligenz? Die Definition von Intelligenz ist deshalb schwierig, weil wir es selber sind, die einer Person, einem Tier oder eben einer Maschine die Eigenschaft der Intelligenz zuschreiben. Intelligenz ist eben keine objektiv messbare Eigenschaft wie das Gewicht eines Objekts. Wir legen mit unserer Anschauung selber fest, was wir unter der Eigenschaft »Intelligenz« verstehen wollen, und müssen uns deshalb – da sehr viele alternative Auffassungen existieren – auf einen Kompromiss verständigen: Alle Wissenschaftler sind sich (wahrscheinlich) darin einig, dass Intelligenz etwas mit (logischem) Denken zu tun hat. Dies führt zwangsläufig zum Begriff der »Angemessenheit«, denn, da unsere Welt nach (logischen) Gesetzen funktioniert, muss ein System, das in der Welt agieren soll, angemessen logisch denken können. Intelligenz wird deshalb als eine Fähigkeit – als Summe und Ergebnis von Denk- und Wahrnehmungsprozessen – verstanden, hinreichend angemessen auf Umgebungseinflüsse zu reagieren. So möchte ich Intelligenz auch in diesem Buch verstehen.
Vorläufige Definition Intelligenz ist die Summe von Denk- und Wahrnehmungsprozessen eines Objekts oder Subjekts, um auf Umgebungseinflüsse »angemessen« zu reagieren. Am Ende des Buches werden wir sehen, dass technische Objekte nicht wahrnehmen können, sodass man lieber von Signalverarbeitungsprozessen sprechen sollte.
Intelligenz messen Diese eher qualitative Aussage zur Intelligenz ist natürlich nicht befriedigend. Daher sind wir bestrebt, Intelligenz zu quantifizieren, zum Beispiel durch IQ-Tests. Viele von uns haben derartige Tests schon absolviert. Und doch ahnen wir, dass dies nicht alles sein kann. Wir können heute eine Art mathematisch-logischer Intelligenz quantifizieren und der wissenschaftlichen Analyse zugänglich machen. Im Durchschnitt hat ein Erwachsener in Europa einen IQ von 100. Aber es gibt auch Erwachsene mit IQs von kleiner 70 und welche mit IQs von größer 160. Letztere hat der Autor persönlich kennengelernt und mit ihrer Hilfe komplizierte mathematische Probleme lösen dürfen. Aber mathematische Intelligenz ist natürlich nicht alles. Wir sollten mit sogenannter emotionaler Intelligenz auch auf soziale Reize angemessen reagieren können. Und wer Karriere machen möchte, sollte die sozialen Regeln dafür kennen. Wirklich Hochbegabte finden sich meistens nicht in den Vorstandsetagen dieser Welt. Man muss kein Mathe-Genie sein, um einen Konzern zu leiten, man muss auch kein Physik-Genie sein, um ein Land zu führen. Doch ganz ohne Intelligenz geht das auch nicht, aber dafür benötigt man eine andere Art von Intelligenz, die man eher politische Intelligenz nennen könnte. Man kann sich jedoch schwerlich irgendein System als intelligent vorstellen, wenn es nicht logisch denken kann. Der IQ-Test ist zwar umstritten, denn er prüft nur eine bestimmte Art der Intelligenz ab. Aber genau diese Art der Intelligenz ist es, die heute hoch bewertet wird und
die, das ist für uns interessant, automatisiert werden kann. Ich versuche es mal anders: Nur eine gewisse Art des menschlichen Denkens kann mechanisiert werden. Der Begriff mechanisiert wurde gerade bewusst gewählt, weil man sich ein riesengroßes Getriebe vorstellen könnte, das viele Aufgaben des mechanischen Denkens nachvollzieht. Zum Beispiel, dass ein Mensch zwei Zahlen addieren oder dass ein Mensch logische Abfolgen durchführen soll. All das lässt sich auch durch ein komplexes Gewerk von Zahnrädern realisieren. (Mechanische Rechner dieser Art gab es in den 40er-Jahren des 20. Jahrhunderts.) Natürlich wird heute niemand mehr Zahnräder verwenden, denn seit der Erfindung des Computers haben wir eine Universalmaschine, um algorithmische Abläufe zu automatisieren. Wenn wir also »geistige Tätigkeiten« wie die Addition zweier Zahlen automatisieren wollen, wird niemand mehr ein mechanisches System für diese Aufgabe entwickeln. Wir benutzen einen Taschenrechner, bei dem dieser Algorithmus bereits vorverdrahtet in den Schaltkreisen hinterlegt ist, oder wir setzen uns an unsere Universalmaschine und tippen »3 + 4 = ?«. Die Lösung dieser Aufgabe durch die elektronische Maschine ist eine einfache Form der Intelligenz, eine, die uns, aber auch die Maschine sicher von den meisten Tieren unterscheidet. Das sollte einen aber nicht überheblich werden lassen, denn man kann getrost davon ausgehen, dass es auch Intelligenzformen gibt, die nicht mechanisiert werden können. Künstliche Intelligenz meint natürlich auch nicht, dass wir ein System bauen, das Zahlen addieren kann; dies gibt es bereits schon. Etwas viel Größeres, viel Mächtigeres soll konstruiert werden. Aber was?
Gibt es nicht die eine richtige Antwort? Wir müssen uns trotz unserer ersten Definition noch ein bisschen mit dieser Frage auseinandersetzen. Wir wissen bereits, dass es keine eindeutige Antwort auf die Frage nach Intelligenz gibt. Begriffe beschreiben ja nicht nur die objektive Welt, sondern legen die Welt (für uns) auch fest. Begriffe sind damit der Filter, mit dem wir – und später unsere Kinder – die Welt sehen oder besser: sehen sollen. Es ist immer ein Kampf der Experten um die Deutungshoheit, also darüber, wie wir die Welt zu sehen haben.
Natürlich ist es nachteilig, wenn sich die KI-Experten nicht auf eine Definition einigen können, so wie in anderen Wissenschaften. Die Mathematik und die klassischen Naturwissenschaften wären ohne klare Definitionen überhaupt nicht entwickelbar gewesen. Jeder weiß aus der Schule, was eine natürliche Zahl ist oder eine reelle Zahl; jeder weiß, was ein organisches Molekül ist oder ein Atom. Oder doch nicht? Wenn man genauer hinschaut, erkennt man, dass sich selbst in den klassischen Disziplinen Gewissheiten auflösen. Was ist ein Elektron? Das ist nicht mehr ganz klar, auch nicht für den Fachmann. Trotzdem wurde eine ganze Fachdisziplin, die Elektrotechnik, darauf aufgebaut, eine Disziplin, die unser aller Leben verändert hat. Ohne Strom und Nachrichtentechnik gäbe es unsere Zivilisation in der heutigen Form nicht. Wir müssen trotzdem nicht wirklich verstehen, was ein Elektron ist. Wir haben es per Definition zu einer Punktladung gemacht und darauf aufbauend eine Theorie, die Feldtheorie, entwickelt. So darf man sicher auch in der Fachdisziplin der Künstlichen Intelligenz vorgehen: die Einigung auf eine Menge von Eigenschaften intelligenter Systeme. Schauen wir zu den Forschern. Einig sind sich die Forscher, dass Intelligenz etwas mit Gedächtnis zu tun hat, man muss also Fakten im Kopf haben beziehungsweise Informationen oder Wissen. Als Zweites geht es darum, diese Fakten (dieses Wissen) miteinander zu assoziieren, damit daraus neue Fakten (neues Wissen) entstehen. Konkret geht es hierbei also um die Fähigkeit des logischen Schlussfolgerns und die Fähigkeit, aus Fakten neue Regeln (neues Wissen) zu generieren, und es geht natürlich auch um die Geschwindigkeit dieser Prozesse. Psychologen zählen weiterhin dazu die Fähigkeiten der Konzentration, Abstraktion, Merkfähigkeit oder Anpassungsfähigkeit. Aber letztlich hilft uns das nicht weiter, denn es scheint, als ob man unendlich viele Merkmale von Intelligenz finden kann. Versuchen wir daher nicht eine Erklärung mit maximalen Eigenschaften, sondern bewusst eine mit minimalen. Wann finden wir, dass ein Objekt oder Subjekt intelligent ist? In der Box ein neuer Antwortversuch:
Erklärungen zur Intelligenz (1) Intelligenz niederer Stufe besitzt ein System, wenn es adäquat (angemessen) auf Reize seiner Umgebung reagieren kann, und zwar derart, dass das System entweder einen Vorteil, aber zumindest keinen gravierenden Nachteil aus der Interaktion mit der Umgebung zieht. Intelligenz höherer Ordnung besitzt ein System, wenn es im Fall einer nichtadäquaten Reizantwort seine Reaktion selbstständig so nachjustieren kann, dass es bei einer erneuten Interaktion mit der Umgebung adäquat reagiert.
Der letzte Punkt bedeutet also, dass das System selbstständig lernen können muss, aber genau das haben wir bereits im Einführungsteil gefordert. Nicht umsonst heißt es heutzutage, lebenslanges Lernen sei notwendig. Warum ist Lernen so wichtig? Weil wir mit einem rudimentären Modell über die Welt geboren werden. Dieses Modell lässt uns Mutter und Vater erkennen, nach Nahrung schreien und »süß aussehen«. Aber mit diesem Modell werden wir nicht weit kommen. Bereits im Kleinkindalter gilt es daher, ein Modell von der Umgebung aufzubauen, ein internes ReizReaktions-Schema zu entwickeln und permanent zu testen. Viele Tiere können das. Alle Menschen können das. Und dieses Lernen hört nie auf.
Das gehört auch noch dazu Aber die obige Beschreibung schließt erneut nur einen Teil von Intelligenz ein, denn das Lernen aus Reizen (Umgebungsdaten) ist, wie wir später sehen werden, zwar ein wichtiger, aber nicht der einzige Weg, um neues Wissen, neue Modelle über die Umgebung aufzubauen. Ein anderer Weg wäre zum Beispiel Nachdenken. Dies ist teilweise aus der Mode gekommen, ist aber tatsächlich ein möglicher Weg, um sein Wissen über die Welt zu erhöhen und später seine Fehlerquote bei der Interaktion mit der Welt zu minimieren. Wir sprechen bei diesem Teil über einen sogenannten deduktiven Wissenserwerb. Hier wird das Wissen nicht aus Reizen und einer Korrektur von Soll-und-Ist-Verhalten erworben, sondern man hat durch tiefes Nachdenken (nennen wir es
ruhig Deep Thinking) ein neues Modell der Umgebung aufgebaut, um angemessen auf Umgebungsreize zu reagieren. Die Idee, deduktive Modelle der Welt zu bauen, ist eine Methode, die für viele Anwendungen gut geeignet ist. Man muss an ein Axiom glauben (leider ja, das geht nicht anders), zum Beispiel, die Welt sei aus kleinen Atomen aufgebaut und kann dann durch folgerichtiges Schlussfolgern zu neuen Aussagen über die Welt kommen. Diese Aussagen sind, da aus den Axiomen folgerichtig abgeleitet, im Allgemeinen richtig. Will man beispielsweise wissen, ob man eine Information von Amerika nach Europa drahtlos übertragen kann, eine Idee von Hertz, Tesla und Marconi um circa 1900, so benötigt man Annahmen (Axiome) und eine Menge folgerichtiger Ableitungen, bis man ein technisches Konzept erdacht hat (zum Beispiel einen Radiosender). Das deduktive Konzept, das tiefe Nachdenken, war bei den Griechen sehr populär, heute ist jedoch induktives »tiefes Lernen« (Deep Learning) die Methode der Wahl zur Wissensgenerierung geworden. Es ist unser moderner Zeitgeist, der Wissen aus Daten automatisch generieren will. Es gilt daher, später auch die Risiken und Chancen, die sich aus diesem Ansatz ergeben, zu verstehen. Wenn man über KI berichtet, muss man also über Deep Learning, Machine Learning, Data Science, Data Mining und Big Data berichten.
Erklärungen zur Intelligenz (2) Wir erweitern unser Konzept von Intelligenz: Intelligenz bedeutet das Schaffen eines inneren Modells der Umgebung, um auf Reize der Umgebung adäquat zu reagieren und bei beobachteten Fehlern das eigene Modell über die Umgebung selbstständig so anzupassen, dass beim nächsten Mal eine adäquate Reaktion erfolgen kann.
Anmerkungen: Mit dieser Einschätzung zu Intelligenz muss man auch Tieren eine Intelligenz zusprechen, denn ihr inneres, »hart verdrahtetes« Modell von der Welt erzeugt durch Auslese die richtigen Instinkte, letztlich ein adäquates Reiz-Reaktions-Schema. Natürlich ist das Verhalten der Tiere deutlich differenzierter zu sehen, zahlreiche Tiere sind zu intelligentem Verhalten – auch nach unserem Maßstab – in der
Lage. Da vielen Tieren jedoch die Möglichkeit fehlt, ihr Modell von der Außenwelt beliebig zu ändern, ist ihre Intelligenz natürlich beschränkt. Aber das kann für Menschen auch gelten, insbesondere dann, wenn man mit einem Modell sehr lange erfolgreich war, es dann aber irgendwann nicht mehr der veränderten Umwelt entspricht. Genau deshalb kommt es oftmals zu großen Umbrüchen in der Wissenschaft, weil auch hochkarätige Fachleute ein inneres Modell ihres Fachgebietes besitzen können, das die Umwelt nicht mehr adäquat abbildet. Wer sich einmal damit beschäftigt hat, wie es Kopernikus gelang, gegen das damals vorherrschende Modell des ptolemäischen Weltbilds vorzugehen, kann nur noch staunen über dieses Genie. Hier war wahrlich große Intelligenz im Spiel, denn Kopernikus, ein Astronom und Theologe, musste gegen sein eigenes Weltmodell ankämpfen und gegen äußere Widerstände sowieso. Und obwohl sehr viele Messdaten vorlagen, war das neue Weltbild keineswegs statistisch entworfen. Es war in einer Meisterleistung von Deduktion (logischem Schlussfolgern) und Induktion (Lernen aus Daten) abgleitet worden. Falls wir mal wieder hören, etwas müsse richtig sein, weil 99% aller Fachleute dieser Meinung seien, dann denken wir an Kopernikus. Einer gegen alle, und der eine hatte auch noch recht.
Codierte Intelligenz Ein Softwareprogramm kann nach dieser »Definition« natürlich bereits intelligent sein, denn man kann sich ein Programm vorstellen, das auf Eingangsdaten vernünftig (also adäquat) reagiert. Diese Intelligenz nennen wir codiert, und die meisten Programme funktionieren heute so. Die Intelligenz der Software ist natürlich durch einen Programmierer in das Programm hineinprogrammiert. Durch seine verschiedenen Befehle, Schleifen und If-then-else-Verzweigungen kann ein ziemlich intelligentes Verhalten simuliert werden. Und dennoch zählen wir ein solches Programm nicht zur KI, denn gerade das selbstständige Verändern eines »inneren Programms« gelte als Kernkompetenz intelligenter Systeme. Dies muss auch ein technisches System gewährleisten können. Wie bereits betont, selbstständiger Erwerb von Wissen, das heißt, der selbstständige Aufbau eines Modells der Welt gilt heute als das technische Kriterium für Intelligenz.
Schwache KI Es geht bei der aktuellen KI also darum, a) Maschinen zu bauen, die aus Daten selbstständig lernen können (»Machine Learning«) und b) aus gegebenen Axiomen durch Anwendung von Logik neue Daten/Modelle zu erzeugen (»Machine Thinking«). Künstliche Intelligenz der Gegenwart hat sich aufgemacht, diese beiden Intelligenzformen technisch nachzubauen und zur Kognitiven Intelligenz zu vereinen. Man nennt diesen Zweig der KI Schwache KI. Von dieser KI sind wir heute bereits allseits umgeben, und diese KI wird in diesem Buch hauptsächlich beschrieben. Man muss jedoch aufpassen, dass man bei dieser »elitären« Definition nicht alle Kreaturen als »dumme« Objekte betrachtet, die das Kriterium des selbstständigen Lernens nicht erfüllen können. Zahlreiche Tiere mit ihren fest verdrahteten Instinkten haben zwar auch ein Modell der Welt (zum Beispiel ein Regenwurm oder ein Fisch), aber sie können es nicht ständig nachjustieren. Aber diese Tiere haben etwas ganz anderes. Sie haben Gefühle und sie haben ein Bewusstsein, wie auch immer das geartet sein mag. Und ihre inneren Modelle können hochgradig komplex sein. Wenn man sich vorstellt, zu welcher Bilderkennung eine Fliege in Echtzeit fähig sein muss, um in einem Raum umherzufliegen, ohne ständig mit irgendetwas zu kollidieren, erkennt man, dass wir heute mit keiner Technik so weit sind, dieses nachzubilden. Fliegen mögen nicht die Fähigkeit haben, ihre biologischen Modelle nachzujustieren, so wie unsere technische KI, aber ihre impliziten Modelle übersteigen trotzdem jedes technische Modell, das wir bis heute gebaut haben. Biologische Intelligenz spielt in einer ganz anderen Liga.
Starke KI Auf der anderen Seite vergeht kaum eine Woche, bei der nicht ein Autor oder Filmemacher ein Werk auf den Markt bringt, in dem aufgezeigt wird, dass Computer nicht nur intelligent sein können, sondern dass sie auch einen eigenen Willen bekommen werden und ein eigenes Selbstbewusstsein. Und die Computer sollen auch Gefühle haben, zum
Beispiel, »den Menschen nicht zu mögen und ihn deshalb vernichten zu wollen«. Eine KI, die das technisch zu leisten vermag, heißt in Fachkreisen Starke KI. Auf diesen Punkt gehe ich in späteren Kapiteln näher ein. An dieser Stelle sei jedoch bereits betont, dass dies alles sehr schöne (oder schlechte) Science-Fiction ist, aber nichts mit der Wirklichkeit zu tun hat. Niemand hat bis heute auf der Welt ein System gebaut, das auch nur ansatzweise (nachweislich) ein Bewusstsein besitzt, geschweige denn ein Selbstbewusstsein. Heutige KI hat keinen eigenen Willen, keinen Geist, keine Emotionen. Gleich zu Beginn sei deshalb bemerkt: Starke KI gibt es heute und in naher Zukunft nicht, auch wenn sich viele Medienfachleute anders dazu äußern mögen. Es gibt nicht einmal eine Theorie dazu, wie man eine Starke KI erzeugen könnte. Selbstverständlich gibt es Meinungen und Hypothesen, aber es gibt noch keinen Beweis, der aufzeigt, wie man mit der heutigen Technik ein System bauen kann, das Bewusstsein entfalten kann. Aber wir Menschen haben eines. Mit dem Bewusstsein sehen wir die Bilder der Außenwelt, wir hören Töne, wir erleben Gerüche. Die Wissenschaft bezeichnet diese Phänomene als Qualia. Qualia bedeutet also das innere Erleben eines Menschen, zum Beispiel das subjektive Erlebnis einer Farbe oder eines Schmerzes oder Liebe oder Trauer. Der Begriff wird später genauer erklärt (Kapitel 16). Noch brauchen wir keine Qualia und die Maschinen haben auch keine.
Kann eine KI ein Bewusstsein entwickeln? Viele KI-Forscher hoffen nun, wenn die KI-Systeme komplizierter werden, dass dann irgendwie Bewusstsein entstehen könnte. Die Idee folgt aus der Annahme, im menschlichen Gehirn habe es auch irgendwie funktioniert. Ich persönlich halte das jedoch für ausgeschlossen, da man auch nicht einfach organische Moleküle in ein Wasserglas geben und umrühren kann, sodass dann irgendwie Leben entsteht. Das funktioniert nicht. Um dieser Position sichtbar Rechnung zu tragen, spreche ich oftmals von KI-Geräten, um hervorzuheben, dass diese zwar
intelligentes Verhalten an den Tag legen, aber kein Bewusstsein besitzen. Es sind und bleiben Geräte. Der gesamte Teil IV wird das im Detail weiter ausführen. Allerdings möchte ich bereits hier betonen, dass es möglich sein könnte, in den nächsten Jahren eine KI mit rudimentärem Bewusstsein zu erzeugen, jedoch nicht mit den klassischen Computern. Ich komme in Kapitel 16 und 17 darauf zurück und möchte an dieser Stelle nochmals auf das Buch »Maschinenbewusstsein« verweisen [Otte 2021b].
Was wollen wir uns merken? Schwache KI ist der Versuch, menschliche Intelligenz auf (technischen) Maschinen zu simulieren, um sie für den Menschen gewinnbringend und nutzbringend einzusetzen. Diese Art von KI ist bereits sehr erfolgreich und wir stehen bei ihrer Nutzung trotzdem erst am Anfang.. Starke KI ist ein Konstrukt, das heute in keiner Weise realistisch ist. Ängste gegenüber einer Starken KI sind nicht angebracht. Es ist mit heutigen technologischen Mitteln eventuell möglich, prototypische Maschinen mit Bewusstsein zu entwickeln, aber dennoch wird es Jahrzehnte oder gar Jahrhunderte dauern, bis eine KI entsteht, die Bewusstsein und Willen, ähnlich dem des Menschen, besitzt. Ich möchte anmerken, dass bereits die Schwache KI zu gravierenden Umwälzungen in der Gesellschaft führen wird. Eine KI ohne begleitende Ethiküberlegungen einzuführen, wäre daher fahrlässig. Diese Technologie ist geeignet, genauso wie vormals die Dampfmaschine, später die Elektrizität und wieder später die Informationstechnologie, eine grundlegende technische Revolution auszulösen. Es lohnt sich daher, genau zu erkennen, wie die KI funktioniert, was sie kann und was sie nicht kann.
Doch bevor wir uns das ansehen, schauen wir mal, wie sich die KI überhaupt so weit entwickeln konnte.
Kapitel 2
Eine kurze Geschichte der intelligenten Maschinen IN DIESEM KAPITEL Die Geschichte der KI von den Anfängen bis heute
Der Traum von autonomen Maschinen ist eigentlich schon uralt. Bereits vor 2000 Jahren schrieb Heron von Alexandria das Buch der Maschinen (»Automata«). Darin beschrieb er unter anderem Tempeltüren, die sich selbstständig öffnen konnten. Von Leonardo da Vinci (1452–1519) wurden bereits im Mittelalter »Roboter« konstruiert, die ihre Arme bewegten, sich aufsetzten und ihren Kopf drehten. Im 18. Jahrhundert wurde das Interesse der Bevölkerung an Automaten immer größer, sodass immer mehr Modelle konstruiert wurden, wobei sich allerdings viele als Fälschung herausstellten. Bekannt ist der »Schachtürke« (ein fiktiver Schachroboter, hinter dem aber ein Mensch steckte) von Wolfgang von Kempelen zur Mitte des 18. Jahrhunderts. Aber die Entwicklung der autonomen Maschinen wurde immer besser. Berühmt geworden ist de Vaucanson (1709–1782) mit seinem flötenspielenden Schäfer. Dieser Schäfer war ein Automat, der mit Zahnrädern, Uhrwerken und Blasebälgen betrieben wurde. Er erntete großes Aufsehen, als er 1738 vorgestellt wurde. Schon immer wollte der Mensch Maschinen bauen, die sich autonom bewegen und den Menschen simulieren konnten. Davon geht eine ungeahnte Faszination aus. Natürlich war damals jedermann klar, dass alles nur Nachahmungen von menschlichen Fähigkeiten sind. Man konnte den Unterschied zwischen Mensch und Maschine schließlich mit eigenen Augen sehen.
Autonom vs. intelligent Aus diesem Erfinderdrang entstanden automatische Musikinstrumente, Uhrwerke, Webstühle und Spinnmaschinen. All diese Maschinen waren zwar teilweise vollautonom, aber wir würden heute nicht davon sprechen, dass sie intelligent waren, denn sie konnten nur die ihnen zugewiesenen Handlungen ausführen, und auch dies mehr schlecht als recht. Und trotzdem zeigten uns diese Maschinen den Weg zur Automatisierung, die heute in die sogenannte 4. Industrielle Revolution mündet. Was all den Maschinen natürlich fehlte, war eine Fähigkeit zum Lernen. Während zu Beginn der Entwicklung bestimmte menschliche Handlungen automatisiert werden sollten, so entstand recht bald das Bestreben, auch bestimmte Denkvorgänge des Menschen zu simulieren. Seit dem 16. Jahrhundert tauchten immer wieder solche Legenden und Geschichten auf. Ein Homunculus (künstliches Menschlein) oder ein Schachautomat wurde da bereits angedacht, auch an Monstern wie Frankenstein fehlte es nicht. Natürlich gab es damals noch keine Möglichkeiten, diese Ideen und Visionen von intelligentem Verhalten umzusetzen.
Denken mit Mathematik formalisieren Es gab ein handwerkliches Problem. Wie sollte man all die verschiedenen Denkarten bei den verschiedenen Aufgaben formal behandeln? Die Menschheit hatte einfach noch kein mathematisches Gerüst, Denken zu formalisieren. Dies änderte sich erst durch das Auftreten großer Philosophen und Mathematiker wie Boole, Leibnitz oder Hilbert. Boole entwickelte 1847 eine nach ihm benannte Algebra, mit der logische Operationen formal zu behandeln waren. Er führte logische Operationen wie UND, ODER, NICHT ein, mit denen man sehr komplexe logische Sachverhalte formal aufschreiben konnte. Logik war damit nicht mehr nur via Sprache ausdrückbar, sondern mittels
neuartiger Gleichungen. Durch Genies wie Frege und Hilbert wurde dies weiterentwickelt. Im Jahre 1900 stellte der Göttinger Mathematikprofessor David Hilbert auf dem internationalen Mathematiker-Kongress in Paris sein Ziel vor, die gesamte Mathematik zu formalisieren. Das klingt für den Laien verwunderlich, denn was ist nicht bereits formaler als die Mathematik selbst. Aber die großen Mathematiker der damaligen Zeit suchten nach einer formalen Sprache, um die Mathematik selbst zu beschreiben. Und sie waren der Meinung, dass jedes (mathematische) Problem grundsätzlich gelöst werden kann. Doch dann kam der Österreicher Kurt Gödel. Er bewies in seinem sogenannten Unvollständigkeitstheorem, dass ein mathematisches System mit der Komplexität der Arithmetik der natürlichen Zahlen nicht gleichzeitig korrekt und vollständig sein kann. Gödel zeigte der Mathematik bereits zu Beginn der 1930er-Jahre also ihre prinzipiellen Grenzen auf. Das hat Auswirkungen auf die KI von heute.
Der Universalcomputer Aber mit »Gödels Todesstoß« für formale Systeme endete die Entwicklung algorithmischer Systeme nicht. Im selben Jahrzehnt entwickelte Alan Turing, der maßgeblichen Anteil an den Arbeiten zur Decodierung der Enigma (eine Maschine zur Verschlüsselung von Nachrichten im Zweiten Weltkrieg) hatte, ein Modell, das später TuringMaschine benannt wurde. Turing bewies damit, dass ein universeller Computer gebaut werden kann. Die technische Geburtsstunde der Computer nahte. Im Jahre 1941 schuf der Deutsche Konrad Zuse mit seiner Z3 eine Maschine, die Turing-mächtig war. Diese Maschine ist als erster Universalcomputer der Welt anzusehen. Auf der anderen Seite des Atlantiks ging die Entwicklung ebenso schnell voran. Während Zuse noch elektromechanische Relais verwendete, wurde 1944 in den USA die Mark 1 fertiggestellt, die erste Maschine, die rein elektronisch arbeitete. Damit war endlich der »Universalbehälter« gebaut, den man brauchte, um in ihm auch geistige Denkprozesse ablaufen zu lassen. Nun gab es formale Beschreibungen für die Logik und gleichzeitig eine Maschine, auf der diese Sprachen implementierbar waren. Natürlich
haben die damaligen Maschinen nicht mehr viel mit den heutigen gemeinsam, die Rechengeschwindigkeit der Z1 und später Z3 lag beispielsweise bei 1 Hz und später etwas mehr, das heißt ein Rechenzyklus pro Sekunde. Heute sind es zum Beispiel 3 GHz = 3.000.000.000 Hz; das ist doch schon etwas schneller. Trotzdem, die Universalcomputer waren geboren und der Siegeszug des Computers war nicht mehr aufzuhalten, wenn auch der damalige IBM-Chef Thomas Watson 1943 geschätzt haben soll, dass der Weltbedarf an Computern bei circa fünf Stück liegen würde. Er hat sich leicht verschätzt.
Die Geburtsstunde der Künstlichen Intelligenz Bereits wenige Jahre nach den ersten Computern kam es zur Geburtsstunde der Künstlichen Intelligenz. Im Jahr 1956 lud John McCarthy zahlreiche führende Forscher der Zeit nach Dartmouth in New Hampshire (USA) ein, um ein ganz neues, aber eigentlich doch schon sehr altes Thema zu erörtern, die Automatisierung von Intelligenz. Diese Konferenz legte den Grundstein für Forschungsaufgaben, die viele Bereiche im Ingenieurwesen, in der Mathematik, der Informatik oder der Psychologie beeinflussen sollten. Zu jenem Zeitpunkt wurde der Begriff Künstliche Intelligenz geboren (früher Kybernetik). Der Konferenz ging ein Forschungsauftrag an die Rockefeller-Stiftung voraus, in dem McCarthy und andere ihre Ideen zum Lernen, Zufall, Fehleranfälligkeit, Regelwerken und Möglichkeiten der technischen Umsetzung erörterten. Hier einige Auszüge (frei übersetzt), siehe [McCarthy 1955]. »Wir schlagen vor, dass im Sommer 1956 am Dartmouth College in Hanover, New Hampshire, eine zweimonatige 10-Mann-Studie über künstliche Intelligenz durchgeführt wird. Die Studie geht von der Vermutung aus, dass jeder Aspekt des Lernens oder jedes andere Merkmal der Intelligenz im Prinzip so genau beschreibbar ist, dass es in einer Maschine zur Simulation gemacht werden kann.«
Oder eine andere Textstelle: »Wahrscheinlich wird eine wirklich intelligente Maschine Tätigkeiten ausführen, die man am besten als Selbstvervollkommnung bezeichnen kann. Einige Programme dafür wurden vorgeschlagen und sind weiterer Untersuchungen wert. Es scheint wahrscheinlich, dass diese Frage auch abstrakt untersucht werden kann.« Weiter unten im Antrag wird es spannend: »Es ist nicht schwer, eine Maschine zu entwerfen, die die folgende Art des Lernens aufweist: Die Maschine ist mit Eingangs- und Ausgangskanälen und einem internen Mittel ausgestattet, um unterschiedliche Ausgangsreaktionen auf die Eingänge so bereitzustellen, dass die Maschine durch einen »Versuch und Irrtum«Prozess trainiert werden kann, um eine Reihe von Eingangs- und Ausgangsfunktionen zu erhalten.« Und es folgt: »Wenn man ein Programm für einen automatischen Rechner schreibt, stellt man der Maschine normalerweise ein Regelwerk zur Verfügung, das alle Eventualitäten abdeckt, die auftreten und die Maschine konfrontieren können. Man erwartet von der Maschine, dass sie diesem Regelwerk sklavisch folgt und keine Originalität oder gesunden Menschenverstand zeigt. Außerdem ärgert man sich nur über sich selbst, wenn die Maschine verwirrt wird, weil die Regeln, die man für die Maschine aufgestellt hat, leicht widersprüchlich sind. Schließlich, beim Schreiben von Programmen für Maschinen, muss man manchmal sehr mühsam an Probleme herangehen, während, wenn die Maschine nur ein wenig Intuition hätte oder vernünftige Vermutungen anstellen könnte, die Lösung des Problems sehr direkt sein würde.« Weiterhin schlagen die Autoren vor, in die Abarbeitung der Algorithmen Zufälligkeiten einzubauen, da auch der Mensch nicht rein algorithmisch vorgeht. Man war sich seinerzeit also bereits bewusst, dass auch im Gehirn Zufallsprozesse wirken. Auch hatte man schon lange erkannt, dass das Gehirn sehr fehlertolerant ist. Mit all diesen Themen wollte man sich während der beiden Sommermonate 1956 beschäftigen.
Vermutlich ist man dann in der Prognose doch etwas zu weit gegangen, hier ein Zitat von McCarthy aus dem Ende des Artikels: »Mein Ziel ist es, als Nächstes zu versuchen, ein Programm zu schreiben, um Probleme zu lösen, die Teil einer begrenzten Klasse von Problemen sind, nämlich diejenigen, die Originalität in ihrer Lösung erfordern. Es ist noch zu früh, um vorherzusagen, in welchem Stadium ich im nächsten Sommer sein werde, oder wie ich dann das unmittelbare Problem definieren werde. Das zugrunde liegende Problem, das in diesem Papier beschrieben wird, ist jedoch das, was ich zu verfolgen gedenke. In einem einzigen Satz lautet das Problem: Wie kann ich eine Maschine bauen, die bei der Lösung von Problemen Originalität zeigt?« Viel ist seitdem erreicht worden, aber den letzten Satz könnte man auch heute noch als Forschungsschwerpunkt festlegen. Und es gibt viele weitere Beispiele aus der damaligen Zeit, auch aus Deutschland. Hier mal ein recht unbekanntes Beispiel aus diesen Jahren: 1965 wurde von Carl Zeiss an der damaligen Technischen Hochschule Ilmenau eine Arbeitsgruppe zur Untersuchung der Möglichkeiten einer »Maschinellen Simulation Konstruktiver Tätigkeiten« finanziert. Der Gedanke, Maschinen sogar für schöpferische Aufgaben einzusetzen, entsprach bereits dem damaligen technischen Zeitgeist.
Wichtige Meilensteine der KI Man deutet heute diese beiden Sommermonate in New Hampshire als den Startpunkt der Künstlichen Intelligenz. Und die Anfangszeit war wie so oft von grenzenloser Euphorie geprägt. 1957 wurde prognostiziert, dass innerhalb der nächsten zehn Jahre ein Computer gebaut werden könne, der den Schachweltmeister besiegen würde. Und es wurde vorausgesagt, dass innerhalb der nächsten zehn Jahre ein Computer einen wichtigen mathematischen Beweis finden könnte. Beide Prognosen trafen nicht zu, sie traten allerdings verspätet ein. Dies ist wichtig zu erkennen, da man heute wieder Prognosen hört, dass bei der KI bald die technische Singularität eintritt. Solche Prognosen sind insofern problematisch, weil dadurch wichtige Ressourcen falsch zugeteilt werden könnten. Nehmen wir mal eine Prognose von heute.
Aktuelle KI-Systeme können einen IQ von über 50 erreichen; vor einiger Zeit war der Wert nur halb so hoch -wir Menschen haben übrigens einen mittleren IQ von 100. Manche Forscher sagen der KI bald einen IQ-Wert von über 10.000 voraus. Ist das aber realistisch? Nein. Dazu schauen Sie bitte in den Ausblick in Teil IV. Die nachfolgende Tabelle 2.1 zeigt wichtige Meilensteine bei der Entwicklung der Künstlichen Intelligenz. Die kursiven Fachbegriffe werden in den Folgekapiteln alle noch erklärt. Die großen Meilensteine der KI sind fett gedruckt. Die Entwicklung der künstlichen neuronalen Netze ist gesondert hervorgehoben, um sie in den zeitlichen Kontext einzuordnen. 1931
Der Unvollständigkeitssatz zur Prädikatenlogik 2. Stufe durch Kurt Gödel: »In einem formalen System bestimmter Komplexität gibt es Aussagen, die nicht bewiesen und nicht widerlegt werden können«.
1936
Turing-Maschine: Mathematischer Beweis für eine universelle Rechenmaschine durch A. Turing (ein Computer auf dem Papier).
1936
Die Church-Turing-These (nicht bewiesen, da prinzipiell nicht beweisbar wegen des Begriffs »intuitiv«): »Alles, was intuitiv berechenbar ist, ist auch auf einer Turing-Maschine berechenbar.« Obwohl die These nicht bewiesen werden kann, ist dem Autor kein Wissenschaftler bekannt, der diese infrage stellt.
1936
Es gibt Aussagen, die nicht algorithmisch entschieden werden können (zum Beispiel gibt es keinen Algorithmus, der feststellen kann, ob ein beliebiges Softwareprogramm auf einem Computer für beliebige Eingaben mit einem konkreten Ergebnis anhalten wird – das ist das sogenannte Halteproblem der Turing-Maschine).
1943
Künstliche Neuronale Netze (KNN): McCulloch und Pitts entwerfen ein binäres Neuron mit mehreren Eingängen und einem Ausgang und zeigen, dass eine Verschaltung von binären Neuronen einfache aussagenlogische Funktionen repräsentieren kann.
1949
KNN: D. Hebb führt die Hypothese ein, dass das Lernen im Gehirn auf die Wirkung einer Synapse mit prä- und postsynaptischer Aktivität zurückzuführen ist und dass sich die Wirkung vereinfacht als mathematisches Produkt darstellen lässt. Die Lernregel von D. Hebb gilt bis heute als Grundlage zahlreicher Lernverfahren.
1950
Der Turing-Test für Intelligenz
1956
Die Geburtsstunde der Künstlichen Intelligenz in den USA am Dartmouth College in New Hampshire
1958
KNN: Rosenblatt publiziert das sogenannte Perceptron-Modell, das als Grundlage der KNN gilt.
1961
KNN: Minsky et al. zeigen, dass die logische XOR-Regel nicht mit einem Perceptron modellierbar ist, ein Rückschlag des KNN-Ansatzes für kurze Zeit.
1958
Entwicklung von LISP, eine der ältesten Programmiersprachen und Nutzung der Sprache für Anwendungen der KI durch McCarthy
1960er Es wird klar: Simulation kognitiver Fähigkeiten des Menschen durch Computer ist möglich. 1960er Simulation von Intelligenz ist möglich: Beispiel: Weizenbaum realisiert den ersten Chatbot ELIZA zur Gesprächssimulation Psychotherapeut – Patient, Versuch der Entwicklung eines allgemeinen Problemlösers. 1960er KNN: Entwicklung lernender Systeme nach Vorbild des Gehirns 1967
Scheitern des General Problem Solvers und Beendigung seiner Weiterentwicklung
1960er Millioneninvestitionen für allgemeine Sprachübersetzer, dennoch Scheitern der bis meisten Projekte 1970er 1970er Die KI hält ihre großen Versprechungen nicht. Großer Fachstreit zur KI: Ist Denken an das Gehirn gebunden? Herbe Kritik Weizenbaums an die »Artificial Intelligentsia« wegen fehlgeleiteten technokratischen Denkens. 1974
KNN: Paul Werbos führt den Backpropagation-Algorithmus für mehrlagige neuronale Netze ein.
1975
Vorreiter der KI in Deutschland ist die Kybernetik. Erstes Treffen zu Künstlicher Intelligenz in Deutschland an der Universität Bonn, später in Dortmund: Etablierung der Fachgruppe »Künstliche Intelligenz« im Fachausschuss 6 »Digitale Verarbeitung kontinuierlicher Signale« der Gesellschaft für Informatik.
1975 bis 1985
Entwicklung zahlreicher KI-Expertensysteme für die Praxis. Beispiel: Expertensystem für Medizin: Unterstützung bei Blutinfektionskrankheiten.
1980
John Searles Gedankenexperiment des Chinesischen Zimmers zum Nachweis, dass Computer kein Bewusstsein erlangen müssen, auch wenn man es denkt (bis heute umstritten).
1980er Zweiter Anlauf der KNN: Anwendung des Backpropagation-Ansatzes als Grundlage zahlreicher KNN-Anwendungen weltweit. 1980er Intensive Nutzung von PROLOG in Japan in Konkurrenz zu LISP, im Rahmen des Japanischen Programms zur 5. Computergeneration. Prolog wurde bereits in den 1970er-Jahren von dem Franzosen A. Colmerauer entwickelt.
1982
KNN: Entwicklung der Kohonen-Netze durch Kohonen, Vorarbeiten unter anderem durch Christoph von der Malsburg (seit 1973).
Mitte Die Renaissance der neuronalen Netze ist im vollen Gange, scheitert aber 1980er erneut, da die Rechenleistung und vor allem die Datengrundlagen fehlen. 1989
Deutsches Forschungszentrum für Künstliche Intelligenz (DFKI) nimmt seine Arbeit auf.
1990er Entwurf der verteilten KI (durch Minsky), Entstehung der Multi-AgentenSysteme 1990er Zahlreiche industrielle KNN-Anwendungen entstehen, bleiben aber immer noch prototypisch. 1997
Deep Blue gewinnt im Schach gegen den damaligen Weltmeister Kasparov, allerdings wurden dazu keinen neuen KI-Techniken erfunden, sondern die bekannten Techniken wurden auf bisher ungeahnte Größe skaliert, man nennt das »brute force« (durch Rechenpower).
Ab 1997
Jährliche RoboCups und Entwicklung von Service-Robotern bis hin zu autonomen Robotern
2004
Dritter Anlauf der KNN: Entwicklung von Deep Learning-Verfahren und Durchbruch bei Praxisanwendungen.
2005
2005 hat Sebastian Thrun zusammen mit dem Stanford Racing Team die DARPA Grand Challenge gewonnen, wobei erstmals autonome Fahrzeuge eine Strecke von über 200 km durch die Wüste selbstständig absolvieren konnten.
Seit 2010
Der kommerzielle Durchbruch der KI beginnt.
2011
Ein weiterer Meilenstein: Sieg der IBM Watson-Maschine über einen Menschen in der Quiz-Show Jeopardy.
2011
Das System Siri wurde erstmals vorgestellt und gilt als Vorreiter der verschiedenen sprachgesteuerten Assistenzsysteme (Alexa, Cortana).
2012
Der Durchbruch von Deep Learning beginnt. Durchbruch neuronaler Faltungsnetze.
2014
Google stellt sein selbstfahrendes Auto Google Driverless Car erstmals einer Gruppe von Journalisten vor. Vorhersage: 2017 soll das Auto auf den Massenmarkt kommen. Alle enthusiastischen Vorhersagen zum autonomen Fahren stellen sich später als falsch heraus.
2014
Neuronale Turing-Maschine (Google Deep Learning). Deep Learning soll die Welt erobern.
2016
Googles AlphaGo gewinnt gegen den weltbesten Go-Spieler.
2016
Microsoft zieht den KI-Twitter-Account TAY zurück, nachdem der Chatbot
gesellschaftlich nicht akzeptable (sexistische, rassistische und beleidigende) Äußerungen von anderen Twitter-Nutzern gelernt und selbst verwendet hatte. 2017
KI gewinnt im Pokern.
2017
KI schreibt Rezensionen und malt Bilder.
2017
Boston Dynamics stellt ein neues Video zur aktuellen Entwicklung ihres humanoiden Roboters Atlas ins Internet.
2017
Die Vereinigten Arabischen Emirate (VAE) richten Ende 2017 als erstes Land der Welt ein »Ministerium für künstliche Intelligenz« ein.
2017
Europaparlament: Rechte für elektronische Personen werden diskutiert.
2018
Die Software-KI ist auf ihrem Zenit.
2020
AI goes hardware. Neuromorphe Computer und Quanten-KI werden (unbemerkt von der Öffentlichkeit) entwickelt und forciert.
2021
KI mit Künstlichem Bewusstsein wird vorstellbar (KIT Karlsruhe).
2022
Beginnende Ernüchterung über Software-KI, da sehr viele KI-Anwendungen nur extrem langsam vorankommen (Situation eventuell ähnlich wie in den 1990er-Jahren), Entlassungen bei Big Tech setzen ein.
2022
OpenAI veröffentlicht einen neuen Chatbot ChatGPT, der die Sprachkommunikation revolutionieren könnte.
Tabelle 2.1: Überblick über Meilensteine bei der Entwicklung der KI
Kapitel 3
Wie intelligent ist die Künstliche Intelligenz wirklich? IN DIESEM KAPITEL Lernen Sie verschiedene Intelligenzstufen kennen Welche Intelligenzstufe erreicht die KI heute Es geht um Chatbots Der Turing-Test und das Chinesische Zimmer
In diesem Kapitel kommen wir zu den Grundlagen. Wir haben nun bereits eine erste intuitive Vorstellung davon, was mit Künstlicher Intelligenz gemeint ist, jetzt wird es formaler. Intelligenz kann auf unterschiedlichen Ebenen und aus verschiedenen Sichtweisen heraus definiert werden, die ich im Rahmen des Buches zur Vereinfachung mit I1 bis I5 bezeichnen möchte: 1. Die angemessene Intelligenz – Adäquate Reaktion auf Reize der Umgebung (I1) 2. Die lernende Intelligenz – Selbstständiger Erwerb von neuem Wissen (I2) 3. Die kreative und kognitive Intelligenz – Wissensgeneration außerhalb formaler Induktion und Deduktion (I3) 4. Die bewusste Intelligenz – Bewusste Wahrnehmung (I4) 5. Die selbstbewusste Intelligenz – Bewusstes Verstehen des ICHKonzeptes (I5) Bewusste Überprüfung von angeeignetem Wissen (I5)
Fangen wir mit der primitivsten Form der Intelligenz, der bereits erwähnten Angemessenheit, an.
Die angemessene Intelligenz – Intelligenzstufe I1 Die Intelligenzstufe I1 beschreibt eine adäquate Reaktion auf Reize beziehungsweise in technischer Sprache, auf Daten der Umgebung. Reagiert ein System nicht adäquat (angemessen) auf Reize, so erfüllt es nicht die Mindestanforderungen, die wir an intelligente Systeme stellen. Springt eine Katze erschrocken vor einer grünen Gurke weg (was sie macht), halten wir das Tier für ziemlich dumm, jedenfalls in diesem Zusammenhang. Würde eine Katze jedoch auch nicht vor einem großen Hund wegrennen, wäre das auch nicht adäquat. Gleiches gilt für Menschen. Fasst ein Kind in eine Flamme, nennen wir das dumm, rennt es vor einer ungefährlichen Spinne weg, ist das auch nicht adäquat. Nur wenn wir ein Verhalten erkennen, das wir als adäquat bezeichnen würden, sprechen wir dem System eine Mindestintelligenz zu. Selbstverständlich gibt es unter uns Menschen auch einen Konsens für richtiges Reiz-Reaktion-Verhalten, so zum Beispiel das Wegrennen vor Feuer oder einem Tiger, Vorsicht beim Baden in unbekannten Gewässern, die allgemeine Vorsicht vor Unbekanntem. Auch wir Menschen haben zahlreiche richtige Reiz-Reaktions-Schemata von der Natur einprogrammiert bekommen, sonst hätten wir die ersten Jahrtausende gar nicht überlebt. Wir nennen solche Reiz-Reaktions-Schemata dann adäquat, wenn sie dem Subjekt nützlich sind, absolute Wahrheit ist hier nicht gefordert. Tiere, aber selbst Pflanzen und natürlich der Mensch haben derartige adäquate Reiz-Reaktion-Schemata. Alle Lebewesen erfüllen natürlich die Grundanforderungen an intelligente Systeme, sonst wären sie bereits ausgestorben. Doch schauen wir in die Technik! Auch dort gibt es I1-intelligente Systeme hier einige Beispiele:
Ein Antiblockiersystem, das bei zu starkem Bremsen das Blockieren der Räder verhindert, damit die Steuerbarkeit erhalten bleibt, ist intelligent. Eine Lageregelung im Flugzeug, die dafür sorgt, dass das Flugzeug immer in »guter« Position bleibt, ist intelligent. Eine Herdplatte, die sich selbst abschaltet, wenn die Temperatur erreicht ist, ist intelligent. Gleiches gilt für den Wasserkocher oder den Backofen. Ein DECT-Telefon, das sein Strahlungsfeld reduziert, wenn es nicht verwendet wird, ist intelligent. Selbst ein primitives Regelsystem, das das Überlaufen von Toilettenspülkästen verhindert (in älteren Toiletten noch üblich), ist intelligent, obwohl wir dort drinnen nur Schwimmer und Gestänge finden, von Elektronik keine Spur. Siehe Abbildung 3.1, die ich kurz erläutern möchte: Wenn der Ausfluss d(t) sich öffnet, fließt Wasser aus dem Behälter. Dadurch sinkt die Wasserhöhe y(t), wodurch sich der Hebelarm a-b nach rechts unten neigt. Dadurch öffnet sich das Einfüllventil u(t), wodurch Wasser in den Behälter einfließt und die Wasserhöhe y(t) wieder ansteigt. Das Regelsystem kann nun so gebaut werden, dass genau dann, wenn y(t) = w gilt, das Ventil u(t) wieder geschlossen wird. Der Regler garantiert dann, dass nach einem Wasserabfluss über d(t) nach einer gewissen Zeit die SollHöhe w im Becken wieder erreicht wird. Das ist ziemlich intelligent oder finden Sie nicht?
Abbildung 3.1: Grundstruktur eines Regelkreises zur Toilettenspülung
In der Technik nennen wir solche intelligenten Systeme übrigens Systeme der Steuerungs- und Regelungstechnik. Die Intelligenz der Stufe I1 bezeichnet eine einfache Grundintelligenz in dem Sinne, dass a) auf erwartbare Eingangsgrößenwerte adäquat reagiert wird, und zwar wiederholt korrekt (Steuerungstechnik) und dass b) das System auch auf unbekannte Eingangswerte und Störungen (in einem bestimmten Wertebereich) adäquat reagieren kann (Regelungstechnik).
Wo steckt die Intelligenz in den technischen Beispielen? Beginnen möchte ich die Erläuterung mit einer Steuerung (Abbildung 3.2).
Abbildung 3.2: Wirkschaltbild einer Steuerung
Stellen wir uns Folgendes vor: Das System bekommt Temperaturmessdaten von der Außenwelt über eine Messstrecke und es
besitzt ein Programm (HEIZUNG) mit einer internen Verzweigung, die von einem sehr intelligenten Informatiker programmiert wurde. Die Verzweigung im PROGRAMM sieht in etwa so aus: 1. WENN Außen-Temperatur > 23 Grad, DANN stelle über den Aktor das Heizungsventil im Zimmer 100 Prozent ZU 2. WENN Außen-Temperatur >= 15 Grad und WENN AußenTemperatur = -2 Grad und WENN Regel-Differenz +2 Grad Celsius (also zu kalt), DANN stelle über den Aktor das Heizungsventil im Zimmer AUF Abbildung 3.3 zeigt den Wirkkreislauf. Damit haben wir ein Regelsystem gebaut, das nun wirklich intelligent ist, denn der Regelkreis hält die Temperatur im Innenraum immer konstant, egal ob es schneit, regnet oder die Sonne scheint. Und man
muss im Voraus nicht einmal wissen, welche Störungen an der Prozessstrecke auftreten werden. Das Buch ist nun kein für Dummies-Buch über Regelungstechnik (dies gibt es übrigens bereits und es ist empfehlenswert), aber wir müssen trotzdem verstehen, wieso ein technisches System intelligent sein kann und trotzdem nicht zur KI gezählt wird. Es reicht eben nicht, auf eine Eingabe adäquat zu reagieren, um von uns als intelligent akzeptiert zu werden. Regler sind zwar intelligent, aber auf dieser Abstraktionsstufe ist bereits jedes Anti-Blockier-System (ABS) im Auto intelligent, jeder Thermostat im Kühlschrank, eigentlich jedes geregelte technische System, denn es wurde so konstruiert, dass es auf erwartbare Reize der Umgebung adäquat reagiert. Wir sind bereits heute von Hunderten oder Tausenden solcher Systeme umgeben, ein Auto der Oberklasse besitzt über 50 Controller zur Regelung und Steuerung von Fensterhebern, Scheibenwischern, Licht, Bremse, Kupplung, und, und, und. Aber wir zählen all diese Systeme im Allgemeinen nicht zur Künstlichen Intelligenz. Um ein System der Künstlichen Intelligenz zuzurechnen, muss es eine höhere Intelligenzstufe als I1 erreichen. Es muss nach unserer Einteilung selbstständig neues Wissen erwerben können. Allerdings ist auch diese Festlegung etwas unscharf zu sehen, denn mit einer derartig strengen Einteilung wäre Deep Blue (das Programm, das Kasparow 1997 in Schach geschlagen hat) kein KI-System, da es kein autonom lernendes System war. 1997 hat man das mit Sicherheit anders gesehen, denn immerhin wurde der Weltmeister Kasparow geschlagen. Heutzutage tendieren immer mehr KI-Fachleute jedoch zur Einschätzung, dass autonomes Lernen die Haupteigenschaft für KI-Systeme sein soll.
Die lernende Intelligenz – Intelligenzstufe I2 Subjekte oder Objekte, die in der Lage sind, selbstständig neues Wissen, also zum Beispiel neue Modelle, über die Umgebung zu generieren, nennen wir I2-intelligent.
Wir müssen aber auch hier wissen, dass es technische Systeme gibt, die auch das schon lange können. Sogenannte Adaptive Regler sind in der Lage, ihre Regelparameter den Umgebungsänderungen selbstständig anzupassen. Nimmt man oben genannte Verzweigung eines Reglers und will damit einen zehnmal größeren Raum regeln, merkt man schnell, dass dies nicht funktioniert. Die sogenannten Temperaturdynamiken des Raums sind anders geworden, weshalb man entweder früher oder länger heizen muss. Im Reglerentwurf kann man das berücksichtigen, doch noch intelligenter wäre es, wenn der Regler das alles selber könnte. Und so etwas gibt es. Aber auch diese adaptiven Regler rechnen wir immer noch nicht zu den KI-Systemen. Warum? Weil der Regelkreis sehr bescheiden ist und uns nicht andauernd erzählt, welches neue Wissen er gerade über den Raum gelernt hat. Nein, er verstellt still und heimlich (implizit) seine Regelparameter, seine Verzweigungspunkte in der Software und arbeitet mit diesem neuen Verzweigungsprogramm weiter. Dann prüft er auch noch, ob damit die Raumtemperatur einzuhalten ist, was er ja durch die Temperaturmessungen verstehen kann, und dann ändert er seine Regelparameter erneut. Diese Regler sind hochintelligent. Wir rechnen aber selbst adaptive und selbstoptimierende Regelkreise nicht zu den KI-Systemen, weil wir Menschen eine relativ »arrogante« Grundhaltung einnehmen. Zur KI zählen wir eher Systeme, die mit uns auch kommunizieren und die nicht einfach in den Niederungen der Technik verborgen sind. Systeme, die uns ihr Wissen auch noch sprachlich »mitteilen« (können), ordnen wir daher eher der KI zu, obwohl technische Regler oftmals »intelligenter« sind als die aktuellen Sprach-Maschinen. Der Begriff der Künstlichen Intelligenz ist als unscharfer Begriff anzusehen und die Grenzen sind fließend. Es gibt tatsächlich Regler, zum Beispiel sogenannte Fuzzy-Regler oder neuronale Regler, die man doch zu den KI-Systemen zählt. Seien wir hier, an der unteren Grenze unserer KI-Definition, also nicht »päpstlicher als der Papst«. Lassen wir also gelten, dass sprachverarbeitende Systeme, Expertensysteme, regelbasierte Systeme, automatische Beweissysteme und viele andere mehr zum Kern der KI gehören. Sie waren schließlich der Ausgangspunkt der KI. Bei genauem Hinsehen werden diese
Systeme natürlich auch zur Erzeugung neuen Wissens genutzt, und das ist die Mindestvoraussetzung für Systeme, die man heute zur KI zählt.
Vorläufige Definition für ein technisches KI-System In diesem Buch verstehen wir unter einem technischen KI-System ein System, das in der Lage ist, komplexes Wissen anzuwenden und zumindest teilautonom neues Wissen zu generieren.
Ein KI-System nach heutiger Maßgabe ist ein System der Intelligenzstufe I2, das in der Lage ist, selbstständig neues Wissen zu schaffen und dies gewinnbringend für seine eigene Interaktion mit der Umgebung einzusetzen.
Muss Wissen wahr sein? Welche Verfahren sind das, die neues Wissen generieren können? Bevor wir das behandeln, müssen wir natürlich erst einmal klären, was denn »Wissen« eigentlich sein soll. In Kapitel 4 gehen wir in die Tiefe, werden diskutieren, was Daten sind, was Information und was Wissen. Hier, am Buchanfang, soll es uns reichen, festzulegen, dass Wissen Informationen sind, die in einen Zusammenhang eingeordnet wurden und damit zur Entscheidungsfindung eines Systems beitragen. Wissen ist also in einen Kontext eingeordnete und vernetzte Information. Allerdings soll sich das Wissen dadurch auszeichnen, dass wir von einer Wahrheit oder wenigstens größtmöglicher Gültigkeit des Wissens ausgehen dürfen. Wissen ist also ein Sammelsurium von Fakten, Theorien und Regeln, die wahr sein sollten. Streng genommen hat man dann aber sehr wenig Wissen, denn woher wollen wir die wirkliche Wahrheit kennen, außer durch die relative Verankerung mit anderen, die sich jedoch ihrerseits mit uns verankern? Ich möchte diese Methode der Wissenschaffung als Erwerb von wahrem Wissen durch Konsensbildung bezeichnen, diese Konsenswahrheit kann jedoch immer nur relativ sein. Es gibt natürlich auch noch andere
Methoden, neues Wissen zu erzeugen. Wir könnten nach der wirklichen Wahrheit streben, der Äquivalenzwahrheit, also feststellen wollen, wie die objektive Realität nun wirklich ist, zum Beispiel durch ein empirisches Experiment. Kant und später die Quantenphysiker haben uns jedoch gelehrt, dass dies gar nicht möglich ist. Studenten werden nervös, wenn man ihnen nach der behüteten Schulzeit mitteilt, dass es so gut wie keine »wirklichen Wahrheiten« gibt. Wir können unseren Sensoren nicht immer trauen. Und auch nicht unseren Denkorganen. In vielen Fällen sind Experimente gar nicht möglich. Wir wissen nicht, ob der Urknall wirklich wahr ist, wir wissen auch nicht, ob wir nach dem Tode tot sind, wir wissen nicht, ob es Außerirdische gibt. Die Reihe ist endlos, unser Wissen von der Welt ist sehr beschränkt. Astrophysiker erklären uns gerade, dass wir nur vier Prozent der uns umgebenden »Materie« tatsächlich sehen oder vermessen können. Der Rest sei Dunkle Energie oder Dunkle Materie, was sehr an Aussagen vom JediMeister Yoda erinnert, also etwas, wovon wir sagen müssten: »Wir haben keine Ahnung.« Wir sagen das natürlich anders, aber der Fakt bleibt. Wenn ein Mensch in der Schule Wissen erwirbt, so passiert das meist dadurch, dass der Lehrer Fakten und Regeln nennt, die zum aktuellen Zeitpunkt als wahr gelten, zum Beispiel Grammatikregeln. Im Lernprozess gilt es nun, dieses Wissen aufzunehmen und mit eigenem Wissen zu verknüpfen. Ist es hinreichend gut verknüpft, sodass damit Entscheidungen gefällt werden können, die im Konsens mit dem Lehrer als wahr angesehen werden, dann hat der Schüler neues Wissen erlernt. Ob es auch in der Praxis tauglich ist, ob es sich also auch im Alltag als wahr und nützlich zeigt, wird man erst später bemerken. Dies führt natürlich zu grundsätzlichen Fragen, da es eben viele verschiedene Wahrheitskonzepte gibt und nur im Idealfall gelten alle.
Können Maschinen Wissen erzeugen? Wenn wir gar nicht genau wissen, was Wissen ist, wie können wir dann Systeme bauen, die selbstständig Wissen erzeugen? Natürlich können wir das, wie bereits beim Thema Intelligenz diskutiert. Der Mensch kann wunderbar mit unscharfen Begriffen arbeiten. Wir können mit
unscharfen, widersprüchlichen oder auch falschen Theorien über die Welt umgehen. Wir müssen nur akzeptieren, dass Wahrheit eine Konvention ist, und eine, die sich permanent verändert. Wäre es nicht so, gäbe es keine Wissenschaft. Diese schafft Wissen, neues Wissen, das alte Wissen war also falsch oder zumindest korrekturbedürftig. Und da kein Ende dieser Entwicklung abzusehen ist, ist bereits jetzt klar, dass alles, was wir heute über uns und die Natur und die Technik wissen, irgendwann mal relativiert wird. Aber sollten wir deshalb das Arbeiten beenden? Nein. Denn wir sind ein Bindeglied zwischen gestern und morgen. Wir schaffen das Wissen von heute, wohl wissend, dass es nicht wahr bleibt. Es wird auch erst dann kritisch, wenn wir die Relativität vergessen haben und auf veraltetem Wissen beharren. Wissen, das nur auf autoritäter Festlegung beruht, also auf reiner Machtwahrheit, ist dann natürlich riskant. Im Bereich der KI machen wir es uns jetzt einfacher, wir unterscheiden nicht zwischen den oben genannten Wahrheitskonzepten, also Wahrheit als Konsensbegriff (»wahr ist das, was die Mehrheit glaubt«), Wahrheit als Kongruenzbegriff (»wahr ist, was an bereits anerkannte Wahrheiten andocken kann«), Wahrheit als Äquivalenzbegriff (»wahr ist das, was mit der vorliegenden ›objektiven‹ Realität am besten übereinstimmt«) oder Wahrheit als Autoritätsbegriff (»wahr ist, was der Chef sagt«). Wir akzeptieren die Relativität der Wahrheit und akzeptieren in der Technik die Wahrheit als etwas, was für den »Wahrheitsträger« oder »Wahrheitsnutzer« einen Vorteil erzeugt. Mit diesem einfachen Wahrheitsverständnis können wir umgehen, denn wir definieren nun, dass Wissen vernetzte Informationen sind, die nützlich sind.
Erklärungen zum Wahrheitsbegriff – Wann ist Wissen in der KI wahr? Wenn ein System Wissen über seine Umwelt erzeugen kann, das ihm oder seinem Nutzer bei seiner Interaktion mit der Umwelt von Vorteil (das heißt nützlich) ist, dann ist das Wissen (semantisch) wahr.
Als »System« kann die KI als rein technisches System gemeint sein, es können aber auch die Eigentümer bzw. Nutzer der KI eingeschlossen sein. Wie man solches Wissen erschaffen kann, wurde bereits angesprochen, durch Denken (in der Fachsprache: Deduktion) und Lernen (in der Fachsprache: Induktion). Im Folgenden gehen wir ins Detail.
Deduktiver Wissenserwerb Bevor wir die deduktive Methode näher kennenlernen, gleich ein Beispiel aus dem Schulunterricht, das für uns alle sofort verständlich ist. Der Lehrer erklärt ein Gesetz, zum Beispiel, wie man zwei große Zahlen addiert, dann wenden wir das Gesetz, die Additionsregel, auf ein Beispiel an und erhalten eine neue Zahl. Und wir wissen, dass das Ergebnis richtig – in unserem Sinne also wahr – ist. Diese Methode der Wissenserzeugung hat den Charme, dass dann, wenn die Eingangsdaten stimmen (die Fakten) und die Regeln korrekt angewendet wurden (und damit auch stimmen), dass dann auch die Ausgangsdaten (die neuen Fakten) stimmen, eben wahr sind (Abbildung 3.4).
Abbildung 3.4: Erzeugung von neuem Wissen über die Welt
Schauen wir auf ein einfaches Beispiel zum deduktiven Wissenserwerb: Wahre Prämisse: »Sämmi« ist ein Goldfisch. Korrektes Regelwerk: Alle Fische können schwimmen. (WENN jemand ein Fisch ist, DANN kann jemand schwimmen.) Aus der korrekten Anwendung des Regelwerks der Logik folgen wahre, neue Fakten über die Welt: »Sämmi« kann schwimmen. Man erkennt an diesem Beispiel, dass es möglich ist, mit einer vorhandenen Regelbasis und bestehenden Fakten neue, wahre Fakten zu generieren. Diese Logikkette lässt sich natürlich sehr gut automatisieren und auf technischen Systemen nachbilden. Damit ist die Deduktion eine geeignete Methode, mit der ein Softwaresystem selbstständig wahre, neue Fakten über die Welt bilden kann. Man kann sich auch mathematisch neue Fakten schaffen, wie nachstehendes Beispiel zeigt: Regelbasis/korrektes Regelwerk Regel 1: Der Nachfolger einer Zahl n sei die Zahl n+1. Regel 2: Der Nachfolger einer geraden Zahl sei eine ungerade Zahl. Wahres Faktum (oftmals auch als Ursache bezeichnet), wahre Prämissen Die Zahl 8 ist eine gerade Zahl. Wahre Erkenntnis (oftmals auch als Wirkung bezeichnet) Ergebnis 1: Die Zahl 9 ist der Nachfolger der Zahl 8. Ergebnis 2: Die Zahl 9 ist eine ungerade Zahl. Wir haben soeben neues Wissen (über die Zahl 9) generiert. Diese Methode ist in seiner Ausbaustufe so clever, dass die KI-Forschung in den 1960er- und 1970er-Jahren intensiv damit experimentiert hat und leistungsfähige Expertensysteme entstanden sind.
Eventuell fragen Sie sich gerade, was an den Regelwerken so intelligent sein soll. Jeder weiß doch, dass die Zahl 9 der Nachfolger der Zahl 8 ist, und jeder weiß, dass die Zahl 9 eine ungerade Zahl ist. Das stimmt. Aber in der Praxis sind die Regelbasen viel größer. In einer chemischen Fabrik gibt es Regeln über Viskosität, Temperaturen und vielen anderen Parametern. Und der Computer kann unter Benutzung einer solchen Regelbasis selbstständig neue Fakten ausrechnen. Wir können auch neues Wissen über die Gesellschaft generieren. Abbildung 3.5 bringt ein Beispiel aus dem normalen Studentenalltag, gegeben sei folgende Regelbasis: Regel R1: WENN (#Person) viel Alkohol trinkt, DANN wird seine Leber belastet. Regel R2: WENN die Leber belastet ist, DANN bekommt (#Person) Kopfschmerzen.
Abbildung 3.5: Anwendung des deduktiven Wissenserwerbs an einem Beispiel
Die Notation (#Person) sei ein Platzhalter für eine konkrete Person. Gehen wir nun davon aus, dass die Regelbasis wahr ist (egal, ob sie durch Nachdenken oder empirische Studien aufgestellt wurde), so können wir einen deduktiven Wissenserwerb wie folgt anwenden: »Person = Klaus« hat viel Alkohol auf einer Junggesellenabschlussparty getrunken (Faktum = Ursache). Gibt man dieses Faktum in das Wissenssystem, so wird die Regel R1 aktiv und dann die Regel R2 und das Gesamtsystem kann selbstständig schlussfolgern: »Person = Klaus« bekommt Kopfschmerzen (neues Faktum). Eine Regelbasis R1, R2, R3, … kann auch verwendet werden, um neue Regeln Rx abzuleiten. Denken Sie an die Mathematik aus der Schulzeit. Jede korrekte Umformung von mathematischen Gleichungen führt wieder zu Ausdrücken, die wahr sind und die damit neues Wissen darstellen. Gegeben sind Regeln, gesucht ein neues Ergebnis: Regelbasis R1: 3x + 2y = 0 Anwendung von Umformungen gemäß gültiger Regeln der Mathematik Neues Ergebnis / neue Regel E1: y = −1,5 x Aus der bekannten Regel 3x + 2y = 0 kann durch mathematisch korrektes Schlussfolgern (Umformung) eine neue Regel generiert werden. WENN R1 wahr ist, DANN ist auch E1 wahr. Stellen Sie sich nun vor, dass die Umformungen nicht so trivial sind, sondern manchmal seitenlange mathematische Abhandlungen darstellen. Dadurch entstehen neue mathematische Sätze, die neues Wissen verkörpern. Der General Problem Solver, eine Software von Simon und Newell aus dem Jahre 1957, sollte auf dieser Basis neue mathematische Beweise liefern, neue Sätze entdecken und später eben automatisch Wissen über
die Welt ableiten. Die Idee ist bestechend, auch wenn sie letztlich nicht funktioniert hat.
Das Konzept des Schlussfolgerns Ist die Prämisse (Ursache) wahr und sind die (logischen) Ableitungen alle korrekt, dann muss das Ergebnis (Wirkung) wahr sein.
Warum sollte man sich damit nicht Tausende neue Wahrheiten erschließen können? Man kann es, dies ist eine enorme Stärke deduktiver KI-Verfahren. Aber der Ansatz ist leider nicht ausreichend. Warum? Der Grund ist komplex und wird noch erörtert. Hier sei nur kurz darauf verwiesen, dass sich nicht alles Wissen der Welt aus bekanntem Vorwissen (Prämissen) durch formale Regeln (Ableitungen) ableiten lässt. Dies klingt nach einer Erkenntnisgrenze für uns Menschen, aber rationale Erkenntnisse über die Welt sind tatsächlich oft nicht ausreichend. Versuchen Sie mal, die Eigenschaft einer Zelle, »lebendig zu sein«, aus den bekannten Regeln der organischen Chemie, angewandt auf ihre Molekülbestandteile, abzuleiten. Das wird schwierig. Bis heute ist es nämlich noch niemandem gelungen. Und die KI betrifft das auch selbst. Versuchen Sie mal, die Eigenschaft »Bewusstsein« aus den bekannten Regeln künstlicher intelligenter Systeme abzuleiten. Das wird schwierig. Auch hier: Bis heute ist es noch niemandem gelungen. Intelligente Systeme unserer Kategorie I2 können das jedenfalls nicht. Trotzdem halten wir erfreut fest: Neues Wissen über die Welt kann in Form von neuen Fakten und in Form von neuen Regeln vorliegen.
Abduktiver Wissenserwerb Die Abduktion erzeugt auch neue Fakten über die Welt, aber diese Fakten entstehen nicht durch Abarbeitung einer einfachen Kausalkette wie bei der Deduktion. Hier ist die Anwendung genau anderes herum. Man kommt mit einem Symptom zum Arzt und sucht nach der Ursache. Und Sie wären empört,
wenn Sie dem Arzt mitgeteilt hätten, dass Sie Kopfschmerzen plagen, und er dann schlussfolgert, dass Sie gestern auf einer Junggesellenabschlussparty waren und zu viel Alkohol getrunken haben. Nein, das waren Sie nicht und Sie haben trotzdem Kopfschmerzen. Diese Suche nach Ursachen für Symptome ist eine der schwierigsten Aufgaben in der KI, denn es gibt meist keine eindeutige Lösung. Während der Zusammenhang: Junggesellenparty → viel Alkohol → Leberüberlastung → Kopfschmerzen einer Kausalkette (von der Ursache, über die Regelbasis zur Wirkung) folgt (Abbildung 3.6), also einen eindeutigen Zusammenhang besitzt, so ist das umgekehrt nicht mehr der Fall. Der Arzt hat aber nun genau die Aufgabe, aus Symptomen, die Sie ihm schildern, die mögliche Ursache zu finden, also das neue Faktum. Sie werden verstehen, dass dies nicht immer einfach ist. Manchmal geht es gar nicht, wenn die Kausalkette überhaupt nicht in seinem Wissensschatz vorhanden ist. Kennt er alle Kausalketten für Kopfschmerzen, kann er eine nach der anderen ausschließen, bis er die richtige gefunden hat. Deshalb schickt Sie der Arzt möglicherweise auch zu weiteren Ausschlussdiagnosen. Er fängt bei der schlimmsten Möglichkeit an und arbeitet die Kausalketten dann Stück für Stück ab.
Abbildung 3.6: Mögliche Kausalketten zur Erzeugung von Kopfschmerzen
Auch ein KI-System kann diese Art des abduktiven Wissenserwerbs leisten. In der Technik gibt es schon seit Jahren automatische Diagnosesysteme. Stellen Sie sich vor, Ihr Auto meldet, dass der Motor zu heiß ist. Das ist das Faktum Wirkung. Was aber ist die Ursache? Ein Diagnosesystem muss und kann die Ursache schnellstmöglich finden, jedenfalls dann, wenn die Kausalketten grundsätzlich bekannt sind. Uns steht jedoch auch noch eine dritte Möglichkeit der automatisierbaren Wissenserzeugung zur Verfügung. Man kann neue Regeln aus reinen Fakten herleiten.
Induktiver Wissenserwerb Kommen wir zum induktiven Lernen. Dies ist eine Methode, um aus Einzelfällen (nennen wir sie auch Beobachtungsdaten) allgemeine Zusammenhänge abzuleiten. Wir leiten erste Regeln ab Gegeben sind vier Einzelfälle, die wir als wahr erkannt haben wollen: 1. Sabine ist eine Frau und Sabine ist ein Mensch. 2. Henriette ist eine Frau und Henriette ist ein Mensch. 3. Klaus ist ein Mann und Klaus ist ein Mensch. 4. Dieter ist ein Mann und Dieter ist ein Mensch. Ein induktives Regelsystem kann daraus folgende Regeln ableiten: R1: WENN jemand ein Mann oder eine Frau ist, DANN ist er/sie ein Mensch. Uns ist es gelungen, aus konkreten Beispielen allgemeine Regeln zu extrahieren. Genau das ist die induktive Methode. Man will, ausgehend von Einzelfällen, auf allgemein gültige Gesetze (Regeln) stoßen. Denn allgemeine Gesetze sind definitiv neues Wissen über die Welt.
Aber man muss aufpassen. Schauen wir uns folgende Faktenlage für ein Lernsystem an: 1. Sabine ist ein Mensch und Sabine kann schwimmen. 2. Henriette ist ein Mensch und Henriette kann schwimmen. 3. Klaus ist ein Mensch und Klaus kann schwimmen. 4. Dieter ist ein Mensch und Dieter kann schwimmen. Daraus kann ein induktives Lernsystem erneut generelle Regeln ableiten. R2: WENN jemand ein Mensch ist, DANN kann er schwimmen oder allgemeiner: Jeder Mensch kann schwimmen. Diese Regel R2 über die Welt ist augenscheinlich falsch. Man erkennt daran, dass es schwer sein kann, zu überprüfen, ob eine Regel allgemeingültig ist. Obwohl alle Beispiele oben positive Beispiele sind, wissen wir mit unserem gesunden Menschenverstand, dass die allgemeine Regel R2 nicht gilt. Induktive Lernergebnisse haben also immer nur statistischen Charakter, da man aus einem begrenzten Faktenvorrat (einer sogenannten Lerndatenmenge) allgemeingültige Regeln gewinnen will. Dies ist ohne Risiko nicht möglich. Man müsste alle Menschen befragen, erst dann würde man erkennen, ob die empirisch gefundene Regel allgemeingültig ist oder sich ein Gegenbeispiel findet. Aber meist ist es nicht möglich, alle Fakten einer Grundgesamtheit auszuwerten. Mit induktivem Lernen kommt also die Statistik ins Spiel, das ist ein ernsthaftes Problem.
Probleme der induktiven Methode Das Problem ist nicht die Induktion an sich. Wir alle kennen die vollständige Induktion aus dem Mathematikunterricht. In der Mathematik ist die Induktion durchaus uneingeschränkt korrekt. Aber in der KI wird die Induktionsmethode auf einem begrenzten Faktenvorrat angewandt. Der Philosoph Popper beispielsweise spricht der induktiven Methode daher generell die Kraft ab, allgemeingültige Aussagen zu erzeugen. Mit den induktiven Methoden können – laut Popper –
bestenfalls Heuristiken erzeugt werden, die durch den Menschen später überprüft werden müssen und erst dann zu allgemeingültigen Regeln werden können oder auch nicht. (Der Begriff Heuristik wird noch erklärt.) Wer jetzt denkt, das sei nicht schlimm, sieht den Ernst der Lage nicht. Denn, so ähnlich wie oben beschrieben, wird beispielsweise auch die Bonität von Personen bei Banken berechnet (natürlich etwas komplexer). Es gibt für jeden Bankkunden, sagen wir mal circa 200 Merkmale, zum Beispiel Name, Alter, Geschlecht, Beruf, Einkommen, Kinderanzahl und so weiter. Und es gibt einen Bonitätsscore für Kunden, die schon lange beispielsweise bei der Bank RICH sind. Die Bonität kann man aus zurückgezahlten Krediten et cetera berechnen, genau wie oben beschrieben. Dabei könnte aus vielleicht 500.000 Bankkunden folgende Regel der Bank RICH generiert worden sein: RRICH: WENN jemand ein Mann ist UND Jurist UND in BerlinPankow lebt UND ein Kind hat UND einen Porsche fährt, DANN hat er einen Bonitätsscore von 15 (sehr hoch). Gehen wir davon aus, dass die Regel RRICH die Welt der Bank beschreibt, und kommt nun jemand Unbekanntes zur Bank RICH, der ein Mann ist, noch dazu von Beruf Jurist, in Berlin-Pankow lebt, ein Kind hat und Porsche fährt, DANN … ja, dann bekommt dieser Mann einen hohen Score und sehr wahrscheinlich einen sehr günstigen Kredit über 100.000 Euro. Aber in Wirklichkeit arbeitet der Mann nicht als Jurist, sondern als Lehrbeauftragter an der Universität (wird schlecht bezahlt), lebt seit Kurzem bei seiner neuen Freundin in Pankow und das Kind wohnt bei seiner geschiedenen Frau in Süddeutschland, und der Porsche ist auch nur geleast. Trotzdem bekommt dieser Mann einen günstigen Kredit. Das Beispiel ist natürlich bewusst so positiv gewählt. Noch viel häufiger wird jemandem kein Kredit gewährt, nur weil er in einem falschen Stadtteil wohnt und die KI der Bank daraus einen schlechten Score-Wert ermittelt hat. Ein Bankberater würde den Fehler merken, wenn er mit dem Mann spricht, nicht aber die KI, denn deren
Welt besteht nur aus den eingegebenen Fakten. So banal das Beispiel daher erscheint, es greift sehr hart in unser Leben ein. Das Problem mit induktiv erzeugtem Wissen ist aber noch viel, viel schlimmer. Stellen wir uns Score-Werte für andere Risiken vor: Kreditausfallrisiko, Räuber-Risiko, Terror-Risiko, Krankheitsrisiko und so weiter. Man erkennt, wenn nur noch die KI entscheidet, kann es brenzlig werden. Wir kommen später darauf zurück. Noch ein Wort zu den Daten. Wo kommen all die Daten für das Scoring her? Nun, Social Media lässt grüßen. Bereits in den 90er-Jahren wurden Bankdaten mit sozio-ökonomischen Daten von Personen angereichert, bereits vor 20 Jahren konnte man 100 (gemittelte) Merkmale pro Person kaufen und zur Auswertung verwenden. Es sind riesige Regelwerke über uns alle entstanden, wohlgemerkt seit den 1990ern. Damals nannten wir es Data-Mining-Verfahren, heute, noch etwas amerikanischer, Big-DataAnwendungen. Und man beachte, obwohl alles nur statistische Regeln sind, werden die Entscheidungen (über Personen) oftmals hart gefällt. KI-Systeme ohne Ethik-Kontrolle sind deshalb kritisch zu betrachten.
Induktiv erzeugtes Wissen muss deduktiv abgesichert werden Aber bleiben wir trotzdem positiv und gehen wir auch mal davon aus, dass die induktiv gefundenen Regeln korrekt bzw. nützlich sind (in unserer kleinen Welt also als wahr gelten), dann haben wir selbstständig neues Wissen über die Welt generiert. Wir haben die Intelligenzstufe I2 erreicht. Diese gelernten Regeln können dann sogar genutzt werden, um mit deduktivem Schluss weiteres neues Wissen zu generieren. Dabei können entweder weitere Regeln abgleitet werden oder es lassen sich neue Fakten über die Welt herleiten (Kapitel 5). Denn sind die Regeln RRich und R1 oben als korrekt gegeben und erfährt man, dass Hans ein Mann ist, dann kann man logisch korrekt schlussfolgern, dass Hans auch ein Mensch ist. Induktive und deduktive Verfahren ergänzen sich. Sie werden vielleicht sagen, dass das ja nun nichts Besonderes ist. Aber da irren Sie sich. Natürlich können wir Menschen sofort implizit
schlussfolgern, dass Hans ein Mensch ist, aber wir wollen ja den Automatismus der KI auf einem Computer begreifen. Wir werden in Kapitel 5 sehen, dass man alle obigen Sätze in einer formalen Sprache ausdrücken kann. Und weil man das kann, kann jeder derartige Schluss auf einem Computer ausgeführt werden. Stellen Sie sich vor, Sie haben nicht eine Regel R1, sondern eine Million Regeln R1 bis R1.000.000 in einer Regelbasis auf dem Computer gespeichert. Dann erkennt man, wie leistungsfähig das Verfahren ist, denn sobald neue Fakten über die Welt gemessen werden, wenn dem System zum Beispiel bekannt wird, dass Hans ein Mann ist, dann kann das technische System sofort berechnen, dass er eben auch ein Mensch ist. Dieser Ansatz ist enorm stark und in der Tat, so sind die ersten KI-Systeme auch gestartet. Es waren die bereits erwähnten Expertensysteme. Im Detail ist es komplexer, aber das Prinzip bleibt gleich. Hat man ein Expertensystem aufgebaut, das 10.000 Regeln über eine technische Anlage induktiv gelernt hat, so kann man beim Messen von Eingangsdaten, zum Beispiel Temperaturdaten, logisch schlussfolgern, ob ein Getriebe oder ein Ventil defekt ist. Mit diesen Verfahren lassen sich leistungsfähige ConditionMonitoring-Systeme und andere Überwachungssysteme aufbauen. Man benötigt zum Aufbau derartiger Expertensysteme aber nicht unbedingt die induktive Methode. Obige Regel R1 wurde aus den Daten durch induktive Verfahren gewonnen, aber das muss nicht sein. Man kann auch durch eine Fabrik gehen und erhält von den Experten einfach durch das Gespräch zum Beispiel folgende Regelbasis zur Prozessüberwachung: 1. WENN Temperatur T1 > 125 Grad, DANN Schmiermittel zu gering. 2. WENN Drehmoment N3 < 120 Nm, DANN Walze defekt. Diese Regeln haben oft sogar einen höheren Wahrheitsgehalt als die automatisch generierten, da sie direkt vom Fachmann kommen. Deduktion, Abduktion und Induktion gehen in der Praxis Hand in Hand. Fassen wir die Möglichkeiten der Wissensgenerierung nochmals zusammen:
Deduktion: (»Vorwärts schlussfolgern«, »Vorwärtsanwenden« einer Regelbasis) Prämisse (Axiom) + bekannte Schlussregeln → neue Regeln (neues Wissen als Regeln) Ursache (beobachtete Fakten) + bekannte Schlussregeln → Wirkung (neues Wissen als Fakten über eine Wirkung) Abduktion: (»Rückwärts schlussfolgern«, »Rückwärtsanwenden« einer Regelbasis) Wirkung (beobachtete Fakten) + bekannte Schlussregeln → Ursache (neues Wissen als Fakten über eine Ursache) Induktion: (»Lernen aus Daten«, Erstellen einer nichtallgemeingültigen Regelbasis) Ursache (beobachtete Fakten) + Wirkung (beobachtete Fakten) → neue Regeln (neues Wissen als statistische Regeln) Der Pfeil → bedeutet, »wird abgeleitet«. Axiom bedeutet, »etwas ist wahr ohne Vorbedingung«. Man kann sicherlich vermuten, dass es möglich ist, die oben genannten Mechanismen des selbstständigen Wissenserwerbs zu automatisieren. Heutige KI-Systeme beherrschen tatsächlich auch alle Verfahren der automatischen Wissensgenerierung, selbstverständlich je nach Verwendungszweck. Stellen Sie sich vor, Sie wollen ein System bauen, das selbstständig Auto fahren kann. Was müssten Sie tun? 1. Zuerst müssen Sie dem System die Regeln des Straßenverkehrs einprogrammieren. Dies entspricht in erster Näherung der Eingabe einer Regelbasis. Die Regelbasis wurde deduktiv erstellt, ist also in ihrem Bezugsrahmen allgemeingültig. 2. Das System muss den »theoretischen« Führerschein ablegen. Die Kenntnis der Regelbasis wird getestet. 3. Das System fährt Probe: Dies entspricht der Anwendung der Deduktion, denn es bekommt neue Signale von außen (zum
Beispiel Videosignale über Ampel) und muss nun Fakten (auch Aktionen genannt) generieren, also Bremsen, Gas geben und so weiter. Dies entspricht der Intelligenzstufe I1 bis maximal I2. 4. Das Wichtigste ist nun: Das System lernt fahren und muss während der Fahrten immer neue Regeln erlernen. Es muss also induktiv lernen. Die Wissensbasis des Systems wird durch Induktion immer weiter verfeinert. So was zu bauen klingt einfacher gesagt als getan. Neues Wissen über die Welt sind erst einmal neue Fakten. Durch Anwendung von bekannten Schlussregeln auf beobachtbaren Fakten können neue Fakten entstehen (Deduktion, Abduktion). Sind die beobachtbaren Fakten »wahr« und auch die verwendeten Regeln »wahr«, sind die neuen Fakten auch »wahr«. Neues Wissen über die Welt sind natürlich auch Regeln. Diese Regeln können deduktiv abgleitet oder induktiv aus Daten gewonnen werden, induktiv abgeleitete Regeln haben jedoch den erwähnten statistischen Charakter.
Die kreative Intelligenz – Intelligenzstufe I3 Die Intelligenzstufe I3 beinhaltet Kognition (die Verknüpfung von Deduktion und Induktion) und eine daraus resultierende, mögliche Kreativität. Wir werden deshalb jetzt besprechen, was Kreativität ist und ob man sie technisch umsetzen kann. Man könnte vermuten, dass Kreativität technisch realisierbar ist. Wir hören öfter Meldungen wie »Computer hat eine Melodie komponiert« oder »Computer hat ein Gemälde gemalt«. Was also ist Kreativität?
Was ist Kreativität? In der Kreativitätsforschung hat man sich auf folgende Definition geeinigt: »Kreativität ist die Fähigkeit, etwas zu erschaffen, das neu und nutzbringend ist«.
»Neu« bedeutet, das Erschaffene gab es noch nicht oder es wurde nur sehr selten beobachtet (es liegt also nicht auf der Hand). Der Terminus »nutzbringend« meint, dass es irgendeinen Zweck erfüllen soll. Wenn also jemand aus Papierschnipseln Burgen baut, dann gab es das sicher auch noch nicht, es wäre also neu, aber eventuell ziemlich unnütz (ich bitte alle Bastler um Vergebung, die genau so etwas machen). In den Ingenieurdisziplinen nennen wir neue und nützliche Dinge meistens Erfindungen. Bekommt man dafür einen Rechtsschutz, so werden es Patente. Jedem von uns fallen spontan einige Erfindungen ein: Auto, Fahrrad, Handy, Radio, Kran, Dampfmaschine, Stromgenerator, Kugelschreiber. Die Reihe ist endlos.
Wir Menschen sind kreativ Testen Sie sich. Legen Sie eines der unten gezeigten Streichhölzer so um, dass die Aussage »wahr« wird (Abbildung 3.7). Lesen Sie nicht weiter!
Abbildung 3.7: Legen Sie ein Streichholz so um, dass die mathematische Aussage wahr wird.
Man braucht eins bis zwei Minuten, bis man den Trick entdeckt hat (und ein Ungleichheitszeichen erzeugt). Ja, wir sind kreativ. Aber dennoch: Fragt man Erfinder, wie sie auf die Erfindung gekommen sind, so sagen diese meistens, sie wissen es nicht. Sie sagen aber auch, sie haben sich jahrelang mit einem Problem beschäftigt, bis ihnen die Lösung eingefallen ist. Sie waren also fleißig, aber Fleiß alleine reicht augenscheinlich nicht. Irgendetwas fehlt. Es ist die »Erleuchtung«, dieses ungewöhnliche Verknüpfen von bereits bekanntem Wissen und Fakten. Jeder von uns kann das, wenn er seinen Garten neu gestaltet, ein Bild malt, Streichhölzer umlegt oder Prosa schreibt.
Aber nicht jeder macht größere Erfindungen. In den Unternehmen gibt es daher seit über 30 Jahren Bestrebungen, Erfindungen zu formalisieren. Man fragt sich im Management, was getan werden muss, damit die Mitarbeiter Erfindungen wie am Fließband produzieren können. Gängige Methoden heißen zum Beispiel Brainstorming, TRIZ, TIPS oder Konstruktionssystematik, doch das Ergebnis ist dürftig. Bis heute gibt es keinen methodischen Ablauf, der Erfindungen erzwingen kann. Warum? Nun, wir können den Prozess des Erfindens eben nicht formalisieren, wir können dafür keinen Algorithmus schreiben. Wenn wir aber etwas nicht formalisieren können, dann können wir es auch nicht in eine mathematische Sprache bringen, die der Computer versteht. KI-Computer sind also erst einmal nicht kreativ. Sie können zwar denken, wenn wir als Denken einen Vorgang bezeichnen, bei dem ein (komplizierter) Algorithmus abgearbeitet wird. KI-Computer können auch lernen, wie wir gesehen haben, aber kreativ, das sind sie nicht. Es lässt sich programmieren, neues Wissen nach der induktiven oder deduktiven Methode zu erlernen, aber dadurch entsteht in der Regel nichts Kreatives, nicht wirklich Neues, nichts, was uns sozusagen überrascht. Oder etwa doch? Schauen wir mal genauer hin. Ein Computer kann neues Wissen erzeugen, zum Beispiel eine Idee generieren, die sich zwischen bereits bekannten Ideen (Idee1, Idee2, Idee3, …) bewegt. Angenommen, die neue Computeridee IdeeComputer sei ein bisschen etwas von der Idee3, dann etwas von der Idee7 und zum Schluss noch etwas von der Idee12. Eine solche Überlagerung nennt man in der Fachsprache Interpolation. Der Computer kann interpolieren und damit neue Ideen generieren. Was er nicht (gut) kann, ist extrapolieren, also auf eine grundsätzlich neue Idee kommen, die sich nicht als Überlagerung aller bisher bekannten Ideen ergibt. Ein Computer, der sich doch einmal in den Extrapolationsraum verirrt, liegt zu 99,9 Prozent falsch. Im Bereich der Malerei würde man das Ergebnis eventuell noch als eigene Kunstform umdefinieren können und die Kreativität der KI bewundern, in den exakten Wissenschaften ist das nicht so. Ergebnisse der KI im Extrapolationsraum sind in der Regel komplett falsch. Wieso ist das so?
Entwurf eines selbstlernenden KI-Systems zur Addition Stellen wir uns vor, Studenten müssten ein KI-System entwerfen, das selbstständig lernt, die Quadrate zweier Zahlen a und b zu addieren. Das ist schwerer als gedacht. Natürlich kann jeder Taschenrechner die Gleichung 32 + 42 ausrechnen. Aber unser KI-System soll das Addieren aus den Daten selber erlernen (also induktiv vorgehen, nicht deduktiv). Wie geht das? Der Student muss den Datenraum festlegen, in dem das System addieren lernen soll. Wenn der Lerndatenraum circa 100 Trainingsbeispiele a und b zwischen 0 und 100 enthält und deren richtige Additionsergebnisse c = a2 + b2, siehe Beispielausschnitt in Tabelle 3.1, dann kann das Training starten. Der KI -zum Beispiel ein neuronales Netzwerk -werden dabei alle Zahlen a und b aus dem Trainingsfile und natürlich das dazugehörige Ergebnis c gezeigt, und zwar mehrmals hintereinander, dann dauert es vielleicht eins bis zwei Sekunden und die KI hat die Funktion c = f(a,b) aus den Daten gelernt (wie, wird noch erklärt). a
b
c = a2 + b2
4,5
25
645,25
2
2
8
35,3 97,1 10674,5 50
23
3029
83
27
7618
1
1
2
56,2 62,9 7114,85 Tabelle 3.1: Beispielhafte Lerndaten für eine KI zum selbstständigen Erlernen der Addition zweier Quadratzahlen
In der Anwendung kann die KI später alle Additionen zwischen 0 und 100 selbstständig und nahezu fehlerfrei ausführen, auch solche, die die KI vorher noch nie gesehen hat. Genau das ist das oben erwähnte Interpolieren (Abbildung 3.8).
Abbildung 3.8: Anwendung der KI zur Addition von Quadratzahlen
Was aber glauben Sie, passiert, wenn die KI die Quadratzahlen von a = 253 und b = 123 addieren soll? Das KI-System antwortet mit 400 oder 13 oder auch 13098. Was auch immer die KI antwortet, es ist (nahezu immer) falsch. Die Werte a und b waren einfach nicht aus dem Lerndatenraum von 0 bis 100 ausgewählt. Extrapolationen sind für viele KI-Systeme ein sehr großes Problem, nur in sehr wenigen Einzelfällen gibt es dafür Lösungen. Aber Sie wissen, dass jeder Schüler die oben genannte Anwendungsaufgabe ausrechnen könnte. Man könnte jetzt einwenden, dass man doch den Zahlenraum zum Training vergrößern kann. Das stimmt. Man kann ihn beliebig groß machen, aber man findet dann immer noch Zahlen, die außerhalb des Lerndatenraums sind. Alle Zahlen beim Training der KI einzubeziehen, ist schlicht unmöglich. Daher sollte man für die Verfahren der Addition auch keine induktive Methode anwenden, sondern eine deduktive, und so lernen das die Kinder auch in der Schule. Wir haben die mathematischen Zusammenhänge der Addition deduktiv erlernt, nicht induktiv. Ein Kind kann wirklich addieren!
Der Extrapolationsraum in der Praxis Auch wenn das Beispiel der Addition sehr akademisch klingt, so hat es doch gravierende Auswirkungen in der Praxis. Schauen wir, um das Problem zu verdeutlichen, erneut zum autonomen Fahren. Wir nehmen
an, Sie haben ein autonomes Auto gebaut, das es gelernt hat, im Mai und Juni auf unseren Autobahnen zu fahren. Aber nun kommt auf einmal Schnee. Die Systeme versagen, denn die Umgebungssituation »Schnee auf der Straße« liegt im Extrapolationsraum. Nun gut, denken Sie, dann trainieren wir die Autos eben irgendwo, wo es Winterverhältnisse gibt. Das geht, genauso macht es beispielsweise Google. Aber dann kommt trotzdem irgendwann eine Situation, die im Extrapolationsraum liegt, zum Beispiel mit den Parametern: Hagel, gleichzeitig Sonne, Fahrradfahrer auf der Autobahn. Was glauben Sie, was das KI-System dann ausrechnet? Was denken Sie, was die KI macht? Sie wissen es nicht. Das ist nicht schlimm. Der Punkt ist, dass es niemand ganz genau weiß. Und das kann sehr gefährlich werden. Ein solch verhängnisvolles Problem entstand beispielsweise im März 2018, als ein Uber-Fahrzeug eine Frau überfuhr, die in der Nacht ihr Fahrrad über eine Straße schob und eine helle Plastiktüte am Lenker hängen hatte. Die KI hatte zuvor noch nie eine Kombination von laufender Person, Fahrrad und weißer Plastiktüte gesehen und dann extrapoliert, dass es sich wohl lediglich um eine Plastiktüte handele, wegen der das Fahrzeug nicht zu bremsen brauche. Beim Extrapolationsproblem handelt es sich um ein prinzipielles Problem, kein Detail. Und der oben genannte Extrapolationsraum erscheint noch beherrschbar gegenüber dem, den wir zu beachten haben, wenn wir über Kreativität nachdenken, denn Kreativität liegt sehr weit von gelernten Zusammenhängen entfernt, das ergibt sich aus ihrer Definition. Es ist immer möglich, sich mit einer Kombination von induktiven und deduktiven Verfahren in den Extrapolationsraum »hineinzutasten« und eine adäquate Reaktion hervorzurufen, aber das ist noch nicht kreativ. Kreativität bedeutet, dass es keine formale Beschreibung gibt, mit der man das Ergebnis erhalten kann, zumindest nicht im Vorhinein. (Im Nachhinein mögen sich Erklärungen finden lassen, das aber ist irrelevant.) Hätte man eine formale Beschreibung, könnte man sich zu dem Ergebnis »hinrechnen«. Aber es gibt keine. Dies sollte gerade unsere Festlegung für Kreativität sein. Wie denkt dann aber ein kreativer Mensch? Das wissen wir nicht. Der eine hat einen Einfall in der Badewanne und ruft »Heureka«, der andere hat einen Einfall beim
Reiten. Echte Kreativität ist eine Art von Erleuchtung, etwas, was wir nicht in ein KI-System hineinprogrammieren können. Fazit: Ein KI-System kann nicht wirklich kreativ sein. Aber man kann sich in der Praxis behelfen und eine Pseudo-Kreativität einführen, die gar nicht so schlecht ist.
Entwerfen wir also einen (fast) kreativen Computer! 1. Vergrößern wir den Interpolationsraum für das induktive Lernen: Wenn der Interpolationsraum nur groß genug ist, dann kann das KI-System sehr viele Interpolationen durchführen, die natürlich bereits im Interpolationsraum zu neuen Ergebnissen führen. So kann eine Maschine aus 10.000 Bildern durch reine Interpolation Tausende neue Bilder zeichnen. Doch jetzt die Gretchen-Frage: Wenn in allen Bildern nur Kreise vorkommen, malt die Maschine dann irgendwann auch Quadrate? Nein, malt sie nicht, Quadrate wären im Extrapolationsraum. Deshalb sollte man der Maschine Bilder vorlegen, in denen sich nahezu alle Grafikelemente befinden (Kreise, Quadrate, Dreiecke, Häuser, Brücken, Straßen, Tiere, Menschen et cetera). Dann ist der Interpolationsraum viel, viel größer und die Maschine hat mehr »Stützstellen«, um selber Figuren zu erfinden. 2. Setzen wir deduktive Verfahren ein: Man kann der Maschine sogar erlauben, deduktive Verfahren anzuwenden. Also beispielsweise aus zulässigen Figurenbestandteilen (Geraden, Kurven, Kreise) durch bestimmte Regeln (zum Beispiel »Ecke muss auf Ecke«) neue Figurenbestandteile selbst zu erzeugen. Dann kommt man aus dem vorhandenen Interpolationsraum hinaus. 3. Kombinieren wir deduktives und induktives Lernen: Stellen wir uns nun eine Regelbasis vor, die induktiv gewonnen wurde (indem sich ein KI-Computer 10.000 Bilder angesehen hat) und die deduktive Schlussfolgerungen zulässt
(»Ecke muss auf Ecke«), dann kann man durch Verknüpfung der neuen und alten Regeln zu neuen Regeln und zu neuen Fakten (neuen Bildern) kommen. 4. Lassen wir schlussendlich Zufall in unseren Algorithmen zu: Der eben entworfene KI-Computer hat viele Vorteile gegenüber Menschen. Er wird nicht müde, ist billig und braucht nur Strom als Nahrung (und etwas Kühlung auf die Stirn, was letztlich auch nur Strom kostet). Dies ist so ein großer Vorteil, dass man den Computer benutzen kann, eben doch pseudo-kreative Lösungen zu finden, selbst wenn er von sich aus nicht kreativ ist. Man kann den Computer nämlich sehr viele zufällige Kombinationen ausrechnen lassen und diese auf Eignung für eine Problemlösung testen. Sucht man beispielsweise eine geeignete Konstruktion, um die Heckklappe eines Autos nach einem bestimmten Kraftbeziehungsweise Bewegungsmuster zu öffnen (man sucht so etwas!), so kann der Computer sehr gute Varianten finden, auch solche, die es noch nicht gab. Er kann 1) alle möglichen Varianten des eigenen Hauses und der Konkurrenz kombinieren und dann durch »Vorwärtsrechnen« schauen, ob das neue Ergebnis funktioniert, aber er kann sich 2) auch selber durch Ausprobieren von Millionen von Konstruktionsvarianten zu einer genialen Lösung vorarbeiten. Sicherlich kommen bei diesem Prinzip zu 99,9 Prozent unsinnige Lösungen heraus, das merkt der Computer aber dann bei der Simulation. Und er hat Zeit und eine EngelsGeduld. Der Computer kann also »durch Zufall« und Rechenpower kreative Lösungen finden, obwohl er keinen Mechanismus für Kreativität eingebaut bekommen hat. Solche Konzepte, die eine kreative Intelligenz simulieren, gibt es schon seit fast 50 Jahren, zum Beispiel [Otte 1970]. Das ist ein Grund dafür, warum sich heute Computer, die gegeneinander Go spielen, zu immer neuen Varianten vorarbeiten, denn die Computer spielen Millionen Spiele
gegeneinander und finden immer neue Züge. Und ein Ende ist nicht abzusehen. 5. Fertig ist der KI-Computer, der (fast) alles kann. Richtige Kreativität im Sinne einer »Erleuchtung« ist das obige Verfahren natürlich nicht. KI-Systeme bleiben nicht-kreativ, sie simulieren Kreativität jedoch ausreichend für Praxiszwecke. Sie sind damit prinzipiell in der Lage, neue Bilder, Liedstücke, mathematische Beweise und vieles mehr zu erzeugen. Mit der Kreativität des Menschen hat das aber nichts gemein, selbst wenn die Systeme im Go gewinnen. Aber dennoch, da man eine Rechenpower erzeugen kann, die bald die Rechenpower aller menschlichen Gehirne zusammen übersteigen wird, kommt schon etwas auf uns zu. Diese enorme Rechenkraft, gepaart mit Zufallskonzepten und induktivem und deduktivem Lernen wird mit Sicherheit zu Lösungen führen, die kreativ erscheinen. Der Computer wird daher in Bereiche vordringen können, die heute noch den sogenannten Kreativen vorbehalten sind.
Wir behalten im Hinterkopf Für einen heutigen KI-Computer sind alles nur Zeichenketten. Er begreift nicht, was er tut. Aber dennoch kann er bereits Kreativität sehr gut simulieren.
Man könnte sich einen Computer vorstellen, der Tag und Nacht Millionen von Gedichten schreibt. Der Chatbot ChatGPT dichtet bereits hervorragend. Ein Mensch muss diese Poeme dann nur noch auswerten und das genialste veröffentlichen. Irgendwann gewinnt der Computer damit auch einen Lyrikerpreis. Ein Computer kann mit Zufall, Induktion und Deduktion auch malen und komponieren. Der Mensch wird natürlich weiterhin bewerten müssen, welches Bild für ihn selbst schön ist, welche Musik gut klingt. Natürlich lässt sich auch Letzteres bereits wieder mit einer KI simulieren.
Praxisbeispiel für Computerkreativität Im Oktober 2018 wurde erstmalig ein Bild namens »Edmond de Belamy« versteigert, das eine Künstliche Intelligenz erzeugt hat. Der Erlös im Auktionshaus Christie's für dieses leicht verschwommene Bild lag bei über 400.000 US-Dollar. Es zeigt ein Porträt, was etwas altertümlich aussieht. Laut der französischen Künstlergruppe, die dahintersteckt, hatte der Computer vorab 15.000 Porträts gesichtet. Ein KI-Programm »malte« daraufhin eigene Porträts und ein anderes KI-Programm versuchte herauszufinden, welche der Computer-generierten Bilder so aussehen, als ob sie ein Mensch gemalt hätte. Für das letztlich versteigerte Bild entschied die Bewertungs-KI und später auch das Künstlerkollektiv, dass es nach einem Bild wie von Menschhand aussieht. Experten waren beeindruckt, schätzen aber ein, dass die Kreativität der KI im Rahmen des Erwartbaren verblieb. Einen eigenen künstlerischen Ausdruck habe die KI (noch) nicht gefunden.
Fassen wir die bisherigen Intelligenzstufen zusammen: KI-Systeme werden Abertausende menschlicher Handlungen ersetzen, die der Intelligenzstufe I1 zugeordnet werden können, Abertausende der Intelligenzstufe I2, und in den nächsten 20 bis 30 Jahren werden sie Abertausende Handlungen ausführen, die vorher nur mit menschlicher Kognition und Kreativität zu leisten waren (von Designern, Grafikern, Malern, Ingenieuren, Zeitungstextern et cetera), die also der hier ausgeführten Intelligenzstufe I3 entsprechen. KI-Computer reichen scheinbar immer weiter an die Leistungen von Menschen heran. Und dennoch gibt es gravierende Unterschiede, wie wir gleich sehen werden. Lassen Sie uns nun in eine völlig neue Dimension von Intelligenz vorstoßen.
Die bewusste Intelligenz – Intelligenzstufe I4 Einem KI-Computer ist nichts bewusst. Bis heute ist es noch nicht gelungen, eine KI zu schaffen, bei der wir eine Art von Bewusstsein messen oder irgendwie feststellen können. Der Grund liegt natürlich (auch) darin, dass niemand genau weiß, was Bewusstsein überhaupt ist.
Bis heute gibt es kein Experiment, aus dem klar hervorgeht, ob ein System Bewusstsein besitzt oder nicht. Haben Pflanzen ein Bewusstsein? Tiere? Höhere Tiere mit Sicherheit. Aber hat auch ein Regenwurm Bewusstsein? Das ist zumindest strittig. Um die Thematik zu vertiefen müssen wir Bewusstsein formal definieren: Bewusstsein ist das Verhältnis des eigenen Selbst zu seinem Innenleben und der Umwelt. Es ist die Erkenntnisfähigkeit eines Wesens um seinen inneren Zustand und das subjektive Erleben dieses Zustands. Man kann auch die Fähigkeit, das eigene Verhalten rational steuern zu können, als Bewusstsein bzw. als Selbstbewusstsein bezeichnen. Das Bewusstsein kann je nach Standpunkt der Betrachtung und nach gewünschter Erkenntnis auf viele Arten beschrieben werden. Was aber wäre die Essenz? Auf einen kurzen Satz gebracht: Bewusstsein ist das subjektive Erleben eines äußeren und/oder inneren Reizes. Die Betonung in der Definition liegt auf »Subjekt« beziehungsweise »subjektiv«. Bewusstsein ist etwas Subjektives. Es passiert in Ihrem Inneren, es ist Ihr ganz privates, persönliches Erleben eines Reizes. Es kann das subjektive Erleben eines Schmerzes sein oder einer Angst oder auch einer Freude, von Glück oder aber auch das subjektive Erleben, wenn Sie einen Baum ansehen. Ich verwende die Begriffe Bewusstsein, Qualia und Geist in diesem Buch synonym, Feinheiten werden ignoriert, um nicht alles unnötig zu verkomplizieren. Wahrscheinlich würden Fachleute »Bewusstsein« mit »Seele« gleichsetzen und den Begriff »Geist« als Oberbegriff einführen, aber diese Unterscheidung lassen wir weg, da wir später bei Maschinen keinesfalls von »Seele« sprechen wollen, selbst wenn wir »geistige Prozesse« vorfinden.
Dem Begriff der Qualia sind wir jedoch bereits beim Thema Starke KI begegnet, ich möchte ihn hier weiter ausführen.
Was ist Qualia? Qualia ist die Kategorie des inneren Erlebens von Sinneseindrücken. Dieses Erleben lässt sich (bis heute) nicht aus dem neuronalen Gewebe im Gehirn ableiten; es scheint mit den elektrischen Signalen im Gehirn nicht identisch zu sein. Beispiel »Sehen«: Selbst wenn man das sogenannte neuronale Korrelat im Gehirngewebe gefunden hat, das mit einem visuellen Eindruck verknüpft ist, kann man dort keine Qualia messen. Wenn ein Mensch beispielsweise die Farbe Grün ansieht, gibt es sehr viele neurophysiologische Verarbeitungsschritte im Gehirn, bis der Mensch das Grün »vor seinem geistigen Auge sieht«. Und genau dieses innere Erleben der Farbe Grün eines jeden Menschen ist die qualitative Eigenschaft seines Bewusstseins; das ist die Qualia.
Nach obiger Definition haben übrigens alle Tiere Bewusstsein, also auch ein Regenwurm. Wir müssen nämlich davon ausgehen, dass Tiere ein reichhaltiges subjektives Erleben von Angst, Schmerz, Freude und Glück haben, um zu überleben. Beim Hund oder der Katze zweifelt das ohnehin keiner an. Da dies rein subjektiv ist, können wir Bewusstsein natürlich nicht direkt messen. Wir können nur mittelbar messen, was diese Tiere äußern oder wie sie sich verhalten, wenn sie obige Gefühle erleben. Könnte man sich einen Test auf Bewusstsein vorstellen? Intuitiv eigentlich schon. Ich werde später einen mathematischen Satz von Rice aufzeigen, der jedoch ausschließt, dass man Bewusstsein auf einem Computer durch einen Algorithmus jemals feststellen kann. Aber man kann Bewusstsein eventuell durch Experimente feststellen. Ein System mit Bewusstsein (wie der Mensch) sollte doch ein anderes System mit Bewusstsein erkennen können, jedenfalls möchte ich das mal als Vermutung in den Raum stellen. Die Frage ist, ob man einen solchen Test dann auch formal entwickeln und auf die KI anwenden kann, diese Frage wird in Kapitel 16 beantwortet.
Fazit zur Intelligenzstufe I4
Wiederholen wir zusammenfassend die schon am Anfang genannte Aussage: Es gibt noch keine bewussten Computer, also Computer der Intelligenzstufe I4. Manchen Autoren geht diese Aussage zu weit, sie argumentieren, dass man das alles nicht wissen könne. Vielleicht habe ein Computer bereits ein Bewusstsein und man wisse es nur nicht. Da man aktuell keinen Test auf Bewusstsein hat, gibt es ein wissenschaftliches Patt. Die Frage ist allerdings, wer die Beweislast trägt. Da man eine Nichteigenschaft empirisch nicht beweisen kann, sondern nur die Existenz einer Eigenschaft, sollte die Beweislast bei den Fachleuten liegen, die einem Computer bereits heute schon Bewusstsein unterstellen wollen. Stellen Sie sich vor, Sie wollten den Satz beweisen: »Es gibt keine grünen Schwäne.« Das können Sie empirisch nicht. Sagt aber jemand: »Es gibt grüne Schwäne«, so kann er den empirischen Beweis antreten, indem er einen grünen Schwan vorzeigt. Eine Nichteigenschaft ließe sich allerdings analytisch aufzeigen, das heißt, wenn es gelänge, deduktiv abzuleiten, dass Computer kein Bewusstsein haben können, dann wäre ein solcher Beweis erbracht. Um dieser Diskussion noch aus dem Wege zu gehen, möchte ich den Abschnitt wie folgt beenden: Es gibt heute keine nachweislich bewussten Computer.
Die selbstbewusste Intelligenz – Intelligenzstufe I5 Da es bis heute nicht möglich ist, KI-Systeme mit nachweislichem Bewusstsein zu entwickeln, kann aktuell auch kein System mit nachweislichem Selbstbewusstsein oder ICH-Konzept konstruiert werden. Gehen Sie beruhigt davon aus, dass es Terminator oder »I, Robot« nur im Kino gibt. Ich persönlich glaube, dass es noch weit über das Jahr 2200 hinaus dauern wird, bis selbstbewusste Systeme entstehen, falls überhaupt. Dann allerdings hätten Produkte des Menschen, also Maschinen, die sogenannte Singularität mit all ihren Konsequenzen einer solchen Evolutionsstufe erreicht. Wie es dann weitergehen würde,
weiß niemand, aber es gibt genug Dystopien dazu. Bis dahin dauert es aber wahrscheinlich noch sehr lange, denn zurzeit unterschätzen viele Protagonisten die Komplexität des menschlichen Gehirns. Alle heutigen KI-Systeme sind meilenweit von den Leistungen menschlicher Gehirne entfernt. Es könnte auch sein, dass sich selbstbewusste KI-Systeme nur mittels biologischer Zellen konstruieren lassen und niemals basierend auf rein technischen Maschinen. Dieser Ansatz fällt in den Bereich des Transhumanismus und wird im Ausblick noch besprochen.
Einordnung der KI im Rahmen der verschiedenen Intelligenzstufen und Anmerkungen zu Bots Die Zuordnung eines Systems zur Künstlichen Intelligenz ist und bleibt letztlich unscharf. Aus Sicht der Intelligenzleistungen muss das System heutzutage die Intelligenzstufen I2 oder I3 besitzen, damit wir es zur KI rechnen. Aber rein technische Leistungsmerkmale reichen zur Einordnung nicht aus. Wir haben gesehen, dass es adaptive Regler gibt, die intelligent reagieren und bei Änderungen der Umgebung selbstständig ihre Regelparameter verändern können, also Wissen über die Umgebung erzeugen und dieses für ihre eigenen Handlungen zweckbestimmend verwenden. Diese Regler können also lernen. Das erfüllt eigentlich alle technischen Anforderungen, um von uns als intelligent wahrgenommen zu werden, zur KI im engeren Sinne werden derartige Regler aber trotzdem nicht gezählt. Intelligenz reicht scheinbar nicht aus. Es gibt nämlich noch eine andere Sichtweise für die Zuordnung, das ist die der Kommunikation. Kommuniziert ein System direkt mit uns, agiert es also als Sprachroboter, dann zählen wir es automatisch zum Bereich der KI. Ein solcher Sprachroboter heißt »Chatbot«.
Was ist ein Bot? Der Begriff Bot leitet sich vom Ausdruck »robot« beziehungsweise »Robota« (auf Tschechisch: Arbeit, Fronarbeit) ab und bezeichnet ein Computerprogramm, das autonom arbeitet. Bots von Suchmaschinen heißen »Webcrawler«, schädliche Bots nennt man oft auch »Malware« oder »Trojaner«. Ein Chatbot ist ein Bot, der für (textuelle oder auch natürlichsprachliche) Kommunikation mit Menschen entwickelt wurde. Mittlerweile können Chatbots so gut sein, dass ein Nutzer erst sehr spät merkt, dass er mit einem Computerprogramm kommuniziert. Ein negativ-berühmter Chatbot war Tay von Microsoft. Ein aktuell sehr berühmter Chatbot ist ChatGPT.
Derartige Chatbots sind deshalb in unser aller Bewusstsein getreten, weil es zu ihrem ureigensten »Lebenszweck« gehört, mit uns zu kommunizieren. Aber auch andere Systeme, die explizit in unser Leben eingreifen sollen, zählen wir bereitwillig zur KI.
Eine Definition für KI-Systeme, die wir in diesem Buch treffen wollen KI-Systeme sind Systeme der Intelligenzstufe I1, I2 und I3, die in unser Bewusstsein treten, weil sie mit uns und unserer direkten Umgebung mittelbar oder unmittelbar kommunizieren (Kommunikationseigenschaft). Weiterhin zählen wir alle algorithmischen Systeme der Intelligenzstufe I2 (lernende Systeme) und I3 (kognitive und kreative Systeme) zu den KI-Systemen.
Das berühmte Beispiel aus der KI-Werbebranche vom Kühlschrank, der merkt, dass die Butter ausgegangen ist und der gleichzeitig über sein WLAN und das Internet im Supermarkt neue Butter bestellt, das ist für viele von uns KI. Die technische Komplexität dieses Vorganges ist allerdings nicht schwerer als der Bau des uns bekannten Kühlschranks, der konstant seine Innenraumtemperatur hält und das bei möglichst niedrigem Energieverbrauch und bei Geräuscharmut. Ein solcher
Kühlschrank (ohne Sprachmodul und Internetanschluss) gehört für die meisten jedoch nicht zu den KI-Systemen. Alleine an den Merkmalen der Leistungsfähigkeit kann man es erneut nicht festmachen, die Zuordnung bleibt willkürlich.
Der Turing-Test Turing war ein Pionier der Computerbranche, der 1954 leider mit 41 Jahren schon verstarb. Er hat in seinen aktiven Jahren sehr viele Ideen und Konzepte entwickelt, die man heute noch nutzt, um die TuringMaschine ging es bereits im letzten Kapitel. Er ahnte bereits sehr früh, dass es irgendwann möglich sein wird, geistige Denkprozesse eines Menschen auf einem Computer zu simulieren. Nach ihm wurde ein Test benannt, der berühmte Turing-Test. Was ist ein Turing-Test? Aus den vorherigen Abschnitten wissen wir, dass es gar nicht so einfach ist, Intelligenz zu definieren. Aber immerhin wissen wir, dass wir Menschen intelligent sind. Was liegt da näher, als die Intelligenz einer Maschine mit der Intelligenz eines Menschen zu vergleichen? Turing fragte sich 1950, ob es für eine Person C möglich sein würde, zu erkennen, ob sie mit einem Computer A oder mit einer Person B kommuniziert, wenn beide hinter einer Wand versteckt sind, siehe Abbildung 3.9. Der Turing-Test funktioniert nun folgendermaßen: Person C tippe über ihre Tastatur Fragen in ein Computerterminal, zum Beispiel: »Wie heißt du?« oder »Wie geht es dir?« oder »I love you!«, und auf dem Bildschirm erscheinen die Antworten von A oder B. Wenn die Person C (nach zum Beispiel 5 oder 20 Minuten) nicht unterscheiden kann, ob ein Computer A oder ein Mensch B die Antworten gegeben hat, dann hat die Maschine A den Turing-Test bestanden und gilt ab jetzt als intelligent.
Abbildung 3.9: Der Turing-Test auf Intelligenz
Chatbot Tay und Chatbot Zo Einige Systeme bestehen diesen Test (fast). Seit 2010 gibt es zumindest Chatbots, bei denen man nicht mehr genau weiß, ob es ein Mensch oder eine Maschine ist, wenn man mit ihnen (schriftlich) kommuniziert. Oder doch? Berühmt geworden ist der Bot »Tay« von Microsoft, aber Tay hat (leider oder Gott sei Dank?) total versagt. Wie Sie vielleicht wissen,
wurde Tay innerhalb von weniger als 24 Stunden extrem rassistisch und musste vom Netz genommen werden. Er wendete sich auch sehr feindlich gegen Feministinnen, verleumdete und verhöhnte sie. Microsoft sah sich gezwungen, das Experiment umgehend abzubrechen. Es war ein totales Desaster. In Abbildung 3.10 sind die letzten Eintragungen von Tay an seine »Fangemeinde« aus heise online vom 24.3.2016 nachgestellt.
Abbildung 3.10: Microsofts Chatbot Tay meldet sich im Netz ab.
Heutzutage kann man sich mit dem Chatbot Zo, dem Nachfolger von Tay, unterhalten, aber auch Zo besteht den Turing-Test nicht wirklich. Man merkt sehr schnell, dass man mit einer Maschine diskutiert. Berühmt ist der Loebnerpreis, seit 1991 mit 100.000 Dollar ausgelobt, für das erste System, das den (starken) Turing-Test schriftlich, aber auch mündlich und mit Bild- und Audiodaten besteht. Im Jahre 2014 soll erstmals ein Softwareprogramm den Test erfolgreich absolviert haben, aber nach detaillierter Analyse zeigte sich, dass das Programm »Eugene« wohl eher getrickst hat, als dass es wirkliche Intelligenz besaß. »Eugene« simulierte einen Jungen aus der Ukraine, weshalb man geneigt war, Englischfehler zu verzeihen. Und »Eugene« wechselte immer dann das Thema, wenn es wirklich »schwierig« wurde. Na ja, das kommt einem dann doch schon wieder ziemlich menschlich vor. Zum fairen Bestehen hat es nicht gereicht. Viele Ideen gehen auch dahin, den Turing-Test zu verändern, sodass sich Person C mit einem Bot (A) oder Menschen (B) gemeinsam einen Film anschaut und danach mit beiden darüber spricht. Danach muss der Mensch C entscheiden, wer der Bot und wer der Mensch ist. Das zu bestehen, sollte ziemlich schwierig werden, weil die KI dann die Filmbilder und den zugeordneten Text »verstehen« muss.
Moderne Chatbots Ein sehr bekannter und auch vormals kostenloser Bot bis Ende 2022 war Cleverbot unter www.cleverbot.com. Der Bot existiert auch heute noch, ist aber kostenpflichtig. Man kann sich bis zu zehn Minuten mit dem Bot schreiben und es wirkt nicht sinnlos. 2019 kam von Google ein Chat-System mit dem Namen Google Duplex auf den Markt. Es kann für seinen Besitzer in natürlicher Sprache telefonieren, um beispielsweise Termine beim Friseur oder im Restaurant zu vereinbaren und vieles mehr. Schon seit Jahren wird das System weltweit eingeführt, aber ein Durchbruch scheint nicht in Sicht. Mit LaMDA (»Language Model for Dialogue Applications«) hat Google jedoch auch einen sehr modernen und erfolgreichen Chatbot entwickelt. Seit Ende 2022 gibt es einen Meilenstein bei den Chatbots. Das USamerikanische Unternehmen OpenAI hat im November 2022 seinen Chatbot ChatGPT (»Chat Generative Pretrained Transformer») vorgestellt. ChatGPT verfasst hochqualitative Texte und unterhält sich mit seinen Nutzern auf wirklich hohem Niveau [chatGPT.com]. ChatGPT gibt so gute Antworten, dass man diese oftmals nicht mehr von den Antworten von Fachleuten unterscheiden kann, und er kann dabei das Wissen des Internets anzapfen, aktuell jedoch nur auf Daten bis 2021. Allerdings klingen die Antworten von ChatGPT nur plausibel, sie müssen eben nicht stimmen, und stimmen tatsächlich oft auch nicht. Letztlich ist das wie bei Antworten von Personen, die von einem Thema keine Ahnung haben, obwohl deren Antworten stets plausibel klingen. Wer jetzt an Politiker-Statements denkt, liegt sicher nicht ganz falsch. Damit birgt das System natürlich eine große Gefahr: Wir könnten, oder besser, wir werden von plausibel klingendem, jedoch völlig falschem Wissen überschwemmt werden. Erste Schulen in den USA haben den Zugang zu dem System bereits abgeklemmt [FAZ 2023]. ChatGPT könnte Google tatsächlich irgendwann den Rang ablaufen. Das neue System kann sogar eine echte Revolution in der Sprachkommunikation auslösen. Man darf gespannt sein, wie sich der neue KI-Chatbot Bard von Google (der auf dem Sprachmodell LaMDA basiert) gegen diese Konkurrenz schlagen wird. Der erste Auftritt von
Bard im Januar 2023 war jedenfalls enttäuschend. Im professionellen Bereich könnte ChatGPT sicher Zeitungstexter ersetzen und in Social Media die Blogger, und er wird es tun. Das kann in den nächsten Jahren den gesamten Text- und Sprachmarkt gravierend verändern, denn es werden zukünftig viele Menschen, die sich bisher mit Texterstellung beschäftigten, wahrscheinlich freigestellt werden. Und seien wir ehrlich, oftmals wollen wir doch nur plausible und unterhaltsame Texte lesen; der Wahrheitsgehalt ist nicht immer interessant. Eine Spielwiese für die neuen Bots wie ChatGPT und Bard. Andere Chatbots seien noch kurz erwähnt: KUKI, Replika oder ChatSonic. Jeder muss selber seine Erfahrungen mit diesen Maschinen machen, um deren Qualität einzuschätzen. Was würde es aber heißen, wenn ein System den Turing-Test bestünde, weil man mit ihm reden kann wie mit einem Menschen? Die KIFachleute sind sich nicht einig. Manche sagen, dann »denkt« das System wie ein Mensch, hat vielleicht bereits Bewusstsein wie ein Mensch. Andere sagen, das System stimme nur syntaktisch mit den Antworten eines Menschen überein. Alan Turing hat den Test damals entworfen, weil ihm die Frage, ob eine Maschine denken kann, als nicht sinnvoll erschien. Es solle stattdessen nur herausgefunden werden, ob sich eine Maschine intelligent verhalten könne, also letztlich so intelligent wie ein Mensch agiere. Das ist in vielen Anwendungen bereits mit wenig Intelligenz machbar.
Das Chinesische Zimmer Der Turing-Test kann theoretisch sogar bestanden werden, wenn ein System nur die Intelligenzstufe I1 besitzt. Im Jahre 1980 entwarf der Philosoph Searle dazu ein Gedankenexperiment, das sogenannte Chinesische Zimmer, um zu zeigen, dass ein System sehr wohl intelligent erscheinen kann, obwohl dies nur ein Trugschluss ist. Das chinesische Zimmer gibt es in vielen Varianten. Ich erkläre eine einfache Ausführung (Abbildung 3.11): Man stelle sich ein Zimmer vor, in dem ein Mensch steht, der kein Chinesisch versteht (Bedingung 1) und in der eine große Excel-Tabelle ausliegt. In der Excel-Tabelle steht
in Spalte 1 (Eingangszeichen) immer ein chinesisches Schriftzeichen und in Spalte 2 (Ausgangszeichen) ein weiteres chinesisches Schriftzeichen. Über den Eingang des Zimmers kommt nun ein Schriftzeichen herein, der Mensch sucht das Schriftzeichen in Spalte 1 der Excel-Tabelle durch Mustervergleich und schaut dann, welches Zeichen in Spalte 2 steht. Das dort gefundene Schriftzeichen gibt der Mensch am Ausgang (rechts) aus.
Abbildung 3.11: Das Chinesische Zimmer
Im Gedankenexperiment von Searle kommt nun ein Chinese von außen an das System und stellt dem System eine Frage, indem er ein chinesisches Zeichen in den Eingangsschlitz einwirft. Dann wartet er einige Sekunden und am Ausgangsschlitz erscheint ein chinesisches Schriftzeichen. Das Eingangszeichen könnte zum Beispiel bedeuten »Wie heißt du?« und das Ausgangszeichen korrekterweise »Ich heiße Klaus.« Dann gibt der Chinese eine neue Frage ein, der Mensch im Inneren antwortet (über seine Excel-Tabelle) für ihn selbst unbemerkt korrekt. Und immer so fort. Alle Antworten, die aus dem Inneren des Zimmers kommen, seien im Gedankenexperiment für den äußeren Fragesteller korrekt. Daher die naheliegende Frage: Kann der Mensch im Inneren jetzt Chinesisch?
Nein, natürlich nicht, das war die Bedingung 1 des Experiments. Man kann aber der Meinung sein, das Gesamtsystem verstünde trotzdem Chinesisch. Aber stellen Sie sich vor, dass kein Mensch im Zimmer ist, sondern ein Zahnrad-Getriebe, das durch eine ausgeklügelte Mechanik auf ein Eingangssignal IN das richtige Ausgangssignal OUT ausgibt. Hat das Getriebe oder das »Zimmer« jetzt Chinesisch verstanden? Die meisten antworten auch hier mit Nein. Und Searle fragte weiter: Hat das System Bewusstsein, wenn man aus seinem Input-Output-Verhalten schlussfolgern könnte, es hätte eins, weil es nach außen wie ein »richtiger Mensch« agiert? Darüber wird zwar bis heute diskutiert, aber durch die gedankliche Zuspitzung des Chinesischen Zimmers auf ein mechanisches Zahnrad-Getriebe zur korrekten Zeichenauswahl, darf man davon ausgehen, dass das System keinerlei Bewusstsein besitzt und trotzdem die obigen Leistungen ermöglicht.
Zusammenfassung Das Kapitel 3 möchte ich in Tabelle 3.2 nochmals zusammenfassen: Intelligenzstufe Arbeitsname in diesem Buch
Meine Bemerkung Zuordnung der KI
I1
Angemessene Intelligenz
(KI)
Unterhalb des Radarschirms der heutigen KI, zum Beispiel adaptive Regler. 1997 galt Deep Blue mit Sicherheit als KI-System, heute für die meisten Fachleute eher nicht mehr.
I2
Lernende Intelligenz
KI
Lernen und Schlussfolgern der KI durch Deduktion, Abduktion, Induktion.
I3
Kreative Intelligenz
KI
KI agiert sehr erfolgreich im Interpolationsraum und in wenigen Anwendungen sogar im »kreativen« Extrapolationsraum.
I4
Bewusste Intelligenz
KI-System mit nachweislichem (!) Bewusstsein nicht bekannt.
Intelligenzstufe Arbeitsname in diesem Buch I5
Meine Bemerkung Zuordnung der KI
Selbstbewusste Intelligenz
Nicht möglich, niemand weiß, wie man Selbstbewusstsein technisch erzeugen kann.
Tabelle 3.2: Einordnung der Künstlichen Intelligenz in verschiedene Intelligenzstufen
Die Zuordnung der KI ändert sich über die Jahre. Heutzutage ist die KI eine KI, die logisch schlussfolgern (I1), lernen (I2) und in manchen Anwendungen Kreativität sogar täuschend echt simulieren kann (I3). Insbesondere im Bereich »Lernen« (I2) ist die KI sehr erfolgreich, allerdings nicht exakt berechnend, sondern stets approximativ vorhersagend. Im Bereich der gerade aufkommenden Chatbots kann dieser Ansatz riskant sein, da die Bots ihre präsentierten »Wahrheiten« oftmals statistisch schätzen und nicht logisch schlussfolgern. Anwendungen im Bereich der Kreativität sind simulierte Kreativität (also Pseudo-Kreativität), da man die KI in einen unbekannten Extrapolationsraum »hineinrechnen« lassen und die Ergebnisse dieser Pseudo-Kreativitäts-KI durch einen Korrekturalgorithmus und/oder durch einen Menschen bewerten lassen kann. Die Intelligenzstufen I4 und I5 »Bewusste und Selbstbewusste Intelligenz« sind durch die KI heute noch nicht erreichbar. KI mit Bewusstsein (»Maschinenbewusstsein«) könnte jedoch bis zum Jahre 2030 möglich werden, was noch erklärt werden wird.
Kapitel 4
Alles, was Sie über das Wissen wissen müssen IN DIESEM KAPITEL Von Daten zu Information zu Wissen Syntax, Semantik, Pragmatik von Daten Information nach Shannon Qualitative und quantitative Bedeutung einer Information
Wir haben festgelegt, dass wir in diesem Buch erst dann von einer KI sprechen wollen, wenn die Systeme selbstlernend sind, wenn sie mit Wissen hantieren und neues Wissen erzeugen können. Bevor wir den Vorgang des Lernens von Wissen vertiefen, wollen wir nochmals erörtern, was Wissen eigentlich ist.
Was ist Wissen? Wissen ist die Bezeichnung für ein kognitives Schema, was sich auf die Vernetzung von Informationen und Regeln begründet und einen gewissen-über den Wissensträger hinausreichenden -Wahrheitsanspruch besitzt oder besitzen soll. Da es eine absolute Wahrheit nicht gibt, hatten wir in Kapitel 3 bereits festgestellt, dass das Wissen für den Wissensträger in irgendeiner Form nützlich sein soll.
Arbeiten wir uns nun detailliert in das Thema ein.
Von Daten zu Informationen zu Wissen Beginnen möchte ich bei den Daten, schließlich hören wir von überall: Daten sind das neue Gold! Aus Daten entsteht Wissen. Und das Datenvolumen der Welt wächst exponentiell.
Reden wir über Daten
Eine offizielle Definition für Daten Laut DIN 44300 sind Daten Gebilde aus Zeichen oder kontinuierliche Funktionen, die aufgrund bekannter oder unterstellter Abmachungen Information darstellen, vorrangig zum Zwecke der Verarbeitung und als deren Ergebnis.
Daten sind Gebilde aus Zeichen, die Informationen repräsentieren können. Zur Verdeutlichung stellen wir uns eine grüne Wiese mit Hunderttausenden von Grashalmen vor. Sind die Grashalme auf der Wiese Daten? Die Antwort nach obiger Definition kann nur sein: »Es kommt darauf an.« Warum, wird schnell klar. Für einen mathematischen Theoretiker, der in höheren geistigen Sphären lebt, ist alles nur einheitlich Gras, er sieht die Grashalme wahrscheinlich gar nicht. Ein Student überlegt vielleicht, ob er das Grün dort draußen rauchen kann, während er mit kluger Miene den Ausführungen des Dozenten lauscht. Für einen Botaniker aber könnten die Eigenschaften des Grases sehr viele Daten enthalten oder sagen wir hier bewusst, bedeuten. Das heißt, alles könnten Daten sein. Das ist natürlich unbefriedigend, denn so kann man leider den Begriff nicht abgrenzen. Doch gerade die Abgrenzung entscheidet, was Daten sind.
Unsere Definition für Daten in diesem Buch Wir legen für nachstehende Erläuterungen fest: Jedes Gebilde, das sich von einem (abstrakten) Hintergrund oder einer (abstrakten) Umgebung unterscheidet, ist ein Datum.
Denken Sie an einen schwarzen Punkt auf einem Blatt Papier oder schauen Sie auf Abbildung 4.1.
Abbildung 4.1: Ein elementares Datum – ein schwarzer Punkt auf einem weißen Papier
Das ist nach unserer Festlegung ein Datum (Singular von Daten). Alle Unterscheidungen von einer Umgebung oder einem Hintergrund sind nach unserer Festlegung Daten. Nehmen Sie folgende Zeichenkette: 38fjf84j331897. Das sind mit Sicherheit Daten, denn diese Zeichen unterscheiden sich sehr gut von der Umgebung des gedruckten Papiers. Mit Hintergrund ist aber auch ein abstrakter Hintergrund gemeint, so zum Beispiel ein elektrisches Nichtpotenzial (als Hintergrund) im Vergleich zu einem elektrischen Potenzial in einem Speicher. Bei dieser Definition erkennen wir, dass es unendlich viele Daten gibt. Warum? Man könnte aus dem obigen Bild neue Daten generieren, indem man den Unterschied zwischen einer gedachten Bildzelle und ihrem linken Nachbarn bestimmt. Weiß setzen wir auf null, schwarz auf eins. Dann stehen überall Nullen, bis zu der Stelle, wo eben noch der schwarze Punkt war. Jetzt bilden wir eine neue Bildmatrix, wir berechnen die Differenz einer Bildzelle mit ihrem linken Nachbarn. Es entsteht eine neue Bildmatrix. Der Fachmann nennt das Ableitung. Und wir können das ziemlich oft wiederholen, alleine bei einem einzigen Bild. Natürlich ist das am Beispiel vielleicht nicht sinnvoll, aber ob die Daten sinnvoll sind, das wird an anderer Stelle entschieden. Und wie viele Daten haben wir heute bereits gespeichert? Das weiß niemand. Aber man hört, dass die US-Behörden Technologien entwickeln lassen, um
langfristig 1 Yottabyte (1 YB = 1024 Byte) abzulegen. Zum Vergleich, die Anzahl aller Sandkörner auf allen Stränden der Welt soll circa 1 Zettabyte, also 1021 Byte, betragen.
SI-Präfixe für Mengen an digitalen Daten Anbei eine Übersicht über die Abkürzungen, die heutzutage verwendet werden. Wir müssen uns daran gewöhnen, mit riesengroßen Zahlen zu operieren: 1 Gigabyte = 1000 Megabyte = 109 Byte (einfache USB-Sticks) 1 Terabyte = 1000 Gigabyte = 1012 Byte (solche Festplatten gibt es in jedem Elektronikfachmarkt, 1012 Sandkörner gibt es in einem Kubikmeter Sand) 1 Petabyte = 1000 Terabyte = 1015 Byte (Speichervermögen von Supercomputern) 1 Exabyte = 1000 Petabyte = 1018 Byte (das »menschliche Wissen« in einem Gehirn hat einen Umfang von mehreren Hundert Exabyte, siehe spätere Rechnungen in diesem Buch) 1 Zettabyte = 1000 Exabyte = 1021 Byte (Menge an digitalen Daten, die jährlich gespeichert werden) 1 Yottabyte = 1000 Zettabyte = 1024 Byte (mit autonomen Autos könnten wir bald diese Grenze erreichen) Es gibt ein leichtes Chaos bei den Präfixen, da man sie früher nicht dezimal, sondern binär benutzte. Heute gibt es zwei Normen, meistens wird die SI-Norm verwendet, anbei ein Beispiel zur Unterscheidung: SI-Norm (dezimal codiert als 10n) – Präfixe: M, G, T, P, E, Z, Y Heute gilt: 1 TB = 1012 Byte = 1000 GB. Früher galt: 1 TB = 1024 GB, dies ist heute falsch. IEC-Norm (binar codiert als 2n) – Präfixe: Mi, Gi, Ti, Pi, Ei, Zi, Yi 1 TiB = 240 Byte = 1024 GiB, wird ausgesprochen als: 1 Tebibyte ist gleich 1024 Gibibyte
Aber bedenken wir, es gibt unendliche viele Daten dort draußen, es dauert noch etwas länger, bis wir alle Daten der Welt gespeichert haben. Doch das wollen wir gar nicht. Wir wollen nur sinnvolle Daten speichern, solche, die für uns Informationen darstellen.
Reden wir über Information
Wir leben in einer Informationsgesellschaft, alles dreht sich nur noch um Informationen, es sind die bedeutendsten Vermögenswerte, die Unternehmen haben. Die großen Social Media-Konzerne wollen nicht Ihre Daten, sie wollen Informationen von Ihnen. Was ist der Unterschied? Angenommen, Sie gehen spazieren und sehen an einem Baum einen gelben Pfeil. Wir wissen, dass dieser gelbe Pfeil mit Sicherheit ein Datum darstellt, er hebt sich von seiner Umgebung ab. Stellt der Pfeil aber auch eine Information für Sie dar? Oder anders gefragt, hat der Pfeil irgendwie Relevanz für Sie? Die Antwort wird sein – Sie ahnen es bereits –, es kommt mal wieder darauf an. Sind Sie Jakobsweg-Pilger, dann gibt Ihnen dieser Pfeil den weiteren Weg an, er hat eine Relevanz. Sind Sie jedoch heimischer Pilzsucher, dann nehmen Sie den Pfeil vielleicht auch wahr, aber er hat keine Relevanz. Der Pfeil stellt für Sie keine Information dar. Und gehen Sie diesen Weg täglich, dann hat der Pfeil für Sie sowieso keine Relevanz, selbst wenn er Ihnen beim ersten Mal einen Weg angezeigt hat. Von Daten zu Informationen Wir definieren: Informationen sind Daten mit Bedeutung für einen Empfänger. Wie groß die Bedeutung einer Information ist, ist damit immer noch nicht geklärt, aber sie muss größer als null sein. Haben Daten keine Bedeutung für Sie oder können Sie diese nicht entschlüsseln, zum Beispiel irgendwelche GraffitiMalereien auf einer Häuserwand, sind das für Sie keine Informationen. Ein anderes Beispiel: Finden Sie die Zeichen »+4912345678910« auf einem Zettel, sind das Daten. Aber ihre Bedeutung für Sie kann null sein. Steht dahinter aber ein Name, zum Beispiel der Name Ihres Kollegen Max, dann sehen Sie, dass es sich um eine Telefonnummer handelt, und wenn Sie diese Nummer gerade lange gesucht haben, ist das garantiert eine Information für Sie. Damit werden aus Daten Informationen. Wenn Sie diese Nummer schon lange gesucht haben, weil Sie Max etwas Wichtiges sagen wollten, dann hat die Nummer sogar eine sehr hohe Bedeutung. Damit sind wir bei einer interessanten Frage angekommen: »Kann man irgendein Qualitäts- oder Quantitätsmaß für eine Information ausrechnen?« Jetzt wird es leider kompliziert und wir müssen ein wenig Theorie betreiben, weil wir noch »Syntax« und »Semantik« unterscheiden müssen. Seit Shannons Aufsatz einer »Mathematischen Theorie der Mathematische Kommunikation« kann der
syntaktische Informationsgehalt einer Nachricht tatsächlich ausgerechnet werden, um damit beispielsweise die Kanalkapazität eines Überträgers zu berechnen [Shannon 1948]. Wir können schon seit 70 Jahren die sogenannte Syntaktische Menge an Informationen berechnen, die ein Satz, ein Bild oder eine Tageszeitung enthält. Erklärungen zum Begriff der Information Information ist ein Maß für geminderte Unsicherheit oder anders ausgedrückt, Information ist ein Maß für die Zunahme der Wahrscheinlichkeit einer richtigen Voraussage eines Ereignisses. Betrachten wir ein einfaches Beispiel, um zu verstehen, wie eine solche Berechnung aussieht: Gegeben sind zwei Möglichkeiten 0 oder 1, zwischen denen entschieden werden muss. Wenn es keine A-priori-Kenntnisse über die Wahrscheinlichkeit beider Möglichkeiten gibt, nimmt man den schlimmsten Fall (worst case) an und das wäre die Annahme, dass beide Möglichkeiten mit derselben Wahrscheinlichkeit von 50 Prozent (p = 0,5) eintreffen können. So ist das zum Beispiel bei einem Münzwurf. Es gilt maximale Unsicherheit über die Entscheidung, ob nach einem Wurf »Kopf« oder »Zahl« oben liegen wird. Gibt uns aber jemand die Information, die Münze sei gezinkt und »meistens liege Kopf oben«, dann ist die Unsicherheit über eine Vorhersage reduziert und die Wahrscheinlichkeit einer richtigen Vorhersage für uns erhöht. Eine wichtige Frage ist nun, wie viel Information übergeben werden muss, um den Entscheider zu einer richtigen Vorhersage bei einem idealen Münzwurf (entweder Ereignis 0 oder Ereignis 1) kommen zu lassen? Wie groß ist der sogenannte Informationsbedarf beziehungsweise Informationsgehalt? Die Antwort darauf hat die Informationstheorie geliefert: Man benötigt für eine solche Entscheidung genau ein Bit an Information. Das Bit ist der Elementarbaustein der Informationstheorie und 1 Bit steht für genau eine Ja-Nein-Entscheidung oder eine Ja-Nein-Erkenntnis.
Information, Informationsgehalt und Informationsbedarf – was für ein Begriffswirrwarr
Informationsgehalt und Informationsbedarf werden in der Erläuterung synonym verwendet. Rechentechnisch macht dies auch keinen Unterschied. Nur vom Verständnis her werden unterschiedliche Fragen beantwortet. Hat man beispielsweise von 16 Zahlen eine richtige auszuwählen, hat man einen Informationsbedarf von 4 Bit. Damit muss man einem Entscheider einen Informationsgehalt von 4 Bit übermitteln, damit er die richtige Entscheidung fällen kann. Oder man sagt, 16 Zahlen kann man mit 4 Bit codieren, 256 Zahlen dann mit 8 Bit (1 Byte) und so weiter.
Wenn wir nach einem Münzwurf wissen, dass beispielsweise »Kopf« oben liegt, dann haben wir die Informationsmenge von einem Bit erhalten. Betrachtet wird nun der etwas allgemeinere Fall, dass mehrere Möglichkeiten zur Auswahl existieren, die aber immer noch die gleiche Auftrittswahrscheinlichkeit p besitzen. Hat man beispielsweise acht Möglichkeiten zur Auswahl (m = 8) und weiß a priori nichts über die Auftrittswahrscheinlichkeiten, so wird man jeder Möglichkeit die Auftrittswahrscheinlichkeit von 1/8 unterstellen. Die Summe aller Wahrscheinlichkeiten muss den Wert 1 annehmen, was bedeutet, dass irgendeine der Möglichkeiten (entweder Möglichkeit 1 oder 2, … oder Möglichkeit 8) mit Sicherheit (p =1) auftreten muss. Mathematisch gilt also:
Wenn eine Entscheidung unter zwei Möglichkeiten aber einem Bit entspricht, dann hat die Entscheidung unter acht Möglichkeiten einen Informationsgehalt von drei Bits, da man die Auswahl in drei einzelnen Ja-Nein-Entscheidungen durchführen kann. Probieren Sie es aus! Erraten Sie eine Zahl zwischen 1 und 8 mit drei Ja-Nein-Fragen, das geht immer. Fragen Sie beispielsweise zuerst: »Ist die Zahl kleiner als 5?« In Abhängigkeit von der Antwort stellen Sie dann die zweite Frage. Und mit der Beantwortung der dritten Frage wissen Sie, welche Zahl vorab ausgewählt worden war. Anstatt an einer Zahlenmenge festzuhalten, erweitern wir das Problem auf eine Auswahl von Zeichen aus einer vorgegebenen Menge M von m Zeichen. Es gilt also: Mit m sei die Anzahl der gleichwahrscheinlichen Möglichkeiten und mit der Informationsgehalt eines Zeichens x (aus der Menge M) bezeichnet. Umgestellt nach ergibt sich:
Mit wird die Wahrscheinlichkeit des Eintreffens einer Möglichkeit bei Gleichverteilung bezeichnet. Für das obige Beispiel von acht Zeichen (m = 8) beziehungsweise acht Möglichkeiten gilt:
Jedes Zeichen aus der Menge M (mit m = 8 Elementen) hat einen Informationsgehalt von 3 Bit.
Berechnung des Informationsgehalts einer Zeichenkette aus einer Nachrichtenquelle Q Im Allgemeinen sind die Wahrscheinlichkeiten für die einzelnen Zeichen einer Quelle nicht gleichverteilt, deshalb ist es notwendig, ein mittleres Maß H (in der Literatur oftmals auch) für den Informationsgehalt einer Nachrichtenquelle zu bestimmen. Der mittlere InformationsgehaltH wird oftmals auch als Entropie bezeichnet. Der Begriff Entropie kommt jedoch ursprünglich aus der Wärmelehre. Dort wird Entropie meist als »Maß für innere Unordnung des Systems« verstanden, besser wäre jedoch sie als Maß über »Unkenntnis der Zustände der Teilchen« zu interpretieren. Denn damit sind wir bei der Informationstheorie angelangt. Entropie ist hier ein »Maß über eine Informationsunsicherheit«. Daraus resultiert der Begriff des »Informationsgehalts«, denn je höher die Informationsunsicherheit ist, desto höher ist der Informationsgehalt, wenn man Informationen über das System erhält. Der Informationsgehalt ist also reduzierte Informationsunsicherheit. Rechnerisch ergibt sich H wie folgt:
Der mittlere Informationsgehalt eines Systems ist die gewichtete Summe der jeweiligen, einzelnen Informationsgehalte seiner Zeichen. Man kann obige Gleichung auch umformen zu:
Man beachte, dass der mittlere Informationsgehalt H stets positiv ist, da der Logarithmus einer Zahl zwischen 0 und 1 negativ wird. H wird in Binärbits/Zeichen angegeben. Der Informationsgehalt eines Systems (bzw. einer Nachricht vom System) kann theoretisch null bis unendlich sein, je nach Anzahl der Zustände bzw. Anzahl der auszuwählenden Möglichkeiten. Das heißt, er hängt von der gegebenen Verteilung ab. Können auf einer gegebenen Verteilung X (zum Beispiel der Verteilung einer Prozessgröße) nur binäre Entscheidungen getroffen werden, kann der
mittlere Informationsgehalt nur maximal ein Bit/Zeichen werden, je nach Vorkenntnissen. Hat man beispielsweise eine Menge Z mit 100 Ausprägungen von je zwei binären Möglichkeiten, »Symbol A« und »Symbol B«, mit
und weiß man, dass in 99 Fällen die Auswahl A im Datensatz eingetragen wurde, so wird man – wenn man raten müsste, was man zufällig aus dem Datensatz zieht – die Ausprägung A wählen. Wie groß ist nun der Informationsgehalt, also die gesamte reduzierbare Informationsunsicherheit, der Menge Z? Zuerst bestimmen wir den Mittelwert HZ:
Der mittlere Informationsgehalt jedes Zeichens aus der Menge Z ist 0,08 Bit/Zeichen. Da wir 100 Zeichen haben, ist der gesamte Informationsgehalt (die gesamte reduzierbare Informationsunsicherheit) über die Menge Z genau acht Bit (0,08 Bit/Zeichen ·100 Zeichen = 8 Bit). Das ist nicht viel, aber es ergibt sich zwingend, weil man das Zeichen A aus der obigen Menge Z fast erraten könnte. Zum Vergleich: Hat man beispielsweise eine Menge Y mit 100 Eintragungen von zwei Symbolen A und B mit
und weiß man, dass in 50 Fällen die Auswahl A im Datensatz eingetragen wurde, so wird man – wenn man raten müsste, was man zufällig aus dem Datensatz zieht – recht ratlos sein. Warum, sieht man in der Rechnung. Wie groß ist der Informationsgehalt der Menge Y? Zuerst bestimmen wir erneut den Mittelwert HY:
Der mittlere Informationsgehalt ist 1 Bit/Zeichen. Bei einem Zeichenvorrat von zwei Zeichen (A,B) bedeutet das jedoch maximale Unsicherheit über die Menge Z. Da wir 100 Zeichen haben, ist der Informationsgehalt der Menge Y genau 100 Bit.
Die Idee von Shannon funktioniert auch, wenn die Zeichen alle eine unterschiedliche Auftrittswahrscheinlichkeit haben, siehe die Mathematik-Box und folgendes Beispiel: Die Auftrittswahrscheinlichkeit für den Buchstaben E im deutschen Alphabet ist pE = 17 Prozent, die Wahrscheinlichkeit für den Buchstaben Q jedoch nur 0,02 Prozent. Wenn Sie also eine Nachricht erhalten, welcher Buchstabe würde Sie in der Nachricht mehr überraschen, E oder Q? Natürlich das Q. Und das macht den Charme von Shannon aus. Nehmen wir die Kehrwerte und berechnen daraus den Logarithmus zur Basis 27, da (ohne Ä, Ö, Ü, aber mit ß) 27 Buchstaben
vorhanden sind, dann sehen wir, welch großen Unterschied die Informationsgehalte von Q und E haben. In der Beispielbox zum Alphabet habe ich die genauen Zahlenwerte angegeben.
Berechnung des Informationsgehalts eines Zeichens des deutschen Alphabetes nach Shannon Buchstabe Auftrittswahrscheinlichkeit Kehrwert Informationsgehalt Informationsgehalt des px in der deutschen qx= 1/px Ix des Zeichens x Ix des Zeichens x deutschen Sprache in Binärbits Alphabets E
17,4 Prozent
5,75
0,53
2,52
N
9,8 Prozent
10,2
0,7
3,35
I
7,5 Prozent
13,3
0,78
3,73
3,7 Prozent (Mittelwert)
27
1
4,75
Y
0,04 Prozent
2500
2,37
11,28
X
0,03 Prozent
3333
2,46
11,7
Q
0,02 Prozent
5000
2,58
12,28
Der mittlere Informationsgehalt eines Zeichens (Buchstabens) des deutschen Alphabets (mit 27 Zeichen) beträgt bei Annahme einer Gleichverteilung pro Zeichen:
Da die Summe aus 27 einzelnen Summanden besteht, die jedoch alle gleich groß sind, konnte man den ersten Term einfach mit 27 multiplizieren, um das Endergebnis zu bestimmen. Wenn man H jedoch nach der exakten Summenformel über alle Buchstaben (von E über N … bis Q) konkret ausrechnet, also
bestimmt, stellt man fest, dass rund 4,1 Bit/Zeichen groß ist, weil in Wirklichkeit eben gerade keine Gleichverteilung der Buchstaben vorliegt. Die Differenz von 0,65 Bit/Zeichen nennt man Redundanz.
Der Informationsgehalt von »Q« ist circa fünfmal größer als der von »E«. Man sagt deshalb, der Informationsgehalt entspricht intuitiv auch einem
Überraschungswert. In der Praxis kann man den zu übertragenen Informationsgehalt jedoch reduzieren. Denn schauen Sie mal auf die Zeichenkette »Hello worl_«. Jeder ahnt, dass das fehlende Zeichen ein »d« sein könnte, damit wieder »Hello world« entsteht. In der Informatik nennt man so etwas, den Informationsgehalt von statistisch abhängigen Ereignissen zu bestimmen, denn natürlich hängen die Buchstaben voneinander ab. Aber das wollen wir nicht weiter vertiefen. Vertiefen müssen wir jedoch ein anderes Thema. Denken Sie an das vorherige Beispiel mit der Telefonnummer. Man kann mit den Formeln von Shannon exakt ausrechnen, welchen syntaktischen Informationsgehalt diese Zeichenkette hat, nicht jedoch ihre semantische Bedeutung für einen Empfänger. Informationen sind aber als Daten mit Bedeutung definiert worden. Welches konkrete Bedeutungsmaß haben dann Informationen? Dies wollen wir im nächsten Abschnitt erörtern.
Information und ihre Bedeutung Auf abstrakter Ebene haben wir uns bisher nur mit Zeichenketten auseinandergesetzt. Wir haben erkannt, dass diese Zeichenketten Daten darstellen und sogar Informationen. Auch ein Text – wie dieses Buch – besteht aus Zeichen, also Buchstaben und Wörtern. In den Sprachwissenschaften nennt man das Teilgebiet, das sich mit Zeichenketten beschäftigt, Syntax. Aber neben der Syntax gibt es noch den Begriff der Semantik, als der Bedeutungslehre von Zeichen.
Jetzt auch noch Semantik – die Lehre von der Bedeutung Semantik ist die Wissenschaft von der Bedeutung der Zeichenketten. Im Kontext des Buches auch eine Theorie zur Bestimmung der Bedeutung von Informationen.
Im Rahmen der Semantik wollen wir herausfinden, wie groß die Bedeutung einer Nachricht ist, oder mal Fachchinesisch ausgedrückt: Wie groß ist die semantische Informationsmenge einer Nachricht? Die Semantik ist eine recht komplizierte Wissenschaft. Wenn die Bedeutung von sprachlichen Zeichenketten interessiert, nennt man das linguistische Semantik. Die Wortsemantik analysiert dabei die Bedeutung von Wörtern. Die Satzsemantik untersucht, wie aus der Bedeutung einzelner Wörter die Bedeutung von größeren
syntaktischen Einheiten entstehen kann. Die Semantik einer Aussage soll also aus der Struktur und Verknüpfung von Aussageelementen ermittelt werden. Beispiel Ich muss heute noch zehn Seiten auf meiner Maschine schreiben. Meine Maschine fliegt morgen bereits um fünf Uhr. Was ist der Kerl doch bloß für eine Maschine. Das ganze System arbeitet Hand in Hand, wie eine Maschine. Die gleiche Zeichenkette »Maschine« hat unterschiedliche Bedeutungen. Die Idee ist, dass aus der Verknüpfung eines Begriffs mit seiner Umgebung die richtige Bedeutung für das Wort »Maschine« ermittelt werden kann. Das ist eine hervorragende Idee, wie man an obigem Beispiel erkennt. Erst durch den Kontext erschließt sich die Bedeutung des Wortes. Das Wort »Maschine« im obigen Beispiel hat tatsächlich vier qualitativ verschiedene Bedeutungen. Doch selbst das Wort »Bedeutung« hat verschiedene Bedeutungen. Im obigen Kontext stand das Wort »Bedeutung« für eine qualitative Beschreibung von Begriffen. Aber kann man Bedeutung auch quantitativ verstehen, die Bedeutung eines Wortes oder einer Nachricht also mathematisch exakt ausrechnen? Dies scheint nicht so einfach möglich, aber wir wollen es für einfachste Fälle mal gemeinsam versuchen. Vorab muss jedoch gesagt werden, dass es heutzutage noch keine anerkannte Methode zur »quantitativen Berechnung der Bedeutung« gibt, weshalb im Folgenden ein eigenes Schema vorgestellt wird. Betrachten wir – um uns an das quantitative Problem heranzuarbeiten – das Bild einer chinesischen Zeitung und stellen wir uns vor, wir würden diese an einem Strand finden (Abbildung 4.2).
Abbildung 4.2: Eine chinesische Zeitung (© Paco Ayala - stock.adobe.com)
Welche Bedeutung hat für uns der chinesische Text, der in obiger Zeitung steht? Bedeutung meint im quantitativen Fall eine echte Informationsmenge, eine sogenannte semantische Informationsmenge. Die syntaktische Informationsmenge aller Zeichenketten in der Zeitung kann man genau wie beim deutschen Text ausrechnen. Aber wie groß ist die semantische Informationsmenge der dargestellten Zeichenketten? Jetzt erahnt man wahrscheinlich bereits das Problem. Während die syntaktische Informationsmenge eine feste Größe ist, die man aus all den chinesischen Zeichen aufaddieren kann, geht das für die semantische Informationsmenge gar nicht. Schauen wir beispielhaft auf folgende vier Fälle: Findet ein deutscher Leser, der kein Chinesisch kann, die Zeitung, so ist die semantische Informationsmenge null. Findet ein chinesisches Kind die Zeitung, so ist die Menge größer als null. Findet ein politisch interessierter Chinese das Blatt, dann ist die semantische Informationsmenge wieder größer. Und findet ein Politiker die Zeitung und auch noch ein Zitat von sich selbst darin (immer wichtig), dann ist die semantische Informationsmenge noch
größer. Was also nun? Die semantische Informationsmenge eines Texts kann nicht alleine im Text selbst enthalten sein. Das Problem scheint auf den ersten Blick ernüchternd. Während die syntaktische Informationsmenge ausschließlich aus der Zeitung selbst berechnet werden kann, gilt das für die semantische Informationsmenge nicht. Wenn man länger darüber nachdenkt, ist das natürlich logisch, denn wie will man die Bedeutung eines Textes für einen konkreten Leser ausschließlich aus der Zeitung selbst bestimmen? Das geht nicht. Oder abstrakter, wie will man die Bedeutung einer Nachricht für ein System ausschließlich aus der Nachricht selbst bestimmen? Das erscheint unlogisch. Die Bedeutung, das heißt die semantische Informationsmenge, muss man als Relation zwischen einem Sender und einem Empfänger begreifen. Dann, erst dann wird das Problem auch mathematisch handhabbar. Da es in der KI zukünftig darauf ankommt, Systeme zu konstruieren, die auch Semantik verstehen – denken Sie an das chinesische Zimmer von Searle –, muss man sich mit der Berechenbarkeit der Bedeutung einer Information auseinandersetzen, um eine formale Methode zu haben, die semantische Informationsmenge ausrechnen zu können. Wie bereits erwähnt, gibt es dafür bis dato keine allseits akzeptierte Lösung, sodass für Sie nachstehend eine anschauliche Antwort entwickelt wird. Sie ist nicht Stand der Technik, wird uns aber trotzdem für das weitere Verständnis helfen.
Berechnen wir die quantitative Größe der Bedeutung Gegeben seien zwei Personen. Person A sei der Sender oder die Quelle einer Nachricht N, Person B sei der Empfänger der Nachricht. Es ist klar, dass man als Nachricht nur syntaktische Zeichen übersenden kann, was auch sonst. Und der Sender A hofft natürlich, dass der Empfänger B aus den Zeichenketten von N genau die Bedeutung herausliest, die A auch mitteilen wollte. Wir wissen alle, dass dem oft nicht so ist. Wir bekommen eine Mail und verstehen nicht, was der Absender damit meint. Das ist viel öfter der Fall, als man denkt. Man schreibt einen Text und hofft, dass dieser beim Leser genau die Assoziationen hervorruft, die man wünscht, aber das passiert nicht immer. Ob es gerade jetzt bei Ihnen, liebe Leserinnen und Leser, passiert, weiß ich leider nicht.
Übertragen wir die Thematik ins rein Technische. Die Bedeutung einer Information – ihre semantische Informationsmenge – für ein Empfängersystem B wird im Folgenden als Maß der Veränderung des Zustands des Empfängersystems B bei der Wechselwirkung mit der Nachricht N verstanden. Kommt es bei der Informationsaufnahme zu keiner Zustandsänderung bei B, wird die Bedeutung der Information für diesen Empfänger als null definiert; je höher die hervorgerufene Zustandsänderung ist, desto größer sei die Bedeutung von N.
Was heißt das? Zuerst einmal wird die Bedeutung einer Information mit der semantischen Informationsmenge gleichgesetzt. Es wird damit ausgedrückt, je größer die Bedeutung, desto größer ist die empfangene semantische Information beim Empfänger. Zweitens gibt es nach dieser Definition keine Bedeutung an sich, sondern Bedeutung ist eine Maßzahl für die Veränderung des inneren Zustands eines Systems B bei Wechselwirkung mit einer Nachricht. Informationsbedeutung wird damit eine Maßzahl für eine Relation R(N,B) zwischen zwei Einheiten, die man in der Nachrichtentheorie – so wie gerade eben – als Nachricht N und Empfänger B bezeichnen würde. Damit reduziert sich das Problem zur Bestimmung der Bedeutung einer Information auf die Messung der Änderung eines inneren Zustands beim Empfänger B. Ein solcher innerer Zustand ist bei einem Computer natürlich anders definiert als bei einem Menschen. Wechselwirkungen werden beim Menschen gegebenenfalls äußerst kompliziert und schwierig zu beschreiben sein. Wenden wir uns deshalb vorerst einem Computer als Empfängersystem zu.
Der Computer als Automat Jeder Automat, und ein Computer ist ein Automat, befindet sich immer in einem bestimmten informationstheoretischen Zustand. Dem Automaten kann man von außen eine Anzahl Zeichen (Bits) als Eingabe vorlegen und immer dann, wenn ein solches Eingabezeichen eintrifft, kann sich abhängig vom Eingabezeichen und dem gegenwärtigen Zustand des Automaten ein neuer Zustand, der Folgezustand, einstellen (dies nennt man Zustandsübergang). Die Menge der möglichen Zustandsübergänge, die das Verhalten des Automaten definiert, wird als Programm des Automaten definiert. Die Zustandsübergänge nenne ich im Folgenden S1, S2, S3, … usw. Im einfachsten Falle ist das die Anzahl der Bits, die sich beim Übergang von einem Zustand zum nächsten ändern. Ein Computer kann nun so programmiert werden, dass bei der Eingabe eines Zeichens (»0« oder »1«) eine enorme Kettenreaktion ausgelöst wird, bis hin zur Selbstzerstörung des Computers. Die Eingabe der »1« wird für den Computer damit eine andere Bedeutung als die Eingabe der »0« haben, beides besitzt jedoch
die gleiche syntaktische Informationsmenge (nämlich 1 Bit) und beides wird energetisch ähnlich sein. Energetische Wechselwirkung und informationelle Wechselwirkung sind hier weitestgehend entkoppelt. Technisch gesehen muss diesem Unterschied zwischen Energieaufnahme durch N, und Syntaxmenge und semantischer Informationsmenge von N detailliert Rechnung getragen werden. Im Einführungsbeispiel haben wir bereits gesehen, dass der »1« oder »0« einer Nachricht die semantische Bedeutung nicht anhaften kann. Die Bedeutung von N für einen Computer liegt im Inneren des Computerprogramms selbst. Man kann sich für eine erste mathematische Formalisierung des Problems mit einem Quotienten weiterhelfen. Man bestimmt einfach das Verhältnis zwischen der Zustandsänderung des Empfängersystems (ΔHB) und der durch die Nachricht N zugeführten Informationsmenge nach Shannon (HN). Dieses Verhältnis ist eine einfache Maßzahl, um in erster Näherung die Bedeutung einer Nachricht für einen Empfänger, im einfachsten Fall einem Computer, mathematisch exakt zu quantifizieren. Für weitere Details schauen Sie in nachstehende Mathematikbox.
Zur quantitativen Berechnung der Bedeutung einer Nachricht Die Bedeutung einer Nachricht N für einen Empfänger B, das heißt die semantische Informationsmenge R (relevancy), die ein Empfänger von einer Nachricht aufnimmt, bestimmt sich in erster Näherung als Verhältnis der Zustandsänderung des Empfängersystems ΔHB (zum Beispiel berechnet als Entropieveränderung nach Shannon oder einfach bitweise ausgezählt) zur Informationsmenge HN der Nachricht (zum Beispiel als Unsicherheitsminderung nach Shannon), mit HN > 0.
Die Bedeutung einer empfangenen Nachricht, ihre tatsächliche semantische Informationsmenge R, kann dann in erster Näherung wie folgt eingeführt werden:
R sei eine reelle Zahl größer/gleich null und drücke aus, welche quantitative Bedeutung die Nachricht N für einen Empfänger B besitzt. Im Zähler der Formel wird HN von der inneren Zustandsänderung ΔHB abgezogen, wegen der vereinfachten Annahme, dass sich beim Empfängersystem mindestens die Informationsmenge HN verändern muss, wenn der Empfänger HN empfängt. Es gilt also stets . Hinweis: Für analoge Empfängersysteme könnte man die obige Formel zu einem Differenzialquotienten verallgemeinern oder die semantische Informationsmenge R(Z,B) eines einzigen Zeichens Z für einen Empfänger berechnen. Bitte beachten Sie dabei, dass die syntaktische Informationsmenge eines Zeichens sehr klein werden kann, nämlich dann, wenn der Empfänger das Zeichen erwartet. Dies hatten wir schon besprochen. Da die Informationsmenge des Zeichens im Nenner der Formel steht (die Nachricht N besteht in diesem Beispiel aus nur einem Zeichen Z, also gilt HN = HZ), können nach dieser Formel beim Empfang eines einzigen Zeichens Z sehr große semantische Informationsmengen entstehen. Das wäre der berühmte Schmetterlingseffekt, der alles verändert. Ist das Empfängersystem B ein Digitalsystem, so kann anstatt der Entropieänderung von B vereinfachend auch die Änderung des informativen Zustands ΔHB durch die Summe der veränderten Bits im Empfängersystem bitweise ausgezählt werden, das heißt,
sind die veränderten binären Zustände des digitalen Systems von tA bis zum Ende der Veränderung tE. Damit wird die Berechnung besonders einfach.
Hier ein kurzes Rechenbeispiel für einen Computer, der eine Nachricht N (über die Tastatur) empfängt: Der mittlere (syntaktische) Informationsgehalt der Nachricht sei HN = 100 Bit (wie in einem Rechenbeispiel weiter vorne). Erhält ein System B1 diese Nachricht N und ändert daraufhin seine inneren Zustände um 10.000 Bit (weil zum Beispiel ein Softwareprogramm von B1 gestartet ist und 10.000 Bits im Computerspeicher verändert hat), so ist die Bedeutung der Nachricht N für Computer B1 wie folgt: R(N, B1) = (10.000 Bit - 100 Bit) / 100 Bit = 99 Erhält ein anderes System B2 dieselbe Nachricht N und ändern sich daraufhin seine inneren Speicher um 150 Bit, so gilt für die Bedeutung der Nachricht hinsichtlich des Computers B2: R(N, B2) = (150 Bit - 100 Bit) / 100 Bit = 0,5. Die gleiche Nachricht N hat also für den Computer B1 eine fast 200-fach größere Bedeutung (k = 99 / 0,5 = 198). Man könnte sich auch ein System B3 vorstellen, das beim Empfang der gleichen Nachricht N gar keine inneren Zustände verändert, außer die Speicherung der Nachricht selbst. Die Bedeutung dieser Nachricht für das System ist dann null: R(N, B3) = (100 Bit - 100 Bit) / 100 Bit = 0. Das ist intuitiv auch verständlich, denn diese Nachricht N bewirkt ja gar nichts am System B3. Natürlich sind viele Ausgestaltungsvarianten dieses Ansatzes, wie eine Normierung von R zwischen null (Minimum) und eins (Maximum), möglich, im Beispiel wurde nur das Prinzip der Berechnung der Bedeutung einer Nachricht verdeutlicht, das fast trivial anmutet. Eine solche Berechnung wird in dem meisten Fällen aber trotzdem (noch) nicht gemacht, wäre aber zu empfehlen, um auch Bedeutungen von Nachrichten zu quantifizieren und miteinander zu vergleichen.
Während sich die semantische Informationsmenge für einen Computer sehr einfach ausrechnen lässt, so ist das für analoge Systeme nicht möglich. Liest ein Mensch eine Zeitung, so kann man natürlich die gesamte Informationsmenge der Zeitung bestimmen (HN), aber man weiß nicht, wie sich der Informationszustand (die Entropie ΔHB) des Menschen beim Lesen verändert. Es gibt einfach keine Bits zum Auszählen. Daher ist das Verfahren für Anwendungen in der Computertechnik zwar sehr gut geeignet, aber für Anwendungen beim Menschen und anderen Analogsystemen in der oben ausgeführten Variante nicht praxistauglich. Da heutige KI-Systeme im Allgemeinen jedoch digitale Systeme sind, kann man die Änderung, die eine Nachricht beim KI-Empfänger bewirkt, in der Praxis auszählen. Damit ist die Bedeutung einer Nachricht zumindest für einen digitalen Computer exakt quantifizierbar. Die Bedeutung einer Nachricht kann berechnet werden Die Bedeutung einer Nachricht (die semantische Informationsmenge) kann nicht alleine in der Nachricht selbst enthalten sein, sondern muss stets als Relation zwischen der Nachricht und dem Empfänger der Nachricht verstanden werden.
In einfachen Fällen, zum Beispiel in allen digitalen Systemen, kann die Bedeutung einer Nachricht für das System nach einem einfachen Schema ausgerechnet werden. In komplizierten Fällen, zum Beispiel beim Menschen, kann die Bedeutung einer Nachricht für ein System nur dann ausgerechnet werden, wenn man die Änderung der inneren Zustände des Systems voll erfassen kann. Wir werden in Kapitel 16 (Ausblick) die These diskutieren, dass das menschliche Bewusstsein zu Zustandsänderungen führen könnte, die nicht allein im neuronalen Gewebe repräsentiert werden. Im Kontext dieser Aussage kann man sich daher zumindest vorstellen, dass man mit dem oben genannten Ansatz der semantischen Informationsmenge ein Kriterium hätte zu ermitteln, ob auch ein digitales System Bewusstsein hat oder nicht, denn Systeme mit Bewusstsein könnten mehr als nur auszählbare Zustandsänderungen beim Empfang einer Nachricht N besitzen. Dazu im Ausblick mehr, denn Semantik ist noch lange nicht alles.
Kommen wir zum Wissen Wissen ist die Vernetzung von Informationen in einem ganz bestimmten Kontext. Im Rahmen der natürlichen Sprache sprechen wir von Pragmatik. Die Pragmatik ist eine linguistische Teildisziplin und sie untersucht den Gebrauch von Syntax und Semantik in einer ganz konkreten Äußerungssituation. Während also Semantik die Bedeutung syntaktischer Ausdrücke (Wörter, Sätze) »unabhängig« vom übergeordneten situativen Kontext ermitteln will, untersucht die Pragmatik die Semantik in einer ganz »konkreten Situation«. Der Satz »Oh, wie toll!« kann als Kompliment, aber auch als Ironie gemeint sein. Dies versteht man erst in der konkreten Situation der Anwendung. Erst jetzt weiß der Gesprächspartner, was er antworten oder wie er handeln soll. Ein KI-System kann das heute nur vereinfacht leisten. KI-Systeme können zwar schon einfache Semantiken verstehen, das heißt, die Begriffe in ihren Kontext einordnen, sie »wissen« beispielsweise, welche qualitative Bedeutung von »Maschine« gemeint war, aber Ironie, Witze, das Dreimal-um-die Ecke-Denken, das können sie nicht. Jeder kann ja mal mit einem Chatbot Gespräche über den letzten Kinofilm führen, das wird recht schnell eintönig. Pragmatik auswerten können KI-Systeme zwar auch schon, sonst gäbe es gar keine halbwegs akzeptablen sprachverarbeitenden Systeme. Aber es bleibt alles rudimentär. Dennoch verwendet man auch in der KI häufig das Kommunikationsschema aus Abbildung 4.3.
Abbildung 4.3: Die Übertragung von Bedeutung geht nur mittels materieller Zeichenketten.
Der Sender hat eine ganz konkrete Vorstellung, was er beim Empfänger auslösen will (welche Pragmatik), welche Intuition, welche Bilder im Kopf, welche Handlungen. Natürlich kann er seine Wünsche nicht telepathisch übermitteln, er muss seine Meinung in Sprache, in Zeichen verpacken. Da der Sender weiß, welche Bedeutung welches Wort in welchem sprachlichen Kontext hat, so formuliert er seinen Satz (semantisch korrekt) und übermittelt diesen an den Empfänger. Der Empfänger erhält die Zeichenketten, ermittelt (intuitiv oder formal) die Bedeutung der Zeichenketten und erkennt im besten Fall sogar den übergeordneten Kontext, in dem die Nachricht ausgesprochen wurde. Dann versteht er die eigentliche Botschaft, die der Sender übermitteln wollte. Das muss jedoch nicht immer klappen. Selbst zwischen hoch entwickelten Systemen, wie den Menschen selbst, kann das schiefgehen, denken Sie an die Missverständnisse zwischen Mann und Frau, die in jeder Comedy-Sendung vorgetragen werden. Die Frau fragt am Handy: »Schatz, hast du alles aufgeräumt?«, und sie denkt dabei an seinen Werkzeugkasten im Keller. Der Mann antwortet: »Ja klar, Liebling«, und er denkt dabei an ihre Geräte aus der Küche, die er natürlich ordentlich weggeräumt hat. Man kann sich vorstellen, was beide zu bereden haben, wenn sie nach Hause kommt und im Keller vorbeischaut.
Diese sprachlichen Situationen wirklich zu automatisieren und fehlerfrei mittels KI-Systemen durchführen zu lassen, ist schier unmöglich, es gibt viel zu viele komplexe Sprachsituationen. Aber gerade erst die Verknüpfung einer Information in den übergeordneten Kontext erzeugt das gesuchte Wissen (Weltwissen). Und genau das können KI-Systeme nicht gut. Hier liegt weiterhin sehr viel Arbeit vor den KI-Spezialisten.
KI-Systeme verarbeiten Daten, Informationen und rudimentär auch Wissen Daten sind Gebilde, die sich von einer Umgebung unterscheiden. Bestimmte Gebilde heißen Zeichen. Information sind Daten mit Bedeutung. Qualitative Bedeutung entsteht aus dem Kontext, das heißt der Verwendung der Begriffe im Umfeld anderer Begriffe. Quantitative Bedeutung wird als semantische Informationsmenge definiert und als Relation zwischen einer Nachricht und dem Empfänger der Nachricht eingeführt. Das heißt, der Empfänger entscheidet, welche Bedeutung er einer Information beimisst. Wissen entsteht aus dem Zusammenwirken mehrerer, miteinander in Beziehung stehender Informationen. KI-Systeme können alle drei »Rohstoffe« wissensbasierter Systeme auswerten und verarbeiten. Allerdings ist die wirkliche Wissensverarbeitung – zumindest im Vergleich zum Menschen – noch als rudimentär einzustufen.
Nachdem wir gesehen haben, welches die Grundlagen der wissensverarbeitenden Systeme sind, wollen wir uns die technische Umsetzung näher ansehen, das heißt, wir wollen verstehen, wie man Wissen speichern und in einem technischen Gerät auch verarbeiten kann. Fangen wir mit den allereinfachsten technischen Grundlagen an. Wie werden die Daten in einem Computersystem und insbesondere in einem KI-System abgespeichert? Um das zu verstehen, muss man eigentlich nur wissen, dass ein Computerspeicher zwei Zustände Ein oder Aus oder, elektrisch ausgedrückt, »Spannung vorhanden« oder »keine Spannung vorhanden«, speichern kann. Alle Daten oder auch Informationen, um die es geht, müssen auf »magische« Weise auf zwei Zustände codiert werden. Man nennt das Digitalisierung!
Alles digital oder was … – Die große Digitalisierungswelle Im Jahre 1938 baute Konrad Zuse in Berlin den ersten Computer der Welt, den Z1. Der Z1 war ein mechanischer Rechner und arbeitete bereits mit binären Zahlen. Da er ständig ausfiel, setzte Zuse im Jahre 1939 auf Computer mit Relais (Z2 und Z3), Abbildung 4.4.
Abbildung 4.4: Nachbau eines der ersten Computer der Welt nach Konrad Zuse (© Udo Bojahr stock.adobe.com)
In Abbildung 4.5 ist das Schaltprinzip eines Relais dargestellt. Fließt durch die Spulenkontakte S1-S2 kein Strom, ist der Anker (C) offen (Kontakt bei NC) und es fließt auch kein Strom bei (C); wir bezeichnen diesen Zustand mit »Zustand 0«. Fließt durch die Spule S1-S2 ein Strom, baut die Spule ein Magnetfeld auf, zieht den Anker an (Kontakt bei NO) und es fließt ein Strom bei (C), wir bezeichnen das als »Zustand 1«. Will man mehr als zwei Zustände speichern, braucht man mehrere Relais.
Abbildung 4.5: Wir speichern zwei Zustände 0 oder 1 mit einem Relais.
Der Z3 hatte bereits 2400 Relais. Er arbeitete mit bis zu 10 Hz, hatte einen 22-BitSpeicher, beherrschte alle vier Grundrechenarten und wog circa 1000 kg. (Alle Angaben durch ChatGPT erhoben.) Als Taschenrechner würde man das Gerät daher nicht bezeichnen. Heute verwendet man natürlich keine Relais mehr, nicht mal mehr diskrete Transistoren, die man sich als Mini-Relais aus Halbleitern vorstellen kann, sondern integrierte Schaltkreise aus Mini-Transistoren. Manche Transistoren erreichen hierbei bereits atomare Größen. Aber das Prinzip ist gleich geblieben. An einer Speicherstelle in einem Computer liegt eine Spannung an (die logische »1«) oder nicht (die logische »0«).
Wir speichern Zustände mit Relais Will man beispielsweise vier Zustände speichern, benötigt man zwei Relais, die folgende EinzelZustände haben: Zustand Beispiel Dezimalzahl Beispiel Buchstabe Relais 1 Relais 2 0
0
a
0
0
1
1
b
0
1
Zustand Beispiel Dezimalzahl Beispiel Buchstabe Relais 1 Relais 2 2
2
c
1
0
3
3
d
1
1
Speicherung von Zuständen
Man kann logische Zustände und damit auch Zeichen mechanisch bzw. elektrisch abspeichern (mit Relais) oder wie heutzutage üblich elektronisch mittels Transistoren und Schaltkreisen. Zustände können dabei alles sein, was man voneinander unterscheiden möchte, zum Beispiel Buchstaben oder Dezimalzahlen. Die Aufgabe besteht also darin, Zeichenketten in einen Dualcode, also einen Zifferncode aus Nullen und Einsen zu übersetzen (siehe Box). Hinter jeder dualen Ziffer (»0« oder »1«) kann sich dann bautechnisch ein Relais oder ein Transistor oder ein Teil eines Schaltkreises befinden.
Vom Dual- und Hex-Code der Informatiker Der Dualcode ist sehr einfach zu verstehen. Da man nur zwei Ziffern zur Verfügung hat, 0 und 1, muss man alle Zahlen oder Buchstaben mithilfe dieser beiden dualen Ziffern speichern. Nichtcomputerfachleute kennen natürlich eher die Dezimalzahlen. Der Mensch hat die Dezimalzahlen, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, … vor Tausenden von Jahren entwickelt, wahrscheinlich, weil er zehn Finger besitzt. Was aber, wenn er größere Zahlen als 9 mathematisch korrekt darstellen will? Dann muss er eben Ziffern an mehreren Stellen beziehungsweise Positionen verwenden und damit eine Wertigkeit einführen. Zum Beispiel gilt: 12 = 10 + 2 oder 123 = 100 + 20 +3. Man erkennt, wie das System funktioniert. Auch die Dualzahlen arbeiten nach dem gleichen Prinzip. Da auch die dezimale Null codiert werden muss, ist es notwendig, bereits ab der dezimalen Ziffer 2 (also nach der dritten Ziffer) zweistellige Dualzahlen zu verwenden. Nachfolgend sieht man einen Ausschnitt aus der Umrechnungstabelle der ersten 225 Dezimalzahlen in ihren Dualcode (erste und dritte Spalte): Dezimal Hexadezimal Binär/Dual 0
00
00000000
1
01
00000001
2
02
00000010
3
03
00000011
4
04
00000100
5
05
00000101
…
…
…
15
0F
00001111
Dezimal Hexadezimal Binär/Dual 16
10
00010000
17
11
00010001
18
12
00010010
19
13
00010011
20
14
00010100
…
…
…
99
63
01100011
100
64
01100100
101
65
01100101
…
…
…
253
FD
11111101
254
FE
11111110
255
FF
11111111
Jeder kann nachrechnen, ob das stimmt, denn der Dualcode codiert eigentlich eine mathematische Aufgabe. Sehen wir uns die Zahl 20 mit ihrem Dualcode »00010100« an:
Die Dualziffern 0 und 1 in einer Dualzahl haben eine Wertigkeit durch ihre Position in der Ziffernkette, was man durch die Zweierpotenz darstellen kann. Und die »0« oder »1« vor der Potenz zeigt an, ob die Zweierpotenz verwendet wird. Zur Übung: Der Dualcode für die dezimale Zahl 2000 schreibt sich wie folgt:
Jede natürliche Zahl hat ihren Binärcode/Dualcode. Aber kann man damit auch jede Zahl im Computer speichern? Wie viele natürliche Zahlen gibt es denn? Natürlich unendlich viele. Das ist nun leider doch zu viel für einen Computer. Aber in der Praxis benötigt man natürlich nicht unendlich viele Zahlen. Verwendet man 64 Bit lange duale Zahlen zum Codieren von natürlichen Zahlen, kann man 264 verschiedene, dezimale Zahlen darstellen. Das sind natürlich riesige Zahlen, 264 = 18.446.744.073.709.551.616, also mehr als 18 Trillionen verschiedene Zustände sind damit codierbar. Die Natur lässt sich aber oft nur mit reellen Zahlen korrekt repräsentieren. Wassertemperaturen können zum Beispiel jeden Wert zwischen 0 und 100 Grad Celsius einnehmen, nicht nur 1 Grad, 2 Grad, 3 Grad und so weiter, nein, auch jeden Zwischenwert. Und wie viele reelle Zahlen gibt es? Natürlich wieder unendlich viele. Und doch gibt es viel mehr reelle Zahlen als natürliche, es entstehen daher Rundungsfehler, wenn wir die reale Welt der Natur in einem Computer codieren wollen, aber diese Fehler kann man nun auch wieder so klein machen, dass sie keine Praxisrelevanz haben. In der Computertechnik verwendet man häufig auch noch den Hexadezimal-Code oder Hex-Code. Hier werden Zahlen in einem Stellenwertsystem zur Basis 16 dargestellt. Die ersten 4 Bit und die
letzten 4 Bit der 8-stelligen Binärzahl stellen dabei eine hexadezimale Zahl dar. 24 ist 16, das heißt, mit 4 Bit kann man die Hex-Zahlen 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, A, B, C, D, E und F codieren. Die Buchstaben A (= 10) bis F (= 15) werden als Zeichen für Zahlen verwendet. Die Hex-Zahlen berechnet man, indem man eine gegebene Dezimalzahl so oft durch 16 teilt, bis nur noch 0 und ein Rest übrig bleiben. Beispiel für die Dezimalzahl 110: 110:16 = 6 mit Rest 14. Die Zahl 14 wird im Hex-Code als E codiert und gemerkt. Das Ergebnis ist: . Man beachte, dass die dezimale 14 im Hexadezimalsystem der Zahl E entspricht. Die dezimale Zahl 110 wird im Hexadezimalsystem also als 6E dargestellt. Diese kann man ihrerseits leicht in eine Binärzahl überführen.
Der Computer kann damit alles speichern, was man in einen Dualcode übersetzen kann. Auch Buchstaben lassen sich so speichern. Wenn Sie auf Ihrem Textverarbeitungssystem Hello world eintippen und auf Speichern drücken, dann wird das im Computer oder auf der Festplatte digital abgelegt. Da das kein Buch über Computertechnik ist, soll der Mechanismus nur gestreift werden, so weit es für unsere Zwecke notwendig ist. Codieren wir also kurz Hello world digital. Fangen wir mit dem Buchstaben »H« aus dem deutschen Alphabet an. Wir wissen, dass das Alphabet aus 26 (oder 27) Zeichen besteht, mit Großschreibung also 52; mit Sonderzeichen in etwa 70 Zeichen. Wir benötigen daher 7 Bits, da wir damit 27 Bit = 128 mögliche Zustände im dualen System des Computers ablegen können. Daraus wurde der sogenannte ASCII-Code (American Standard Code for Information Interchange) eingeführt, der alle Buchstaben in Groß- und Kleinschreibung und zahlreiche Sonderzeichen abspeichern kann. Aufgrund der internationalen Vereinheitlichung wird der ASCII-Code nun mit 8 Bit codiert und heißt ANSI-Code, ist aber abwärtskompatibel zu der früheren Codierung. Ein konkreter ASCII-Code Das Wort »Hello« besitzt nach der ASCII-Codetabelle folgende binäre Zeichenkette:
Man muss dem Computer natürlich mitteilen, ob der Code im Register zur Darstellung von Zeichen verwendet werden soll oder bei Zahlzeichen als Dualcode für eine Dezimalzahl angesehen werden kann, aber das ist rechentechnisch kein Problem. Jetzt haben wir eine Vorstellung davon, wie der Computer überhaupt etwas speichern kann, schließlich kann er nur mit Nullen und Einsen hantieren. Und das
ist die Grundlage der Digitalisierung! Alles digital … Digitalisierung ist die allseits verwendete Umwandlung aller Zeichen, Zahlen und Informationen aus Gesellschaft, Natur & Technik in einen dualen Code aus Nullen und Einsen, damit diese Daten auf einem Digitalcomputer verarbeitet werden können. Wenn der Bankberater Sie nach bestimmten Informationen fragt (Alter, Geschlecht, Familienstand et cetera), so werden Ihre Daten einfach in einen Dualcode zerlegt und die entsprechenden Nullen und Einsen werden in einer Datenbank so abgelegt, wie wir das oben diskutiert haben. Diese Daten und Informationen in der Bank wären sogar schon rudimentäres Wissen über Sie als Person, da sie alle miteinander vernetzt werden. Auch die Regel … R1: WENN jemand ein Mann oder eine Frau ist, DANN ist er/sie ein Mensch. … kann man in einer Textform abspeichern, genauso wie oben das freundliche Hello world. Natürlich macht man das später cleverer. Man speichert die Regeln so ab, dass man sie miteinander in Wechselwirkung bringen kann, aber das sind Punkte für das nächste Kapitel. Wir merken uns, Texte oder Zahlen lassen sich einfach als Symbole in dualer Form im Computer oder auf der Festplatte abspeichern. Wir benötigen das Abspeichern all dieser Zeichenketten auf einem digitalen Computer, um später in der KI das Wissen in verschiedenen Formen zu repräsentieren. Bevor wir die Thematik der Wissensrepräsentation und der Verarbeitung von Wissen vertiefen, möchte ich das Prinzip von technischen Systemen vorstellen, die mit Daten, Informationen und Wissen umgehen können.
KI, Datenbanken und Wissensbasierte Systeme Jeder von uns hat den Begriff Datenbank sicher schon einmal gehört. Datenbanken sind im allgemeinen Sprachgebrauch bereits einfache Dateien, die Daten enthalten. Zum Beispiel speichert nachfolgende Excel-Datei eine Vielzahl von Daten über einen technischen Prozess (Tabelle 4.2).
Tabelle 4.2: Datentabelle aus einem technischen Prozess
Was ist eine Datenbank? Allerdings hat sich schon in den 1960er-Jahren gezeigt, dass es Probleme verursacht, wenn die Anwendungsprogramme direkt auf die Daten zugreifen dürfen. Warum? Weil sich die Datenstrukturen permanent ändern und wenn die Programme direkt darauf zugreifen, dann müssten sich auch permanent die Programme selbst ändern. Das ist natürlich ein riesiger Aufwand. Um derartige Probleme zu beheben, gibt es eine Standardprozedur in der Informatik. In einem solchen Fall wird immer eine neue Schnittstelle eingeführt. Dadurch wird eine neue Abstraktionsebene erzeugt, die es erlaubt, die Details der Implementierung hinter der Schnittstelle zu verbergen. Im konkreten Fall muss zwischen der Anwendung und den Daten eine neue Softwareschnittstelle eingefügt werden. Im Falle der Datenbanksysteme entsteht eine Datenbankverwaltungssoftware, in Abbildung 4.6 als Datenbank-ManagementSystem bezeichnet. Die Auswerteprogramme können nicht mehr direkt auf Excel oder andere Dateien zugreifen, um die Daten auszulesen, sondern müssen ihre Anfragen an eine Softwareschnittstelle (sogenannte. API) senden, zum Beispiel: LeseData(x,y) oder SchreibeData(x,y). Das tatsächliche Lesen oder Schreiben übernimmt dann das Datenbanksystem und sendet das Ergebnis an die Anwendung. Alle technischen Spezifika der speziellen Datenbank sind dadurch verborgen worden.
Abbildung 4.6: Architektur einer Datenbank
Der Vorteil: Wollte jemand die Daten in der Tabelle verschieben oder die Struktur verändern, erledigte dies die Datenbanksoftware und sorgte gleichzeitig für einen konsistenten Stand der Daten innerhalb der Datenbank. Selbst bei großen Änderungen der Datenstrukturen muss man nur die Datenbankverwaltungssoftware anpassen, nicht aber die Anwendungsprogramme selbst, ein riesiger Vorteil. Bei konventionellen Softwareprogrammen sind also Daten in einer Datenbank von den Programmen, sprich den Algorithmen für ihre Bearbeitung, getrennt. Das Wissen um die Verarbeitung der Daten/Fakten ist dabei aber immer noch fest in den Programmen (von einem Programmierer) abgelegt.
Was ist ein Expertensystem? Was aber, wenn sich sogar das Wissen – wie die Daten auszuwerten sind – ändert und nicht nur die Daten, die auszuwerten sind? Dann muss man leider die Verarbeitungsprogramme, in denen das Wissen codiert ist, verändern. Verändern heißt aber, man muss den Quellcode abändern, alle Bibliotheken neu dazu verlinken, wieder alles kompilieren (in Maschinensprache übersetzen) und den neuen Maschinencode auf die betroffenen Rechnersysteme verteilen. Oftmals ein riesiger Aufwand. Wäre es da nicht besser, eine neue Systemarchitektur zu kreieren, eine, in die man Wissen ablegen kann, so wie vorher Daten in Excel? So etwas gibt es und man nennt derartige Systeme Expertensysteme. Was wäre in
einem solchen Fall zu entwickeln? Nur noch ein Verfahren, wie man das gespeicherte Wissen verarbeitet und verknüpft. Wissen wäre dann getrennt vom Mechanismus der Wissensverarbeitung abgelegt. In Abbildung 4.7 ist das Prinzip eines solchen Expertensystems dargestellt. Es besteht aus fünf Basiskomponenten.
Abbildung 4.7: Aufbau eines Expertensystems
Aus der Abbildung merken wir uns die wichtigsten Begriffe: Wissensbasis (Knowledge Base), zum Beispiel Regeln der Form »WENN es regnet, DANN wird die Straße nass« Wissenserwerbskomponente, zum Beispiel durch Eingabe oder Lernen von Regeln Inferenzkomponente (Inference Engine) Benutzerschnittstelle (User Interface) Erklärungskomponente Diese Begriffe werden im Folgenden erklärt. Was wissen wir bereits? Nun, wir wissen, wie Daten aussehen, zum Beispiel folgendermaßen: 1,009 oder 5,6 oder Hello world Und wie sieht Wissen aus? Auch das hatten wir schon besprochen, zum Beispiel stellt die Regel »WENN jemand viel Alkohol trinkt, DANN wird seine Leber belastet« medizinisches
Wissen dar. Solches Wissen legt man in einem Expertensystem ab. Natürlich nicht nur eine Regel, sondern Tausende. Wissen basiert natürlich gerade auf verknüpften Fakten, so zum Beispiel: »Patient Meyer, 37 Jahre, wohnhaft in Berlin, Veganer, hat Bauchschmerzen.«
Wissensbasis In allen Expertensystemen wird das Wissen in einer Wissensbasis repräsentiert, das Wissen wird also separat vom Mechanismus der Abarbeitung abgelegt. Das Fachwissen kann als Regeln, Modelle oder durch Fallbeispiele codiert sein. Daher gibt es regelbasierte Expertensysteme, modellbasierte und fallbasierte. In Kapitel 3 haben wir, als es um Deduktion ging, bereits Beispiele für eine Regelbasis kennengelernt, über Modelle sprechen wir später, der Begriff der Fallbeispiele ist selbsterklärend.
Inferenzkomponente Die wichtigste Komponente eines Expertensystems ist die Inferenzkomponente. So wird das Programm bezeichnet, das (rationale) Fähigkeiten des elementaren Denkens besitzt, aber selbst über kein Wissen verfügt. Genau hier wird neues Wissen erzeugt. Die Inferenzkomponente ist ein Algorithmus, der basierend auf eingegebenem Wissen aus der Wissensbasis und/oder der Benutzerschnittstelle selbstständig Wissen verarbeiten und erzeugen kann. Im nächsten Kapitel werden wir sehen, dass dies maschinell nur funktioniert, wenn es gelingt, das Wissen formal auszudrücken. Man benötigt dazu eine Form, die man als »logischen Ausdruck« bezeichnet. Der Computer kann nämlich mehr als nur mit Zahlen rechnen, er kann auch logische Formeln behandeln, wenn diese in einer Sprache formuliert sind, die er versteht. Er kann das sogar fast besser, als mit Zahlen zu rechnen, denn das logische ODER, UND oder die NEGATION kann man direkt als elektronische Schaltung »verdrahten«. Schauen wir uns ein Beispiel an, wie ein Computer logisch »denken« kann. Viele kennen vielleicht das logische UND. Es hat folgendes Schaltzeichen:
Und besitzt nachfolgende Wahrheitstabelle: A B Y 0 0 0 0 1 0 1 0 0 1 1 1
Das logische UND ist intuitiv verständlich. Es besagt, dass der Ausgang nur dann wahr ist (also 1), wenn beide Eingänge auch wahr sind (an beiden also eine 1 anliegt). Ein Beispiel wäre folgende logische UND-Verknüpfung: »WENN ich Geld und Zeit habe, DANN gehe ich ins Kino.« Habe ich nur Geld oder nur Zeit, klappt es nicht mit dem Kinobesuch. Für alle logischen Operationen gibt es eine spezielle Rechenvorschrift, so wie es eine Algebra für natürliche Zahlen gibt. Diese Algebra heißt Boole’sche Algebra. Was definiert eine Algebra? Einfach ausgedrückt, sie definiert, wie man Zahlen addiert und multipliziert oder eben auch logisch verknüpft. Es ist nun sehr schön, dass man das logische UND sehr einfach elektrisch bauen kann. Es sind einfach zwei hintereinander geschaltete Relais (Abbildung 4.8). Das Symbol »+« rechts oben verdeutlicht ein positives Potenzial. Wann liegt das Potenzial an Y an? Nur dann, wenn eine Spannung bei A und B anliegt, also durch die beiden Relais auch ein Strom fließt. Ein Stromfluss durch ein Relais bedeutet, wie wir wissen, dass die Drahtwicklungen im Relais ein Magnetfeld aufbauen, wodurch eine magnetische Kraft auf den Schalter ausgeübt wird, der dann mechanisch schließt (oder öffnet, je nach Bauform). Steht der Kontakt A
oder B für eine Null (liegt also dort keine Spannung an), dann ist auch Y gleich null.
Abbildung 4.8: Das logische UND mit Relais gebaut
Entsprechend kann man auch die logischen Funktionen ODER, NEGATION, NICHT-ODER und so weiterentwickeln. Ein Computer beherrscht die Boole'sche Algebra aus dem Effeff, nein, er ist mit ihr regelrecht verwoben. Ein Computer kann also logisch korrekt »denken«. Und das macht er mit seiner Inferenzkomponente.
Wissenserwerbskomponente Eine weitere wichtige Komponente eines Expertensystems ist die Wissenserwerbskomponente. Schließlich muss man das Wissen in den Computer hineinbringen. In den 1990er-Jahren waren viele KI-Fachleute mit der Absicht, ein Expertensystem aufzubauen, durch die Unternehmen gezogen und haben Fachleute vor Ort befragt. Folgende Fragen haben die KI-ler zum Beispiel gestellt:
Wann betätigen Sie den Notausschalter? Was machen Sie, wenn die Temperatur im Reaktor über 560 Grad steigt? Unter welchen Bedingungen öffnen Sie das Ventil am Rohr? Sie können sich vorstellen, dass da viel Wissen zusammenkam. Was passierte aber auch? Nicht alle gaben ihr Wissen preis. Das ist vollkommen menschlich. Warum sollte ein erfolgreicher Anlagenfahrer oder Bankberater all sein Know-how einer Maschine anvertrauen? Zwei Gründe sprechen aus seiner Sicht dagegen: 1. Er will es nicht, weil er seinen Arbeitsplatz nicht verlieren möchte. 2. Er kann es nicht, weil er viele seiner Entscheidungen aus dem Bauch heraus trifft. Letzteres haben wir schon öfter gehört. Wenn man jemanden fragt, warum er etwas so oder so gemacht hat, so antwortet er häufig: »Das weiß ich auch nicht, ich hatte da so ein Gefühl.« So etwas »Esoterisches« wie Gefühl kann man nicht in einer Wissensbasis ablegen.
Erklärungskomponente Als Letztes kommen wir zur Erklärungskomponente. Wissen muss erklärt werden. Stellen Sie sich vor, Ihr System erzeugt folgende Schlussregel:
Das möchte ich übersetzen: Auf Deutsch heißt es, WENN »A« wahr ist UND »aus A folgt B« wahr ist, DANN ist auch B wahr. Das klingt logisch, so denken wir. Ein fachfremder Nutzer muss die Aussage aber eventuell erklärt bekommen. Das passiert zum Beispiel über das User Interface, die Computer-Schnittstelle zum Anwender. In Kapitel 3 haben wir bereits eine sehr beliebte Form der Wissensrepräsentation innerhalb der KI kennengelernt, nämlich die Repräsentation als BedingungsAktions-Regelwerk »WENN… DANN…«. Die Box gibt weitere Möglichkeiten zur Wissensrepräsentation und Wissensverarbeitung an.
Hintergrundwissen – Möglichkeiten der Wissensrepräsentation Wissen kann in einem technischen System unter anderem wie folgt repräsentiert werden:
Prozedurale Repräsentation: WENN-DANN-Regeln und ihre Verarbeitung durch Expertensysteme Logische Repräsentation: Repräsentation in der Sprache der Logik mit Syntax und Semantik und ihre Verarbeitung durch logische Sprachen (wird noch detailliert erklärt) Netzwerkartige Repräsentation: Wissen als Sammlung von Objekten und ihren Beziehungen untereinander, zum Beispiel als semantische Netze (wird noch erklärt)
Was ist ein Wissensbasiertes System? Ein Wissensbasiertes System (WBS) ist die Verallgemeinerung eines Expertensystems. Es hat folgende Eigenschaften: Beim WBS gibt es die besprochene, explizite Trennung des (in der Wissensbasis abgelegten) Wissens von den Methoden der Wissensverarbeitung (Inferenzsysteme). Die Wissensbasis enthält das Wissen, mit dem eine Problembearbeitung erfolgen kann. Das Wissen kann dazu mittels unterschiedlicher Strukturen repräsentiert werden. Sehr häufig kommen sogenannte Regeln (WENN A DANN B) und Fakten zur Anwendung. Das gespeicherte Wissen wird durch die sogenannte Inferenzkomponente verarbeitet. Sie enthält bestimmte Strategien (Inferenzmechanismen), mit deren Hilfe eine Lösung für ein vom Benutzer behandeltes Problem generiert wird. Dabei werden Fakten, die während des Lösungsprozesses gefolgert werden, ebenfalls in der Wissensbasis abgelegt und können zu weiteren Folgerungen verwendet werden. Ich habe den Begriff Wissensbasiertes System als Oberbegriff für Expertensysteme eingeführt, aber eigentlich ist der Begriff allgemeiner zu verstehen. Als Beispiel für ein WBS, das kein Expertensystem ist, möchte ich kurz auf sogenannte Agentensysteme eingehen.
KI und Multi-Agenten-Systeme KI-Programme werden auch als Multi-Agenten-System implementiert. Die Intelligenz ist hierbei weit über verschiedene Bereiche verteilt. Man muss sich also ein verteiltes System vorstellen, bei dem KI-Fähigkeiten in jedem Agenten eingebaut wurden. Durch die Kommunikation der Agenten untereinander können höherwertige Aufgaben umgesetzt werden. Als Beispiel wollen wir uns ein Diagnosesystem ansehen: In einem großen Unternehmen seien Tausende von Messstellen implementiert. Jede Messstelle wird direkt vor Ort von einem intelligenten Agenten überwacht. Dieser Agent
läuft in einem Mini-Schaltkreis direkt vor Ort auf einer Maschine; man nennt diese Hardwaresysteme Controller. Controller sind also keine PCs, wie man sie von zu Hause kennt, sondern ganz spezielle Mini-Computer für den Einsatz im Feld. So ein Controller hat selbstverständlich auch einen Prozessor, der rechnen kann und Speicherbausteine besitzt. Sobald ein Messwert, zum Beispiel ein Getriebegeräusch, außerhalb seines Toleranzbereichs liegt, meldet der Agent einen Alarm an seinen nächsthöheren Agenten. Dazu benutzt er natürlich die Möglichkeiten seines Controllers, mit anderen Controllern im Industrienetz über ein LAN (lokales Kabelnetzwerk) oder WLAN (drahtloses Netzwerk) Daten auszutauschen. Der nächsthöhere Agent sammelt die Alarme oder Fehlermeldungen auf und muss entscheiden, ob sich zum Beispiel das Getriebe zu sehr erhitzt hat. Wenn er feststellt, dass die Getriebetemperatur außerhalb der Norm liegt, muss er das weitermelden. Wohin? Je nachdem. Irgendwann kommt die Meldung dort an, wo Menschen den Prozess überwachen.
Was Agenten genau sind Letztlich sind Agenten kleine, unabhängige Systeme, die mit ihrer Umgebung interagieren und dadurch Fakten und Wissen über die Umwelt sammeln. Agenten sind »einfach« autonom arbeitende Systeme, die man über definierte Schnittstellen anfragen kann und die bestimmte Werte über ihre Schnittstellen an Dritte ausgeben können. Durch die kollektive Zusammenarbeit von zahlreichen Agenten entsteht eine zentrale oder dezentrale Software, die sehr viele Aufgaben erfüllen kann. Agenten sind natürlich wieder eine Wissenschaft für sich. Es gibt Hardware-Agenten und Software-Agenten. Jeder Agent empfängt Informationen aus seiner Umgebung und gibt Information an diese ab. Wenn seine Umgebung die physikalische Welt ist, sprechen wir von Hardware-Agenten. Ist die Umgebung »nur« Software, dann sprechen wir von Software-Agenten. Auf abstraktem Niveau könnten wir uns natürlich auch die Zellen in unserem eigenen Körper als Agenten vorstellen. Jede Zelle ist für einen kleinen Teil verantwortlich und leistet ihren Beitrag für das große Ganze. In der Technik gibt es: Reaktive Agenten Agenten mit Gedächtnisfunktion (Zustandsspeicher)
Zielbasierte Agenten Nutzenbasierte Agenten und vieles mehr Auf einige Agententypen gehe ich kurz ein. Agenten können eine Wahrnehmungsfolge am Eingang einfach in eine Entscheidungsfolge an ihrem Ausgang umformen (Abbildung 4.9), so wie bei einer mathematischen Funktion die Eingangsdaten X auf die Ausgangsdaten Y abgebildet werden.
Abbildung 4.9: Ein Agent bildet Eingangsdaten (Sensoren) auf Ausgangsdaten (Aktoren) ab.
Sie persönlich agieren auch so. Sehen Sie beispielsweise über Ihre Eingangssensoren eine rote Ampel (oder Ihre Beifahrerin ruft aufgeregt: »Rot«), dann treten Sie, ohne zu überlegen, auf die Bremse. Dies ist eine klassische Abbildung von Eingangsdaten auf Ausgangsdaten. Aber ein Agent kann auch einen inneren Zustand besitzen, so wie wir Menschen auch. Was passiert dann? Es kann passieren, dass wir bei der gleichen Eingangsdatenfolge völlig anders reagieren, bei der roten Ampel hoffentlich nicht.
Ein Beispiel aus dem Studentenalltag Vielleicht wohnen Sie in einer WG und – weil Sie freundlich sind – sagen Sie am Morgen immer zu Ihrem WG-Mitbewohner: »Guten Morgen«. Dies sind die Eingangsdaten für Ihren WG-Mitbewohner, falls wir Ihren Mitbewohner als Agenten ansehen wollen. Aber nicht immer hören Sie die gleiche Antwort. Manchmal sagt er: »Lass mich in Ruhe«, manchmal aber auch: »Oh, guten Morgen, mein lieber Mitbewohner.« Warum ist das so? Ihr Mitbewohner hat innere Zustände. Genau das gibt es auch bei Agenten. Solche Agenten sind natürlich viel mächtiger als nur reaktive Agenten, denn sie berechnen ihren
Output aus dem Eingang (»Guten Morgen«) und ihrem inneren Zustand (leider Kopfschmerzen) zu dem entsprechenden Ausgangsverhalten (»Lass mich in Ruhe«). Und es gibt noch mächtigere Agenten, nämlich solche, die ganz bestimmte Ziele verfolgen. Ein Ziel könnte es sein, ihren Nutzen zu maximieren. In einem solchen Fall muss es eine Gütefunktion geben, mit dem der Agent seinen Nutzen berechnen und er zusätzlich zwischen Aktionen auswählen kann. Er wird dann verschiedene Aktionen durchrechnen und diejenige auswählen, die seine interne Nutzenfunktion maximiert. Einen nutzenbasierten KI-Agenten verstehen wir intuitiv, denn wir Menschen sind alle nutzenbasierte Systeme. Und auch ein Multi-Agenten-System versteht man intuitiv.
Wozu Multi-Agenten-Systeme? Durch das Einsetzen von Multi-Agenten-System können Aufgaben, die ein einzelner Agent nicht lösen kann, kollektiv gelöst werden, denken Sie wieder an die Zellen in Ihrem Körper. Zum Abschluss ein einfaches Beispiel aus der Technik, Abbildung 4.10.
Abbildung 4.10: Verteilte Agenten in einem Multi-Agenten-System
Jeder Agent A1, A2 arbeitet für eine spezielle Aufgabe und hat gerade so viel Wissen, wie er zur Lösung seiner Aufgaben benötigt. Der Agent A2 in Abbildung 4.10 sei beispielsweise für die Überwachung einer Turbine zuständig. Er vergleicht permanent die Ist-Messwerte Druck, Temperatur, Drehzahl mit seinen gespeicherten Referenzwerten. Entdeckt er eine Abweichung, setzt er eine Meldung M2 an den Agenten A1 ab. A1 überprüft daraufhin den Dampfdruck, der vom Kesselhaus kommt und in die Turbine geleitet wird, und meldet mit M1 zurück, dass diese Werte stimmen. Daraufhin fragt A2 den Agenten A3 an, ob es mit dem nachgeschalteten Generator Probleme gibt. Das heißt, alle Agenten können untereinander kommunizieren und Informationen austauschen oder sich Entscheidungen mitteilen. Man könnte solche Agenten sehr gut in einer Prozessüberwachung einsetzen, siehe Abbildung 4.11.
Abbildung 4.11: Agenten (Ai) in einem technischen Prozess
Sollen beispielsweise die Kosten in einer Produktion minimiert werden, gibt es sehr viele Möglichkeiten. Man könnte dafür sorgen, dass eine bestimmte Produktionsmaschine nicht ungeplant ausfällt. Dazu könnte man ein Überwachungssystem installieren, das jede ungewöhnliche Veränderung an der Maschine misst und weitermeldet. Aber dadurch könnten sehr große Kosten entstehen. Klüger könnte es sein, den Ausfall der Maschine für den einen oder
anderen Fall zu riskieren, wenn das technisch vertretbar ist, dafür aber Kosten einspart, die man zum Beispiel zur Wareneingangskontrolle verwenden kann. Solche Aufgaben sind hochkomplex und das Wirkumfeld der sogenannten Digitalisierung. KI-Systeme mit Agenten sind dabei ein wesentlicher Bestandteil der allgemeinen Digitalisierungswelle und wichtiger Bestandteil von Industrie 4.0 (Kapitel 12).
KI und Semantische Netze Es gibt so viele spezielle Applikationen in der KI, wie es Problemsituationen gibt. Expertensysteme werden bevorzugt, wenn man explizites Wissen über einen speziellen Bereich, zum Beispiel in der Medizin, sammeln will, um damit ein autonomes Diagnosesystem aufzubauen. Agentensysteme benutzt man für verteilte Diagnosesysteme im Feld großtechnischer Anlagen. Liegen die KIAnwendungen im Bereich der natürlichen Sprachen, so wird das Wissen der KI oftmals in semantischen Netzen abgelegt und mittels dieser verarbeitet. Ich möchte semantische Netze im Rahmen des Buches kurz erwähnen, um zu zeigen, dass sie eine hervorragende Methode sind, Wissen auf symbolische Art und Weise zu repräsentieren und zu verarbeiten. Eine Schwierigkeit in der Informatik und auch in der KI ist es – wie Sie bereits wissen –, die Bedeutung eines Begriffs zu bestimmen. Wir haben vorhin ein Beispiel gesehen, bei dem wir die Bedeutung, die eine Nachricht für einen Empfänger hat, aus der Zustandsänderung, die diese Nachricht bei einem Empfänger auslöst, berechnen. Ein ganz anderer Ansatz ist es, die Bedeutung eines Begriffs anhand seines Kontextes zu »erraten«, in dem er benutzt wird. Das versucht man mit semantischen Netzen. Semantische Netze werden zuerst einmal für die Repräsentation natürlichsprachlichen Wissens eingesetzt, denn das Hantieren mit Sprache ist (oder besser war) eine der größten Herausforderungen der KI. Denken Sie an das oben eingeführte Beispiel mit dem Wort »Maschine«. Bis vor vielleicht zehn Jahren waren alle maschinellen Übersetzer für die Praxis unzureichend. Erst seit einiger Zeit kann man die KI-Übersetzer auch im Alltag anwenden. (Allerdings basieren viele nicht auf den hier dargestellten Verfahren, sondern arbeiten mit neuronalen Netzen, Kapitel 8.) Die Idee der semantischen Netze wurde Ende der 1960er-Jahre von Quillian eingeführt, ein Beispiel ist in Abbildung 4.12 dargestellt.
Die Beschaffenheit semantischer Netze Bei den semantischen Netzen gibt es Objekte, Attribute (Eigenschaften) der Objekte und Relationen (Beziehungen) zwischen Objekten. Das alles kennen wir
noch aus unserer Schulzeit, aus der Grammatik. Begriffe (Substantive) werden in semantischen Netzen als »Knoten« und die Beziehungen zwischen Begriffen als »Kanten« abgebildet. Die Knoten repräsentieren ein Wort als eine semantische Einheit, zum Beispiel Maschine, Auto, Baum, Tier. Die »Kanten« der Wortknoten markieren die Bedeutungen eines Begriffs als Beziehungen zu anderen Begriffen. Der Graph, also das Netz, definiert die Gerichtetheit zwischen den Begriffen (Abbildung 4.12). Beziehungen könnten zum Beispiel sein: … besteht aus … … vermag … dies oder jenes tun … ist ein … … hat … diese oder jene Bestandteile
Abbildung 4.12: Semantisches Netz
Die Thematik ist deshalb so bedeutend geworden, weil unser Word Wide Web (WWW) selbst zu einer Art von semantischem Mega-Netz geworden ist. Das World Wide Web ist ein weltweit verteiltes Informationssystem, das verschiedene Dokumente, Bilder und Audiodateien nach dem Prinzip des sogenannten Hypertexts verknüpft. Das WWW basiert technisch auf dem Internetprotokoll und die Webseiten liegen im sogenannten HTML-Format vor. Sie werden für den Endnutzer durch einen Browser am Bildschirm grafisch aufbereitet.
Probleme semantischer Netze Ein hauptsächliches Problem der Kopplung von Seiten im WWW besteht immer noch darin, dass sich die heutigen Systeme, selbst die KI-Systeme, die Bedeutung von Wörtern nicht selbstständig erschließen können. Die Systeme verstehen die Bedeutung der Wörter einfach nicht wie ein Mensch, auch wenn das in den Medien manchmal anders dargestellt wird. Es ist daher notwendig, die Begriffe beziehungsweise Wörter – wir wollen sie hier primäre Daten nennen – in TextDokumenten in einen Kontext einzuordnen. Zu jedem Dokument gibt es daher sogenannte Meta-Daten, die Informationen zu den primären Daten enthalten. Ein Auswertungsprogramm kann diese Daten in die Hierarchie einordnen und dadurch die Bedeutung der primären Daten verstehen. Zum Beispiel kann das Wort »Ottersleben« auf einer Webseite der Name einer Person, aber auch ein Ort oder eine Region sein. Die KI soll optimalerweise aus dem Kontext und/oder den Meta-Daten selber herausfinden, was gemeint ist, ein Mensch kann das schließlich auch. Technisch ist das schwierig. Trotzdem ist es Stand der Technik, dass man mit künstlichen neuronalen Netzen (KNN) auch Texte gut verarbeiten kann, ein Beispiel sind die sogenannten LSTM-Netze. Hier untersucht das Netz nicht nur das Substantiv, sondern auch die Wörter, die davor und danach stehen, um sich so den Kontext zu erschließen. Kurz, das Internet besteht aus Milliarden von Zeichen und Symbolen. Reichert man die Informationen des WWW mit Meta-Daten an, so entsteht ein »Semantic Web«, das die KI besser auswerten kann. All diese Entwicklungen passieren aktuell in der digitalen Welt. Da man sich weltweit auf Standards, Standardsprachen und so weiter geeinigt hat, nimmt diese Entwicklung an Fahrt auf. Es ist kein Ende abzusehen, denn man kann auf den Meta-Daten oder den Meta-Meta-Daten wieder Anwendungen entwickeln. Dem Internet und seinen Auswertungen steht ein weithin exponentielles Wachstum bevor. Aber erinnern wir uns, es gibt unendliche viele Daten dort draußen in der realen Welt. Wir entscheiden, was für uns von Bedeutung ist. Diese Daten digitalisieren wir und schreiben sie ins Netz, die anderen Daten sehen wir (bald) gar nicht mehr. Wie ist die Farbe eines Grashalms direkt vor Ihrem Haus? Niemand weiß es. Unendlich viele Daten werden eben nicht erfasst. Man verliert schnell den Blick fürs Ganze, wenn man sich von der Lawine der Digitalentwicklungen überrollt sieht. Die Welt ist und bleibt analog. Die Daten der Welt sind analog. Aber wir schaffen uns gerade eine eigene, digitale Welt. Doch diese ist und bleibt immer nur ein Ausschnitt. Auch die Entwickler der KI-Verfahren wissen das. Während sie in der digitalen Welt von Höhepunkt zu Höhepunkt eilen, kommen sie in der realen Welt oft nur langsam voran. Das ist auch kein Wunder, denn so gut die
Verfahren in der digitalen Welt sind, so schwierig sind sie in der realen Welt zu handhaben. Aber der Mensch kommt doch auch in der realen Welt zurecht. Wie macht er das? Wie speichert und verarbeitet der Mensch sein Wissen? Verwendet er auch ein semantisches Web? Ja und Nein. Auch im Gehirn des Menschen gibt es ein Netz, aber ein ganz anderes. Im Gehirn sprechen wir vom sogenannten neuronalen Netz, einem riesigen Netzwerk aus Milliarden von Neuronen und ihren Verbindungsstellen, den Synapsen. Das ist ein Riesenthema für die KI!
KI und neuronale Netze oder: Wie speichert der Mensch sein Wissen? Jeder von uns hat in seiner Schulzeit oder später im Studium Unmengen an Fakten speichern müssen. Im weiteren Leben haben wir dazu eigene Überlegungen, neue Regeln oder neue Fakten aufgenommen. Die Frage, die sich Neurobiologen seit Jahrzehnten stellen, ist: Wo und wie ist dieses Wissen gespeichert? Über diese Frage ist – wie kann es anderes sein – ein reger Wissenschaftsstreit entstanden und es gab Nobelpreise. Berühmt ist beispielsweise Eric Kandel, der mit seinen bahnbrechenden Arbeiten zeigen konnte, dass es in den sogenannten Synapsen (wird noch detailliert erklärt) zu Form- und Funktionsänderungen kommt, wenn Wissen vom menschlichen Kurzzeitspeicher in die Langzeitspeicher übertragen wird. Veränderungen in den Synapsen sind zentral für Lern- und Erinnerungsvermögen. Aber trotz dieser Arbeiten weiß noch niemand, wie unser Gehirn das Wissen im Detail ablegt. Der deutsche Hirnforscher Singer plädiert beispielsweise für eine Codierung des Wissens in dynamischen Schwingungsprozessen, andere favorisieren eine anatomische Speicherung, sozusagen eine Veränderung der Topologie des Gehirns beim Lernen und vieles mehr. Das Thema der neuronalen Netze werde ich ausführlich in den Kapiteln 8 und 16 behandeln, an dieser Stelle nur einige Vorabhinweise. Schauten wir mit technischen Geräten ins Gehirn (was wir auch noch machen werden), so würden wir feststellen, dass das Gehirn die Zahl »1346« nicht an einem Speicherort 1 (in einem sogenannten Neuron) speichert und zum Beispiel in einem anderen Neuron (am Speicherort 2) das Wort »Hello«. Das ist vertrackt. Kaum haben wir besprochen, wie der Computer Wissen finden und abspeichern kann, schon stellen wir fest, dass es das Gehirn ganz anders macht.
Wir behalten schon mal im Hinterkopf Im Gehirn funktioniert die Wissensspeicherung ganz anders als in einem Digitalcomputer, sodass beide Systeme nicht zu vergleichen sind. Der größte Unterschied, der sofort auffällt, besteht darin, dass das Gehirn seine Informationen und sein Wissen weit verteilt abspeichert. Es gibt eben nicht ein Neuron für den Begriff »Baum«, sondern eine Vielzahl von Neuronen, die sich den Begriff »Baum« teilen, sagen wir 1000 Stück. Hier ist es für uns nur wichtig, das Prinzip zu verstehen. Wenn wir das biologische Verfahren, wie unser Gehirn Wissen speichert, prinzipiell begreifen, dann können wir später versuchen, dieses Verfahren – zumindest rudimentär – auf die sogenannten neuronalen Netze zu übertragen. Stellen Sie sich also vor, Sie – noch ein Kleinkind – und Ihre Mutter gehen durch einen Park und Ihre Mutter zeigt immer auf irgendetwas und sagt: »Baum«. Durch das gleichzeitige Auftreten vom Hören des Wortes »Baum« und dem Sehen eines Gebildes in Ihrem Sehzentrum entsteht in Ihrem Gehirn ein Verband von Neuronen, die gleichzeitig erregt sind und synchron elektrische Aktionspotenziale aussenden. Ein solcher Verband ist in Abbildung 4.13 durch den hellgrauen Hintergrund symbolhaft dargestellt. Die weißen Kreise in Abbildung 4.13 stellen Neuronen dar und die Pfeile symbolisieren die Synapsen, also die Verbindungsstellen zwischen den Neuronen. (In Wirklichkeit sind die zusammengehörigen Neuronen nicht auf ein kleines Areal im Gehirn begrenzt, sondern weit verteilt über das Gehirn.) In einem solchen Neuronen-Verband sei dann der Begriff, oder sagen wir besser das Symbol »Baum«, abgespeichert. Da die Abspeicherung des Symbols auf mehrere Neuronen verteilt ist, sprechen wir im Gehirn von sub-symbolischer Wissensrepräsentation. Das ist auch der große Unterschied zu den vorher besprochenen semantischen Netzen. Dort entsprach ein Knoten einem Symbol (zum Beispiel »Spatz«), bei den neuronalen Netzen ist das nicht so.
Abbildung 4.13: Ausschnitt aus einem neuronalen Netz im Gehirn
Die technische Umsetzung dieses biologischen Prinzips der sub-symbolischen Wissensrepräsentation und Verarbeitung hat sich überraschenderweise als sehr erfolgreich erwiesen. Schon 1949 wurde daraus die Idee der Künstlichen Neuronalen Netze (KNN) geboren und diese sind mittlerweile in der KI zum Hoffnungsträger geworden.
KI-Systeme sind etwas Technisches Fassen wir das Kapitel zusammen: Ein technisches KI-System besteht in der Regel aus einem Softwareprogramm, das auf einem geeigneten Hardwaresystem abläuft und intelligentes Verhalten durch autonome Verarbeitung von Daten, Informationen, Wissen und/oder Heuristiken simuliert beziehungsweise erzeugt. Wir haben im letzten Abschnitt gesehen, dass KI-Systeme sehr vielfältige Ausführungsvarianten in Software und Hardware haben. Sie können als Expertensystem, als Agentensystem, als Logikprogramm, als semantisches Netz oder auch als neuronales Netz umgesetzt sein. Alle diese Varianten haben Vorund Nachteile. In den heutigen Entwicklungen geht es insbesondere darum, die Varianten geeignet miteinander zu kombinieren. Das Hardwaresystem kann ein Controller, ein Digitalcomputer, ein Cloud-System, ein neuromorpher Computer (wird noch erklärt), ein autonomes »Robotergehirn« und vieles mehr sein. Was eine Heuristik ist, muss noch kurz erklärt werden, denn der Begriff fällt in der KI häufig. Letztlich sind das Methoden, um bei begrenztem Wissen über ein
System mithilfe anzunehmender Schlussfolgerungen wahrscheinliche Aussagen über das System zu erhalten. Das Ziel wird also nicht sicher, sondern nur mit einer gewissen Wahrscheinlichkeit erreicht. Die aufgeschriebene Handlungsfolge wäre dann der sogenannte heuristische Algorithmus. Jeder Manager muss Heuristik anwenden, wenn er Entscheidungen trifft, denn wer hat schon alle Informationen zur Hand, wenn er sich entscheiden muss. Eine beliebte Methode ist die Versuchund-Irrtum-Methode. Dies ist ein sehr pragmatisches Vorgehen. Natürlich sollte die nicht überall angewendet werden. Eine Regelung für ein Flugzeug sollte nicht nach dieser Methode gebaut sein. Welche Methoden der Heuristik sind bekannt? Nutzung von Erfahrungen, unsicheres Schließen, kurz, alle Methoden, die auf einem begrenzten Datenvorrat Wissen erzeugen, sind Heuristiken. Auch das beliebte Ausschlussverfahren ist eine Heuristik: Wenn man nicht weiterweiß, fängt man an, eines nach dem anderen auszuschließen. Der Mensch arbeitet hochgradig heuristisch, und meist läuft es ganz gut. Wer sich intensiver mit Heuristik beschäftigen möchte, dem sei [Müller 1990] empfohlen. Er definiert sogar eine »Systematische Heuristik« und ihre Anwendung für kreative Prozesse, insbesondere im technischen Bereich. Das Buch erschien bereits 1990, wird aber sicher auch für diejenigen, die heuristische Prozesse in einer KI implementieren möchten, immer noch eine wahre Fundgrube sein. KI-Programme sind in der Regel Softwareverfahren und in entsprechenden Programmiersprachen geschrieben, zum Beispiel LISP oder Prolog, oder in Universalsprachen verfasst, zum Beispiel Python, C oder C#.
Wir erzeugen neues Wissen Wir wissen, was Daten sind, was Informationen und was Wissen ist. Und wir wissen auch, wie man Daten, Informationen und Wissen auf einem Computer speichert, nämlich symbolisch oder sub-symbolisch. Aber natürlich wollen wir in der KI Wissen nicht nur speichern, wir wollen es auch erzeugen. Auch hier haben Sie beide grundlegenden Methoden zur Wissensgenerierung bereits gehört. 1. Man kann Wissen zum Beispiel durch Beobachtung der Umgebung, durch Messen gewinnen, zum Beispiel indem man die Temperatur vor der Haustür misst. Dann weiß man etwas Neues. Wissen lässt sich damit empirisch erzeugen, über die Kausalkette von »Daten zu Wissen«. Dahinter verbirgt sich das maschinelle Lernen (Machine Learning), der sogenannte induktive Wissenserwerb. 2. Man kann Wissen aber auch durch Schließen erzeugen, das heißt, aus bekannten Dingen (dies können Fakten oder Regeln in einer Wissensbasis
sein) neues Wissen schlussfolgern. Dies habe ich – in Anlehnung an den obigen Begriff – mit Machine Thinking bezeichnet. Das ist der deduktive Wissenserwerb. An dieser Stelle nochmals eine wichtige Erinnerung zu den Grenzen des Wissenserwerbs: 1. Induktives Schließen basiert auf Beobachtungen und der intuitiven Annahme, dass die Beobachtungen von einer begrenzten Beobachtungsanzahl auf eine Grundgesamtheit übertragen werden können. Das ist eine beliebte Form des Schlussfolgerns, aber die Ergebnisse haben immer nur eine Wahrscheinlichkeit. Warum? Weil man nur eine begrenzte Anzahl von Beobachtungen besitzt. Bedenken Sie die Konsequenzen: Man hat beispielsweise Tausende von Jahren beobachtet, dass sich Lichtstrahlen geradlinig im Raum ausbreiten, bis der junge Albert Einstein ausrechnete, dass der Raum gekrümmt ist und sich Lichtstrahlen daher auch gekrümmt ausbreiten. Oder einer der gravierendsten Fehlschlüsse überhaupt: Man hat Jahrtausende geglaubt, dass sich die Sonne um die Erde dreht, weil man das aus den – für alle sichtbaren – Beobachtungen schließen konnte. Aber auch das war falsch. Es brauchte eines Genies wie Kopernikus, die Beobachtungsdaten anders zu deuten. Achten Sie also drauf, wenn Sie eine Regel hören, die induktiv gewonnen wurde. Falls Sie denken, das wäre ein Thema für die Spezialisten, dann ist das leider falsch. Die meisten heutigen Erkenntnisse in der Medizin, eigentlich in allen Naturwissenschaften, werden rein induktiv gewonnen. Was glauben Sie, wie lange das dortige Wissen wahr ist? 2. Deduktives Schließen kennen wir alle aus der Mathematik. Man zeigt aus bestimmten Annahmen, dass bestimmtes Wissen gelten muss. Das nennt man im Alltag auch oft logisches Schlussfolgern beziehungsweise deduktiver Wissenserwerb. Hier schließt man logisch von einigen Prämissen, die man als wahr erkannt oder als wahr definiert hat, auf neues Wissen. Man vertraut dabei dem Umstand, dass dann, wenn die Prämissen wahr sind und die Ableitungsregeln auch, dass dann das neue Wissen auch wahr sein muss. Das ist wahre Logik. Aber auch die Grenzen dieser Methode habe ich schon angedeutet: Nicht alle Wahrheiten der Welt sind durch Logik ableitbar. Im nächsten Abschnitt wollen wir im Detail sehen, wie weit man mit Logik kommt. Leider wird es dadurch auch formal. Wenn jemand keine Formeln mag, kann er auch nur die jeweiligen Zusammenfassungen lesen.
Beide Methoden, die deduktive und die induktive, ergänzen sich optimal, sodass in heutigen KI-Systemen meistens eine Kombination beider Wissensverarbeitungsmethoden vorliegt. Oftmals wird bei einer Verschmelzung der Verfahren auch der Begriff Cognitive Computing oder Kognitive Intelligenz verwendet, so sprechen wir bereits bei IBM Watson aus dem Jahre 2011 [IBM.com/Watson] von Kognitiver Intelligenz. Dies entspricht unseren I3intelligenten Systemen. Doch beginnen wir die detaillierte Beschreibung mit der Deduktion. Kommen wir zu einer der Säulen der KI, der mathematischen Logik!
Kapitel 5
Alles logisch oder was? IN DIESEM KAPITEL Lernen Sie die Aussagenlogik kennen Erweitern Sie das Wissen zur Prädikatenlogik Lesen Sie über Kurt Gödel und warum seine Arbeiten die Logik für immer veränderten
Bisher haben wir die KI eher als Wissenschaft der Ingenieure verstanden und auch so erklärt. Man muss allerdings wissen, dass die KI natürlich in erster Linie als eine Wissenschaft begründet wurde, um menschliche Kognition am Computer nachzubilden. Auch wenn sich die Zielrichtungen heute geändert haben, so ist der Beginn der KI bis weit in die 1970er-Jahre von dieser Absicht geprägt worden.
Was ist Kognition? Kognition ist ein Oberbegriff für die geistigen Fähigkeiten eines Menschen. Die Kognition beinhaltet verschiedene Prozesse wie Denken, Problemlösen, Lernen und Speichern von Inhalten (Gedächtnis), weiterhin Sprachfähigkeiten, Aufmerksamkeitssteuerung und bewusste Wahrnehmung.
Machen wir eine Standortbestimmung: Warum diskutieren wir im Bereich der KI über Kognition oder Logik, und nicht über das Thema der Gefühle? Nun, während Computer heutzutage sehr gut kognitive Fähigkeiten nachbilden können, zum Beispiel Wissen repräsentieren, Denken simulieren, Probleme lösen, so gibt es bis dato keinen einzigen Computer, der auch nur eines einzigen Gefühls fähig wäre. HAL 2000 aus dem Film Odyssee 2001 ist immer noch Zukunft. Der Grund: Wir
wissen einfach nicht, wie man Gefühle codieren sollte. Erinnern wir uns, alles im Computer besteht letztlich nur aus Nullen und Einsen, die ihrerseits wieder in den Speichern der Computer bestimmte elektrische Eigenschaften verändern. Kann der Computer in seinen elektrischen Schaltkreisen fühlen? Die enttäuschende Antwort: nein, kann er nicht. Präziser müsste man aber – genau wie beim Thema Bewusstsein – wieder sagen, es gibt keinen einzigen Hinweis darauf, dass ein Computer Gefühle hat. Natürlich ist dieser Zustand unbefriedigend. Wir werden das noch vertiefen, an dieser Stelle möchte ich aber schon eine Dreiteilung der menschlichen Fähigkeiten und ihrer gegenwärtigen maschinellen Umsetzung vornehmen (Tabelle 5.1). Mensch
Maschine
1 Kognitive Prozesse / geistige Denk- KI basierend auf Softwarealgorithmen und und Lernprozesse mathematischen Verfahren 2 Gefühle und Bewusstsein
Nicht nachweislich vorhanden
3 Körperliche Prozesse/materielle Prozesse
Bereits implementiert bei Robotern und Maschinen
Tabelle 5.1: Gegenüberstellung Mensch und Maschine
Die Grundannahme der KI-Entwicklungen ist nun, dass man zumindest die menschliche Kognition als Berechnungsprozess auffassen kann. Ausgehend von dieser Annahme, sozusagen als Axiom gesetzt, haben sich zahlreiche Teilgebiete der KI entwickelt. KI wird verstanden und benutzt als System und Verfahren zur Wissensrepräsentation (Kapitel 4) System und Verfahren zum logischen Schließen (dieses Kapitel 5) System und Verfahren zum maschinellen Lernen (Kapitel 6, 7, 8, 9) System und Verfahren zum automatischen Beweisen (wird im Buch nicht besprochen) System und Verfahren zum Problemlösen und Planen (Kapitel 11)
System und Verfahren zur Erforschung des Bewusstseins (Kapitel 15, 16)
KI umfasst noch sehr viel mehr Von den oben genannten KI-Themenfeldern werde ich mich in diesem Buch auf das logische Schließen, das maschinelle Lernen und die Erforschung des Bewusstseins konzentrieren, da diese Themenfelder für das Verständnis der heute aktuellen KI überragende Bedeutung besitzen. Mit KI-Systemen können aber auch mathematische Probleme exzellent gelöst werden und mittels logischer Schlussregeln kann man automatisiert mathematische Beweise finden. Automatisches Beweisen spielt bei der Erstellung nachgewiesen korrekter Soft- und Hardware eine sehr wichtige Rolle (zum Beispiel bei den Kryptochips von Bankkarten oder der Steuerungssoftware moderner Flugzeuge und vielem mehr). Auf diese interessanten Anwendungen werde ich aus Platzgründen jedoch nicht eingehen. Mir geht es in dem Buch darum, dass Sie die heute besonders häufig erwähnten KI-Verfahren verstehen, auch wenn dadurch zwangsläufig eine Fokussierung auf maschinelles Lernen erfolgt. In zehn Jahren wird die KI wieder anders aufgestellt sein und es bedarf mit Sicherheit eines neuen KI-Buches. Genau so ergeht das auch den KI-Büchern, die vor zehn Jahren geschrieben wurden. In der gegenwärtigen 2. Auflage ergibt sich noch kein großer Bedarf an einer Neufokussierung der KI-Themen. Weglassen werde ich auch in der zweiten Auflage evolutionäre Verfahren, wie genetische Algorithmen und Evolutionsstrategien nach dem Prinzip »survival of the fittest«, obwohl klar ist, dass dies hervorragende mathematische Optimierungsverfahren sind, die entweder in Konkurrenz zu KI-Verfahren stehen (zum Beispiel dem Deep Learning bei Spielen) oder innerhalb der KI benutzt werden können, um die KI-Verfahren zu verbessern. So sind evolutionäre Strategien sehr gut geeignet, um neuronale Netze zu optimieren. Die Idee ist auch hier wieder der Natur abgeschaut, im konkreten Fall der Evolution. Leider
reicht der Platz nicht, diese Verfahren ausführlich zu behandeln, und ich bitte Sie, bei Interesse, diese in der Literatur nachzuschlagen. Als Hauptthemen des Buches verbleiben daher die Logik, das maschinelle Lernen und die zukünftigen Entwicklungen der KI zu einer KI mit Bewusstsein. Kommen wir in diesem Kapitel zum logischen Schließen. Wie kann ein Computer überhaupt logische Schlüsse ziehen? Kann er so logisch denken wie wir? Die Antwort ist: Er kann es wirklich und er kann es sogar viel besser als wir. Erfahren Sie nun, warum das so ist.
Die Grundlagen der Logik Die Grundlagen der Logik sind bereits über 2000 Jahre alt. Schon in der Antike beschäftigte sich Aristoteles mit dem logischen Schließen, ging also der Frage nach, ob man aus bekannten wahren Aussagen logisch korrekt auf andere wahre Aussagen schließen kann. Beginnen wir mit dem Paradebeispiel aus der Antike und geben folgende Aussagen ab: a1: Alle Menschen sind sterblich. b1: Alle Griechen sind Menschen. Was würden Sie nun selber schlussfolgern, wenn Sie nach der Sterblichkeit der Griechen gefragt werden? Sind Griechen sterblich oder nicht? Ohne viel nachzudenken erhalten wir: c1: Alle Griechen sind sterblich. Wir schlussfolgern also, wenn Aussage a1 wahr ist und Aussage b1 wahr ist, dann muss auch die Aussage c1 wahr sein. Und damit haben wir unseren ersten logischen Schluss gezogen. (Natürlich war das mitnichten unser erster logischer Schluss. Seit unserer Kindheit können wir logisch korrekt schließen.) Nehmen wir ein zweites Beispiel. Es fällt uns leicht, zu schlussfolgern:
a2: Wenn Kevin gut in Mathematik ist, dann ist Kevin gut in Mathematik. Die Schlussfolgerung fällt uns sogar so leicht, dass wir es für Zeitverschwendung halten, sie aufzuschreiben, denn das ist ja wohl logisch.
Die logische Kettenregel Nehmen wir eine dritte Schlussfolgerung, die wir alle bereits seit unserer Kindheit verstehen lernten: a3: Wenn ich etwas kaputt mache, sind Mama und Papa böse. b3: Wenn Mama und Papa böse sind, dann bekomme ich eine Strafe. Jedes Kind wird dann schlussfolgern: c3: Wenn ich etwas kaputt mache, dann bekomme ich eine Strafe. Diese logische Kettenregel (wie der Fachmann sie nennt) beherrscht jeder von uns, und auch noch viel komplexere Formen. Logik ist also hochgradig intuitiv und leicht verständlich, wäre sie das nicht, dann wäre alles vom Empfinden her auch unlogisch. Die Frage, die sich nun stellt, ist, wie man einem Computer das logische Denken beibringen kann. Wir wissen, ein Computer kann nur Nullen und Einsen verarbeiten, wie sollte er damit logisch denken können? Nun hatten wir bereits gesehen, dass Computer logische Schaltungen wie UND- oder ODER-Gatter realisieren können. Der Trick ist nun, dass man die gesamte Logik mathematisch so aufbereitet, dass der Computer mit seinen Gattern logisches Denken korrekt simuliert. Man nennt das Aufbereiten in der Fachwelt Formalisieren. Um dies zu verstehen, müssen wir uns mit der formalen Logik näher befassen. Und Ihnen ist bereits jetzt schon klar, immer wenn Mathematiker etwas anfassen, wird es zwar korrekt, aber leider auch unverständlich und kompliziert. Jeder Student hat mit der
Formalisierung von Wissenschaft so seine Probleme, denn das ist so, wie eine neue Sprache zu erlernen. Diese Sprache ist eben nun »mathematisch«. Wer es durchhält, wird später belohnt, so wie bei jeder anderen Sprache auch. Wir wollen es gemeinsam versuchen und uns an die Oberfläche der formalen Logik herantasten. Selbstverständlich müssen tiefergehende, mathematische Details den Fachbüchern entnommen werden, denn die formale Logik ist Teil der Mathematik. Zuerst stellen wir jedoch fest, dass es die »Logik« so nicht gibt, sondern dass verschiedene Ausführungsformen existieren. Es gibt Aussagenlogik, Prädikatenlogik, Temporal-Logik, natürlich auch FuzzyLogik, es gibt zweiwertige Logiken und mehrwertige Logiken, es gibt Entweder-oder-Logik, aber auch Sowohl-als-auch-Logik. Da stehen einem die Haare zu Berge. Die von Aristoteles eingeführte Logik heißt übrigens Syllogistik es ist vereinfacht ausgedrückt, »die Lehre vom logischen Schluss«, eine Untergruppe der Quantorenlogik.
Aristoteles' Logik nennen wir Syllogistik Die Grundidee dieser Logik besteht darin, dass man immer mit zwei Prämissen (Voraussetzungen) arbeitet und damit auf eine Konklusion (Schlussfolgerung) schließt. Der lateinische Begriff geht auf den griechischen syllogismos nach Aristoteles zurück. Mit Syllogismus bezeichnet man laut Duden einen aus zwei Prämissen gezogenen logischen Schluss vom Allgemeinen auf das Besondere. Das Beispiel weiter oben mit dem Griechen als Mensch ist ein solcher Syllogismus. Ein weiterer Klassiker der historischen Logik ist: a4: Alle Menschen sind sterblich. b4: Sokrates ist ein Mensch. c4: Sokrates ist sterblich. Ist diese Logikkette für Sie logisch? Mit Sicherheit. Und man kann sich selber beliebige Logikketten überlegen und bei einer Weinrunde seinen oder den IQ seiner Freunde austesten. Und wenn
Ihnen das unten nicht mehr logisch erscheint, dann schwenken Sie lieber auf Wasser um. a5: Hannes ist der Freund von Susi oder der Freund von Lena. b5: Hannes ist nicht der Freund von Lena. c5: Hannes ist der Freund von Susi. Das ist Syllogismus. Jeweils zwei Prämissen (a, b) führen zu einer Konklusion (c). Aber man kann die Logik noch einfacher gestalten und zum Beispiel folgende Aussage treffen: WENN es regnet (a), DANN ist die Straße nass (b). Umgangssprachlich sagen wir zu obiger Regel: WENN a wahr ist, DANN ist auch b wahr. Aus a folgt b, a impliziert b. Im Folgenden möchte ich aufzeigen, wie man solche sprachlichen Logiken formal korrekt einführen kann. In der Box sind einige Hintergründe zu formalen Sprachen gegeben.
Hintergrund zu formalen Sprachen Bevor wir anfangen, sollten Sie wissen, dass wir im Augenblick eine sogenannte formale Sprache einführen. Weiter vorn habe ich schon dargestellt, dass zu jeder Sprache zwei Teile gehören, eine Syntax und eine Semantik. Die Syntax beschreibt die Regeln, wie die Zeichenketten der Sprache zu setzen sind, sozusagen die Rechtschreibung und die Grammatik. Sie erklärt damit, wie die Zeichenketten korrekt zu manipulieren sind. Die Semantik erklärt die Bedeutung der Zeichen oder Wörter oder Sätze. Man klärt zum Beispiel, welche Bedeutung die Zeichenkette »Kind« hat. So ist das auch mit formalen Sprachen. Die Syntax der formalen Sprache legt fest, welche Zeichenketten wohlgeformte Ausdrücke sind. Genau wie in der deutschen Sprache die Zeichenkette »Baum« ein
wohlgeformter Ausdruck ist, so gibt es das auch in der Sprache der Logik. Dort heißen die wohlgeformten Ausdrücke Formeln. Eine Formel sieht zum Beispiel so aus: »F = a ∧ b«. Die Umformungsregeln der Sprache legen fest, wie man von einem wohlgeformten Ausdruck zu einem anderen kommt. Die Variablen a und b heißen Aussagenvariablen. Die Semantik einer Formel ist eine Funktion, die jeder Belegung der Aussagenvariablen einen Wahrheitswert zuordnet. Denn wir wollen ja nicht nur Zeichenketten von rechts nach links verschieben, sondern wahre Aussagen in andere wahre Aussagen überführen. Die wohlgeformten Ausdrücke müssen also eine Bedeutung zugewiesen bekommen. In der zweiwertigen Logik lassen wir nur die Wahrheitswerte »falsch« (0) oder »wahr« (1) zu. Diese beiden Werte nennt man auch Wahrheitskonstanten. Des Weiteren gibt es in der formalen Sprache der Logik auch die bereits erwähnten Aussagenvariablen, dann Hilfsvariablen, zum Beispiel Klammern ( ) und die Operatoren, um aus alten Formeln neue zu erzeugen.
Was Sie wissen sollten In diesem Kapitel geht es nur um die klassische, zweiwertige Logik. Diese Logik kennt nur den Wahrheitsgehalt »wahr« und »falsch«. Im Alltagsgebrauch würde das heißen, jemand kennt nur »schwarz« und »weiß«. Man empfindet dies als unvollständige Logik, denn intuitiv wissen wir, dass viele menschliche Aussagen »etwas wahr« oder »etwas falsch« sein können. Wenn jemand sagt, »immer wenn es ziemlich warm ist, DANN gehe ich baden«, dann können wir damit sprachlich etwas anfangen, aber diese Logik ist eine nicht-klassische Logik, die FuzzyLogik. Sie soll hier nicht weiter untersucht werden. Mit einer Ausnahme, in Kapitel 6 erkläre ich ein Fuzzy-Clusterverfahren. Bleiben wir bei unserer Wahr-oder-Falsch-Logik. In der Mathematik kommt uns diese Einfachheit natürlich sehr gelegen, denn die Eigenschaft »wahr« codieren wir später im Computer mit der Zahl »1«, die Eigenschaft »falsch« mit einer »0«. Beginnen möchte ich mit der einfachen Aussagenlogik, werde dann aber auch die mächtigere, jedoch leider auch kompliziertere Prädikatenlogik einführen. Als weiterführendes Fachbuch in die Thematik »Logik« möchte ich [Schurz 2020] empfehlen.
Aussagenlogik
Um die Aussagenlogik zu formalisieren, führen wir den Begriff einer Aussage ein. Eine Aussage sei ein Satz, der in seiner Gesamtheit »wahr« oder »falsch« sein kann. Da ein solcher Satz nicht auf seine innere Struktur hin untersucht wird, sagen wir auch, die Sätze seien atomar. Wir bezeichnen Aussagen im Folgenden mit (kleinen) Buchstaben: a, b, c … Beispiel für solche Aussagen kennen Sie bereits, hier sind weitere: a: Claudia hat rote Haare b: Der Audi von Georg war teuer. Ob die Aussagen wahr oder falsch sind, weiß die Aussagenlogik nicht, dies muss empirisch bestimmt, also zugewiesen werden. In der Aussagenlogik geht es darum, Sätze miteinander zu verknüpfen, um neue Aussagen zu gewinnen, die dann entweder wahr oder falsch sind. Die Verknüpfungsoperatoren nennt man Junktoren, zum Beispiel das logische UND oder das ODER. Sie sind einigen von uns aus der Schulzeit oder dem Studium bekannt. Die Bedeutung einer Verknüpfung mit Junktoren wird durch sogenannte Wahrheitstabellen festgelegt. Es gibt einstellige Verknüpfungen, wie die Negation (Tabelle 5.2) und zweistellige. Die Negation (NICHT) von a bedeutet: »Claudia hat keine roten Haare«, es bedeutet nicht »Claudia hat blonde Haare«. a ¬a
a ¬a
0 1
f w
1 0
w f
Tabelle 5.2: Zwei Wahrheitstabellen der Negation mit Ziffern (0, 1) beziehungsweise f(alsch) und w(ahr)
Bei zweiwertigen Verknüpfungen c = (a, b) gibt es insgesamt 16 Möglichkeiten für das Ergebnis c (Tabelle 5.3). Theoretisch wäre für c ja jede Kombination von [0,0,0,0] bis [1,1,1,1] denkbar, das meiste ist jedoch nicht brauchbar. So macht beispielsweise ein NULL-GATTER keinen Sinn (c1 in Tabelle 5.3). Aber es gibt auch viele nützliche
Wahrheitstabellen. Die Spalten (a, b, c2) der Tabelle 5.3 stellen zum Beispiel das klassische UND dar. c2 = a ∧ b … c16
a b c c1 1 0 0 ?
0
0
1
2 0 1 ?
0
0
1
3 1 0 ?
0
0
1
4 1 1 ?
0
1
1
NULL-
UND
EINS-
GATTER GATTER
GATTER
Tabelle 5.3: Möglichkeiten einer logischen Verknüpfung zweier Aussagen
Junktoren der Aussagenlogik Wichtig in der Logik sind die Konjunktion (UND/AND), die Disjunktion (ODER/OR), die Antivalenz (ENTWEDER-ODER/XOR), die Implikation (WENN-DANN) und die Äquivalenz (GLEICHWERTIG). In Tabelle 5.4 sind diese Verknüpfungen mit ihren Wahrheitstabellen aufgeführt. Das kleine »f« steht für falsch (entspricht der 0), das kleine »w« für wahr (entspricht der 1). Konjunktion AND
Disjunktion OR
Antivalenz XOR Implikation Äquivalenz
a b
a∧b
a∨b
a×b
a→b
a↔b
f f
f
f
f
w
w
f w
f
w
w
w
f
w f
f
w
w
f
f
w w
w
w
f
w
w
Tabelle 5.4: Die klassischen Junktoren der Aussagenlogik
Das logische UND Schauen wir uns das logische UND genauer an und betrachten dazu beide Aussagen a und b von oben. Was gilt nun für den Wahrheitsgehalt
der Verknüpfung c = a ∧ b? Das wissen wir nicht, denn wir kennen den Wahrheitsgehalt von a und b nicht. Wenn wir aber erfahren, dass »Claudia blond ist« (a = ) und der »Audi von Georg teuer war« (b = ), dann können wir schlussfolgern, dass die UNDVerknüpfung zu einem falschen Wahrheitswert führt, denn es gilt: a b c=a∧b f w f
Sind zwei Aussagen a und b durch UND verknüpft, so ist die neu entstandene Aussage c = a ∧ b nur dann wahr, wenn beide Aussagen wahr sind. Sind dagegen zwei Aussagen a und b durch ODER verknüpft, so ist die neue Aussage c bereits dann wahr, wenn eine der beiden Aussagen a oder b wahr ist. Dies deckt sich hervorragend mit unserer Intuition. Ich definiere zum Beispiel folgende Regel: »Ich komme mit ins Kino, wenn ich Zeit und Geld habe«. Beide Prämissen (»Zeit haben« und »Geld haben«) müssen wahr sein. Die Oder-Regel könnte lauten »Ich komme mit ins Kino, wenn ich Geld habe oder es mir leihen kann«, hier reicht es, dass nur eine der beiden Prämissen wahr sein muss (»Geld haben« oder »Geld leihen können«).
WENN - DANN Die wohl wichtigste logische Verknüpfung – wir haben sie bereits verwendet – stellt dabei die Implikation dar, das sogenannte WENNDANN, denn diese benötigen wir später zum logischen Schließen, sozusagen zur eigentlichen Deduktion. Die Implikation ist jedoch nicht so einfach mit unserer Intuition vereinbar. Nehmen wir zwei Aussagen, a: Es regnet. b: Die Straße ist nass. und verknüpfen diese mittels der Implikation a → b, so erhalten wir folgende Aussage:
c: WENN es regnet, DANN ist die Straße nass. Ist diese Implikation nun wahr oder nicht? Das kann man wieder nicht wissen, denn es kommt auf den Wahrheitsgehalt der Aussagen a und b an. Die Aussage c = a → b stimmt genau dann, wenn es regnet und ich schaue auf die Straße und diese ist nass. Die Aussage ist logischerweise falsch, wenn es regnet und ich schaue auf die Straße und die Straße ist trocken (vielleicht weil sie überdacht war). Betrachten wir die Wahrheitstabelle nach Tabelle 5.5, so finden wir dort die formale Entsprechung: a b a→b f f w f f w w w Tabelle 5.5: Intuitive Implikation
Was ist aber mit den beiden anderen Belegungen? Was ist, wenn es gar nicht regnet, wenn a also falsch ist? Kann man die Implikation »WENN es regnet, DANN ist die Straße nass« auch in diesem Fall auf ihren Wahrheitsgehalt testen? Man muss es sogar. Selbst, wenn es nicht regnet, benötigt man einen Wahrheitsgehalt für die Implikation. Und wir finden: Die Implikation ist in diesen Fällen (für a = falsch) wahr, siehe die vollständig ausgefüllte Tabelle 5.6. Und das auch noch unabhängig davon, ob die Straße nass ist oder nicht. a b a→b f f w f w w w f f w w w Tabelle 5.6: Wahrheitstabelle für die Implikation
Dies kommt einem kontra-intuitiv, also komisch vor, denn es scheint so, also dürften wir die Regel gar nicht anwenden. Aber das geht nicht, die Wahrheitstabelle muss für jede Belegung der Variablen ausgefüllt sein. Nun gibt es Begründungen dafür, dass die Regel wahr sein soll, auch wenn es nicht geregnet hat. Denn ein Sachverhalt soll nur dann falsch sein, wenn er nachweislich falsch ist. Da wir aber nur eine zweiwertige Logik haben und etwas nur dann falsch sein soll, wenn es nachweislich falsch ist, dann muss es eben als wahr gelten bis zum Beweis des Gegenteils. Wenn es also nicht regnet, dann gilt die Implikation eben als wahr, denn »falsch« dürfen wir nicht eintragen. Wem das komisch vorkommt, dem sei versichert, dass nur dann, wenn wir die Implikationstafeln so ausfüllen, auch die anderen Regeln wie Negation und Kettenschluss so ausgefüllt werden können, wie es für uns intuitiv verständlich ist. Andernfalls würden Widersprüche auftreten. Es gibt also keine andere Wahl, als im Zweifel für den »Angeklagten« zu sein. Irgendwie ist die Logik sympathisch und wir müssen uns (nur) an diese Logik gewöhnen: Etwas ist nur falsch, wenn es nachweislich falsch ist, also wenn es regnet (a = w) und die Straße ist trocken (b = f), dann gilt die Implikation nachweislich nicht, ihr Wahrheitswert wird »falsch« beziehungsweise »0«. Manchmal gibt es Fehler im Verständnis. Die Implikation behauptet keinen inhaltlichen Zusammenhang zwischen dem WENN-Teil und dem DANN-Teil. Sie behauptet auch keine Kausalität und keine Zeitbeziehung zwischen beiden Teilen. Man verwechselt das oft, weil man in der natürlichen Sprache mit »WENN a DANN b« meistens inhaltlich mögliche Zusammenhänge beschreibt. Aber auch die Implikation: WENN Berlin die Hauptstadt von Deutschland ist (a), DANN ist der Regen nass (b), ist eine wahre Implikation, obwohl die Prämisse und die Konklusion inhaltlich nichts miteinander zu tun haben. Die Wahrheitsfindung für die Implikation passiert ausschließlich über die Wahrheitswerte von Prämisse und Konklusion aus der Wahrheitstabelle. Inhalte spielen keine
Rolle. Man könnte es noch verrückter machen und eine ziemlich sinnlose Regel definieren, wie zum Beispiel: WENN Spinnen unsterblich sind (a), DANN ist der Schnee schwarz (b). Diese Implikation a → b ist natürlich wahr, weil die Prämisse a falsch ist und die Prämisse b auch. Sinnlos bleibt sie trotzdem. Falsch wird die Implikation zum Beispiel bei der nachfolgenden Regel: WENN Spinnen sterblich sind (a), DANN ist der Schnee schwarz (b). Das ist laut Wahrheitstabelle falsch impliziert, denn die Prämisse a ist wahr, die Schlussfolgerung b aber nicht. Halten wir mal kurz inne und fassen zusammen: In der Aussagenlogik gibt es (atomare) Aussagen a, b, c, also Aussagen, die nicht weiter in ihre Bestandteile zerlegt werden können. Aussagen können durch Junktoren, zum Beispiel UND, ODER, Implikation miteinander verknüpft werden. Durch die Verknüpfungen entstehen sogenannte Formeln F. Eine Formel F ist erfüllbar, nicht erfüllbar (ein Widerspruch) oder allgemeingültig. Welcher der drei Fälle gilt, kann durch die Wahrheitstabelle der Formel ermittelt werden. Betrachten wir die Erfüllbarkeit an einem einfachen Beispiel. Die Symbole ¬b beziehungsweise ¬a bezeichnen die jeweilige Negation des Wahrheitswerts der Variablen. 1. Eine erfüllbare Formel ist F = a ∧ ¬b (Spalte 5) a b a ∧ b ¬b a ∧ ¬b
f f f
w f
f w f
f
w f f
w w
w w w
f
f
f
2. Eine nicht erfüllbare Formel (ein Widerspruch) ist F = a ∧ ¬a (Spalte 3) a ¬a a ∧ ¬a f W f w F
f
3. Eine stets erfüllbare Formel (eine allgemeingültige Formel) ist F = a ∨ ¬a (Spalte 3) a ¬a a ∨ ¬a f w w w f
w
Eine erfüllbare Formel ist mindestens für eine Belegung der Aussagen wahr. Eine nicht-erfüllbare Formel (also eine widersprüchliche Formel) ist niemals wahr. Und eine allgemeingültige Formel ist für jede Belegung also immer wahr. Wozu benötigt man so etwas? Wir müssen in der Logik unterscheiden, ob eine Aussage inhaltlich wahr ist (ob also die konkrete Folgerung, die empirisch geprüft wird, wahr ist) und ob sie syntaktisch korrekt ist (ob also überhaupt richtig gefolgert wurde). Für die erste Wahrheitsfindung müssen wir natürlich die konkreten Belegungen der Einzelaussagen kennen (sind diese wahr oder nicht), um auf die Wahrheit der neuen Aussage zu schließen (Variante 1). Eine andere Frage ist aber, ob die Ableitung allgemeingültig ist, also unabhängig von ihrer Belegung etwas Wahres aussagt (Variante 3). Genau für Letzteres nützen uns die allgemeingültigen Formeln, die
sogenannten Tautologien. Die neue Aussage F = (a ∨ ¬a) ist immer »wahr«, egal welche Belegung wir für die Aussage a auch einsetzen. Und intuitiv ist das natürlich auch richtig so, denn auf Deutsch übersetzt heißt die Aussage, F soll dann wahr sein, wenn entweder a oder sein Gegenteil wahr ist. Da in der zweiwertigen Logik eine Aussage nur wahr oder falsch sein kann, ist das natürlich logisch. Setzen wir a als »Claudia hat rote Haare«, so bedeutet dies: F: Claudia hat rote Haare (a) oder Claudia hat keine roten Haare (¬a). Diese Aussage stimmt nun auf jeden Fall, auch wenn wir nicht gerade vor Begeisterung über den Erkenntnisgewinn umfallen.
Tautologien Aussagen, die bei allen Belegungen wahr sind, nennt man – wie gerade erwähnt – Tautologien. Sie machen inhaltlich natürlich wenig Sinn, denn stellen Sie sich vor, Sie kommen frühmorgens ins Büro und Ihr Kollege sagt zu Ihnen aufgeregt: »Wir haben gerade einen Computercrash oder wir haben gerade keinen Computercrash.« Was würden Sie von diesem Kollegen halten? Ich denke, Sie würden zur Kaffeemaschine auswandern. Formal sind diese Tautologien aber überaus wertvoll, denn mit ihnen kann man erkennen, ob überhaupt logisch korrekt geschlussfolgert wurde, unabhängig von der konkreten Belegung der Einzelausgaben. Wenn wir Tautologien anwenden, dann wissen wir, dass sie unter allen Belegungen stimmen müssen. Solche Tautologien sind die Basis unseres eigenen formal-richtigen Denkens. Damit können Sie testen, ob jemand richtig »tickt«. Sehr viele Einstellungstests basieren auf der Anwendung von solchen Regeln, denn wer will schon jemanden einstellen, der nicht logisch denken kann (siehe Box »Logische Tautologien«).
Logische Tautologien
Im Folgenden einige Tautologien, die wir alle (teilweise unbewusst) im Alltag anwenden: Tautologien Logische Alltagsregel
Bemerkung
Beispiel
a ∨ ¬a
Regel vom Etwas ist wahr Es ist wahr: Claudia hat rote ausgeschlossenen oder falsch, was Haare oder nicht. Dritten anderes ist ausgeschlossen.
a ↔ ¬(¬a)
Regel von der doppelten Verneinung
Das Gegenteil vom Gegenteil einer Aussage ist die Aussage selbst.
Es regnet, da es nicht wahr ist, dass es nicht regnet
((a → b) ∧ a) → b
Deduktionsregel
Wenn Aussage a Aussage b impliziert und Aussage a wahr ist, dann ist auch Aussage b wahr.
(a→b) WENN es regnet (a), DANN ist die Straße nass (b).Es hat geregnet (a).Also ist die Straße nass (b).
(a → b) ∧ (b → c) → (a → c)
Regel vom Kettenschluss
Wenn aus a b folgt und aus b c, dann folgt aus a auch c.
Aus »WENN man nicht lernt, DANN bekommt man schlechte Noten« und »WENN man schlechte Noten hat, DANN kann man später nicht studieren« folgt »WENN man nicht lernt, DANN kann man später nicht studieren«
Warum die Tautologien auch für uns im Alltag wichtig sind, sehen Sie an folgendem Beispiel: Angenommen Sie sind Manager in einer großen Firma und es gibt ein großes Problem, weil die Geschäftszahlen übers Wochenende eingebrochen sind. Ihr Verkaufsleiter, ein echter Fachmann, auf den Sie sich immer verlassen konnten, sagt nun Folgendes: »Dieser Crash in den Verkaufszahlen liegt an den steigenden Rohstoffpreisen für Zirconium oder am Absturz des Dollars. Und der Dollar war es diesmal nicht. Das heißt, es muss an den hohen Preisen für Zirconium liegen!«
Würden Sie dem Glauben schenken? Natürlich! Selbst dann, wenn Sie nicht einmal wissen, ob es Zirconium überhaupt gibt. Warum? Weil eine Tautologie ist, was bedeutet, dass Ihr Verkaufsleiter logisch richtig geschlussfolgert hat. Es geht Ihnen hier also nur um die Frage, ob Ihr Verkaufsleiter prinzipiell richtig geschlussfolgert hat (und das hat er), und nicht, ob der Inhalt der Folgerung stimmt (dem vertrauen Sie, da er der Fachmann ist). Wenn jemand eine Tautologie verletzt, dann sollten Sie stutzig werden, denn dann denkt er nicht logisch im Kopf. Und natürlich wollen wir später, dass auch die KI richtig »tickt«. Auch der Computer muss richtige logische Schlüsse ziehen können, sonst landet er irgendwo als Briefbeschwerer. Um zu sehen, wo Tautologien besonders hilfreich sind, müssen wir noch einen Junktor einführen, den wir in Tabelle 5.4 schon benutzt haben, die sogenannte Äquivalenz. Das logische Zeichen hierfür ist ↔. Die Äquivalenz zweier Aussagen a und b ist immer dann wahr, wenn beide Aussagen denselben Wahrheitswert haben. In Tabelle 5.4. erkennt man, dass die Äquivalenz a↔b dann wahr ist, wenn a und b jeweils gleich sind, also entweder beide »wahr« oder beide »falsch«. Wir können die Äquivalenz benutzen, um komplizierte Formeln zu überprüfen. Was ist an den Tautologien also wichtig für die Umsetzung im Rahmen der KI? Dazu gibt es zwei Antworten: 1. Mit Tautologien lässt sich zeigen, wie logisch korrekte Schlüsse erzeugt werden können. 2. Mit Tautologien lassen sich Formeln so weit reduzieren, dass sie im Computer sehr leicht repräsentierbar sind. Beides müssen wir uns näher ansehen.
Das Deduktionstheorem
Das Erste klingt wie eine Spitzfindigkeit, siehe Kasten »Die Implikation«. Die Implikation sieht bereits danach aus, dass sie eine logische Schlussfolgerung durchführen kann, aber das stimmt eben nicht. Die Implikation sagt nur aus, wie man die Wahrheitstabelle ausfüllen muss, wenn die Belegungen a, b einen speziellen Wahrheitsgehalt haben. Mehr ist die Implikation nicht. Der Begriff der logischen Folgerung ist ein semantischer Begriff, er hat eine Bedeutung für uns als Menschen. Der Computer hat davon keine Ahnung, er kann nur Symbole hin- und herschieben, wir nannten das vorne bereits mechanische Symbolverschiebung, da man den Computer auch rein mechanisch bauen könnte – zumindest prinzipiell. Mit dem Deduktionstheorem ist es jedoch gelungen, die Symbolmanipulation des Computers (nämlich mit der Implikation) mit unserem semantischen Begriff einer korrekten Folgerung zu verknüpfen. Jetzt erst können wir sehen, dass der Computer eine logische Folgerung simulieren kann. Das Deduktionstheorem lautet: Wenn die Implikation a → b wahr ist und die Aussage a wahr ist, dann muss auch die Aussage b wahr sein.
Die Implikation Wir hatten bereits besprochen, dass Implikationen benutzt werden können, um folgerichtig abzuleiten. Aber stimmt das auch? Denken Sie daran, die Implikation ist einfach die Umsetzung einer Wahrheitstabelle. Und was folgt daraus, wenn die Implikation a → b wahr ist? Das Überraschende: Daraus folgt nichts. Wir erkennen das in der Wahrheitstabelle daran, dass die Implikation auch dann wahr ist, wenn a falsch ist.
Dieser formale logische Schluss wird mit dem Zeichen├ dargestellt. T ├ b bedeutet damit, dass man die Aussage b logisch korrekt aus der Formelmenge T mit T = {a1, a2, a3, …, an} schlussfolgern kann. Und warum kann man das? Das Deduktionstheorem besagt, dass die Aussage b genau dann eine logisch korrekte Schlussfolgerung aus der Formelmenge T ist, also T ├ b gilt, wenn die Implikation
allgemeingültig, also eine Tautologie ist. Da selbst den Studenten der KI die Unterscheidung zwischen logischer Schlussfolgerung und Implikation schwerfällt, soll es am Beispiel näher erläutert werden. Es geht nicht darum, dass man die Implikation a → b nicht einfach dafür benutzen kann, zu schließen, wenn a wahr ist, dass dann auch b wahr ist. Das kann man natürlich. Aber wir suchen gerade eine Formel, die immer gilt, also für jede Belegung wahr ist, so dass wir sie als Nachweis eines logisch korrekten Schließens verwenden können, unabhängig von den Belegungswerten. Eine solche Formel F ist in der nachstehenden Tabelle dargestellt (letzte Spalte): a b a → b a ∧ (a → b) b F = (a ∧ (a → b) → b) f f w
f
f w
f w w
f
w w
w f f
f
f w
w w w
w
w w
Diese Formel F ist die bekannteste Schlussregel der Aussagenlogik, da sie hervorragend zum logischen Schließen verwendet werden kann. Man nennt diese Regel auch modus ponens. Der modus ponens ist ein logischer Schluss. Er erlaubt, aus zwei Aussagen der Form »WENN a, DANN b« und der Aussage »a« (also den beiden Prämissen) eine Aussage der Form »b« (die Konklusion) herzuleiten, oder auf Deutsch: Wenn a die Aussage b impliziert und a wahr ist, dann muss auch b wahr sein. In obiger Tabelle wird die Schlussregel als formale Aussage formuliert, F ist eine Tautologie, denn die Spalten 4 (Prämisse) und 5 (Konklusion) sind wieder über eine Implikation verknüpft (siehe Spalte 6, Kopfzeile) und daher für alle Belegungen von a und b (Spalte 1 und 2) immer wahr, wie man leicht nachprüfen kann (Spalte 4 impliziert Spalte 5).
Die Formel F als umgangssprachliche Aussage zu interpretieren ist vielleicht etwas unglücklich, denn beim modus ponens geht es um eine Aussage in der Logik selbst. Letztlich sind es immer »nur« mathematische Umformungen und keine inhaltlichen. Man schreibt (in der Literatur sind die Variablen oft auch in Großbuchstaben) korrekterweise: Das Zeichen ├ ist der gerade eingeführte Ableitungsoperator auf rein formaler Zeichenkettenebene, sozusagen nur auf Ebene der Wahrheitstabellen. Da die Aussagenlogik aber sowohl korrekt als auch vollständig ist, kann damit eben auch semantisch korrekt geschlussfolgert werden, was das neue Symbol ╞ ausdrücken soll.
Wir schlussfolgern also: WENN A wahr ist und die Implikation A impliziert B wahr ist, DANN ist auch B wahr. Das ist das Deduktionstheorem und es ist eben auch inhaltlich logisch und nicht nur formal korrekt. Aus reiner Zeichenkettenverarbeitung entsteht logisches Schlussfolgern über die Welt. Die Syntax der Zeichenkettenverarbeitung in der Logik und unser intuitives (semantisches) Verständnis logischer Zusammenhänge sind sozusagen deckungsgleich. Schauen wir uns erneut ein Beispiel vom Beginn des Kapitels an: Die Implikation a → b »WENN es regnet, DANN wird die Straße nass« sei wahr. Die Aussage a »Es regnet« sei auch wahr. Die inhaltliche Schlussfolgerung b »Die Straße wird nass« ist folglich wahr.
Solche inhaltlichen Schlussfolgerungen können wir Menschen seit der Antike oder viel früher durchführen. Das kann nun auch ein Computer. Verallgemeinernd können wir daher sagen, dass ein Computer korrekt schlussfolgern kann, siehe Box »Kalkül«. Man kann ihm die dazu notwendige Mathematik implementieren und er besitzt – wie ich gleich nochmals ausführen werde – die richtigen Schaltkreise dazu. Aber kann man in der Aussagenlogik eigentlich immer entscheiden, ob eine Aussage wahr oder falsch ist? Wir glauben fest daran. Aber was ist, wenn wir nicht eine einzige Aussage haben, sondern Tausende? Die Antwort wird Sie beruhigen: In der Aussagenlogik kann die Entscheidung, ob eine Aussage wahr oder falsch ist, immer getroffen werden. Denn die Aussagenlogik ist korrekt und vollständig. Die Zeitdauer steigt dabei natürlich an, genau genommen steigt sie exponentiell mit der Anzahl der Einzelaussagen, denn die Wahrheitstafeln werden sehr schnell sehr groß. Bei n Aussagen benötigt man 2n Zeilen in der Wahrheitstafel, um alle Belegungen auszuprobieren. Das ist sehr viel, aber letztlich durch einen Computer beherrschbar (zumindest theoretisch). Die heutige Forschung beschäftigt sich nun damit, das sogenannte Erfüllbarkeitsproblem der Aussagenlogik immer effizienter zu gestalten. Die Frage ist also, ob man tatsächlich 2n Belegungen benötigt und damit exponentielle Rechenzeit (n steht im Exponenten) oder ob es nicht effizientere Verfahren gibt, die das Problem in sogenannter polynomieller Zeit lösen können. Die Bedeutung der Lösung dieses Problems für die gesamte IT-Welt ist riesig. Denn sehr viele unserer logischen Schaltungen im PC basieren auf der Aussagenlogik. Es ist schon wichtig zu wissen, dass es ein Verfahren gibt, das zumindest prinzipiell prüfen kann, ob unsere Computerschaltungen logisch korrekt sind. Man kann davon ausgehen, dass es so ist, aber garantieren wird das heutzutage keiner, da der Aufwand natürlich sehr schnell sehr groß wird. Jeder hat schon mal von Computern gehört, die bei bestimmten Eingaben falsch rechnen; berühmt geworden ist beispielsweise der sogenannte Pentium-FDIV-Bug aus den 1990er-Jahren. Der Intel-Prozessor verrechnete sich bei bestimmten Gleitkomma-Divisionen, dies wurde erst 1,5 Jahre nach seiner Markteinführung bemerkt.
Das Kalkül Ein Kalkül ist eine Menge von rein syntaktischen Umformungsregeln, um gegebene Formeln in andere Formeln umzuwandeln. Wendet man die Kalküle auf die Logik an, entstehen sogenannte Logikkalküle. Interessant sind Kalküle für logische Inferenzen, also Kalküle, mit denen man logisch korrekt schließen kann. Inferenzregeln oder auch Umformungsregeln erzeugen Ausdrücke der Form A ├ F durch reine mechanische Manipulation, wobei A eine Konjunktion von Annahmen und F eine Formel ist. Durch das Deduktionstheorem gilt, wenn F aus A syntaktisch abgeleitet werden kann, also A ├ F gilt, dann kann F auch semantisch gefolgert werden, dann gilt A ╞ F. Mithilfe dieses Kalküls lassen sich also logische Schlussfolgerungen auf reine Symbolmanipulationen zurückführen. Damit lassen sich logische Schlussfolgerungen auf Computern durchführen. Es gibt auch andere Kalküle. Insbesondere ist es wichtig, herauszufinden, ob eine neu entstandene Aussage wahr oder falsch ist. In der Aussagenlogik kann man das herausfinden, indem man die Wahrheitstabelle für die Formeln anwendet. In höheren Logiken ist das nicht mehr möglich, sodass Kalküle zum Beweisen angewendet werden müssen, siehe Prädikatenlogik. Ein Kalkül hat verschiedene Eigenschaften: Ein Kalkül heißt korrekt, wenn sich aus wahren Prämissen nur wahre Formeln ableiten lassen. Ein Kalkül heißt vollständig, wenn sich jede wahre Formel mit Mitteln des Kalküls ableiten lässt. Mathematisch gesehen soll also gezeigt werden, dass ein Kalkül folgende Eigenschaften hat: Wenn A ├ F, dann A ╞ F (Korrektheit) Wenn A ╞ F, dann A ├ F (Vollständigkeit) Das klingt irgendwie logisch, aber auch beruhigend. Und wir halten fest: Die Aussagenlogik ist korrekt und vollständig.
Implementierung der Aussagenlogik auf einem Computer unter Nutzung von Tautologien Man kann mithilfe der Tautologien alle Aussageverknüpfungen auf die drei Junktoren UND, ODER, NICHT reduzieren. Schauen Sie dazu auf die letzte Spalte in Tabelle 5.7. Die so wichtige Implikation für das
logische Schließen kann eben auch dargestellt werden als (¬a ∨ b). Die Aussage WENN a DANN b, kann also durch die Aussage (¬a ∨ b) in einem Computer realisiert werden, weil beide Aussagen die gleiche Wahrheitstabelle haben, dies war ja das Kriterium für Äquivalenz. Man erkennt in Tabelle 5.7, dass die Formel (¬a ∨ b) ↔ (a → b) allgemeingültig, also eine Tautologie ist, das heißt, für jede Belegung der Variablen a und b ist sie wahr. Und man kann die Reduktion der Verknüpfungsfunktionen noch weitertreiben. a b ¬a ¬a ∨ b a → b (a → b) ↔ (¬a ∨ b) f f w w
w
w
f w w w
w
w
w f f
f
f
w
w w f
w
w
w
Tabelle 5.7: Darstellung der Implikation mit NICHT- und UND-Gliedern
Schauen wir auf nachfolgende Wahrheitstabelle (Tabelle 5.8): a b OR (Oder) NOR (Nicht-Oder) f f f
w
f w w
f
w f w
f
w w w
f
Tabelle 5.8: Einführung eines NICHT-ODER-Junktors
Das sieht erst einmal nicht wirklich spektakulär aus, aber es ist es doch. Denn nachfolgend finden Sie eine Möglichkeit, alle drei Basis-Junktoren UND, ODER und NICHT auf die neue Verknüpfung NOR abzubilden:
Das ist natürlich ein echter Hammer. Wir können daher mit einer einzigen Verknüpfungsregel alle notwendigen Verknüpfungen, die wir in der Aussagenlogik benötigen, ausdrücken. Natürlich würde das sehr unübersichtlich werden, wenn wir das auf einem Blatt Papier so umsetzen würden, aber der Vorteil ist, man benötigt in einem Computer nur eine einzige logische Verschaltung, um letztlich alle logischen Verknüpfungsregeln ablaufen lassen zu können. Der Vorteil, alle logischen Ausdrücke mit NOR-Gattern darzustellen, ist also ein technischer. Man kann so einfach Millionen solcher identischen NOR-Gatter auf einem Schaltkreis produzieren und der Rechner kann dann logische Schlüsse ziehen, denn alle logischen Ausdrücke, auch die Implikation kann durch eine Verschachtelung von NOR-Gattern umgesetzt werden. Wie sieht ein solches NOR-Gatter aus? Als einfachste elektrische Schaltung zum Beispiel wie in Abbildung 5.1.
Abbildung 5.1: Elektrisches Schaltbild eines NOR-Gatters
Das Minuszeichen »-« unten rechts stellt die elektrische Masse dar, für uns die logische 0, das »+« steht für Spannung anliegend, zum Beispiel 5
Volt, unsere logische 1. Man erkennt, nur dann, wenn beide Schalter S1 und S2 offen sind, beide also einer logischen 0 entsprechen (a = 0, b = 0), liegt an y die Spannung an (y = 1). Ist a = 1 (S1 geschlossen), so ist y = 0 (da die Masse über a an y durchgeleitet wird), für b gilt das Gleiche. Das NOR-Gatter ist perfekt. (Man könnte dasselbe auch für NANDGatter zeigen.) Wie bereits ausgeführt, verwendet man im Computer keine klassischen Schalter, sondern Transistoren (bald von der Größe eines Atoms) als Schalter. Von diesen Transistoren gibt es auf einem Schaltkreis Millionen an der Zahl. Der Computer kann unsere Aussagenlogik prima nachrechnen. Damit haben wir etwas sehr Wichtiges erreicht: Mit der Aussagenlogik kann man logisch korrekte Schlüsse des Menschen formal korrekt abbilden. Und da sich die Aussagenlogik auf einem Computerschaltkreis mittels NOR-Gattern umsetzen lässt (auch andere Logik-Gatter wie NAND-Gatter sind möglich, aber ohne Negation geht es nicht), lässt sich jede aussagenlogische Formel auf einem Computer nachbilden.
Das Erfüllbarkeitsproblem der Aussagenlogik Da die Aussagenlogik korrekt ist, entstehen bei richtiger Anwendung der Ableitungsregeln nur korrekte Formeln. Auch lässt sich jede gewünschte Formel durch Anwendung der Syntax der Aussagenlogik ableiten. Und man kann bei jeder Aussage der Aussagenlogik entscheiden, ob diese für eine Belegung wahr oder falsch ist, da man einfach die Wahrheitstafeln einsetzen kann. Die Erfüllbarkeit ist in der Aussagenlogik also immer entscheidbar. Allerdings wächst die Dauer für eine Entscheidung exponentiell mit der Anzahl der Variablen. Bei schnellen Computern – wie wir sie heute haben – wird die Rechenzeit aber keine Rolle spielen. Wir merken uns Der Computer kann deduktive Schlüsse ziehen, genau wie ein Mensch. Man könnte also in erster Näherung sagen, dass ein Computer denken kann, oder besser, dass er logisch denken kann.
Künstliche Intelligenz auf einem Digitalcomputer arbeitet logisch korrekt. Aber bisher haben wir nur die Aussagenlogik formalisiert, sind also nur in der Lage, diese auf einem Computer zu programmieren. Das reicht jedoch bei Weitem nicht aus. Denn die Aussagelogik hat eine ernsthafte Einschränkung. Will man zum Beispiel eine Aussage der Form »Alle Frösche sind grün« formalisieren, um sie im Computer zu verarbeiten, so geht das nicht. Man kann in der Aussagenlogik sagen »Der Frosch dort hinten rechts ist grün« und »Der Frosch hier vorne ist grün«, aber eine Aussage über alle Frösche ist in der Aussagenlogik gar nicht vorgesehen. Dazu fehlen die sprachlichen Mittel, die sogenannten Quantoren »alle« oder »einige«. Die Aussagenlogik muss daher erweitert werden. Und da fangen leider die Probleme an.
Prädikatenlogik 1. Stufe (PL1) Die folgenden Aussagen über Prädikatenlogik sind sehr theoretisch und teilweise kompliziert, sie gehen über mathematisches Abiturniveau hinaus. Wenn Sie sich nicht für diesen Theorieteil interessieren, überblättern Sie bitte alle Abschnitte zur »Prädikatenlogik« und starten wieder mit dem Abschnitt »Die (zerstörerische) Kraft der Selbstreferenz«. Denn wichtig im Rahmen der KI ist letztlich das Resultat der Erläuterungen in den Folgeseiten, und das sei bereits hier genannt: »Es ist nicht möglich, das gesamte Wissen der Welt zu formalisieren. Es gibt unendlich viele Wahrheiten, die von einer KI niemals abgeleitet (ermittelt) werden können. « Beginnen wir mit der Prädikatenlogik! Wir wollen uns die Aussage »Romeo ist eine Katze« nochmals ansehen. In der Aussagenlogik kann diese Aussage wahr oder falsch sein. In der deutschen Sprache könnten wir diesen Satz aber genauer analysieren,
dabei werden wir feststellen, dass das Wort »Romeo« das Subjekt, das Wort »ist« das Verb (oder Hilfsverb) und das Wort »Katze« das Objekt ist. Auch in der formalen Sprache der Prädikatenlogik kann man sich einen solchen Satz genauer anschauen. Romeo ist dabei ein Individualbegriff, eben für das ganz spezielle Individuum namens Romeo. Den gesamten Term » … ist eine Katze« nennen wir jetzt ein Prädikat, im leichten Unterschied zum Prädikat der deutschen Grammatik. Er beschreibt sozusagen einen Begriff, eine Eigenschaft oder auch eine Relation. Des Weiteren gibt es in der Prädikatenlogik auch noch Funktionen. Man kann nämlich anstatt eines Eigennamens in ein Prädikat auch eine Variable einsetzen. Dann entsteht eine Funktion, zum Beispiel f(X) = »X ist eine Katze«. Wenn wir für die Individualvariable ein X setzen, weil wir mehrere Individuen untersuchen wollen, und für die Eigenschaft » … ist eine Katze« das Prädikatssymbol P oder Katze verwenden, so entsteht unsere erste formale Aussageform in der Prädikatenlogik: P(X) oder etwas anschaulicher: Katze(X) Welchen Wahrheitsgehalt hat diese Aussageform? Das wissen wir natürlich noch nicht, denn wir wissen nicht, wer oder was X ist. Diese Aussage kann also wahr oder falsch sein, je nachdem, welches Individuum wir für X einsetzen. Nehmen wir für X das Individuum Klaus und Klaus sei mein menschlicher Nachbar, dann ist Katze(Klaus) eine falsche Aussage. Nehmen wir unsere Katze Romeo in die Aussage hinein, so folgt, dass Katze(Romeo) eine wahre Aussage ist, denn in der Aussagenlogik würde diese Aussage »Romeo ist eine Katze« bedeuten, und die wäre wahr. Ein anderes
Beispiel: Die Aussage »Klaus ist Student« würde man in der Prädikatenlogik mit Student(Klaus) formalisieren. Was bedeutet die neue Schreibweise? Nun, wir haben die obige Aussage »Romeo ist eine Katze« sozusagen in ihre grammatikalischen Teile, Eigennamen und Prädikat, aufgetrennt. Wir kommen mit unseren logischen Werkzeugen dadurch direkt an die Bestandteile der Aussage heran und unsere Ausdrucksmöglichkeiten werden größer. Es gibt jedoch eine weitere Herausforderung für die Logik. Wenn wir Aussagen wie »Alle Katzen sind flauschig« in einer formalen Form ausdrücken wollten, damit der Computer diese später verarbeiten kann, merken wir, dass wir für das deutsche Wort »alle« in der Aussagenlogik gar kein Symbol besitzen. In der Prädikatenlogik gibt es aber solche Symbole, das sind die sogenannten Quantoren. Und diese Quantoren können wir auf die Bestandteile der Aussagen anwenden. In der Prädikatenlogik erster Stufe (PL1) wenden wir die Quantoren auf die Objekte an, in der zweiten Stufe (PL2) nutzen wir sie auch für die Prädikate. Vorerst bleiben wir bei PL1. Wir führen den Allquantor »alle« mit dem Symbol ∀, den Existenzquantor »es gibt« mit dem Symbol ∃ ein. Behandeln wir ein erstes Beispiel: Zerlegen wir eine Aussage der Aussagenlogik in ihre Bestandteile und drücken wir sie mit dem Existenz-Quantor aus. Aussage der Aussagenlogik: »Klaus liebt Kaffee« Eine mögliche Aussage in PL1, die das Gleiche ausdrückt: ∃X: Klaus(X) ∧ lieben(X, Kaffee) oder auf Deutsch »Es gibt jemanden, der hat die Eigenschaft Klaus zu sein und Kaffee zu lieben« Das Prädikat »… lieben …« ist ein sogenanntes mehrstelliges Prädikat, da es eine Relation darstellt. Die oben eingeführten Prädikate P können
also Eigenschaften, wie »… ist eine Katze«, aber auch mehrstellige Relationen wie » … lieben …« ausdrücken.
In eine Logikaussage übersetzen Nun wollen wir den Satz, »Alle Katzen sind flauschig« bzw. »WENN etwas eine Katze ist, DANN ist es flauschig«, in eine Logikaussage in PL1 übersetzen. Mit den soeben eingeführten Quantoren und der Implikation schreiben wir also: ∀X: Katze(X) → flauschig(X) Wir übersetzen. Für alle X gilt: WENN X eine Katze ist, DANN ist X flauschig. In der Aussagenlogik wäre eine solche Aussage nicht abbildbar. Die Aussage können wir nun auf ihren Wahrheitsgehalt hin empirisch überprüfen. Leider müssen wir feststellen, dass die Aussage eben nicht für alle Katzen gilt. Wir alle kennen zumindest eine Katze, nämlich die vom Nachbarn, die nicht flauschig, dafür aber sehr gefräßig ist. Die obige Aussage ist also eindeutig falsch. Ich hatte oben ausgeführt, dass Prädikate auch mehrstellig sein, also Relationen (Beziehungen) ausdrücken können. Schauen wir uns den Satz »Robert mag Pizza« an. Man kann das in PL1 so formalisieren: mag(Robert, Pizza) Wir können auch wieder mit Individualvariablen (also Platzhaltern) arbeiten und sagen: »X mag Pizza« oder formal: mag(X, Pizza). Das ist natürlich wieder nur eine Aussageform. Wir wissen nicht, ob diese Aussage korrekt ist. Wenden wir aber den Allquantor ∀ an, entsteht eine Aussage, die wahr oder falsch ist: ∀X: mag(X, Pizza). Für alle X gilt: X mag Pizza. Oder einfacher ausgedrückt: »Jeder mag Pizza.« Diese Aussage ist erneut falsch, denn sicher kennen Sie
jemanden, der keine Pizza mag. Jetzt wenden wir uns dem Existenzquantor ∃ zu, denn man möchte zum Beispiel auch die Aussage »Jemand mag Pizza« formal ausdrücken. ∃X: mag (X, Pizza). Auf Deutsch: »Es gibt ein X, das Pizza mag« oder einfacher, »Jemand mag Pizza«. Das ist mit Sicherheit eine wahre Aussage. Mit Quantoren zu arbeiten, führt uns zu sehr mächtigen Aussagen über die Welt. Die Prädikatenlogik ist damit in der Lage, viel komplexere Sachverhalte auszudrücken als die Aussagenlogik. Aber man muss sehr aufpassen, denn oftmals täuscht uns die Alltagssprache, gerade wenn wir Quantoren für »niemand«, »keiner«, »nicht alle« und so weiter einsetzen wollen. Formalisieren wir noch einige nützliche Aussagen: Aussageform oder Aussage
Formale Darstellung in der Prädikatenlogik
Keiner mag Kuchen.
¬∃X: mag(X, Kuchen)
Nicht jeder mag Kuchen.
¬∀X: mag(X, Kuchen)
Alle mögen sich selbst.
∀X: mögen(X, X)
Jemand mag jemanden.
∃X ∃Y: mögen(X, Y)
Es gibt jemanden, der ist Kind von Marén und ∃X: Kind(X, Marén, Ralf) Ralf
Es ist zu beachten, dass die Symbole »Kuchen« und »mag« in obiger Formel beliebige Zeichenketten sein können, nur aus Gründen der besseren Lesbarkeit verwenden wir Symbolketten, die einen intuitiv mit der späteren Interpretation verbinden sollen. Man könnte aber genauso schreiben: ¬∀UJI5: qwer(UJI5, zumzum). Die Variable »UJI5« ist der Platzhalter. Die Konstante »zumzum« interpretieren wir als Kuchen und das Prädikat »qwer« interpretieren wir
als »mögen«. Obiger Ausdruck ist damit für die gegebene Interpretation wahr. Genauso kryptisch sieht übrigens der Computer alle unsere Aussagen, da er die Zeichenketten natürlich nicht versteht. Seine Logik arbeitet trotzdem vollkommen korrekt, da wir einen syntaktischen Formalismus eingeführt haben, wie mit solchen Ausdrücken umzugehen ist, und zwar rein formal. Ganz unabhängig davon, was die Zeichenketten bedeuten könnten. Der Computer benötigt keine »Bedeutungen«, um korrekt zu rechnen, das kennen wir bereits aus der Aussagenlogik. Ein letztes Beispiel Formalisieren wir die Aussage: »Alle Katzen, die flauschig sind, sind süß.« ∀X: Katze(X) ∧ flauschig(X) → süß(X) Sie erkennen das Prinzip! Und Sie erinnern sich wahrscheinlich auch noch, warum wir uns in der Aussagenlogik so viel Mühe mit der Formalisierung gegeben haben. Wir wollen die sprachlichen Aussagen auf einem Computer verarbeiten und Sie wissen, der spricht leider nur eine einzige Sprache, nämlich »mathematisch«. Wir hatten im letzten Kapitel sogar gesehen, dass der Computer durch seine Verschaltung prädestiniert ist, logische Ausdrücke zu verarbeiten. Die Prädikatenlogik ist, wie wir bereits gesehen haben, formal beschreibbar. In dieser Logik gibt es Platzhalter (Variablen), Konstanten (»Romeo«), Junktoren (UND und ODER), Quantoren (∀,∃) und eben die Prädikate, die man sich als Laie wie die Prädikate eines Satzes vorstellen darf. Wendet man die syntaktischen Regeln der PL1 korrekt an, lassen sich Formeln, also wohlgeformte Ausdrücke, erzeugen. Das Ziel solcher Umformungen ist es, gegebene Ausdrücke in sogenannte Normalformen umzuwandeln, um sie später für korrektes Schlussfolgern zu verwenden. Es wird also geprüft, ob mit der PL1 auch korrekte Schlüsse gezogen werden können. Nur wenn das so ist, kann man sie in der KI gebrauchen. Wenn man das mathematisch zeigen kann, dann kann der Computer auch in der neuen, wesentlich mächtigeren Logik korrekt schlussfolgern.
Schauen wir uns das jetzt genauer an. In der Aussagenlogik ist das Schlussfolgern einfach, wir benötigen dort nur Wahrheitstafeln und setzen einfach jede Belegung ein. Dann erkennen wir, ob die Aussage erfüllbar, allgemeingültig oder widersprüchlich ist. Im Rahmen der Prädikatenlogik ist dieses Vorgehen jedoch schwierig, da wir Quantoren haben. In der Prädikatenlogik kommen wir mit Wahrheitstafeln im Allgemeinen also nicht weiter, da sich nicht alle Belegungen aufschreiben lassen. Aber oftmals kann man die Gültigkeit einer Aussage dennoch prüfen. Haben wir beispielsweise die Aussage: »Es gibt einen, der Pizza mag«, dann benötigt man nur eine einzige Belegung (zum Beispiel »Klaus«), der Pizza mag. Dann ist die Aussage bereits wahr. Haben wir die Aussage: »Alle mögen Pizza«, benötigen wir auch nur einen Einzigen, der keine Pizza mag (nehmen Sie zum Beispiel mich), und schon können wir sagen, dass die Aussage falsch ist. Und auch das Gegenteil ist leicht überprüfbar: »Niemand mag Pizza.« Wir müssen nur einen einzigen Menschen kennen, der Pizza mag, und schon kennen wir den Wahrheitsgehalt der Aussage, sie ist erneut falsch. Aus diesen Beispielen kann man auch das Prinzip der Wahrheitsfindung erkennen, denn oftmals benötigen wir nur ein einziges Gegenbeispiel, um die Aussage auf ihren Wahrheitsgehalt hin zu prüfen. Aber manchmal geht das nicht.
Schlussfolgern in der Prädikatenlogik In der Aussagenlogik haben wir gesehen dass eine spezielle Ableitungsregel, wir nannten sie modus ponens, korrekt ist, also zu logisch korrekten Schlussfolgerungen genutzt werden kann. Und jetzt kommt die gute Nachricht: Auch in der Prädikatenlogik kann man korrekt schlussfolgern, allerdings benötigt man dazu etwas »smartere« Schlussfolgerungskalküle als in der Aussagenlogik, eins davon ist das Resolutionskalkül.
Schlussfolgern mit Resolutionskalkül In der Aussagenlogik können wir, wie bereits aufgezeigt, folgendermaßen schlussfolgern:
Das ist das Deduktionstheorem. Dieses Theorem können wir auch für die Prädikatenlogik anwenden, allerdings ist das Deduktionstheorem dann zu erweitern. Schauen wir uns einBeispiel an:
Eine Konstante a habe die Eigenschaft F. Für alle X gilt, dass WENN X die Eigenschaft F hat, DANN hat X auch die Eigenschaft G. Daraus folgt logisch korrekt: a hat auch die Eigenschaft G. Sie werden sagen, das ist ja wohl logisch. Und Sie haben recht. Nur, jetzt kann das auch ein Computer schlussfolgern, weil wir diese Schlussfolgerung in eine formale Sprache übersetzt haben, eine, die der Computer versteht. Das Deduktionstheorem ist nicht vollständig. Es gibt noch andere Möglichkeiten, korrekt zu schlussfolgern. Auch in der Aussagenlogik ist der modus ponens übrigens nicht die einzige Möglichkeit zum Schlussfolgern. Eine allgemeinere Möglichkeit ist das Schlussfolgern mittels Resolutionskalkül. Der Resolutionskalkül bedient sich der Eigenschaft, dass eine Schlussfolgerung Ω ╞ B genau dann wahr ist, wenn die Negation der Schlussfolgerung ¬B zu einem Widerspruch führt oder auf die Syntax bezogen, durch Hinzunahme der Negation ¬B zu Ω durch Umformungen eine leere Formelmenge (auch leere Klausel genannt) erzeugt wird. Der Resolutionsbeweis beruht also auf dem Prinzip, dass eine Aussage allgemeingültig ist, wenn ihre Negation nicht erfüllbar ist. Oder als syntaktische Arbeitsanweisung: Aus einer gegebenen Formel soll ein Widerspruch abgeleitet werden, der durch eine leere Klausel repräsentiert wird, da die leere Klausel nicht erfüllbar ist. Bevor wir eine einfache Schlussfolgerung selber durchführen, möchte ich eine vereinfachte Resolutionsregel einführen. Sie besagt, dass man zwei Formelmengen ϴ1 und ϴ2, die bestimmte Aussagen besitzen, von denen das eine die Negation des anderen ist, in eine neue Formelmenge, die man Resolvente nennt, überführen kann, in der die Aussagen aufgelöst sind. Solche Aussagen nennt man Literale. Ein Literal ist also eine atomare Aussage oder die Negation einer atomaren Aussage. Im folgenden Beispiel seien die Literale a, b, c gegeben. Aus (a ∨ b) ∧ (c ∨ ¬b) entsteht die Resolvente (a ∨ c). Man beachte, dass die Resolvente nicht äquivalent zur Ausgangsformel ist. Die Bedeutung des Verfahrens liegt darin, dass dann, wenn die Resolvente erfüllbar ist, auch die Ausgangsformel erfüllbar ist. Man schreibt auch:
Schauen wir uns ein komplexeres Beispiel an:
In der Abbildung kann man durch wiederholte Anwendung der Resolution eine leere Formelmenge (leere Resolvente, leere Klausel) erzeugen und damit einen Widerspruch schlussfolgern. Und zu diesem Schlussfolgern über Ω haben wir keine Wahrheitstafeln verwendet, sondern einen Kalkül.
Ich fasse das Vorgehen zusammen: Will man wissen, ob man B aus Ω semantisch schlussfolgern kann, entsteht folgende Frage: Ω ╞ B? Zur Beantwortung dieser Frage gibt es drei Abarbeitungsschritte. 1. Vereinigung der Mengen: ϴ = Ω und {¬B} 2. Ableitung der Resolventen, bis leere Resolvente entsteht {} oder keine Ableitung mehr möglich ist. 3. Wenn die Resolvente leer ist, gilt Ω ╞ B, und man kann B aus Ω schlussfolgern.
Das Resolutionskalkül Die Idee des Resolutionskalküls ist recht einfach. Gegeben sei eine Aussage Ω. Wir fragen uns nun, ob wir semantisch schlussfolgern dürfen: Aus Ω folgt B, oder formal ausgedrückt: Ω ╞ B. In der Aussagenlogik konnten wir Wahrheitstafeln aufbauen und prüfen, ob B aus Ω abgeleitet werden kann, ob also gilt: Ω ├ B. Wenn es so ist, gilt auch Ω ╞ B, das heißt, wir dürfen B aus Ω semantisch schlussfolgern. Das geht in der Prädikatenlogik 1(PL1) zwar nicht so einfach, aber eine Idee hilft weiter. Wir nehmen das Gegenteil von B (also ¬B) zur Formel Ω hinzu und prüfen die neue Aussage ϴ. Wenn wir jetzt zeigen können, dass mit der neuen Aussage ein Widerspruch entsteht, dann gilt Ω ╞ B. Ein formaler Widerspruch existiert nämlich genau dann, wenn durch Zusammenfassen der Formeln eine leere Formelmenge entsteht, siehe Box »Schlussfolgern mit Resolutionskalkül«. Diese Idee der Logiker ist bestechend, denn während wir die Allgemeingültigkeit nicht beweisen können, so lässt sich ein Widerspruch oftmals aufzeigen. Wir halten fest: Auch in der Prädikatenlogik gibt es Möglichkeiten, logisch korrekt zu schlussfolgern. Damit kann die Rechenvorschrift auf einen Computer übertragen werden und unser wichtiges Ergebnis ist:
Ein Computer kann auch in der Prädikatenlogik logisch korrekt schlussfolgern. Wenn Sie sich erinnern, wie mächtig die Prädikatenlogik gegenüber der Aussagenlogik ist, so können Sie den riesigen Gewinn ermessen. Ein Computer kann eine Vielzahl von logischen Problemen und Formeln abarbeiten, da sich alle von der Mathematik (hier PL1) auf seine Computer-Software und dann auf seine Schaltkreise abbilden lassen. Aussagen mit dem Quantor »alle« kann man beispielsweise in negative Aussagen mit dem Quantor »es gibt« überführen und über das Resolutionskalkül prüfen. Abschließend müssen wir jedoch noch klären, ob sich durch das Anwenden der Ableitungsregeln immer korrekte Formeln ergeben wie bei der Aussagenlogik. Wir wollen dabei aber nicht klären, ob sich der Computer verrechnen kann (das kann er), sondern ob die Mathematik immer korrekt ist, die wir in der Software abbilden. Eine komische Frage – werden Sie denken, aber die Mathematiker müssen es uns schon beweisen, dass in ihrer Mathematik alles korrekt zugeht, bevor wir ihrer Mathematik vertrauen.
Die PL1 ist korrekt und vollständig Und damit kommen wir zu den wichtigsten theoretischen Ergebnissen zur PL1. Der Logiker Kurt Gödel hat um 1930 in seiner Dissertation bewiesen, dass die PL1 sowohl korrekt als auch vollständig ist. Was heißt das nun? Korrektheit: Aufbauend auf dem Axiomensystem der Prädikatenlogik (PL1) lassen sich durch die Syntaxregeln der Prädikatenlogik nur wahre Formeln ableiten. Vollständigkeit: In der Prädikatenlogik (PL1) lassen sich alle wahren Formeln ableiten, die man wünscht. Es gibt keine wahren PL1Formeln, die man nicht ableiten kann. Das klingt beruhigend. Das heißt für uns, es kann nicht passieren, dass der Computer rechnet und rechnet und plötzlich entstehen falsche
Formeln. Wir können dies ausschließen, zum Glück. Was aber können wir nicht ausschließen? Dass der Computer lange rechnen muss, um bei einigen Formeln zu der Entscheidung zu kommen, ob diese richtig sind oder nicht. Das klingt nun doch nicht so gut. Bereits in der Aussagenlogik haben wir festgestellt, dass es mit steigender Anzahl von Variablen exponentiell lange dauern kann, bis ein Computer entscheiden kann, ob eine Formel wahr ist oder nicht. Nun, in der mächtigeren Prädikatenlogik kann eine solche Entscheidung noch länger dauern. In dieser Logik hat man in vielen Fällen sogar ein handfestes »Entscheidbarkeitsproblem«.
Das Entscheidbarkeitsproblem der Prädikatenlogik Bereits 1936 stellten die Logiker Church und Turing fest, dass das Entscheidbarkeitsproblem der Prädikatenlogik unentscheidbar ist. Man sagt, die PL1 ist widerspruchsvollständig, denn über den Resolutionskalkül kann ein Widerspruch gefunden werden, falls er existiert. Existiert aber kein Widerspruch, kann das in endlich langer Zeit überhaupt nicht gefunden werden. Das bringt natürlich Probleme bei Fragen der »Berechenbarkeit«. Das Entscheidbarkeitsproblem der Prädikatenlogik führt im Bereich der Informatik zu einem Perspektivwechsel, letztlich zum sogenannten Halteproblem der TuringMaschine. Warum? Wir fragen uns, ist es eigentlich garantiert, wenn man an einem beliebigen Computerprogramm eine beliebige Eingabe tätigt, die den Computer zu einer Berechnung und einer Entscheidung zwingt, dass der Computer nach endlicher Zeit anhält und eine (korrekte) Antwort gibt. Die Antwort lautet: Das ist überhaupt nicht garantiert. Im Gegenteil, es gibt keinen Algorithmus, der das im Voraus bestimmen kann. (Wenn wir Pech haben, rechnet der Computer sehr, sehr lange und antwortet dann durch den Autor D. Adams mit »42«; der Science-Fiction-Fan versteht, was ich meine. (Dem nicht SF-Fan sei erklärt, dass ein Computer im Roman Per Anhalter durch die Galaxis nach dem Sinn des Lebens befragt nach mehreren Millionen Jahren Rechenzeit, endlich die glorreiche Antwort gefunden hat, und sie lautet »42«.) Das Halteproblem der Informatik ist algorithmisch nicht
entscheidbar. Das Problem kommt aber aus der Mathematik und nicht aus der Informatik. Es ist in der Prädikatenlogik einfach nicht mehr möglich, immer einen Algorithmus anzugeben, der entscheidet, ob zum Beispiel irgendein prädikatenlogischer Ausdruck allgemeingültig ist – das ist ein schwerer Schlag für ihre praktische Anwendbarkeit.
Hornklauseln Halten wir inne. Wir haben gesehen, dass die Aussagenlogik korrekt, vollständig und entscheidbar ist, aber sie kann Aussagen wie »Alle Frösche sind bunt« nicht formalisieren. Deshalb haben wir die PL1 eingeführt. Auch die PL1 ist vollständig und korrekt, aber leider ist sie nicht mehr entscheidbar. Nur für eingeschränkte PL1-Kalküle – genau genommen einstellige Funktionen – ist das machbar. Man nennt PL1Formeln, für die das möglich ist, Hornklauseln. Die Erfüllbarkeit von Hornklauseln – sie haben den Namen zu Ehren des Logikers Horn bekommen – lässt sich entscheiden. Damit sind sie prädestiniert, auf einem Computer implementiert zu werden, denn was nützt eine mächtige Logik, die den Computer jedoch dazu bringen kann, dass er unendlich lange rechnen muss, wenn er die Entscheidung über die Wahrheit einer Aussage treffen soll. Stellen Sie sich vor, der Computer in einem autonom fahrenden Auto soll bestimmen, ob die Aussage »Fahre jetzt nach rechts« wahr ist. Er hat einfach nicht sehr viel Zeit, um den Wahrheitsgehalt dieser Aussage zu bestimmen. Der Computer sollte in Echtzeit entscheiden, also nicht erst drei Minuten oder sogar Stunden später. (Zum Glück lässt sich das »Abbiegeproblem« auf die Aussagenlogik abbilden.) Das Ergebnis obiger Überlegungen ist überraschend. Man kann mit den formalen Mitteln der Logik nicht das »Weltwissen« auf einem Computer abbilden und zur Entscheidungsfindung einer KI nutzen, denn bereits die PL1 kommt bei ihrer praktischen Anwendbarkeit an ihre Grenzen. Und es kommt noch schlimmer …
Prädikatenlogik 2. Stufe (PL2)
Lassen wir mal die praktischen Probleme der Entscheidbarkeit der PL1 beiseite. Die PL1 hat auch inhaltliche Grenzen. Denn obwohl die PL1 sehr mächtige logische Aussagen zulässt, ist es mit ihren Mitteln nicht möglich, so einfache Systeme wie die Arithmetik der natürlichen Zahlen logisch zu begründen. Obwohl dieses Problem nun nicht unmittelbar mit der KI zu tun hat, möchte ich in diesem Abschnitt die formalen Grenzen der Logik aufzeigen, denn die Grenzen der Logik haben zumindest mittelbar mit den Grenzen der KI zu tun. Wir alle kennen aus der Grundschule die Rechenregeln der natürlichen Zahlen, man nennt sie Arithmetik. Vor über 100 Jahren haben die Logiker versucht, alle mathematischen Systeme durch rein mechanische Logiken formal zu begründen. Der berühmte Mathematiker David Hilbert hatte sogar das Ziel, die gesamte Mathematik zu formalisieren. Versuchen wir, die Idee zu verstehen. Wir fragen uns: Haben die Zahlen der Mathematik eine Realität außerhalb der Mathematik oder sind es nur rein künstliche Gebilde, die durch rein mechanische Rechenregeln (oder Logikregeln) immer neue Aussagen über ihre Konstrukte erzeugen können? David Hilbert und andere sahen das so. Es ging also darum, ob man beispielsweise die Arithmetik rein formal als Addition und Multiplikation von Zeichen begründen kann, also um die Frage, ob es möglich ist, ein logisches System (ein Kalkül) zu entwickeln, aus dem heraus die Arithmetik wie von Zauberhand – also wie von selbst – entsteht. Schauen Sie in den Hintergrundkasten »PeanoArithmetik«. Dort sieht man, dass man mittels eines Kalküls ein Axiomensystem (sozusagen die Urwahrheiten) definieren kann und dann nur noch die Ableitungsregeln benötigt, um ausgehend von den Axiomen neue Formeln und Aussagen zu kreieren. Und falls der Kalkül korrekt und vollständig ist (was nachzuweisen wäre), könnte man alle gewünschten Aussagen aus dem Axiomensystem ableiten. Da die Arithmetik nichts weiter ist als eine Algebra für Rechenregeln mit natürlichen Zahlen, muss man nur die Rechenregeln ableiten und fertig wäre die Arithmetik. Doch die PL1 ist nicht mächtig genug, um genau das zu gewährleisten.
Darum PL2 - Wir quantifizieren über Prädikate
Wenn man die Formalisierung der Arithmetik mit den Mitteln der Logik versucht, merkt man, dass es mit der Ausdrucksstärke der Prädikatenlogik 1. Stufe nicht möglich ist. Der Grund liegt vereinfacht ausgedrückt darin, dass man in der PL1 zwar Quantoren auf Objekte anwenden kann, aber keine Quantoren auf die Prädikate. Schauen wir uns nochmals zwei Beispiele aus PL1 an. In PL1 kann ich sagen: »Für alle X gilt: Wenn X eine gerade Zahl ist, DANN ist X durch 2 teilbar«. Oder formal, ∀X : gerade(X) → teilbar(X,2) Was ich in PL1 auch sagen kann, ist, »Wenn X gerade ist, DANN ist auch der Nachfolger vom Nachfolger gerade«. Oder formal, ∀X : gerade(X) → gerade(nachfolger(nachfolger(X))) Wie Sie wissen, wird der Platzhalter durch Variablen ersetzt, und man kann eine All-Aussage einführen, ∀X: P(X). Was aber ist mit dem Prädikat P selbst? Kann man Quantoren auch auf die Prädikate anwenden? Das geht in PL1 nicht! Im Folgenden wollen wir an einem konkreten Beispiel aber auch über das Prädikat quantifizieren: ∀P ((P(0) ∧ ∀n (P(n) → P(nachfolger(n)))) → ∀n(P(n)) Und genau jetzt ist PL2 ins Spiel gekommen. Es wurde nicht nur über das Objekt n, sondern auch über das Prädikat P quantifiziert, ∀P. Das ermöglicht ganz neue Ausdruckmöglichkeiten. Schauen wir uns im Inneren des Ausdrucks die Kernbotschaft an: WENN irgendein Prädikat P(n) für n gilt, DANN gilt es auch für P(n+1). Der wesentliche Punkt ist, dass man in PL2 ausdrücken kann, dass verschiedene Eigenschaften gelten sollen. Das Prädikat P beschreibt ja gerade eine Eigenschaft und über diese Eigenschaften wird quantifiziert. Der obige Ausdruck gilt eben nicht nur für irgendein spezielles Prädikat
P, sondern für alle: ∀P. Das ist die neue Ausdrucksstärke von PL2. Die Eigenschaft P könnte beispielsweise » … ist rot« bedeuten. Stellen wir uns nun eine unendliche lange Kette mit aufgefädelten Perlen vor. Die Perlen nenne ich jetzt Elemente. Dann sagt obiger Ausdruck: WENN das erste Element der Kette rot ist und es gilt, dass WENN ein beliebiges Element n der Kette rot ist, DANN sei auch der Nachfolger n+1 auf der Kette rot, DANN sind alle Elemente der Kette rot. Das ist natürlich logisch. Aber es funktioniert eben auch, wenn P die Eigenschaft » … ist gelb« ausdrücken würde. Es würde für alle Eigenschaften P funktionieren.
Vollständige Induktion Der mathematisch orientierte Leser erkennt in den obigen Ausdrücken die Grundidee der vollständigen Induktion. Wenn man eine wahre Aussage für ein erstes Element aus dem Gültigkeitsbereich findet »P(1) ist wahr«, und wenn man dann zeigen kann, dass P(n+1) auch wahr ist, wenn P(n) wahr ist, dann hat man die Eigenschaft für den gesamten Gültigkeitsbereich bewiesen. Natürlich geht das nur für bestimmte Mengen, man nennt diese abzählbar. Mit dieser sogenannten vollständigen Induktion haben wir uns alle in der Schule herumgeschlagen. Legen wir formal fest: Sei P(n) eine Aussageform und P(1) eine wahre Aussage und die Implikation P(n) → P(n+1) für alle n erfüllt, dann sei P(n) allgemeingültig. Mithilfe der vollständigen Induktion haben wir zahlreiche Gesetze der Arithmetik der natürlichen Zahlen bewiesen. Hier ein Beispiel aus der Mittelschule: 1 + 2 + 3 + … + n = n(n + 1) / 2. Der Legende nach hat der Mathematiklehrer des kleinen Gauß den Schülern in der Schule aufgetragen, alle Zahlen von 1 bis 100 zu addieren, damit er ungestört einen Unfall mit einem Karren auf der Straße beobachten konnte. Gauß löste das Problem in wenigen Minuten. Fortan war er als Genie bekannt. Solche Formeln, wie die, die Gauß nutzte und unendlich viele mehr lassen sich mit der vollständigen Induktion beweisen. Aber die vollständige Induktion ist noch viel nützlicher. Im Jahre 1889 hatte der
Mathematiker Peano die Idee, die Arithmetik der natürlichen Zahlen mithilfe der Logik zu begründen. Dafür legte er fünf Axiome fest, seine sogenannte Peano-Arithmetik war geboren, siehe Box »PeanoArithmetik«.
Peano-Arithmetik Peano führt fünf Axiome ein, um die natürlichen Zahlen logisch zu begründen. n' steht für Nachfolger. 1. Axiom1: 2. Axiom2: 3. Axiom3: 4. Axiom4: 5. Axiom5: Umgangssprachlich bedeuten die Axiome Folgendes: 1. 0 ist eine natürliche Zahl. 2. Jede natürliche Zahl n hat eine natürliche Zahl n' als Nachfolger. 3. 0 ist kein Nachfolger einer natürlichen Zahl. 4. Natürliche Zahlen mit gleichem Nachfolger sind gleich. 5. Enthält X die 0 und mit jeder natürlichen Zahl n auch deren Nachfolger n', so bilden die natürlichen Zahlen eine Teilmenge von X.
Mit dieser Logik konnte er die natürlichen Zahlen logisch einführen. Die natürlichen Zahlen sind – zumindest nach diesem Konzept – einfach abstrakte Zeichenketten, die untereinander durch irgendwelche Rechenregeln verknüpft sind.
Grenzen der PL2 – Das Unvollständigkeitstheorem
Mit der PL1 kann man Peanos Axiom 5 jedoch nicht formalisieren, da man generische Prädikate nicht darstellen kann. Das geht erst mit der Prädikatenlogik 2. Stufe. Erst mit der PL2 kann man die natürlichen Zahlen formal einführen. Da man die Arithmetik formal korrekt einführen kann, fragt man sich sofort, ob das nicht für die gesamte Mathematik funktionieren könnte. Falls ja, ließe sich die gesamte Mathematik, die wir haben, auf einem Computer formalisieren und der Computer könnte ALLES über die Welt ausrechnen. Doch genau das geht nicht. Untersuchungen zur PL2 zeigen, dass ein solches Unterfangen niemals möglich sein wird. Während die PL1 vollständig und korrekt, aber nicht allgemein entscheidbar ist, so hat die PL2 noch mehr Schwachstellen. Ein Computer wird niemals alle Eigenschaften der realen Welt logisch ausrechnen können. Es ist keine technische Frage, es ist auch keine Frage der Informationstechnologie, es ist eine prinzipielle, das heißt eine mathematische Frage. Es geht nicht. Es war Kurt Gödel, der im Jahre 1931 zeigte, dass die Prädikatenlogik 2. Stufe entweder nicht korrekt oder nicht vollständig ist. Das hob ihn aus meiner Sicht für alle Zeiten auf den mathematischen Olymp. Die Mathematik hat zahlreiche Genies hervorgebracht, aber Gödel ist so bedeutend, weil er die Hoffnung der Mathematiker – alles formal beschreiben zu können – ein für alle Mal und für alle Zeiten zu Grabe trug. Falls Sie noch nie etwas von Kurt Gödel gehört haben, dann nur, weil er außerhalb der Mathematik nicht wirklich zu verstehen ist. Seine Beweise sind so abstrakt, dass es Wochen oder gar Monate braucht, um sie im Detail zu begreifen. Und doch ist seine Unbekanntheit schade, denn aus seiner Zusammenarbeit und Freundschaft mit Albert Einstein in Princeton entstand 1949 die erste formal korrekte Theorie für Zeitreisen und vieles mehr. Ohne Gödel wäre die gesamte ScienceFiction-Industrie viel ärmer aufgestellt. Begeben wir uns nochmals in jene Zeit, so vor 1930, um uns seinen Beweisen anzunähern. In den Jahren ab 1900 wollten viele Mathematiker die Mathematik rein formal begründen. Auch Hilbert war
der Meinung, dass sich die gesamte Mathematik durch rein mechanische Symbolmanipulation erzeugen lässt. Im Jahre 1929 bestätigte Gödel in seiner Dissertation die Vollständigkeit und Korrektheit für die Prädikatenlogik 1. Stufe und unterstützte damit diesen Traum. Dass die PL1 nicht entscheidbar ist, wusste man erst ab 1936. In den Logikerkreisen der damaligen Zeit war natürlich bekannt, dass sich mit der PL1 keine Arithmetik der natürlichen Zahlen formalisieren lässt, weil man dazu die vollständige Induktion benötigt. Mithilfe der PL2 und artverwandter Logiken ließ sich die Arithmetik der natürlichen Zahlen jedoch gut formalisieren. Aber jetzt kam Gödel erneut und zeigte 1931 in seiner Arbeit »Über formal unentscheidbare Sätze …«, dass es in einem System, das der Komplexität der Arithmetik der natürlichen Zahlen entspricht, zu Aussagen kommen kann, die mit dem Mitteln des Systems nicht bewiesen und nicht widerlegt werden können. Das klingt nun ungeheuerlich. In einem formalen System mit der Komplexität der Arithmetik entstehen unentscheidbare Sätze? Da war sie, die »Bombe« in der Logik. Für die Mathematiker platzte ihr wohl schönster Traum. Aber dennoch müssen wir festhalten, es ist so. Gödel hat gezeigt, dass ein System, das mindestens die Mächtigkeit der Arithmetik besitzt, nicht gleichzeitig korrekt und vollständig sein kann. Jedes widerspruchsfreie System, das ausdrucksstark genug ist, um die gewöhnliche Mathematik zu formalisieren, wie PL2, ist unvollständig. Können Sie sich das vorstellen? Man nehme ein Axiomensystem, das heißt eine Menge von wahren Prämissen, und leite völlig korrekt Formeln über Formeln ab. Und irgendwann können dabei Formeln entstehen, von denen man nicht mehr weiß und auch nicht beweisen kann, ob sie wahr oder falsch sind. Das klingt nach einem Bauernfängertrick, denn unsere gesamte (intuitive) Logik baut darauf, dass, wenn unsere Prämissen wahr und unsere Ableitungen korrekt sind, dass dann (immer) wahre Aussagen entstehen. Ja, und so ist es auch, aber ab der Prädikatenlogik 2. Stufe nur um den Preis der Unvollständigkeit. Den Preis kann man jedoch zahlen. Mit einer
inkorrekten Logik kann man nämlich gar nichts anfangen, mit einer unvollständigen, aber korrekten Logik schon. Es gibt automatische Beweiser, die auf Logiken höherer Stufe basieren. Die Beweise, die sie finden, sind korrekt, aber sie finden eben niemals alle Beweise. Das ist beweisbar! In Logiken höherer Ordnung können also Aussagen entstehen (allerdings nicht durch einfache Schlussregeln), deren Wahrheitsgehalt mit den Mitteln des Systems nicht mehr bewiesen oder widerlegt werden kann. Natürlich lässt sich durch Hinzunahme von weiteren Axiomen das Problem beheben. Man könnte den erzeugten Satz eben als neues Axiom deklarieren und ihn per Definition auf wahr setzen. Doch dann entstehen aber an anderer Stelle Aussagen, deren Wahrheitswert nicht prüfbar ist. Und Gödel zeigt, dass es prinzipiell nicht möglich ist, alle erzeugbaren Sätze auf Korrektheit zu überprüfen. Er ist eine der größten Unerhörtheiten der Wissenschaft. Ich möchte den Beweis hier nicht darlegen, da das ein eigenständiges Buch werden würde, aber seine Beweisidee möchte ich kurz aufzeigen. Zuerst aber seine formalen Schlussfolgerungen in der Box:
Gödels Unvollständigkeitstheorem Gödels Schlussfolgerung war wie folgt: 1. Gödel'scher Unvollständigkeitssatz Jedes hinreichend mächtige, rekursiv aufzählbare formale System ist entweder widersprüchlich oder unvollständig. 2. Gödel'scher Unvollständigkeitssatz Jedes hinreichend mächtige konsistente formale System kann die eigene Konsistenz nicht beweisen.
Die (zerstörerische) Kraft der Selbstreferenz Gödel war Logiker. Er wusste, dass man in der Logik eine formale Sprache benötigt, um Aussagen miteinander verknüpfen zu können. Man
nennt das Objektsprache. Aber man kann mit den Mitteln der formalen Sprache noch mehr. Man kann sogar über die Logik sprechen, das nennen wir Metasprache. Jeder Mensch kann so etwas. Wir können die deutsche Sprache benutzen, um über Objekte zu reden. Das Wasser ist nass. Der Sommer ist heiß. Die Vorlesung ist spannend. Davon können wir endlos Aussagen treffen. Aber wir können die deutsche Sprache auch benutzen, um über die Sprache selbst zu reden, also über ihre Grammatik, ihre Rechtschreibung und vieles mehr. Dann wäre das eine Metasprache. Bitte beachten Sie, dass sowohl Objektsprache als auch Metasprache mit den gleichen Wörtern der deutschen Sprache geführt werden. Das macht den Grammatikunterricht ja so schwierig. Gödel wendete genau diese Abstraktion an, denn »schwierig« war wohl kein Hinderungsgrund für ihn. Was er machte, das war mehr als schwierig (siehe Box: »Wie kam Gödel zu seinen Theoremen?«). Neben der Einführung einer Metasprache, setze Gödel die Ableitungen seiner Aussagen immer wieder in die Aussagen selbst ein und gelangte nach weiteren Kunstgriffen zu mathematischen Aussagen, die über sich selbst sprachen. Zum Ende seiner Beweisführung verneinten die Aussagen ihre eigene Beweisbarkeit.
Wie kam Gödel zu seinen Theoremen? Gödel erfand eine Systematik, man nennt sie Gödelisierung von Aussagen, mit denen er in der Sprache der Aussagen über die Aussagen selbst reden konnte. Durch die Vermischung von Objektsprache (der Logik) und Metasprache (der Sprache über die Logik) mit exakt den gleichen Symbolen von Objekt- und Metasprache konnte er selbstreferenzielle Aussagen erzeugen. Nach 20 Seiten mathematischer Abhandlung gelangt Gödel zu einer Aussage F, die (in unsere Alltagssprache übersetzt) etwa wie folgt lautet: Nr. F: »Die Aussage mit der Nummer F ist nicht beweisbar.« Was bedeutet das? Letztlich sagt die Formel von sich selbst: »Ich bin nicht beweisbar.« Wenn F wahr ist, dann ist die Formel F nicht beweisbar, das System damit also nicht vollständig, da es mindestens einen Satz gibt, der nicht beweisbar ist, nämlich F. Wenn die Formel F aber falsch ist, dann gibt es mindestens eine Formel, die durch korrektes Ableiten entstanden ist, die falsch ist. Das System ist also nicht korrekt.
Gödels Ergebnisse waren bahnbrechend, denn sie bedeuten: Ist das System korrekt, dann kann es nicht vollständig sein. Ist das System vollständig, dann kann es nicht korrekt sein. Können Sie sich eine größere zerstörerische Kraft auf die Logik vorstellen? Und doch kommt einem das Problem der Wahrheitsfindung selbstreferenzieller Aussagen bekannt vor. Schon seit der Antike gibt es Aussagen der Form: »Der Kreter sagt: Alle Kreter lügen.« Ist diese Aussage jetzt wahr oder falsch? Probieren Sie es aus. Das ist die zerstörerische Kraft der Selbstreferenz, die auch Gödel nutzte. Wir merken uns: Die PL2 ist korrekt, aber nicht vollständig. Mit Mitteln von PL2 können Aussagen erzeugt werden, deren Wahrheitsgehalt (mit Mitteln von PL2) nicht beweisbar ist. Was heißt dieser Fachjargon aber nun? Für Hilbert war 1931 der Traum geplatzt, eine Logik einzuführen, die die Mathematik rein formal begründen könnte, denn nicht einmal die so »einfache« Arithmetik konnte logisch korrekt und vollständig eingeführt werden. Man muss verstehen, dass der Beweis von Gödel für jedes System gilt, das mindestens die Mächtigkeit der Arithmetik besitzt. Natürlich kann man sich immer Teilbereiche konstruieren, in denen vollständige und logisch korrekte Kalküle gelten. Aber das ist nicht das Problem. Es gibt eben mächtige formale Systeme, so zum Beispiel die Arithmetik, in denen Aussagen auftreten können, die im System der Arithmetik nicht bewiesen und nicht widerlegt werden können. Die Arithmetik ist eine Algebra für natürliche Zahlen, darauf aufbauend sind Algebren für ganze, rationelle, reelle und auch komplexe Zahlen entwickelt worden. Bedenken Sie die Konsequenzen!
Konsequenzen für unseren Alltag Die deutsche Sprache ist mächtiger als die Prädikatenlogik 2. Stufe. In ihr können Sie hochkomplexe Aussagen treffen, die PL1 und die PL2 haben sich ja geradezu bemüht, sprachliche Aussagen zu formalisieren. Aber der Mensch verwendet intuitiv viel höhere Logiken. Diese könnten
eventuell nicht korrekt sein und wir wissen das gar nicht. Wenn man also wissenschaftliche Ableitungen mit Worten und Texten durchführt, was viele Politiker oder Wissenschaftler machen (müssen), dann muss man zumindest wissen, dass die erzeugte sprachliche Schlussfolgerung nicht immer stimmen muss. Der Laie glaubt gar nicht, wie oft in sprachlichen Beweisen (unbemerkt) Zirkelschlüsse eingebaut sind. Solche »Beweise« stehen dann auf tönernen Füßen. Doch eins muss abschließend betont werden. Kann es Ihnen passieren, dass Sie mithilfe der Ihnen bekannten Rechenregeln irgendetwas in der Arithmetik ausrechnen und dass es dann eventuell falsch beziehungsweise nicht beweisbar ist, obwohl Sie alles richtig abgeleitet haben? Nein, solche Rechnungen wie Gödel machen Sie im Alltag einfach nicht, auch nicht im wissenschaftlichen Alltag. Der große Trick von Gödel war ja, in der Logik über die Logik zu sprechen, also MetaAussagen zu erzeugen. Nur darauf aufbauend konnte er selbstreferenzielle Aussagen treffen. Nur wenn Sie mithilfe einer Metasprache selbstreferenzielle Aussagen über Ihre Formeln treffen, kann Ihnen das passieren, was Gödel (absichtlich!) passiert ist. Das macht man in der Regel nicht. Allerdings gilt eine Einschränkung. Wir wollen die Künstliche Intelligenz verstehen, nicht nur die von heute, sondern auch die von morgen. Und da werden mit Sicherheit selbstreferenzielle Aussagen getroffen werden müssen, denn unser Geist kann hervorragend mit dem Begriff ICH umgehen und das ist das »Selbstreferenziellste«, was man sich vorstellen kann. Wenn wir eines Tages ein Konzept zur Entwicklung von Bewusstsein geschaffen haben, dann werden uns die Effekte von Gödel sicher noch sehr überraschen, insbesondere dann, wenn »Bewusstsein« zu »Selbstbewusstsein« entwickelt werden soll. Aber keine Sorge – noch geht es nicht –, niemand kann das bis heute.
Unabhängig von der KI: Was bedeutet das Ergebnis von Gödel
erkenntnistheoretisch? Über die Auswirkungen von Gödels Beweis auf die Erkenntnistheorie wird bis heute gestritten. Aber eins ist gewiss. Es zeigt, dass man der Realität nicht allein mit formalen Mitteln beikommen kann. Es ist nicht möglich, alle Aspekte der Realität mit einer formalen Sprache, sei es Mathematik oder Logik, zu formalisieren. Realität ist mehr, als wir jemals in unseren formalen Systemen abbilden können. Der Begriff der Wahrheit und der Begriff der Beweisbarkeit sind nicht in Einklang zu bringen. Es gibt mehr Wahrheiten, als formal abgeleitet und bewiesen werden können. Für Gödel war sein Ergebnis wahrscheinlich kein Problem, denn er war Platoniker, er sprach den Ideen, Zahlen und Regeln eine echte, reale Existenz zu. Aber seine Widersacher waren natürlich geschockt. Denn was heißt das, wenn man mittels unserer formalen Sprachen die Realität nicht vollständig abbilden kann? Wie entscheidet dann eigentlich der Mensch? Auch nicht-formal?! Und was bedeutet das für die KI? Kann diese auch nicht-formale Entscheidungen fällen, und damit sind nicht statistische gemeint? Wenn wir die Realität nicht vollständig oder nicht korrekt formal abbilden können, wie können wir sie dann in einen Computer pressen? Wie können wir glauben, dass der Computer, der schließlich nur rein formale Symbolmanipulation durchführt, dass der Computer sich in einer Umwelt, deren Komplexität deutlich über die Komplexität der Arithmetik hinausgeht, dass er sich dort zurechtfindet und stets nur korrekte Aussagen produziert? Wie können wir der Aussage des Computers so absolut vertrauen, nur weil ein Computer diese für wahr hält? Wir können das nicht und wir dürfen das auch nicht. Solange KISysteme rein formale Systeme sind, unterliegen sie den Grenzen der formalen Beschreibungssprachen. Einer KI ist es bis heute nicht möglich, Aussagen zu treffen, die nicht in letzter Konsequenz mathematisch begründet sind. Die Grenzen der Mathematik sind damit die Grenzen jeder formalen KI. Eine KI, die auf rein formaler Logik
basiert, kann nicht alle Aspekte der Realität modellieren. Sie kann auch nicht alle Entscheidungen, die in der Realität getroffen werden, formal korrekt abbilden. Jetzt könnte man denken, dass die KI damit gescheitert wäre. Man muss sagen, dass dies zwischenzeitlich auch so aussah. Bereits seit den 1960ern zeigten sich Grenzen der KI sehr deutlich. Der General Problem Solver ab 1957 erwies sich letztlich als Flop, auch wenn sich aus den Ideen von damals viele Konzepte für Expertensysteme entwickelten. Automatisches Beweisen besitzt Grenzen, da alle Beweise auf einer mechanisierbaren Beweisführung beruhen. Aber wir wissen durch Gödel, Wahrheit ist »größer« als Beweisbarkeit. 1982 legte das japanische Wirtschaftsministerium ein Programm auf, um mittels hochgradig paralleler Systeme Logik effizient verwenden zu können. Dieses Programm war nicht erfolgreich. Die KI kam im letzten Jahrhundert tatsächlich mehrmals an ihre Grenzen. Aber die KI überlebte diese kritischen Phasen. Warum? Entscheidbarkeit, Vollständigkeit und Korrektheit lässt sich in einem untergeordneten Teilbereich der Logik erzielen. Die PL1 kann eingeschränkt werden auf die erwähnten Hornklauseln. Diese Voraussetzungen erlauben es, die reduzierte PL1-Sprache auf einem Computer zu nutzen. Und das wird auch sehr erfolgreich gemacht. Das System »Prolog« basiert auf der PL1, es wurde bereits Anfang der 1970er eingeführt und ist bis heute ein mächtiges Werkzeug zur Logikprogrammierung, zum Beispiel zur Sprachverarbeitung oder zum Beweisen von mathematischen Theoremen. Seit den 1970ern sind auch zahlreiche Expertensysteme entstanden, zahlreiche heutige Wissensdatenbanken funktionieren nach dem hier dargelegten Prinzip von Fakten und Regeln. Fakten, Regeln und die Syntax der PL1 zusammen können zu mächtigen Systemen in der Medizin, Informatik und in den Ingenieursdisziplinen aufgebaut werden. Das gesamte Programm des Sematic Web basiert auf logischen Konzepten. Auch die Sprachverarbeitung kann nicht auf Logik verzichten.
Wir halten fest: Ohne Logik wäre der KI die gesamte Basis geraubt, die Logik ist und bleibt das Fundament der Künstlichen Intelligenz, auch wenn wir jetzt ihre Schwächen kennengelernt haben.
Zusammenfassung und Kritikpunkte zur klassischen Logik Die KI ist eine junge Wissenschaft, die erst in den 1950er-Jahren begründet wurde. Seit dieser Zeit hat sie bereits viele Höhen und Tiefen erlebt. Sie wurde zu Beginn ihrer Entstehung im Wesentlichen auf Logikkonzepten aufgebaut. Bei einem solchen Versuch treten jedoch prinzipielle Probleme auf. Während die Aussagenlogik in sich vollständig und korrekt ist, so ist sie nicht mächtig genug, um alle Aussagen zu formalisieren, die ein Mensch gerne »mathematisieren« würde, um sie auf einem Computer ablaufen zu lassen. Eine Erweiterung der Aussagenlogik zur Prädikatenlogik 1. Stufe (PL1) führte zu einer viel mächtigeren Beschreibungssprache, mit der sich zum Beispiel auch All-Aussagen formalisieren lassen. Während ein Mensch sehr einfach sagen kann, »Alle Frösche sind grün«, so kann man das erst mit den Mitteln der PL1 mathematisch korrekt ausdrücken. Und dennoch hat auch die PL1 immer noch keine Möglichkeit, bestimmte Aussagen über ihre eigenen Prädikate zu treffen. Dafür musste man die PL1 zur Prädikatenlogik 2. Stufe (PL2) erweitern. Ein wichtiges Beispiel für die PL2 ist die vollständige Induktion. Wenn eine Eigenschaft für das erste Glied einer Reihe stimmt und wenn diese Eigenschaft immer dann, wenn sie für ein Glied n der Reihe stimmt, auch für den Nachfolger n+1 gilt, dann darf man in PL2 logisch korrekt schlussfolgern, das sie für alle Glieder dieser Reihe gilt. Das mathematische Ergebnis deckt sich hervorragend mit unserer Intuition und mittels PL2 kann man Derartiges nun auch von einem Computer schlussfolgern lassen. Mit diesem LogikKonzept konnte man sogar die natürlichen Zahlen logisch formal einführen (Peano-Arithmetik). Doch mit der PL2 gibt es ein Problem. Das Problem besteht darin, dass bewiesen wurde, dass Systeme, die auf höherwertiger Logik aufbauen (PL2 und höher) nicht gleichzeitig
korrekt und vollständig sein können. Natürlich kann man höhere Logiken konstruieren, die korrekt sind, diese sind dann jedoch nicht vollständig. Diesen Preis muss man zahlen. In Tabelle 5.9 sind die wichtigsten Eigenschaften der klassischen Logik nochmals zusammengefasst: Eine KI, die das »Wissen der Welt« formalisieren könnte, ist auf einem Computer mit den Mitteln der Logik nicht realisierbar, und zwar prinzipiell nicht, es ist keine Frage der Computertechnik. Da die KI (wie wir noch vertiefen werden) heutzutage rein algorithmischer Natur ist, hat sie also prinzipielle, erkenntnistheoretische Grenzen. Jeder (sorglose) Protagonist der KI muss das wissen. Der Begriff der Wahrheit ist viel größer zu fassen als der Begriff der Beweisbarkeit. Es gibt unendlich mal mehr Wahrheiten in der Welt, als man jemals formal beweisen kann; und das ist mathematisch bewiesen. Klassische Logik
Eigenschaften
Bemerkungen
1 Aussagenlogik Korrekt und vollständig, Entscheidbar mit exponentiellem Aufwand, Ausdrucksstärke gering
Breite Nutzung in der KI Man kann nicht »alle« oder »einige« quantifizieren.
2 Prädikatenlogik Korrekt und vollständig, Nicht 1. Stufe entscheidbar (aber semientscheidbar), Ausdrucksstärke mittel, Quantoren über Objekte
Beweis durch Gödel 1929 Breite Nutzung in der KI (PL1Hornklauseln), logisches Programmieren, PROLOGExpertensysteme, Theorembeweise
3 (Ab) Widersprüchlich oder Prädikatenlogik unvollständig, Nicht entscheidbar, 2. Stufe Ausdrucksstärke groß, Quantoren über Objekte und Prädikate, vollständige Induktion, PeanoArithmetik
Beweis durch Gödel 1931 führt zu Widersprüchen Nutzung für spezielle KI-Verfahren (zum Beispiel Beweisverfahren)
Tabelle 5.9: Überblick zur klassischen Logik
Eine Weiterentwicklung der Logik ist auch in anderen Logikkonzepten zu finden, zum Beispiel die Quantenlogik; ein einfachster Vertreter wäre eine Logik mit den Wahrheitswerten »wahr, falsch, unbestimmt«. Es
zeigt sich durch die jahrzehntelangen Forschungen auf diesem Gebiet jedoch, dass es (höchstwahrscheinlich) auch hier nicht möglich sein wird, jemals eine Logik zu entwickeln, die für alle Bereiche der Welt anwendbar sein wird. Es ist interessant, dass der Mensch in einer solch (»chaotischen«) Welt einigermaßen gut zurechtkommt. Er verwendet für sein Überleben eine Logik, die wir gerne »intuitive Logik« nennen, die konnte man bis heute jedoch nicht formalisieren. Wir müssen also weiterschauen, ob die KI noch andere Verfahren in der Hinterhand hat, die über Logikkonzepte hinausgehen … Und wir werden sehen, die Musik der KI spielt gerade woanders.
Teil II
Wie lernt und denkt eine Maschine heute
IN DIESEM TEIL … Erfahren Sie das Wichtigste über maschinelles Lernen Assoziationsregeln und Entscheidungsbäume Neuronale Netze Deep Learning
Kapitel 6
Die Grundlagen des maschinellen Lernens IN DIESEM KAPITEL Von Daten und Modellen Multivariate Statistik
In diesem Kapitel soll ein weiteres Standbein der KI erklärt werden, eines, das seit den 1990er-Jahren immer wichtiger wurde. Bei diesen Verfahren geht es darum, aus vorhandenen Daten Modelle über Teile der Welt zu entwickeln. Wenn man dieses Ziel in einen höheren Zusammenhang einordnen möchte, so erkennt man, dass es sich hierbei um »induktive Wissenserzeugung« handelt, das heißt, man will von konkreten Fakten auf allgemeingültige Aussagen schließen. Nennen wir all diese Verfahren der Einfachheit halber Induktive Künstliche Intelligenz, um sie von der deduktiven KI abzugrenzen. Für die KI ergeben sich damit die Möglichkeiten einer weiteren Klassifikation wie in Abbildung 6.1 gezeigt. Die Einteilung der KI in eine Schwache und eine Starke KI hatten wir bereits erwähnt. Das Thema Starke KI möchte ich an dieser Stelle nicht weiter behandeln, denn wir wissen bereits: Diese KI gibt es nicht. Die Schwache KI dagegen ist weit verbreitet, sie existiert in der Regel auf Digitalcomputern als Softwareimplementierung, aber sie könnte auch hardwaremäßig umgesetzt werden. Wichtige Plattformen für derartige Hardware-KI-Systeme wären neuromorphe Computer und Quantencomputer, denen wir uns im Teil IV noch zuwenden werden.
Die KI-Software-Algorithmen habe ich bewusst vereinfachend in deduktive und induktive Algorithmen unterteilt, obwohl in den Anwendungen meistens Mischformen, die kognitive Verfahren, auftreten. Die deduktiven Verfahren basieren auf den im letzten Kapitel besprochenen Logiken. Die induktiven Verfahren, die Verfahren des »Lernens auf Daten«, wollen wir uns jetzt ansehen. (Ein Hinweis für dieses Kapitel: Es mag manchem sprachlich ungewohnt erscheinen, aber ich habe mich der Ausdrucksweise der Datenverarbeiter angeschlossen. Wir lernen nicht »aus«, sondern »auf« Daten.)
Abbildung 6.1: Eine mögliche Klassifikation der Künstlichen Intelligenz
Die Rohstoffe des maschinellen Lernens
In der menschlichen Welt nennt man Fakten oft Beobachtungen, manchmal Erfahrungen. Im wissenschaftlichen Kontext sind all diese »Rohstoffe« jedoch einfach Daten. Daten über die Welt können die endlosen Sensordaten einer Videokamera an der Frontscheibe eines Autos sein oder die Temperaturmessdaten von der Scheibenbremse unseres Autos oder die Daten einer Person, die sich gerade um einen Ratenkredit bemüht. Die KI-Maschine soll aus solchen Daten selbstständig Wissen und Modelle über die Welt lernen. Dieses Fachgebiet vom selbstständigen Lernen ist so wichtig innerhalb der KI, dass es einen eigenständigen Namen bekommen hat: »maschinelles Lernen«. Die Faszination für diese Möglichkeiten der KI-Maschinen ist enorm. Interpretieren wir den Begriff: Man übergebe einer Maschine verschiedene Daten der Welt und die Maschine ordnet diese und baut basierend auf diesen Daten eigenständige Modelle über diese Welt auf. So unglaublich das klingt, es ist die Wahrheit. Heutige Systeme können völlig autonom Zusammenhänge, Modelle, Regeln, Strukturen und Cluster über die Welt erlernen. Sie dringen damit in eine Domäne ein, die den Menschen ureigenst berührt, denn sind wir nicht alle zu Recht stolz darauf, dass wir Menschen uns durch unsere enorme Lernfähigkeit vom Tier unterscheiden? Und jetzt kommen Maschinen um die Ecke und ihre Entwickler behaupten, Lernen, das können unsere Maschinen auch. Und sie können es sogar besser als Menschen, sagen die Entwickler zumindest. Eine Frage stellt sich jedoch gleich zu Beginn: Ist das erneut eine Selbstüberschätzung der Entwickler, ganz so wie früher bei der Logik (dem geplanten und nie verwirklichten Bau des General Problem Solvers aus den 1960er-Jahren) oder erreicht bzw. übertrifft die KI bald die Lernfähigkeit des Menschen?
Einordnung des maschinellen Lernens
Maschinelles Lernen ist eines der spannendsten Themen der gesamten KI-Szene. Es geht letztlich darum, Verfahren zu entwickeln, die einer Maschine gestatten, eigenständig Wissen zu erwerben, vielleicht sogar Erfahrungen. Das Wissen können neue Fakten sein oder auch Modelle. Es sei in Form von Regeln abgelegt, als Logikaussage in Datenbanken oder es ist in den Synapsen eines künstlichen neuronalen Netzes gespeichert.
Was ist maschinelles Lernen? Maschinelles Lernen ist ein Oberbegriff für die Erzeugung von Wissen aus Daten. Erzeugtes Wissen kann dabei symbolisch durch Regeln oder sub-symbolisch durch Modelle oder künstliche neuronale Netze (KNN) repräsentiert werden. Daten sind Erfahrungen, Beispiele oder Fakten aus verschiedenen Datenquellen. Beim maschinellen Lernen entsteht (hypothetisches) Wissen, das im Anschluss verallgemeinert werden kann, um im Anwendungsfall auch unbekannte Daten zu bewerten. Wichtige Begriffe im Rahmen des maschinellen Lernens sind Data Mining oder Knowledge Discovery in Databases (Wissensentdeckung in Datenbanken) oder heutzutage auch Big Data, die alle die mathematischen Methoden des maschinellen Lernens einsetzen. In den nächsten Jahren wird auch der Begriff Small Data zunehmend wichtiger werden, da es nicht für alle Anwendungsfälle Big Data-Quellen gibt. Wahrscheinlich werden Small Data Anwendungen bald sogar entscheidend werden.
Ein lernendes KI-System lernt immer aus Beispielen, also aus Daten. Das Konzept kennen wir. Was damit implizit gemeint ist, ist, dass das System aus Beispieldaten Zusammenhänge verallgemeinern kann. Das ist natürlich ein enorm großer Schritt. Um dieses Verallgemeinern geht es jetzt. Ich hatte in Kapitel 4 und 5 den Unterschied zwischen induktiven und deduktiven Methoden zur Wissensgenerierung bereits ausgeführt. Da dies wichtig ist, wiederhole ich es hier noch einmal: Deduktives Lernen bedeutet, dass man ausgehend von allgemeingültigen Axiomen durch korrektes Schlussfolgern neues Wissen generieren kann, das im Anschluss ebenso allgemeingültig ist wie die Axiome. Die gesamte Logik basiert darauf, dass dann, wenn die Prämissen stimmen und die
Ableitungen korrekt sind, neue wahre Aussagen (über die Welt) entstehen. Dass es bei diesem Ansatz Mängel gibt, haben wir beim Thema Gödel besprochen. Maschinelles Lernen geht zur Wissensgenerierung einen anderen Weg, eigentlich genau den gegenteiligen. Hier werden keine allgemeingültigen Axiome vorgegeben, sondern es liegen konkrete Beispiele vor, zum Beispiel Messdaten aus der Umgebung. Nun gilt es, anhand der Beispiele induktive Annahmen, also Hypothesen, über die Welt zu genieren. Leider gibt es auch bei diesem methodischen Ansatz Mängel. Schauen wir uns dazu ein fiktives Lernbeispiel mit Schwänen an: Beobachtung Objekt Beobachtung Eigenschaft 1
Schwan 1
weiß
2
Schwan 2
weiß
3
Schwan 3
weiß
…
…
…
100 Schwan 100
weiß
Weiße Schwäne – schwarze Schwäne Wenn Sie in Europa leben und dauernd beobachten, dass Schwäne weiß sind, werden Sie irgendwann die Hypothese aufstellen, dass »Alle Schwäne weiß sind«. Und auch ein Computer würde auf den vorliegenden Daten zu dieser Aussage kommen. Diese Hypothese ist auch vollkommen zulässig und sie gilt bis zu ihrer Widerlegung. Aber es ist eine Hypothese. Alles induktiv gewonnene Wissen aus Daten sind letztlich Hypothesen. Und die obige Regel ist tatsächlich falsch, es gibt irgendwo auf der Welt andersfarbige Schwäne. Falls Sie jetzt denken, das sei doch nicht so schlimm, dann müssen Sie »Der schwarze Schwan« von Taleb lesen [Taleb 2007]. Dort werden falsche Hypothesen besprochen, die große Auswirkungen auf uns alle haben. Weiße Schwäne stehen bei Taleb für die scheinbaren Gewissheiten unserer Banker an der Börse (das heißt ihren induktiven Regeln, die sie tatsächlich für Gewissheiten halten). Doch Taleb zeigt, irgendwann kommt auch bei den Börsianern der »schwarze Schwan« zum Vorschein
und es kommt zum Mega-Crash mit Milliardenverlusten. Leider ist das Prinzip-bedingt. Natürlich kann man aus vorliegenden Beobachtungen Hypothesen bilden, das ist vollkommen zulässig, die meisten der uns bekannten Naturgesetze wurden induktiv erzeugt. Man muss jedoch wissen – und darf es nie wieder vergessen –, dass dies immer nur Hypothesen sind, dass die Aussagen also Wahrscheinlichkeitscharakter haben, und zwar so lange, bis sie in das deduktive Lehrgebäude eingebaut werden konnten. Erst wenn jemand auf deduktivem Wege beweisen kann, dass eine Hypothese korrekt ist, dann – erst dann – dürfen wir sie als Wahrheit akzeptieren.
Bauen wir Modelle von der Welt Auch in den Ingenieurwissenschaften ist der Unterschied deduktive vs. induktive Modelle ein sehr großes Thema. Auch dort trifft man auf die Thematik, wenn man entscheiden muss, mit welchen Methoden man Modelle der Realität entwickeln möchte. In Abbildung 6.2 ist ein Beispiel dargestellt. Man kann ein deduktives, analytisches Modell über das Fallen von Gegenständen formulieren (links) oder aber man kann viele Äpfel fallen lassen und eine empirische (induktive) Beziehung zwischen Fallzeit und Fallhöhe aufstellen. Im günstigen Fall wird man feststellen, dass das empirische Modell mit dem analytischen Modell kongruent ist, das die innere Logik beschreibt (im Beispiel das Fallgesetz).
Abbildung 6.2: Methoden der Modellbildung
Schauen wir uns als weiteres Beispiel ein Getriebe an, Abbildung 6.3.
Abbildung 6.3: Getriebe zur Übersetzung einer Drehzahl (Getriebe © Sashkin stock.adobe.com)
Der Eingang des Getriebes sei eine Welle mit einer Drehzahl x. Im Getriebe wird über bestimmte Zahnradkombinationen die Eingangsdrehzahl x in die Ausgangsdrehzahl y übersetzt, die an der Ausgangswelle zur Verfügung steht. Das Getriebe erfüllt damit eine Funktion der Form Möchte der Ingenieur nun ein mathematisches Modell dieses Verhaltens aufbauen, um das System im Computer zu simulieren, gibt es auch für ihn zwei grundlegende Möglichkeiten: Er kann das Ausgangs-EingangsVerhalten grundsätzlich analytisch (deduktiv) oder eben empirischexperimentell (induktiv) modellieren.
Analytischer vs. empirischer Ansatz Im analytischen Fall muss der Ingenieur das Übersetzungsverhältnis des Getriebes kennen. Kennt er es, dann kann er über eine Formel ausrechnen, welche Drehzahl y am Ausgang sich bei welcher Drehzahl x am Eingang einstellen wird. Hat er beispielsweise ein Übersetzungsverhältnis von 1:2 erzeugt, dann gilt der Zusammenhang: , das heißt, die Ausgangsdrehzahl ist doppelt so hoch wie die Eingangsdrehzahl. Aber selbst, wenn er das Getriebe nicht selbst hergestellt hat, so kann er in den Datenblättern nachlesen, wie groß das Übersetzungsverhältnis ist, oder er kann das Getriebe mit dem Schraubenzieher öffnen und über die dann bekannten Zähnezahlen der Räder das Übersetzungsverhältnis analytisch bestimmen. Diese Art der Modellbildung nennt man deshalb auch Whitebox-Modellbildung, weil man in die Box hineingeschaut hat. Ein anderer Begriff dafür ist analytische Modellbildung. Im Gegensatz dazu kann der Ingenieur natürlich auch induktiv vorgehen. Er kann Experimente durchführen, das heißt, an der Eingangswelle des Getriebes verschiedene Drehzahlen einstellen und die sich ergebenden Drehzahlen am Ausgang mit einem Drehzahlmesser bestimmen. Sagen
wir, der Ingenieur hat sechs solche Versuche gemacht und folgende Messdaten erhalten (Tabelle 6.1): Drehzahl am Eingang (x) [U/min)] Gemessene Drehzahl am Ausgang (y) [U/min)] 10
21
20
40
30
59
40
80
50
102
60
119
Tabelle 6.1: Messergebnisse für einen Drehzahlmessversuch
Anhand dieser Messdaten kann der Ingenieur ein Modell des Getriebes aufstellen, ohne das Getriebe »aufzuschrauben«. Toleriert man gewisse Abweichungen, so erkennt man in der Tabelle, dass hier erneut die gerundete Funktion vorliegt. Die Drehzahl am Ausgang ist doppelt so groß, wie die Drehzahl am Eingang. Es ist natürlich erstaunlich und überaus erfreulich, dass man exakt zur selben Aussage kommen kann, ohne in die Box hineinzuschauen. Man nennt solche Verfahren auch Blackbox-Verfahren, da die Inhalte der Box unbekannt, also dunkel bleiben. In der Theorie der Modellbildung sagt man dazu auch experimentelle Modellbildung. Wir wollen jetzt auf den Daten des Getriebes versuchen, seine äußeren Zusammenhänge mathematisch zu formulieren. Schauen wir uns die Datentabelle aus Tabelle 6.1 nochmals genauer an und erzeugen zu diesem Zweck einen sogenannten x-y-Scatter-Plot (ein sogenanntes Streudiagramm) in Excel, Abbildung 6.4.
Abbildung 6.4: Visualisierung von Ausgangsdrehzahl (y in u/min) über Eingangsdrehzahl (x in u/min)
Wenn man mit dem Auge des Statistikers auf die Datenreihe schaut, so erkennt man, dass alle Daten fast auf einer gedachten Geraden liegen. Die Aufgabe des Statistikers ist es nun, die Geradengleichung zu bestimmen. Wir nehmen für diese einfache Aufgabe nun keinen Statistiker, wir nehmen Excel und erhalten Abbildung 6.5.
Abbildung 6.5: Modell eines Getriebes mit geschätzter Übertragungsfunktion
Excel hat den Zusammenhang zwischen Eingangs- und Ausgangsdrehzahl sehr gut geschätzt. Damit haben wir unser erstes empirisches Modell realisiert. Wir haben die Übertragungsfunktion fGETRIEBE zwischen Eingang und Ausgang gefunden und erhalten nach Rundung den aus der Tabelle bereits vermuteten Zusammenhang . Sie werden jetzt fragen, welche Methode besser ist. Eine völlig legitime Frage. Leider ist die Antwort nicht einfach.
Vor- und Nachteile induktiver und deduktiver Modellierungsverfahren in der Praxis Selbst im oben genannten einfachen Beispiel muss man nämlich festhalten, dass es auf die Rahmenbedingungen ankommt. Ist man Maschinenbauer, dann reicht einem der Blick ins Innere des Getriebes und man kann den Zusammenhang zwischen Ausgang und Eingang über das Verhältnis der Zähnezahlen exakt ausrechnen. Ist man jedoch Statistiker, so wird man das Getriebe nicht öffnen, sondern die Messung durchführen und die sechs Messergebnisse benutzen, um eine Übertragungsfunktion fGETRIEBE zu schätzen. Natürlich ist das kein optimales Konzept, immer das Verfahren anzuwenden, das man handwerklich am besten beherrscht. Es gibt nämlich handfeste Vor- und Nachteile beider Herangehensweisen. In nachfolgender Tabelle 6.2 sind sie gegenübergestellt: Deduktive Methode Whitebox-Methode Analytische Modellbildung
Induktive Methode Blackbox-Methode Empirische Modellbildung
Prämissen/Voraussetzungen/Wahrheiten Analytische Formeln, zum Beispiel für Drehzahlen
--
Beobachtungen
Beobachtung der Drehzahlen, Eingangs- und Ausgangsverhalten
Anzahl der Zähne der beteiligten Zahnräder
Deduktive Methode Whitebox-Methode Analytische Modellbildung
Induktive Methode Blackbox-Methode Empirische Modellbildung
Induktive Ableitungen
--
Formel fSCHÄTZ für lineare Regressionsschätzung (Minimierung der Fehlerquadrate)
Anwendungen
Exakte Berechnung der Ausgangsgröße (Drehzahl) für eine Eingangsgröße der Formel
Schätzung der Ausgangsgröße (Drehzahl) für eine Eingangsgröße
Vorteil
Allgemeingültigkeit über alle GetriebeVöllige Transparenz
Genauer Zusammenhang zwischen Input und Output am konkreten Objekt
Nachteil
Im komplizierten Fall Gültigkeit (meist) nur begrenzte im Interpolationsraum Anwendbarkeit, da der Messdaten ungenau
Tabelle 6.2: Vor- und Nachteile der verschiedenen Arten der Modellbildung
Dies zu verstehen, ist enorm wichtig, sonst weiß man im konkreten Fall nicht, welches Verfahren man ansetzen soll. Man erkennt aus der Tabelle, dass die Whitebox-Modelle viel besser sind hinsichtlich Transparenz und Gültigkeit. Hat man einmal verstanden, wie sich das Drehzahlverhältnis über das Zähnezahlverhältnis ausrechnen lässt, so hat man eine allgemeingültige Formel entdeckt und kann diese »ab jetzt und für immer« anwenden. Zuerst einmal gilt also, dass deduktive Schlüsse einen viel größeren Gültigkeitsbereich haben, sie nähern sich eher dem, was wir absolute Wahrheiten nennen (auch wenn wir wissen, dass es absolute Wahrheiten über ihren Gültigkeitsbereich hinaus nicht geben kann). Induktive Schlüsse sind statistisch (außer in der Logik und der
theoretischen Informatik, dort haben wir die vollständige Induktion bereits als logisch korrekte Schlussweise gesehen). Warum hat unser Fallgesetz über die Äpfel dann aber keine statistischen Eigenschaften, obwohl es vormals induktiv erzeugt wurde? Der Grund liegt einfach daran, dass das Fallgesetz deduktiv abgesichert wurde, das heißt, dass es aus dem Axiomen-System der Physik durch folgerichtiges Schlussfolgern (mathematische Umformungen) korrekt abgeleitet worden ist. Deduktives und induktives Schlussfolgern gehen hier Hand in Hand. Ganz vereinfacht ausgedrückt: Aus der Beobachtung, dass Äpfel von Bäumen auf den Boden fallen, folgt die Hypothese, dass alle Äpfel von Bäumen auf den Boden fallen, folgt – nach ziemlich viel Arbeit – eine deduktiv abgesicherte Theorie, eben das Fallgesetz. Ab jetzt dürfen wir das als wahre Aussage betrachten, doch selbst das nur in ihrem Gültigkeitsbereich, denn im Weltraum sieht es wieder anders aus. Selbst eine deduktiv abgesicherte Theorie (ein Gedankengebäude) muss durch Beobachtungen permanent auf ihren Gültigkeitsbereich hin verifiziert oder falsifiziert werden. Induktives Lernen reicht nicht aus, um allgemeingültiges Wissen zu erzeugen. Die induktiv gewonnenen Hypothesen müssen immer deduktiv abgesichert werden, wenn sie ihren statistischen Charakter verlieren sollen. Galileos Gesetz, »dass alle Körper gleich schnell fallen«, ist ein noch viel krasseres Beispiel. Durch Beobachtungen in der Natur und anschließendem induktiven Schlussfolgern kann man auf sein Fallgesetz gar nicht kommen. Denn eine Feder fällt langsamer vom Tisch als ein Bleistift, das können wir experimentell beobachten. Und dennoch fallen »eigentlich« alle Körper gleich schnell, dies ist seit Jahrhunderten bekannt. Ein großes Problem in der Praxis ist jedoch, dass der Mensch fast immer induktiv schließt. Jeder Wissenschaftler, aber auch jedes Kleinkind beobachtet die Welt und schließt aus den Beobachtungen auf eine (vermeintlich) allgemeingültige Regel. Oft ist es auch so, dass sich die Zusammenhänge analytisch gar nicht darstellen lassen. In vielen Fällen muss man daher auf die empirische Methode ausweichen, im folgenden drei Beispiele.
Beispiele für die empirische Modellierungsmethode 1. Denken wir an einen Heizkörper und suchen wir den Zusammenhang zwischen der Öffnung des Ventils am Thermostat und der Temperatur im Raum, so merken wir schnell, dass die analytische Lösung ziemlich mühsam wird. Der Grund liegt darin, dass in dem System Wärmespeicher enthalten sind, und sobald Speicher auftreten, muss man zur mathematischen Beschreibung Differenzialgleichungen verwenden. Im Fall des Heizkörpers haben wir sogar drei Speicher, nämlich zum einen das Wasser im Heizkörper, das sich langsam erwärmt. Dann das Gussmaterial des Heizkörpers selbst, das sich auch erwärmt, und zum Schluss die Luft im Raum, die sich auch irgendwie erwärmt. Wenn man das mathematisch zusammenfasst, dann entsteht eine Differenzialgleichung 3. Ordnung. Jeder Student weiß, dass das schwer wird. Die Lösung von Differenzialgleichungen sind Funktionen der Form y = y(t), aber es ist nicht so einfach, dies handwerklich auszurechnen. Die Regelungstechniker nutzen hier eine Methode, die sich beider Verfahren bedient. Man ermittelt durch Experimente die Wärmekapazität und Aufheizzeit der Speicher (das heißt ihre Verzögerungszeiten) und setzt diese dann in vorgefertigte Modellgleichungen ein. Das Verfahren würde man halb-analytisch nennen. Natürlich kann man auch hier mit der empirischen Methode arbeiten. Man kann die Ventilstellung, das heißt den Öffnungswinkel, messen und nach einiger Zeit die Temperatur am Sensor. Und man wird einen funktionalen Zusammenhang finden, jedenfalls den stationären Zusammenhang, also den Zusammenhang, der sich nach einiger Zeit einstellt. Es vergeht nämlich eine gewisse Zeit von der Änderung des Öffnungswinkels am Ventil bis zur Erhöhung der Temperatur im Raum. 2. Beim nächsten Beispiel erkennt man gleich, dass es gar keine andere Möglichkeit als die empirische Methode gibt. Stellen Sie sich vor, Sie sollen einen Zusammenhang zwischen den Parametern einer Person und seiner Bonität aufstellen. Man versteht unmittelbar, hier
kann man nicht mehr mit analytischen Gleichungen hantieren. Niemand kann die wirklichen Formeln zwischen Geschlecht, Einkommen, Körpergröße, Beruf, Familienstand, Wohnort, Medikamentenkonsum, Fernsehkonsum und Bonitäts-Score bei Ihrer Hausbank bestimmen und ausrechnen. Aber augenscheinlich gibt es trotzdem einen Zusammenhang, Abbildung 6.6.
Abbildung 6.6: Zusammenhang zwischen persönlichen Merkmalen und BonitätsScore bei der Hausbank
Gehen Sie zu Ihrer Hausbank und fragen Sie nach Ihrem Score-Wert, Sie haben ein Recht darauf, diesen zu erfahren. Sie bekommen irgendeine Zahl, sagen wir zwischen 1 und 15. Die KI der Bank hat für jeden Kunden einen solchen Score-Wert exakt ausgerechnet. Aber wie? Wir werden uns in Kapitel 13 konkret mit derartigen Anwendungen auseinandersetzen, hier wollen wir erst einmal nur die allgemeine Theorie verstehen. Wie geht das im Prinzip? Natürlich über die induktive Methode. Sagen wir mal, Ihre Hausbank habe 4,5 Millionen Kunden. Für 20 Prozent der Kunden ermitteln sie die oben genannten Parameter. Dabei hat die Bank interne Parameter (Geschlecht, Alter, Anzahl Konten) und externe Parameter, die man am Markt kaufen kann; das kostet wenige Cent pro Kunde. Dann kennt man auch die mittleren Daten Ihres Fernsehkonsums, Ihren Medikamentenkonsum und die Anzahl Ihrer Freunde (aus den sozialen Netzen). All das kommt in eine Datenbank, und basierend auf den Daten wird ein empirisches Modell erzeugt, genauso wie oben bei dem Getriebe. Man kann das sogar mit Excel machen, indem man alle Daten in Excel eingibt und Excel bittet, eine Trendlinie zu berechnen. Das Ergebnis ist ein empirisches Modell.
Natürlich benutzt man in der Praxis oft andere Werkzeuge als Excel, es gibt Hunderte sogenannte Data-Mining-Tools auf dem Markt, die mit der induktiven Methode neues Wissen über die Welt generieren, jeden Tag, ach was, jede Mikrosekunde entsteht so weltweit neues Wissen. Glauben Sie mir, wenn es irgendeinen Zusammenhang zwischen Eingangsparametern und Ihrer Bonität gibt, dann wird dieser gefunden. Die Verfahren sind heute so mächtig, dass jeder (stetige) funktionale Zusammenhang zwischen einer beliebigen Anzahl von Eingangsgrößen und einer beliebigen Anzahl von Ausgangsgrößen approximativ ermittelt werden kann. Man nennt das Fachgebiet Data Mining, Data Analytics oder heutzutage auch – bei der Nutzung von Massendaten – Big Data. 3. Ein letztes Beispiel. Der Betriebsleiter einer Fabrik vermutet einen Zusammenhang zwischen der Ausschussrate und bestimmten Parametern aus dem Produktionsprozess, zum Beispiel aus den Daten seiner Maschinen, den Rohstoffparametern und so weiter. Sobald er diesen auch nur vermutet, kann er KI-Verfahren einsetzen, damit dieser Zusammenhang gefunden und statistisch verifiziert werden kann. Man findet diesen funktionalen Zusammenhang Ausschuss = f (Maschinenparameter, Werkstoff, Temperatur, Druck, Größe, Mitarbeiter …) – sofern ein stetiger existiert – immer. Wenn man in den 1980er-Jahren keinen Zusammenhang in den Daten fand, konnte es an den fehlenden technischen Diagnosemitteln liegen oder weil der Zusammenhang vielleicht zu nichtlinear und deshalb mit dem verwendeten Modellansatz nicht erkennbar war. Das ist heute nicht mehr so. So lässt sich mit der Technik der neuronalen Netze jeder stetige nichtlineare Zusammenhang zwischen Input und Output ermitteln. Findet das Netz keinen, existiert keiner in den vorhandenen Daten – oder das Netz ist handwerklich wirklich schlecht realisiert.
Am Ende steht die Statistik Bitte beachten Sie, trotz all der Freude über die Möglichkeiten, es sind stets nur induktiv entstandene Erkenntnisse. Der gefundene Zusammenhang ist stets ein statistischer, niemals ein deduktiv
geschlussfolgerter. Das ist auch der Grund, warum die heutigen KIVerfahren so einen Datenhunger haben. Je mehr Daten man aus der Grundgesamtheit zu sehen bekommt, umso sicherer werden die induktiven Aussagen. Denken Sie an das Beispiel mit den Schwänen. Wenn Sie alle Schwäne der Welt gesehen haben, dann können Sie eine allgemeingültige Regel über die Farbe der Schwäne aufstellen. Wir aber wollen ja gerade nur einen Teil der Grundgesamtheit sichten und trotzdem eine allgemeine Aussage erkennen. Das geht nicht, aber in der Praxis wird es trotzdem gemacht. Und an dieser Stelle möchte ich gleich noch ein weiteres Problem nennen: Man findet mit den induktiven Methoden sogar dann einen Zusammenhang in den Daten, wenn gar keiner existiert. Die KI kann sich einen Zusammenhang einfach »ausdenken«. Man kann zum Beispiel die Daten einer Kläranlage aus Berlin, die Bonitätsdaten von Bankkunden in Köln und verschiedene astrologische Konstellationen von Mars und Jupiter zusammen in eine große Datei abspeichern und dann die KI beauftragen, Zusammenhänge in diesen Daten zu finden. Was meinen Sie, was passiert? Richtig, die KI findet Zusammenhänge, oftmals auch signifikante. Das ist ein kleines, aber feines Problem. Um die empirische Methode besser kennenzulernen, wollen wir im Folgenden die Multivariate Statistik einführen. Mir ist klar, bei Statistik hört die Freundschaft auf. Ich werde mich kurzfassen. Wer sich aber gar nicht für Statistik interessiert, liest eventuell noch kurz den Absatz »Auf der Suche nach der Wahrheit« weiter hinten in diesem Kapitel und geht dann weiter zu Kapitel 7 oder 8.
Statistik im Überblick Auch wenn die Statistik eine sehr komplizierte wissenschaftliche Methode ist, so kommt man in den Wissenschaften im Allgemeinen nicht ohne Statistik aus. Nur aus Beobachtungen der Natur konnte der Mensch im Laufe seiner Entwicklung seine Gedankengebäude aufbauen. Die Statistik selbst entstand letztlich aus dem Bedürfnis der Regierungen, Daten über ihre Untertanen zu sammeln und auszuwerten. Begonnen hat alles mit Volkszählungen in Ägypten, China oder
Mesopotamien weit vor Christi Geburt. In Deutschland gab es erste Volkszählungen im 15. Jahrhundert. Wir würden das heute deskriptive (beschreibende) Statistik nennen. Man wollte wissen, wie viele Menschen in einer Region leben, welche Lebensmittelvorräte man hatte und vieles mehr. Aber bereits im 17. Jahrhundert entwickelte sich die Wahrscheinlichkeitsrechnung, weil zahlreiche Fürsten an Glückspielen interessiert waren. Die wichtigsten Begründer der Wahrscheinlichkeitsrechnung waren Fermat und Pascal, die wichtigsten theoretischen Fundamente schuf Kolmogorov in den 1930er-Jahren [Kolmogorov 1931]. Damit war die Wahrscheinlichkeitstheorie begründet und wurde in die Statistik integriert. Wahrscheinlichkeitstheorie ist notwendig, um Voraussagen machen zu können. Wenn man nur eine beschreibende Statistik benötigt, reicht es, Daten in Diagrammen darzustellen, sodass man einen guten Überblick über seine Datenbestände bekommt. Jeder Manager kennt solche Diagramme, wenn ihm von seinen Mitarbeitern die Ausschussraten, Abverkäufe oder Umsatzzahlen des letzten Quartals präsentiert werden. Aber man will mit Statistik natürlich in die Zukunft schauen. Man will wissen, was erwartet einen und mit welcher Wahrscheinlichkeit tritt etwas ein. Dazu benötigt man Verfahren der schließenden und der explorativen Statistik, siehe Box »Statistik«.
Mathematikbox 1 zu Statistik Statistik ist ein Oberbegriff für mathematische Methoden und Verfahren zur Analyse von empirischen Daten. Mit Methoden der Statistik kann aus vorhandenen Daten ein Modell oder sogar eine komplexe Theorie abgleitet werden, deren Richtigkeit jedoch Wahrscheinlichkeitscharakter besitzt. Statistik ist die Grundlage jeder empirischen Forschung und damit unverzichtbar in Disziplinen wie Physik, Technik, Medizin, Psychologie. Letztlich werden mittels Statistik vermutete Zusammenhänge auf den Daten geprüft oder sogar neue Zusammenhänge entdeckt. Innerhalb der Statistik gibt es drei wichtige Teilgebiete: Deskriptive Statistik Die deskriptive Statistik beschreibt mit ihren Methoden die vorliegenden Daten durch Tabellen, Diagramme und Kennzahlen. Wichtige Kennzahlen sind
Mittelwerte und Streuungen. Schließende Statistik/induktive Statistik Die schließende Statistik prüft bekannte Hypothesen mit ihren Methoden auf Gültigkeit, sodass die Aussagen (statistisch) abgesichert sind. Letztlich sollen Eigenschaften, die auf einer Stichprobe gewonnen wurden, mithilfe der Wahrscheinlichkeitsrechnung auf eine Grundgesamtheit hochgerechnet werden. Dies entspricht dem induktiven Lernen. Explorative Statistik Die explorative Statistik erzeugt Hypothesen auf den Daten. Bekannt geworden ist das mathematische Fachgebiet unter dem Begriff Data Mining. Hierbei werden Hypothesen erzeugt und gleichzeitig geprüft. Data Mining bedient sich daher sowohl bei der oben beschriebenen deskriptiven Statistik als auch bei der darunter erläuterten induktiven Statistik. In der Statistik spricht man von univariater Statistik, wenn statistische Aussagen über eine Variable getroffen werden und über multivariate Statistik, wenn Aussagen über mehr als eine Variable erforderlich sind. Die KI verwendet daher in der Regel multivariate Statistiken für ihre Wissensgenerierung. Wichtig ist auch der Begriff der Zufallsvariablen. Das sind Variablen, die das Ergebnis eines Zufallsexperiments beschreiben, so zum Beispiel Lottozahlen oder Würfelzahlen.
Die schließende Statistik entspricht der eingeführten induktiven Methode und hat das Ziel, aus einer begrenzten Anzahl von Beobachtungen auf allgemeine Gesetzmäßigkeiten zu schließen. In der Statistik würde man sagen, man will von Eigenschaften, die man auf einer Stichprobe gefunden hat (wieder die hundert beobachteten weißen Schwäne), auf Eigenschaften der Grundgesamtheit (alle Schwäne dieser Welt) schließen können. Wir haben schon gezeigt, dass solche Schlüsse ein Risiko in sich bergen. Die schließende Statistik muss also zusätzlich irgendeine Art von Sicherheitsaussagen erzeugen, damit man die Grenzen ihrer Schlüsse kennt.
Schließende Statistik in der KI In der KI benötigt man alle unterschiedlichen Verfahren des Schließens. Dennoch ist das induktive Lernen, das maschinelle Lernen, heutzutage die Methode der Wahl geworden. Der Grund liegt in der riesigen vorhandenen Datenmenge, an der relativen Einfachheit der induktiven
Methoden und an ihrer universellen Anwendbarkeit auf den Daten dieser Welt. Maschinelles Lernen – eine rechnergestützte Form des induktiven Schließens – bedeutet Lernen auf Daten. Die Ergebnisse haben stets statistischen Charakter, sie können die Vorstufe von noch zu erarbeitenden Theorien sein, dürfen jedoch keinesfalls als bereits gefundene Wahrheiten angesehen werden. Hinter den induktiven Methoden verbergen sich mächtige Verfahren der Wissensgenerierung. Wir müssen uns – wie mehrfach betont – einfach nur angewöhnen, die Ergebnisse des maschinellen Lernens nicht bereits als die Wahrheit selbst anzusehen, denn das ist wissenschaftlich nicht korrekt. Wenn also beispielsweise die KI Ihrer Hausbank ermittelt, dass Sie keinen hohen Bonitätswert haben, weil das die Datenanalyse eindeutig ergeben hat, so haben Sie aus wissenschaftlicher Sicht das Recht, dies anzuzweifeln. Maschinelles Lernen kann keine Wahrheiten ohne statistische Einschränkungen erzeugen, und das ist keine technische, sondern eine prinzipielle Frage. Auch in 100 Jahren kann eine KI – basierend auf statistischem, maschinellem Lernen – keine allgemeingültigen Wahrheiten erzeugen.
Von Datentypen, Kennzahlen und fiesen Fallstricken Bevor wir noch weiter ins Detail gehen, wollen wir verstehen, was man überhaupt auf Daten machen kann. Dazu stellen wir uns erneut eine große Tabelle voller Eintragungen vor. Die Eintragungen können Zahlen sein, aber auch kategoriale Begriffe, wie männlich oder weiblich. Der Grund, warum der Computer auch mit kategorialen Begriffen gut umgehen kann, ist einfach der, dass er die Kategorien intern in Zahlencodes übersetzt. Erinnern wir uns an die Zahlentabelle aus einer Fabrik aus Kapitel 4. Es müssen natürlich nicht immer nur Fabrikdaten
sein. Genauso gut könnten auch Daten aus einer Bank, einer Versicherung oder einem Autohaus vorliegen. Wir wollen uns an der Modelltabelle aus Abbildung 6.7 ansehen, was auf Daten prinzipiell ausgewertet werden kann.
Abbildung 6.7: Welche Möglichkeiten bietet das maschinelle Lernen?
In Abbildung 6.7 sind nummerierte Fragezeichen dargestellt, die jeweils eine Aufgabe des maschinellen Lernens auf Daten beschreiben. Wir gehen diese mal der Reihe nach durch: 1. Wenn Sie eine große Datentabelle haben, dann können Sie sich fragen, wie die Zielgröße in Spalte G der Tabelle (zum Beispiel die Bonität Ihrer Kunden) von den Eingangsgrößen A, B, C, D, E und F abhängt. Sie vermuten eventuell einen Zusammenhang der Form G = f (A,B,C,D,E,F). Dieser Zusammenhang kann in Form von Regeln vorliegen, zum Beispiel
WENN A groß UND C mittel UND D klein ist, DANN ist G groß. Eine solche Regel könnte aus den Daten extrahiert werden, falls sie existiert. Für solche Ziele sind ganz spezielle RegelGenerierungsverfahren entwickelt worden. Aber man kann natürlich auch versuchen, die Spalte G aus den Spalten A, C und D mit einer Formel vorherzusagen, also die mathematische Funktion G = f (A,C,D) zu finden. Solche Verfahren gibt es im maschinellen Lernen auch, sie heißen Regressionsverfahren. 2. Unter Punkt 1 haben wir nach Zusammenhängen zwischen den Spalten der Tabelle gefragt. Es ist in der Regel so, dass in den Spalten die Variablennamen stehen. Mit Punkt 1 fragt man also danach, wie die Variablen untereinander zusammenhängen. Man kann aber genauso gut auch nach Zusammenhängen zwischen den Zeilen der Datentabelle fragen. Dann spricht man von sogenannter Strukturanalyse und fragt zum Beispiel, wie viele Cluster – also spezielle Gruppen – in den Daten existieren, also welche Strukturen dort auftreten. 3. Auch bei Frage 3 möchte man einen Zusammenhang zwischen den Zeilen einer Tabelle erschließen. Wir fragen hier, ob Zeile 999 zu einer speziellen Gruppe gehört oder nicht. Solche Strukturanalysen sind sehr wichtig, wie wir noch sehen werden. 4. Bei Fragestellung 4 geht es erneut um einen Zusammenhang zwischen Spalten. Es soll im Unterschied zu Frage 1 ausgedrückt werden, dass man hier nicht nach einem gerichteten Zusammenhang von C nach E sucht, sondern nach einem ungerichteten zwischen C und E. Man nennt solche Verfahren Korrelationsverfahren. Die Korrelationsanalyse ist eine der wichtigsten DatenanalyseMethoden überhaupt und jeder, der irgendwie mit Zahlen zu hat, hat schon davon gehört. Oft fragt man – wenn man wissen will, ob zwei Merkmale miteinander zusammenhängen – sozusagen synonym, »ob beide Merkmale korrelieren«. Allerdings kann man mit der Deutung der Ergebnisse falsch liegen, sodass wir die Korrelationsanalyse im Detail noch besprechen müssen.
5. Die Frage 5 ist natürlich auch wichtig. Sie symbolisiert die sogenannte Trendanalyse. Stellen Sie sich vor, in der Spalte A der Tabelle sind die DAX-Stände der Frankfurter Börse bis auf den heutigen Tag abgespeichert. Natürlich will man jetzt wissen, wo der DAX morgen stehen wird. Denn weiß man das besser als die Wettbewerber, kann man viel Geld verdienen. Trendanalyse ist natürlich in vielen Bereichen wichtig: beim Wetter, in der Fabrik bei der Vorhersage der Ausschussrate oder der Vorhersage der Rohstoffpreise, in der Bank bei der Vorhersage, ob jemand seinen Kredit zurückzahlen wird, oder in der Liebe, bei der Vorhersage, ob zwei Menschen für immer zusammenpassen werden. Sie kennen wahrscheinlich das berühmte Bonmot: »Vorhersagen sind schwierig, insbesondere, wenn sie die Zukunft betreffen.« Dies soll Churchill gesagt haben oder Mark Twain oder gar Einstein. Wer auch immer es zum Besten gab, dieses Bonmot sagt alles: Trendanalysen sind die hohe Kunst der Statistik. Und gerade hier erwartet man als Mensch von der KI sehr viel Unterstützung. Was habe ich davon, wenn ich meine Daten schön in Tabellen und Diagramme einsortiere? Ein Manager erwartet zu Recht, dass man aus den Daten Wissen über sein Unternehmen berechnen und Wissen über die Zukunft schätzen kann. Selbstverständlich geht so etwas bei einfachen Zusammenhängen leicht; auch wir werden noch in die Zukunft schauen. Aber im Allgemeinen ist das wirklich schwer. Denken Sie an die allabendlichen Wettervorhersagen, hier sind Fachleute am Werk, und dennoch ist alles oft unbefriedigend präzise. Von ungenauen Klimamodellen ganz zu schweigen.
Welche Daten sagen was – Skalentypen Im Einführungskapitel haben wir definiert, dass wir Daten letztlich als »Gebilde vor einem Hintergrund« betrachten. So schön und allgemeingültig diese Definition ist, im Fall der Statistik hilft sie nicht weiter. Daten werden in der Statistik als Daten in digitalisierter Form vorausgesetzt. Bei Daten unterscheidet man verschiedene Skalentypen:
Nominalskala Information über Gleichheit beziehungsweise Ungleichheit der Variablen Ordinalskala Zusätzliche Informationen über Relationen, wie größer/kleiner Intervallskala Zusätzliche Informationen über die Abstände der Daten zueinander Verhältnisskala Es gibt einen gemeinsamen Nullpunkt. Damit sind Aussagen über Verhältnisse der Variablen möglich. Nominale und ordinale Skalen nennt man nicht-metrisch (weil man keine Abstände definieren kann), Intervall- und Verhältnisskala heißen metrische Skalen und Daten dieses Skalentyps metrische Daten. Um die Unterschiede zu verstehen, sehen wir uns dazugehörige Beispiele an: Nominaldaten (oft auch kategoriale Daten genannt) sind Daten, bei denen es keine Ordnungsrelation gibt, zum Beispiel männlich/weiblich oder rot/grün/blau. Ordinaldaten haben eine Ordnungsrelation ohne Differenzangabe. Man erkennt das bei Goldmedaille, Silbermedaille und Bronze. Es ist klar, dass eine Goldmedaille besser ist als eine Silbermedaille. Aber zwischen den Medaillen kann keine Differenz gerechnet werden. Intervallskalen lassen eine Differenz zu. Ein Beispiel wären die Schulnoten: Die Note »5« ist um die Differenz 1 schlechter als die Note »4«. Die Note »1« ist um die Differenz 2 besser als die Note »3«. Auch die Temperaturskala ist eine Intervallskala. Temperaturdifferenzen sind bestimmbar. Was man nicht so einfach kann, ist, die Frage zu beantworten, um wie viel 30 Grad wärmer ist als 28 Grad. Zwischen beiden Temperaturen gibt es zwar eine Differenz, aber keinen Faktor. Das ist auch bei den Schulnoten so: Man kann nicht sagen, die Note 1 ist dreimal besser als die 3.
Verhältnisse, also quantitative Faktoren, existieren zwischen Längenangaben, zum Beispiel: Etwas ist 3-mal größer als etwas anderes. Kann man einen solchen Faktor (ein Verhältnis) angeben, dann sprechen wir von einer Verhältnisskala. Je nach Skalentyp kann man verschiedene Auswertungen auf diesen Daten vornehmen beziehungsweise die KI kann je nach Skalentyp verschiedenes Wissen aus den Daten lernen.
Beginnen wir mit einer einfachen Datentabelle Gegeben sei die einfache Datentabelle aus Tabelle 6.3. In Spalte 1 steht die Größe X1 und in Spalte 2 die Größe Y1. Die Datentabelle kann genutzt werden, um beispielsweise die nachfolgenden Fragen zu beantworten:
X1
Y1
36 3700 26 5200 36,5 2700 36,5 4100 36,5 1700 37
400
37 3900 37 4600 37,5 2200 37,5 2400 37,5 3500 38 4800 38 5200 38
800
38,5 1700
38,5 3400 38,5 3400 39 2600 39 4700 39
400
39,5 3100 39,5 2600 39,5 4000 40
800
40 6100 40 2500 41,5 5700 41,5 7200 41,5 4700 42 6100 42 3700 Tabelle 6.3: Tabelle mit zwei Spalten von Daten
Welches sind die wichtigsten statistischen Kennwerte der beiden Variablen X1 und Y1 (univariate Statistik)? Gibt es einen formalen, linearen Zusammenhang zwischen den Variablen X1 und Y1 (Korrelationsanalyse)? Kann man mithilfe der Variablen X1 die Ausprägungen der Variablen Y1 erklären (Regressionsanalyse)? Gibt es unbekannte Untergruppen in den Daten (Clusteranalyse)? Falls die Daten in Spalte 1 einer zeitlichen Reihenfolge unterliegen, kann man auch folgende Frage stellen:
Wie würde sich die Zeitreihe der Variablen X1 fortsetzen lassen (Trendanalyse)? Sie sehen, bereits bei so wenigen Daten kann man eine Menge herausfinden wollen. Verfahren des maschinellen Lernens können alle diese Fragestellungen beantworten. Probieren wir mal aus, ob wir einiges davon auch halbautomatisch können.
Univariate Statistik am Beispiel Zuerst wollen wir eine univariate Statistik benutzen, um die Daten besser kennenzulernen. In der univariaten Statistik werden die Variablen allein untersucht, es geht also nicht um Zusammenhänge zwischen Variablen. Bekannt sind verschiedene Kennzahlen, wie Mittelwert und Streuung oder auch Varianz. Schauen wir uns die erste Spalte an. Wir sehen 31 verschiedene Werte im Bereich von [36;42]. Der Minimalwert (min) ist 36, der Maximalwert (max) ist 42. Für diese Reihe von Zahlen kann man den Mittelwert ausrechnen, indem man alle Zahlen addiert und dann durch 31 teilt. Der Mittelwert ist . Für die zweite Spalte beträgt der Minimalwert min = 400 und der Maximalwert max = 7200. Der Mittelwert – wieder über alle Werte der Reihe gerechnet – ist . Wer sich auch für die Varianz interessiert, schaut bitte in die Box.
Mathematikbox 2 zu Statistik: Kennzahlen Es gibt verschiedene Mittelwerte, die der Fachmann nutzen kann, um Datenreihen zu beschreiben: Bekannt sind Modus, Median, arithmetischer Mittelwert und geometrischer Mittelwert. Betrachten wir von diesen Mittelwerten nur das arithmetische Mittel und den Median: Der (arithmetische) Mittelwert einer endlichen Population X von n Zahlen x1, x2, x3, …, xn berechnet sich wie folgt:
oder ausgeschrieben: Zur Bestimmung des Medians muss man die Werte ihrer Größe nach sortieren:
Für die sortierten Werte x(1),…, x(n) gilt:
Die komplizierte Formel bedeutet einfach, dass man die Daten, wenn man sie der Größe nach geordnet hat, in der Mitte teilen muss. Genau in der Mitte, das ist der Median. Die Varianz einer endlichen Population von n Zahlen x1, x2, x3, …, xn wird bestimmt durch:
Die bekannte Standardabweichung σ ist hierbei die Quadratwurzel aus der Varianz. Die Standardabweichung gibt an, um wie viel sich die einzelnen Messwerte xi im Mittel vom Mittelwert unterscheiden. Im Detail unterscheidet man zwischen der Varianz einer konkreten Stichprobe – wie im obigen Beispiel mit n Zahlen – und der empirischen Varianz, die man für eine Grundgesamtheit abschätzen muss. Diese Unterscheidung wollen wir hier aber nicht weiter ausführen. Die statistischen Kennzahlen sind wichtig, allerdings werde ich aus Platzgründen nicht alle Feinheiten beschreiben. Unbedingt merken muss man sich aber, dass es verschiedene Mittelwerte gibt. Ich möchte nur den Unterschied zwischen Median und arithmetischem Mittelwert hervorheben. Während der arithmetische Mittelwert einfach die Summe aller Werte geteilt durch ihre Anzahl ist, so gibt der Median eine andere Auskunft. Er stellt fest, bei welchem Wert sich die Stichprobe in zwei gleichgroße Hälften aufteilen lässt. Sehen wir uns ein Beispiel an. Den (arithmetischen) Mittelwert des Haushaltsvermögens kann man berechnen, indem man das gesamte Bruttovermögen der Deutschen inkl. ihrer Immobilien aufaddiert und durch – sagen wir – 40 Millionen Haushalte teilt. Zieht man davon noch die Schulden ab, so ergibt sich das sogenannte mittlere Nettohaushaltsvermögen, dieses lag in Deutschland 2022 bei circa 233.000 Euro. Das klingt ganz passabel, auch im europäischen Vergleich. Anders sieht es jedoch aus, wenn man den Median zur Vermögensbeschreibung verwendet, denn dieser teilt die Vermögen exakt in zwei Hälften. Der Vermögensmedian ist in
Deutschland bedeutend niedriger. Er lag 2022 bei einem Nettohaushaltsvermögen von circa 70.000 Euro. Da sieht die Welt schon ganz anders aus. Was stimmt aber nun? Beides natürlich. Aber was gibt die Vermögenssituation fairer wieder? Der Median. 20 Millionen Haushalte haben ein Nettovermögen von kleiner 70.000 Euro und 20 Millionen Haushalte haben ein Nettovermögen von größer als 70.000 Euro. Der Median spiegelt die Vermögenssituation in Deutschland ehrlicher wieder. Was ist mit der Aussagekraft des arithmetischen Mittelwerts in diesem Anwendungsfall passiert? Er ist nicht gut verwendbar, weil es in Deutschland extrem große Unterschiede zwischen Arm und Reich gibt. Da die Unterschiede nach unten begrenzt sind, sind die Unterschiede nach oben besonders wirksam. Es gibt einige Haushalte, die haben ein Nettovermögen von zum Beispiel einer Milliarde Euro. Diese ziehen den gesamten arithmetischen Mittelwert in die Höhe. Ein Zahlenbeispiel: Es sei die nachstehende, konstruierte Tabelle gegeben (ganz so krass sind die Vermögensunterschiede in Deutschland dann doch nicht), Abbildung 6.8.
Abbildung 6.8: Unterschied zwischen Median und Mittelwert an einem Beispiel In der Exceltabelle oben sind 20 Haushalte mit ihrem Haushaltsnettovermögen aufgelistet. Aus der Tabelle erkennt man, dass ein Haushalt dabei ist, der ein Vermögen von einer Milliarde Euro besitzen möge. Dieser eine Haushalt verändert den arithmetischen Mittelwert der Population derart »krass«, dass der Vermögensmittelwert der gesamten Population bei circa 50 Millionen Euro liegt. Ziemlich viel Geld für jeden im Mittel. Man denkt – wenn man nur diesen Mittelwert erfährt –, es handle sich um eine ziemlich reiche Population. Benutzt man aber stattdessen den Median, so sieht man, dass dieser die Strichprobe viel fairer beschreibt, denn der Median liegt im Beispiel bei 26.000 Euro, eine ziemlich arme Population also. Beachten Sie, dass diese beiden gegenteiligen Aussagen (reiche Population vs. arme Population) auf exakt dem gleichen Datensatz erzeugt worden sind. Man versteht jetzt,
warum viele die Statistik nicht mögen. Aber die Statistiken stimmen, die (sogenannten) Wahrheiten, die mithilfe der Statistik aus den Daten interpretiert werden sollen, die berühmten Fakten der Experten, die können jedoch völlig falsch sein.
Multivariate Statistik am Beispiel Um multivariate Aussagen zu erhalten, können wir die Daten aus Tabelle 6.3 in ein Streudiagramm oder x-y-Scatterplot zeichnen, Abbildung 6.9.
Abbildung 6.9: Darstellung der Datentabelle in einem x-y-Scatterplot mithilfe des Tools Excel
Im Scatterplot sind die Daten Zeile für Zeile aufgetragen. Was kann man aus dem Plot erkennen? Man sieht eine schwache Tendenz in den Daten: Je größer X1 (im Bereich zwischen 35 und 43), desto größer Y1 (im Bereich 0 bis 8000) und umgekehrt. Einen solchen, einfachen Zusammenhang kann man mit der Korrelationsanalyse ermitteln. Man kann aber auch einen gerichteten Zusammenhang der Form Y = f (X) untersuchen. Ein solcher Zusammenhang wird durch die Regressionsanalyse geprüft.
Schauen wir auf ein Ergebnis, das eine kleine »KI« ausgerechnet haben könnte, Abbildung 6.10. Für eine richtige KI wäre das natürlich zu trivial, denn die dargestellte Formel für die Geradengleichung findet jeder Student der Naturwissenschaften im ersten Semester. Im Beispiel wurde die Regressionsgerade mit dem Programm Excel erzeugt, die »KI« hält sich also noch etwas zurück.
Abbildung 6.10: Lineare Schätzung (Regressionsgerade) für eine gegebene Punktwolke
Wir haben einen Zusammenhang der Form Y = f (X) vermutet und stellen fest, dass ein solcher tatsächlich existiert. Das Ergebnis von Excel lautet gerundet: Spätestens an dieser Stelle ist sicherlich ein kurzer Hinweise zur Variablennotation angebracht: Variablen in Kleinbuchstaben x, y, … benutzt man für mathematische Variablen in Formeln. Variablen in Großbuchstaben X,Y, … stehen in der Statistik für eine Menge von
Daten, zum Beispiel X = x1, x2, x3, … Die Variablen x1, x2, … sind die konkreten Zahlenwerte aus einem Feld einer Tabelle. Wenn man eine solche Geradengleichung ermittelt hat, dann hat man eine mathematische Möglichkeit gefunden, die konkrete Variable (Y1) mithilfe der Variablen (X1) zu erklären. Und wir alle erkennen die aus der Schule bekannte Geradengleichung der Form Y = m·X+n wieder. Der Parameter m gibt die Steigung der Geraden an, der Parameter n den Schnittpunkt mit der y-Achse. Wie gut ist die Erklärungsstärke? Dies gibt der Parameter R2 in Abbildung 6.10 an, man nennt R2 (manchmal auch r2) Bestimmtheitsmaß für die Regressionsschätzung (siehe Bildmitte). Wenn Sie R2 mit 100 Prozent multiplizieren, dann sehen Sie, dass circa 11 Prozent der Schwankungen von Y durch die Variable X erklärt werden können. Der Rest der Schwankungen (fast 90 Prozent) jedoch nicht. Damit sollte man nicht zufrieden sein. Man könnte jetzt hoffen, dass sich mit einer anderen Regressionsgleichung eine bessere Schätzung für die Funktion Y = f(X) ergeben könnte, und tatsächlich: Lässt man auch nichtlineare Schätzungen zu, so erkennt man, dass man 25 Prozent der Schwankungen von Y durch die Variable X erklären kann, siehe R2 in Abbildung 6.11. Natürlich ist die Schätzgleichung jetzt schon komplizierter, sie ist ein Polynom 3. Ordnung. Der Zusammenhang zwischen Y und X ist damit zwar noch nicht ganz zufriedenstellend beschreibbar, aber man kann die Schätzung schon besser nutzen.
Abbildung 6.11: Nichtlineare Schätzung für eine gegebene Punktwolke
Inhaltlich könnte die x-Achse zum Beispiel den Verkaufspreis für ein neu eingeführtes Produkt in Euro darstellen und auf der y-Achse würden wir den Verlust der Firma mit diesem Produkt im letzten Quartal sehen, in 1000 Euro. Dies ist natürlich eine fiktive Interpretation (Beispiele aus der Praxis werden in Kapitel 13 beschrieben). Aber hier sieht man schon, dass selbst mit so einfachen Hilfsmitteln wie einer kubischen Regression der optimale Verkaufspreis bestimmt werden kann. Er würde für das Produkt bei circa 38 Euro liegen, da bei diesem Preis der Verlust minimal wird, also »nur« bei circa 2,8 Millionen Euro liegt. Höhere Preise lassen wahrscheinlich den Abverkauf einbrechen, sehr tiefe Preise kurbeln wahrscheinlich den Abverkauf an, aber man macht Verluste mit dem Produkt selbst. Solche Zusammenhänge gibt es tatsächlich und in jeder Sekunde werden weltweit die Daten der Kassenbons ermittelt und es wird untersucht, wie viele Produkte von welcher Firma zu welchem Preis verkauft wurden. Auf Basis eines solchen Algorithmus passt zum Beispiel Amazon – ein
Meister des Big Data – alle paar Minuten seine Preise an. Amazon vergleicht dazu die Preise beliebter Produkte mit den Preisen seiner Wettbewerber und berechnet seinen aktuellen Preis so, dass Kunden einen Anreiz haben, das Produkt bei Amazon zu kaufen. KI im Bereich des Data Mining zur Verkaufsoptimierung ist eine der Standardanwendungen weltweit. Bisher haben wir nach Zusammenhängen zwischen den beiden Spalten oder im konkreten Fall gesucht. Schaut man genauer auf die Punktwolke, so kann man mit dem bloßen Auge aber auch Strukturen als Untergruppen – Cluster genannt – entdecken (Abbildung 6.12).
Abbildung 6.12: Zwei Untergruppen in einer Punktwolke aus Daten
Wir erhalten also, je nach Fragestellung, verschiedene Ergebnisse auf exakt dem gleichen Datensatz: Fragt man nach Zusammenhängen in diesem Datensatz, kann man mittels einer Regressionsanalyse erkennen, dass sich Y durch X erklären lässt.
Fragt man nach Strukturen, so erfährt man, dass es zwei Untergruppen (Cluster) in den Daten gibt.
Auf der Suche nach der Wahrheit Was ist die Wahrheit? Welche Informationen stecken nun wirklich in den Daten? Falls Sie sich jetzt diese Frage stellen, sage ich nur: Willkommen beim Data Mining. Es gibt keine absolute Wahrheit mehr. Jede statistische Auswertung, zu deren Durchführung wir uns entscheiden, findet verschiedene Aussagen auf exakt denselben Daten. In der Auswertung Zusammenhangsanalyse stellten wir fest, dass die beiden Spalten X1 und Y1 miteinander korrelieren und sich die Variable y1 als Funktion der Variablen x1 darstellen lässt. In der Auswertung Strukturanalyse erkennen wir, dass es zwei Untergruppen gibt, zum Beispiel eine Gruppe für mittelpreisige Produkte und eine Gruppe für hochpreisige Produkte (oben rechts in Abbildung 6.12). Dieser Umstand macht es für KI-Verfahren im Bereich des Data Mining so schwer, alle relevanten Aussagen zu finden und zu bewerten. Und dabei haben wir noch Glück gehabt. Es kann – wie wir bereits beim Vermögen der Population gesehen haben – sehr häufig passieren, dass widersprüchliche Aussagen auf denselben Datenquellen entstehen. Als Beispiel dazu sehen wir uns zwei Bilder über die Erderwärmung an, die auf offiziellen Daten der NASA basieren. Da man die Daten natürlich nicht auf jedem Quadratzentimeter der Erde ermitteln kann, so muss auch hier mit statistischen Verfahren gearbeitet werden. Abbildung 6.13 entsteht, wenn man sich aus den NASA-Klima-Daten das Zeitfenster 1975 bis 2022 aussucht. Achten Sie auf die Arktis und Europa, dort ist es signifikant wärmer geworden. Insgesamt ist die mittlere Welttemperatur um 0,9 Grad Celsius gestiegen (Zahl oben rechts).
Abbildung 6.13: Erderwärmung von 1975 bis 2022, Quelle: [Nasa.gov/giss]
Abbildung 6.14 entsteht, wenn man auf den NASA-Klima-Daten das Zeitfenster 2016 bis 2022 auswählt. Achten Sie wieder auf die Arktis und diesmal die USA, dort ist es nun signifikant kälter geworden. Die Temperatur in Westeuropa ist erneut leicht gestiegen. Insgesamt ist die mittlere Welttemperatur in den letzten sechs Jahren aber um 0,08 Grad Celsius gefallen (Zahl oben rechts). Es ist global gesehen also kälter geworden. Was lernen wir daraus? Anhand der Bilder der NASA sind verschiedene Informationen aus den Daten ableitbar. Seit 1975 hat sich die Welt erwärmt, von 2016 bis 2022 kühlte sich die Welttemperatur ab. Die Daten stehen jedem unter [Nasa.gov/giss] zur Verfügung. Man sollte dazu wissen, dass natürlich nicht jeder Quadratmeter auf der Erde mit einer Messstation ausgestattet werden kann, sondern dass es üblich ist, die Temperaturwerte zwischen den Messstationen zu schätzen. Die
Basisdaten werden tatsächlich manchmal geschätzt und nicht direkt gemessen, was zusätzlichen Raum für Fehler hinterlässt. So ein Smoothing Radius kann schon mal recht groß werden, im obigen Fall bis zu 1.200 km um eine Messstation. Wählt man eine realistischere Ansicht, bei der der Berechnungsradius um jede Station nur 250 km groß ist, weil man den Glättungsberechnungen nicht traut, dann entstehen sehr viele graue Flächen auf der Erde, also Stellen, wo keine Messstationen vorhanden sind. Die Temperaturdaten dieser Orte kommen dann aus mathematischen Gleichungen. Davon abgesehen hat man je nach ausgewähltem Zeitfenster verschiedene Aussagen zur Temperaturentwicklung.
Abbildung 6.14: Erderwärmung von 2016 bis 2022, Quelle: [Nasa.gov/giss]
Seriös wird die Auswertung, wenn man dies und alle möglichen Auswertebilder einem Nutzer präsentiert. Nicht seriös ist es, wenn man
sich diejenigen Bilder aus den Daten auswählt, die zum jeweiligen Konzept passen. Durch unsachgemäßen Gebrauch von Daten und deren Auswertungen könnte ein permanenter Streit zwischen Anwendergruppen entstehen, der völlig unnötig ist, denn KlimaFachleute ohne politische Motivation können aus den Daten sehr wohl wahrscheinlichkeitsbasierte Wahrheiten gewinnen (der Autor ist kein Klima-Fachmann). Dass statistische Korrelationen von CO2, Methan, Staubteilchendichte und/oder Temperaturen prinzipiell keine Aussage zu irgendeiner Kausalität zwischen beobachteten Messwerten – nach dem Motto »A verursacht kausal B« – geben können, werden wir im nächsten Abschnitt besprechen. Dies gilt natürlich auch beim Klima. Hier helfen nur deduktive, analytische Modelle weiter, für die die jeweiligen Fachleute verantwortlich sind.
Die Grenzen der Statistik Das oben ist kein glücklich gewähltes Beispiel für eine KI-Anwendung, es soll aber gerade zeigen, dass alle Ergebnisse, die man durch Speicherung, Auswahl und KI-Auswertung erzielt hat, durch alle vorausgegangenen Festlegungen bereits stark beeinflusst werden. Der Laie denkt, dass die KI-Verfahren die Zusammenhänge und Strukturen in den Daten objektiv aufdecken, aber das ist niemals so. Es gibt beim datenbasierten, induktiven Schließen keine Objektivität. Jeder Nutzer der Daten beeinflusst durch Datenselektion und gewähltes Auswerteverfahren die Ergebnisse maßgeblich mit, gewollt oder ungewollt. Und hier gibt es kein Entkommen. Es gibt keine rein objektive Datenanalyse im Bereich der Künstlichen Intelligenz (Data Mining). Die Analyse ist in keinster Weise rückwirkungsfrei. Der Entwickler beeinflusst bewusst oder unbewusst durch Auswahl der Daten und der Analyseverfahren seine Ergebnisse permanent mit. Sie kennen den Spruch von (angeblich) Churchill: »Traue keiner Statistik, die du nicht selber gefälscht hast.« Das ist natürlich übertrieben, in der Regel möchte man mit Statistik nicht betrügen,
sondern Hypothesen generieren, aber trotzdem, aufgrund der Komplexität schleichen sich Fehler ein und man kann Ergebnisse immer auch unbeabsichtigt »manipulieren«. Das Problem ist akut geworden, denn mittlerweile reden alle über Big Data. Und je mehr Daten es gibt, desto mehr Freiheitsgrade gibt es bei ihrer Auswahl. Meistens werden nicht alle Daten ausgewertet, sondern man beschränkt sich auf Stichproben. Hat eine Versicherung zehn Millionen Kunden, so reicht es aus, nur eine Million Kunden zu analysieren. Aber man darf bei der Erzeugung der Stichprobe wirklich keine Fehler machen. Das wissen die Fachleute natürlich und trotzdem, es kann und wird passieren, dass wir etwas übersehen … Diese Erkenntnis ist sehr wichtig, wenn wir die Kontrolle an die KI abgeben wollen, wenn also irgendwann einmal die KI allein entscheiden soll (oder wird), wer einen Kredit von der Hausbank bekommt, wer operiert wird und wie und unter welchen Umständen welche Rohstoffe zu welchem Preis weltweit eingekauft werden sollen. Falls die Wirtschaft oder die Politik ihre Entscheidung zu einer Vollautonomie der KI trifft, muss sie zumindest die Konsequenzen kennen. Maschinelles Lernen wird durch hochkomplexe induktive KI-Verfahren realisiert. Ihre Ergebnisse müssen immer einer Plausibilitätskontrolle unterzogen werden. Macht man das nicht, ist das fahrlässig oder bewusst manipulativ. Im Fall einer »kritischen Bedeutung der Ergebnisse« müssen diese immer in ein deduktives System eingeordnet werden, so wie bereits bei den Klimadaten angesprochen. Im technischen Anwendungsfall einer Fabrik reichen oftmals die Hypothesen des maschinellen Lernens, weil die Überprüfung der empirischen Aussagen unmittelbar erfolgen kann. Es gibt einen riesigen Unterschied bei den zugrunde liegenden Wahrheitskonzepten. Will man die Wahrheit darüber erfahren, ob eine Brücke hält, die ein Ingenieur gebaut hat, kann man das unmittelbar prüfen. Dies entspricht der Äquivalenzwahrheit. Sagt der Ingenieur aber, die Brücke hält jetzt 100 Jahre, so ist die Überprüfung dieser Aussage aktuell nicht möglich, so dass nur die anderen (schwächeren) Wahrheitskonzepte zur Verfügung stehen.
Multivariate Statistik im mathematischen Detail Wie erwähnt, wenn Sie an statistischen Details nicht interessiert sind, können Sie diesen Abschnitt auslassen, denn im Überblick wurden die wichtigsten Begriffe bereits eingeführt. Für alle anderen wird es nun mathematisch.
Statistische Verfahren zum Auffinden von Zusammenhängen Korrelationsanalyse Die Korrelationsanalyse untersucht den linearen Zusammenhang zweier Variablen. Ich wiederhole: den linearen Zusammenhang. Sie ist das wohl bekannteste Verfahren zur Entdeckung von Zusammenhängen. Jeder Akademiker wurde schon damit konfrontiert, denn eine der wichtigsten Fragen in Meetings ist, ob » … die Werte X und Y vielleicht miteinander korrelieren?« Was heißt das aber wirklich? Sie werden eventuell überrascht sein.
Mathematikbox 3 zu Statistik und Stochastik: Korrelationsanalyse Die Stochastik beschreibt die Mathematik des Zufalls und ist ein Oberbegriff für die Wahrscheinlichkeitstheorie und die Statistik. Mathematisch ausgedrückt untersucht die Korrelationsanalyse den stochastischen/formalen Zusammenhang zwischen zwei Zufallsvariablen X und Y. Der Korrelationskoeffizient rxy berechnet sich anhand einer Stichprobe wie folgt:
Was bedeuten konkrete Werte des Koeffizienten:
r = rxy = 0 kein statistischer (besser: stochastischer) Zusammenhang r = rxy = −1 negative, lineare Korrelation r = rxy = +1 positive, lineare Korrelation Die Berechnung sieht komplizierter aus, als sie ist. Im Zähler steht die sogenannte Kovarianz der beiden Zufallszahlen X und Y (mit gleicher Verteilung) und im Nenner werden zur Normierung die einzelnen Varianzen von X und Y multipliziert und daraus die Wurzel gebildet. Die Kovarianz berechnet, um wie viel sich die Werte von Y verändern, wenn sich die Werte von X verändern. Wir fragen uns bei der Kovarianz also, ob hohe Werte von X mit hohen oder niedrigen Werten von Y einhergehen und umgekehrt. Da die Kovarianz nicht standardisiert ist, wird das Ergebnis durch den Nenner geteilt, der ein Maß dafür ist, wie sehr die Daten in der Stichprobe überhaupt um ihren Mittelwert streuen.
Um die statistischen (stochastischen) Abhängigkeiten besser zu verstehen, sind in den nachfolgenden Abbildungen einige Werte für den Korrelationskoeffizienten rxy und die dazugehörigen Stichprobenwerte von X und Y dargestellt. In Abbildung 6.15 sehen Sie zwei Sinuskurven im Zeitverlauf. Man erkennt Folgendes: Immer, wenn die eine Kurve (hellgrau) nach unten geht, geht auch die andere Kurve (dunkelgrau) nach unten. Und immer, wenn die eine Kurve nach oben geht, geht auch die andere Kurve nach oben. Oder kürzer: Je größer die eine Variable, desto größer die andere Variable und umgekehrt.
Abbildung 6.15: Zwei Sinuskurven im Zeitverlauf
Der Korrelationskoeffizient zwischen beiden Variablen ist rxy = +1. Zwischen beiden Variablen, die jeweils eine Sinusfunktion codieren, herrscht eine perfekte Korrelation von +1. Stellt man die Variablen Y und X nicht über die Zeit t dar, sondern die Variable Y über die Variable X im Scatterplot, dann erkennt man den perfekten Zusammenhang noch besser: Y = X + 1, Abbildung 6.16. Dennoch gibt es immer wieder Missverständnisse. Insbesondere dann, wenn der Korrelationskoeffizient nahe null ist, denn dann gehen viele davon aus, dass es keinen Zusammenhang zwischen X und Y gibt. Aber dies kann falsch sein. Abbildung 6.17 zeigt ein Beispiel, bei dem der Korrelationskoeffizient null ist. Dennoch gibt es zwischen Y und X sogar einen funktionalen Zusammenhang der Form Y = X2. Es ist klar, dass rxy = 0 sein muss, da der Korrelationskoeffizient nur einen linearen Zusammenhang prüft. Also Achtung!
Ist die Punktwolke im Streudiagramm »kreisförmig« oder »rechteckig«, dann ist rxy ≈ 0 (nahe null). Es besteht kein statistischer Zusammenhang, Abbildung 6.18.
Abbildung 6.16: rxy = +1: lineare Abhängigkeit zwischen zwei Sinusfunktionen
Abbildung 6.17: Die Korrelation zwischen den Variablen x und y ist rxy = 0, dennoch existiert ein funktionaler Zusammenhang.
Vergleichen Sie Abbildung 6.17 mit Abbildung 6.18. In beiden Fällen ist rxy = 0. Einmal besteht jedoch ein funktionaler Zusammenhang, einmal nicht. Man kann das dem Korrelationskoeffizienten allein nicht ansehen. Besser ist es in jedem Fall, auf die Verteilung der Daten in der Punktwolke zu schauen, dann sieht man die Zusammenhänge viel besser. In Abbildung 6.17 ist der Zusammenhang quadratisch (nicht linear), im anderen Fall nicht einmal stochastisch. Man muss beim Einsatz des Korrelationskoeffizienten in der Praxis also genau aufpassen.
Abbildung 6.18: rxy = 0: Keine stochastische Abhängigkeit zwischen X und Y
Und es wird noch schwieriger: Es gibt auch falsche Interpretationen, wenn der Korrelationskoeffizient rxy nahe eins ist. Man geht dann nämlich im Allgemeinen davon aus, dass es einen ursächlichen (kausalen) Zusammenhang zwischen beiden Variablen X und Y gibt. Aber auch das ist nicht zwingend der Fall. Der Zusammenhang ist und bleibt immer nur ein stochastischer. Ist eine Korrelation zwischen zwei Variablen X und Y ermittelt, sind mindestens vier Interpretationen möglich: Die Größe X verursacht die Größe Y. Die Größe Y verursacht die Größe X. Eine unbekannte dritte Größe A wirkt gleichzeitig auf X und Y.
Die Korrelation ist eine formale Scheinkorrelation und nur durch unglückliche Wahl der Stichprobenwerte oder gar rein zufällig entstanden. Diese Interpretationsmöglichkeiten sollte man nie vergessen. Ein Tipp: Setzen Sie in Gedanken hinter jede vermutete Kausalbeziehung das kleine Wörtchen »immer«. Denn wenn »immer« gilt, könnten Sie eine echte Kausalbeziehung entdeckt haben. »Immer« ist eine notwendige, wenn auch keine hinreichende Voraussetzung für einen kausalen Zusammenhang, weil beispielsweise eine (unbekannte) dritte Variable dafür sorgen könnte, dass die Korrelation »immer« gilt. Mit dem Wörtchen »immer« zu arbeiten, hilft, vorschnell gedachte Kausalbeziehungen in seinem eigenen Kopf zu entlarven.
Eine Warnung an alle Freude der Korrelation Korrelation und Kausalität sind überhaupt nicht dasselbe. Es handelt sich um vollkommen unterschiedliche Konzepte zur Beschreibung der Welt. Eine Korrelation zwischen zwei Merkmalen (Variablen) A und B könnte auf eine Kausalität hindeuten, mehr aber nicht. Die Korrelation ist weder eine notwendige noch eine hinreichende Bedingung für das Vorliegen von Kausalität zwischen den Merkmalen A und B.
Beispiele aus dem Alltag Schauen wir auf einige konkrete Beispiele aus der Praxis (Tabelle 6.4). Korrelationsaussage
Bemerkung
Fabrik-Hallentemperatur und Ausschussrate korrelieren positiv.
(Hohe) Hallentemperatur verursacht (hohe) Ausschussrate. Kausalität kann erst im Nachgang der Beobachtung geklärt werden.
Absatzmenge und Preis von Bierdosen korrelieren negativ.
(Hoher) Preis verursacht (niedrige) Absatzmenge. Kausalität kann erst im Nachgang der Beobachtung geklärt werden.
Korrelationsaussage
Bemerkung
Rentenbeiträge und Anzahl (Hohe) Rentenbeiträge und (niedrige) Anzahl Neugeborene korrelieren Neugeborener hängen kausal nicht zusammen. negativ. Unterlagerte Größe könnte das wachsende (mittlere) Alter der Menschen einer Gesellschaft sein. CO2-Werte und (Hohe) CO2-Werte in der Atmosphäre verursachen (hohe) Temperaturwerte der Erde Temperaturwerte oder (hohe) Temperaturwerte führen korrelieren positiv. durch Ausgasung der Ozeane zu (hohen) CO2-Werten oder auch keine Kausalität (siehe oben). Schuhgröße und Einkommen korrelieren positiv. »Je größer die Füße, desto höher das Einkommen!«
Sogenannte Inhomogenitätskorrelation kein kausaler Zusammenhang
Tabelle 6.4: Mögliche Korrelationsergebnisse aus der Praxis und ihre Interpretation
Die ersten beiden Beispiele sind selbsterklärend. Die anderen Beispiele benötigen einen Hinweis. Untersucht man die Zeitreihen der Rentenbeiträge und die Anzahl der neugeborenen Kinder von 1970 bis 2015, so könnte man einen negativen Korrelationskoeffizienten feststellen. Aber ist der Zusammenhang ein kausaler? Wahrscheinlich nicht. Die höheren Rentenbeiträge bewirken ursächlich keine Verringerung der Kinderanzahl und die Erhöhung der Kinderanzahl verringert auch nicht die Rentenbeiträge. Dennoch korrelieren beide Zeitreihen negativ. Der Grund könnte die oben erwähnte dritte oder vierte Variable sein, die aber nicht in die Auswertung mit einbezogen wurde, zum Beispiel der steigende Lebensstandard und die steigende Lebenserwartung der Menschen in Deutschland. Eine mögliche Erklärung: Wird ein Mensch reicher, so will er weniger Kinder, da er sich bereits mit seinem Kapital für seine Rentenzeit abgesichert hat, und wird ein Mensch älter, so werden die Aufwände für seine Rente höher, weshalb die Beiträge steigen. Es ist übrigens häufig der Fall, dass eine unbekannte dritte Variable kausal auf zwei Variablen X und Y wirkt und sich deshalb beide Variablen ähnlich verhalten, so, als ob es zwischen beiden einen kausalen Zusammenhang gäbe. Ein berühmtes Beispiel ist die hohe
Korrelation zwischen der Anzahl der Kinder (die abnimmt) und der Anzahl der Störche in Deutschland (die auch abnimmt). Bringt der Storch also doch die Kinder? Nein, der Zusammenhang ist nicht kausal. Die Antwort ist, die zunehmende Industrialisierung als dritte, aber unbekannte Variable sorgt dafür, dass es weniger Störche in Deutschland gibt, aber auch dafür, dass immer weniger Kinder geboren werden. Besonders überraschend ist auch die Erkenntnis, dass Schuhgröße der Deutschen und Einkommen in Deutschland miteinander korrelieren. Ihr Korrelationskoeffizient ist hoch, das heißt höher als 0,7. Wer hier einen kausalen Zusammenhang sucht, kommt schnell auf folgende, hypothetische Kettenregel: Je größer die Füße sind, desto größer der Mensch und je größer der Mensch, desto größer sein Selbstbewusstsein und je größer sein Selbstbewusstsein, desto höher sein Einkommen. Das klingt nach einer logischen Kausalkette. Aber sie ist falsch, zum Glück für alle Kleinfüßler. Aber wieso gibt es dann einen inhaltlichen Zusammenhang zwischen Schuhgröße und Einkommen? Die Antwort: Es gibt keinen. Der falsche statistische Zusammenhang im obigen Beispiel entsteht deshalb, weil in den Daten keine Trennung zwischen den Gruppen der Männer, Frauen und Kinder durchgeführt wurde und dadurch ein sogenannter Bias entstand, eine sträfliche Verfälschung von Daten. Fasst man Schuhgrößen und Einkommensdaten in Personengruppen aus Männern, Frauen und Kindern in einer gemeinsamen Tabelle zusammen, dann bedeutet ein hoher Korrelationskoeffizient zwischen diesen beiden Attributen nur: Kinder haben kleine Füße und verdienen wenig. Frauen haben mittlere Fußgrößen und verdienen mittel. Männer haben große Füße und verdienen viel. Innerhalb der Gruppe der Kinder, Frauen und Männer gibt es keinen Zusammenhang (möglicherweise gibt es doch einen, denn größere Männer haben in der Tat ein höheres Einkommen als kleine Männer, sagt eine weitere Statistik, aber Sie wissen ja mittlerweile, was ich davon halte). Man nennt einen solchen Fall
Inhomogenitätskorrelation, weil die Kohorten falsch zusammengesetzt wurden. Man muss in der Praxis also immer genau hinschauen, denn eine weitere Statistik besagt, dass kleinere Menschen zu Herz-KreislaufErkrankungen neigen, große Menschen dagegen eher zu Krebs, eine weitere Statistik sagt jedoch, … nun, lassen wir das.
Regressionsanalyse Als Nächstes wollen wir uns einen gerichteten Zusammenhang ansehen. Die Standardmethode in der Statistik ist dafür die sogenannte Regressionsanalyse. Zwischen Korrelation- und Regressionsanalyse gibt es eine Verbindung. Die Korrelationsanalyse bestimmt die Stärke eines formalen linearen Zusammenhangs, die Regressionsanalyse die mögliche kausale Richtung. Die Regressionsanalyse untersucht einen Zusammenhang der Form Y = f(X), es geht also darum, die Variable Y durch die Variable X zu erklären. Die Variablen X und Y sollen dabei metrisch sein, also reelle Zahlen, die Temperaturen, Längen, Drücke, Kreditrisiken, Bonitäten und so weiter entsprechen. Man definiert Y als abhängige und X als unabhängige Variable. Der Zusammenhang zwischen Y und X muss vorab vermutet werden, zum Beispiel durch die Ergebnisse einer vorherigen Korrelationsanalyse; die Regressionsanalyse prüft, ob es diesen Zusammenhang gibt und falls ja, wie stark er ist.
Was bedeutet Regression? Der englische Wissenschaftler Francis Galton (1822–1911) untersuchte die Körpergröße von Söhnen in Abhängigkeit von der Körpergröße ihrer Väter. Man vermutete, dass größere Väter größere Söhne zeugen, aber das war überraschenderweise nicht so. Galton fand heraus, dass es eine Tendenz zur Rückkehr (= Regress) gibt. Die Söhne von extrem großen Vätern werden tendenziell weniger groß und die von extremen kleinen Vätern tendenziell weniger klein. Es scheint so zu sein, als ob die Körpergröße von Menschen wie von selbst um einen Wert schwankt,
kleine Werte also wieder angehoben werden, große verringert. Galton fand eine zentrale Tendenz zum Mittelwert. Eine ähnliche Feststellung machte man bei der Untersuchung des Intelligenzquotienten (IQ) der Menschen. Der IQ nimmt – nachdem er jahrelang angestiegen war – seit 1990 wieder ab. Gibt es auch hier eine zentrale Tendenz zum Mittelwert? Das kann man abschließend noch nicht sagen, denkbar wäre es aber. In der Regressionsanalyse werden die Ausprägungen der Variablen Y erst einmal als Zufallsausprägungen um ihren Mittelwert betrachtet. Die Frage ist jedoch, ob es eine andere Variable, eine sogenannte Einflussgröße gibt, die erklären kann, warum die Variable Y um ihren Mittelwert schwankt. Stellen Sie sich vor, Sie messen die Temperatur in Ihrem Garten. Diese Temperatur schwankt über das Jahr gesehen vielleicht um den Mittelwert von zehn Grad. Die Frage ist nur, warum. Mit etwas Überlegen (ich nenne es mal Weltwissen) stellen wir fest, es kann an den Jahreszeiten liegen, an der Sonneneinstrahlung und so weiter. Man könnte die Schwankungen der Temperatur in Ihrem Garten also durch andere Variablen erklären. Vielleicht nicht zu 100 Prozent, aber doch ein bisschen. Wichtig ist aber, dass auch hier nicht unmittelbar auf einen kausalen Zusammenhang geschlossen werden darf. Die Regressionsanalyse sagt nur, dass ein gerichteter Zusammenhang zwischen beiden Merkmalen beobachtet werden kann. Ob die eine Größe die andere kausal bedingt, kann nur durch weiteres Wissen (erneut Weltwissen, deduktive Regeln) erschlossen werden. Ein Praxisbeispiel: Ihr Bankberater stellt fest, dass Ihre monatlichen Einzahlungen stark schwanken. Dies ist für Ihren Banker ein Rätsel, bis Sie ihm erklären, dass Sie Freiberufler sind und dass Ihre Kunden nur quartalsweise, wenn überhaupt bezahlen. Das Zahlungsverhalten Ihrer Kunden kann also die Schwankungen Ihrer monatlichen Einzahlungen bei Ihrer Bank gut erklären. Die Regressionsanalyse klärt damit die Frage, ob und wie gut eine Variable X die Schwankungen der Variablen Y erklären kann. Die Art der Beziehung kann dabei eine
bivariate Beziehung (zwischen zwei Variablen Y und X) oder eine multivariate Beziehung (zwischen einer Abhängigen Y und mehreren Unabhängigen (X1, X2, X3,…) sein. Um die Schwankungen der Gartentemperatur zu erklären, muss der Fachmann eine inhaltliche Idee haben, wo diese Schwankungen herkommen. Man sagt, er muss einen Zusammenhang (durch Weltwissen) vermuten, also zum Beispiel nachfolgende Annahme treffen (f steht für »Funktion von«):
Wenn er diese Vermutung hat, muss er als Nächstes die Art des Zusammenhangs vermuten, also fragen, ob der Zusammenhang f linear oder nichtlinear ist. Warum? Weil das zugrunde liegende mathematische Modell festgelegt werden muss. Hat man den Modelltyp ausgewählt, werden die Parameter des mathematischen Modells mithilfe der vorliegenden Daten geschätzt; und das Modell abschließend geprüft und bewertet. Durch Prüfung und Bewertung erfährt man, ob man mit seiner Vermutung richtig lag. Durch die Regressionsanalyse kann man keine kausalen Zusammenhänge entdecken, sondern nur vorab vermutete Zusammenhänge prüfen. Betrachten wir diese Arbeitsschritte formal: Die Regressionsanalyse erfolgt im Wesentlichen in drei Stufen: 1. Formulierung des Modelltypus (linear, nicht-linear) 2. Schätzung des Regressionskoeffizienten des Modells 3. Prüfung der berechneten Regressionsfunktion Nach der Formulierung des Modells (1) werden die im Modell vorhanden Parameter durch geeignete Verfahren wie kleinstes Fehlerquadrat, kleinster absoluter Fehler und so weiter geschätzt (2). Im
dritten Schritt wird die Güte der Regressionsfunktion ermittelt (3), um eine Aussage darüber zu treffen, wie gut sie die Werte der Stichproben approximieren kann, das heißt, inwieweit die Funktion die Gesetzmäßigkeiten der angenommenen Grundgesamtheit widerspiegelt, die durch die ausgewählten Daten repräsentiert wird. Salopp gesagt ist die Regressionsfunktion eine mathematische Funktion, um vorliegende Daten zu verknüpfen. Schauen wir ins mathematische Detail.
Formulierung des Modells Ein Modell ist eine mathematische Gleichung, von der Sie annehmen, dass diese Gleichung die Verteilung der Daten gut beschreibt. Das gebräuchlichste Modell ist ein lineares Modell, weil es sehr einfach, aber auch sehr mächtig ist. Wahrscheinlich sind über 2/3 aller statistischen Regressionsmodelle in der Praxis lineare Modelle. Beginnen Sie immer damit! Im linearen Fall wird angenommen, dass die beobachteten Daten durch die Gleichung erklärt werden können. Die obige Gleichung stellt die bekannte Regressionsgerade dar. sind die linearen Schätzwerte für gegebene X. Die Gleichungsparameter b1 und b0 werden durch das Schätzverfahren ermittelt. Schauen wir zur Erläuterung auf ein Beispiel aus dem Marketing. Ein Vertriebsleiter wundert sich, dass der Abverkauf seiner ZahncremeTuben über verschiedene Filialen in seiner Region ziemlich schwankt. Er hat sich für die Analyse seiner Region nachfolgende Verteilung zusammengestellt (Abbildung 6.19).
Abbildung 6.19: Verteilungshistogramm von verkauften Zahncreme-Tuben pro Monat
Das Histogramm rundet die Abverkäufe auf Zehnergruppen und zeigt, wie viele Filialen der Region welche Volumenabverkäufe hatten. Man sieht auf der x-Achse, dass es zwei Filialen in seiner Region gibt, da werden 30 Tuben pro Monat verkauft (ganz linker Balken), und es gibt drei Filialen mit jeweils 100 Tuben (ganz rechter Balken) und viele Werte dazwischen. Der Mittelwert des Abverkaufs in seiner Region liegt bei circa 60 Tuben pro Monat pro Filiale. Er fragt sich, woher die Schwankungen kommen. Und er hat – da er Fachmann ist (also Weltwissen besitzt) – eine Idee. Sicher liegt es am Verkaufspreis? Um diese Hypothese zu verifizieren, erzeugt er ein Scatterplot, also eine Punktwolke Y-über-X, Abbildung 6.20. Dargestellt ist der monatliche
Abverkauf der Zahncreme-Tuben auf der y-Achse in Abhängigkeit vom Verkaufspreis in Euro auf der x-Achse. Sie sehen, das Bauchgefühl des Filialleiters hat ihn nicht in die Irre geführt. Man erkennt folgende Regel: Je teurer die Zahncreme ist, desto weniger wird im Laden verkauft. Der Zusammenhang ist so eindeutig, dass man ihn mit dem einfachen linearen Modell der Form modellieren kann. Der Verkaufsleiter hat damit sein Modell formuliert und kommt zum Punkt 2, der Schätzung der Koeffizienten.
Abbildung 6.20: Der Abverkauf der Zahncreme (y-Achse) hängt vom Preis (x-Achse) ab.
Mathematikbox 4 zu Statistik: Regressionsanalyse Formulierung einer mathematischen Modellfunktion Modelltypus
Modellform für Y = f(X)
Lineare Modelle Potenzmodelle e-Log-Modelle Inverse Modelle
Exponentialmodelle Logistische Modelle
Auch hier gilt wieder: Große Buchstaben bedeuten, dass es sich um eine Variable handelt, die mehrere Ausprägungen zusammenfasst, also X = (x1, x2, x3, …) und Y = (y1, y2, y3, …). Variablen mit einem Dach, wie , sind die durch die Regressionsformel geschätzten Werte (also keine Messwerte).
In der obigen Box sind wichtige Modellfunktionen für die Regressionsschätzung angegeben. Man verwendet das lineare Modell, wenn man Vorkenntnisse darüber hat, dass der Zusammenhang zwischen Y und X als linearer Zusammenhang geschätzt werden kann, man also annimmt, dass in erster Näherung gilt. (Für eine konkrete Ausprägung k gilt dann: .) Y ist wieder die abhängige Variable, X die unabhängige, b0 und b1 sind die Regressionsparameter, deren Wert man basierend auf den Daten schätzt. E beinhaltet die sogenannten Fehlerresiduen, E = (e1, e2, e3, …), also den Abstand zwischen dem wahren Wert (dem wirklichen
Datenpunkt) und dem Schätzwert auf der Regressionsgraden an der Stelle k, das heißt . Für die Regressionsgerade gilt dann der einfache lineare Zusammenhang .
Schätzung des Regressionskoeffizienten Im Schritt 2 werden die Regressionskoeffizienten geschätzt. Ein Verfahren soll die Parameter b0 und b1 so ermitteln, dass die Summe der Fehlerquadrate ek2 minimal wird (am liebsten null), das heißt, dass der Schätzwert auf der zu ermittelnden Geraden und der wahre Wert Y möglichst gleich sind. Damit ist die Aufgabe so präzisiert, dass ein mathematischer Algorithmus das lösen kann.
Die Variable K über dem Summenzeichen steht für die gesamte Anzahl der Beobachtungen (Datenbeispiele), k sei die Laufvariable, yk und xk seien die wahren Werte an der Stelle k (beispielsweise die Zahlenwerte aus einer Excel-Tabelle). Die Minimierung der quadrierten Residuen wird durch die Methode der kleinsten Fehlerquadrate realisiert und hat nachfolgende allgemeine Lösung für b0 und b1:
Zuerst berechnet man b1, dann bestimmt man b0 aus b1 und den Mittelwerten der Verteilungen von X und Y. Für diese Berechnungen benötigt der Computer wenige Sekunden an Laufzeit. Die Regressionskoeffizienten werden durch den Algorithmus so angepasst, dass der Fehler zwischen den Schätzwerten des Modells und den wahren Werten Y (also den realen Datenpunkten) minimal wird.
In Abbildung 6.21 sind die wahren Werte Y die grauen Quadrate, die Schätzwerte die Werte auf der Geraden und y die dazugehörige Geradengleichung, im Beispiel generiert von Excel. Das Ergebnis im Beispiel zeigt einen starken negativen Zusammenhang. Kleine Änderungen am Preis führen zu größeren Änderungen am Abverkauf. Das war intuitiv auch zu erwarten, denn je teurer ein Produkt ist, desto weniger wird von diesem Produkt verkauft. Die abschließende Frage ist, wie gut das Modell unsere Erwartungen erfüllt. Wir müssen die Ergebnisse also mathematisch überprüfen, denn es kann in manchen Fällen sein, dass wir mit der Modellannahme, im Beispiel dem linearen Modell, danebenliegen.
Abbildung 6.21: Ein lineares Modell für den Zusammenhang Abverkauf und Preis
Prüfung der Regressionsfunktion mit dem Bestimmtheitsmaß
Zur Prüfung benutzt man wie bereits erwähnt das Bestimmtheitsmaß R2. Wenn dieser Wert mit 100 Prozent multipliziert wird, kann man erkennen, wie viel Prozent der Schwankung des Abverkaufs alleine mithilfe des Preises erklärt werden kann. Im Beispiel oben sind es immerhin 78 Prozent (R2 = 0,78). Das ist ein ziemlich hoher Wert. Der Marketingleiter hatte also einen guten Riecher. In Abbildung 6.22 sind für das Verständnis nochmals zwei andere Schätzungen und ihre Bestimmtheitsmaße angegeben, um auch ein Problem zu verdeutlichen.
Abbildung 6.22: Zwei Bestimmtheitsmaße für eine schlechte (links) und eine gute lineare Schätzung (rechts)
Es zeigt sich, dass es selbst bei einfachen funktionalen Zusammenhängen zu Schätzungen kommen kann, die ein R2 von 0 haben, was eigentlich nicht intuitiv ist, denn schließlich hängen im linken Beispiel der Abbildung 6.22 die Variablen Y und X funktional zusammen. Der Grund: Es wurde von falsche Modelltyp zur Schätzung ausgewählt. Wenn man einen quadratischen Zusammenhang vermutet, sollte man kein lineares Modell zur Schätzung heranziehen (linkes Bild). Nur wenn man einen linearen Zusammenhang vermutet, wählt man auch ein lineares Modell aus (rechtes Bild).
Mathematikbox 5 zu Statistik: Bestimmtheitsmaß Mit der Prüfung der Schätzfunktion testen wir, ob der unterstellte Zusammenhang eine befriedigende Erklärung für die Stichprobenwerte (und die Grundgesamtheit) liefert. Dabei gibt es mehrere Einzeluntersuchungen, zum Beispiel Prüfung der Funktion als Ganzes oder Prüfung der einzelnen Regressionskoeffizienten, auf die in diesem Zusammenhang nicht eingegangen werden kann. Die wichtigste Prüffunktion soll allerdings kurz erläutert werden: Die bekannteste Maßzahl zur Beurteilung der Güte der Schätzung ist das Bestimmtheitsmaß. Mit diesem Bestimmtheitsmaß kann beurteilt werden, wie gut sich die Regressionsfunktion an die realen Werte angepasst hat, oder mit anderen Worten, wie viel Streuung in den Daten durch die Regressionsfunktion erklärt werden kann. Der Ansatz für das Bestimmtheitsmaß besteht darin, dass man die Gesamtstreuung um den Mittelwert aus erklärter Streuung um den Mittelwert durch die Schätzung k und die tatsächlichen Residuen (Streuungen um die Schätzung) zusammensetzt:
Erklärte Streuung (erklärte Abweichung) bedeutet, dass dieser Teil der Streuungen (Abweichungen) der Variablen Y (mit ihren wahren Ausprägungen y1, y2, y3, …) um deren Mittelwert durch das Modell erklärbar ist. Im Gegensatz dazu sind Streuungen (Abweichungen) der Residuen e zufällige, also (mit dem Modell) nicht erklärbare Streuungen (Abweichungen). In mathematischer Notation bedeutet dies:
Das Bestimmtheitsmaß lässt sich dann wie folgt berechnen.
Zum besseren Verständnis sollen beide Extremwerte für R2 diskutiert werden:
Aus der obigen Formel ist erkennbar, dass R2 genau dann 1 wird, wenn k gleich ist. Dieser Fall wird wahrscheinlich nie eintreten, denn dies würde bedeuten, dass tatsächlich alle wahren Werte auf der Regressionsgeraden liegen. Für Daten aus der Praxis ist das kaum zu erwarten.
Ein Bestimmtheitsmaß von 0 erhält man, wenn man mit der Regressionsgeraden immer den Mittelwert der Gesamtstreuung schätzt, also eine Regressionsgerade parallel zur x-Achse erzeugt hat. Diese Art der Schätzung verwendet man in der univariaten Statistik, wo man für die Verteilung (hier Gesamtstreuung) den Mittelwert als charakteristische Größe dieser Verteilung verwendet. Im Falle einer Regressionsfunktion ist das nicht sinnvoll. Sagt man mit der Regressionsfunktion also immer nur den Mittelwert der Verteilung voraus, hat man die Aufgabe völlig verfehlt. Indiz dafür ist R2 = 0. Das Bestimmtheitsmaß R2 lässt sich nach oben genannter Formel oder alternativ durch das Quadrat der Korrelation r zwischen den wahren Werten und den geschätzten Werten k bestimmen: r bezeichnet man deshalb auch als multiplen Korrelationskoeffizienten. Für r = 1 müssten die wahren und geschätzten Werte identisch aufeinanderliegen oder zumindest einen identischen Formenverlauf haben, da gerade Letzteres durch die Korrelationsanalyse geprüft wird. Das Bestimmtheitsmaß ist ein einfaches, aber wichtiges Gütemaß für Regressionsschätzungen.
Man wird in der Praxis auch andere Modelltypen zur Schätzung Y = f(X) ausprobieren, siehe Abbildung 6.23. Wenn man die Punktwolke des Abverkaufs mit einer nichtlinearen Regression schätzt, wird das Ergebnis oft – aber nicht immer – besser. Im vorliegenden Fall steigt das Bestimmtheitsmaß R2 auf 0,87. Das heißt, über 87 Prozent der gesamten Varianz des Abverkaufs kann alleine durch den Preis erklärt werden. Das ist natürlich fantastisch! Die nichtlineare Regressionsschätzung hat noch etwas Wichtiges gefunden. Achten Sie auf den Knick in der Polynomlinie (siehe Pfeil in Abbildung 6.23). Dort ist eine sogenannte Preisschwelle. Das Ziel jedes Verkäufers ist es, den Preis seines Produkts immer weiter in die Höhe zu treiben, dadurch vergrößert er seinen Gewinn. Aber erhöht er den Preis zu hoch, dann verringert sich der Abverkauf oftmals sehr stark nichtlinear, er bricht manchmal regelrecht ein. Einen Preis, bei dem das passiert, nennt man Preisschwelle. Die Schwelle liegt in unserem
Beispiel bei circa 4,50 Euro. Macht der Marketingleiter die Creme noch teurer, dann verkauft er signifikant weniger. (Bei 6 Euro verkauft er gar nichts mehr.) Wenn die Creme billig ist, sagen wir 99 Cent, dann wird zwar viel verkauft (sogar mehr als doppelt so viel), aber vielleicht liegen die Gestehungskosten des Produkts bei 1,30 Euro und die Firma macht bei 99 Cent Verlust. Das Ergebnis der Auswertung: Der Preis pro Packung wird zukünftig auf einen Wert zwischen 3,99 Euro und 4,49 Euro festgelegt.
Abbildung 6.23: Schätzung des Abverkaufs mit Polynom 4. Ordnung
Natürlich gibt es auch andere Faktoren, die den Abverkauf beeinflussen, zum Beispiel die Ladengröße und die Lage der Filialen. Auch diese Einflussgrößen können mit in das Modell aufgenommen werden und so können Bestimmtheitsmaße von über 95 Prozent entstehen. Aber für uns reicht diese Schätzung, wir müssen nichts verkaufen.
Mir ist wichtig, dass Sie einmal »zugesehen« haben, wie eine induktive KI arbeitet. Denn oft hat die KI tatsächlich die Aufgabe, Daten von riesigen Datenbanken zu durchforsten, um eben zum Beispiel für jedes Produkt den optimalen Preis zu finden. Da die KI das wesentlicher schneller macht als wir hier »zu Fuß«, können Sie sich vorstellen, welches Wissen über unser Verkaufsverhalten in den Unternehmen aufgebaut wird. Die induktive KI kann nahezu »unendlich« viel Wissen generieren! Wie Sie wissen, aber alles nur mit Wahrscheinlichkeiten. Vergisst man das und setzt eine induktive KI zum Beispiel zur Steuerung eines Kernkraftwerks ein, kann es problematisch werden. Diese Gefahr existiert im Bereich Banken, Verkauf oder Marketing nicht so sehr und hier wird die KI auch sehr erfolgreich genutzt. Man generiert eine Menge Wissen und – das ist der Clou –, wenn es mal falsch wird, dann ist es auch nicht so schlimm – mal ganz übertrieben ausgedrückt. Ich werde in Kapitel 17, wenn es um Facebook & Co. geht, nochmals darauf zurückkommen. Aber selbst in der Industrie gibt es eine Unmenge von Anwendungsfällen, bei denen Fehler akzeptiert werden können. Schauen wir abschließend auf einige typische Anwendungen der Modellbildung aus der Praxis (Tabelle 6.5). Fragestellung
Bemerkungen und Beispiele
Hängt die Höhe des Umsatzes von der Zahl der Vertreterbesuche ab?
Zielgröße: UmsatzEingangsgrößen: Anzahl Vertreterbesuche
Wie groß ist die Bonität des kreditsuchenden Kunden?
Zielgröße: Bonitäts-ScoreEingangsgrößen: Alter, Geschlecht, Kinderanzahl, Einkommen, …
Von welchen Einflussgrößen Zielgröße: AlarmmeldungenEingangsgrößen: hängen die Störungen der Rohstoffdaten, Maschinenparameter, Anlage ab? Umgebungsparameter während der Produktion Wie wird die Viskosität nach Zielgröße: ViskositätEingangsgrößen: Rohstoffdaten, dem Batch-Lauf sein? Maschinenparameter, Umgebungsparameter während der Produktion Welche Fahreigenschaften wird der Reifen auf nasser Fahrbahn haben?
Zielgröße: BremsverhaltenEingangsgrößen: Rohstoffdaten, Mischungsparameter, Umgebungsparameter während Produktion
Fragestellung
Bemerkungen und Beispiele
Wie groß werden die morgigen Emissionswerte sein?
Zielgröße: Stickoxide eines KraftwerksEingangsgrößen: Wochentag, Maschinenparameter, Umgebungsparameter während der Produktion
Tabelle 6.5: Praxisanwendungen für multivariate Regressionsanalysen
Statistische Verfahren zum Auffinden von Strukturen Während im vorhergehenden Abschnitt die Verfahren zur Untersuchung von Zusammenhängen behandelt wurden, dienen die nun folgenden Verfahren der Strukturanalyse von Daten. Strukturen sind Gruppen (Cluster) oder Segmente von Daten, die eine gewisse Anzahl von (ähnlichen) Objekten beinhalten und untereinander in einer Beziehung stehen. Betrachten wir dazu in Tabelle 6.6 eine Datentabelle mit n · m Datenfeldern. Merkmal 1 Merkmal 2 Merkmal 3 … Zielgröße n Objekt 1 blau
13,56
tief
10,5
Objekt 2 rot
3,89
mittel
4,8
…
3,45
hoch
5,2
Objekt m rot
Tabelle 6.6: Eine für Data Mining geeignete Datentabelle zur Struktursuche durch zeilenweise Analysen
Bei den Verfahren zur Strukturerkennung sollen die Beziehungen zwischen den Zeilen dieser Matrix, das heißt zwischen den Objekten, analysiert werden. Die grundlegende Idee des Clusterns (der Gruppensuche) besteht darin, die Beziehungen zwischen Objekten über geeignete Distanzmaße (oder Ähnlichkeitsmaße) zu quantifizieren und die Objekte mit niedrigem Distanzmaß in eine gemeinsame Gruppe einzuordnen. Das heißt, Objekte mit einer geringen Distanz (zum
Beispiel Objekt 2 und Objekt m in obiger Tabelle) werden einer Gruppe A zugeordnet, Objekte mit einer großen Distanz zu Objekt 2 und m einer anderen Gruppe B. In Abbildung 6.24 ist ein fiktiver Datensatz aus 28 Daten (Objekten) mit jeweils drei Merkmalen in drei Dimensionen dargestellt. Die Daten sind im Beispiel so im Raum verteilt, dass man drei Clustergruppen mit bloßem Auge erkennen kann. Mit dem Kreuz ist das jeweilige Zentrum eines Clusters dargestellt. Jedes der 28 Objekte wurde in ein Cluster eingeordnet, und jedes Cluster könnte für den Anwender des Clusterverfahrens eine bestimmte inhaltliche Bedeutung besitzen. Cluster 1 könnte Studenten repräsentieren, Cluster 2 IT-Spezialisten und Cluster 3 könnte eine Gruppe von Rentnern darstellen.
Abbildung 6.24: Ein Datensatz aus drei Merkmalen angeordnet in drei Clustern
Natürlich kann man das Clustering hier mit bloßem Auge durchführen. Hat man aber mehr als drei Merkmale, so kann man die Daten nicht mehr visualisieren, denn jedes Merkmal wird im Datenraum auf einer Dimension »aufgespannt«, wie der Fachmann sagt, und vierdimensionale Räume können wir uns nicht mehr ansehen. Da hilft
dann wirklich nur noch Clustern, da der Cluster-Mathematik die Dimensionalität des Problems fast egal ist. Das berühmteste Clusterverfahren ist k-Means-Clustern. Der Begriff kMeans steht für k-Mittelwerte, da durch das Verfahren die Mittelwerte von k Gruppen in einer Datenverteilung bestimmt werden sollen. Im folgenden Abschnitt möchte ich jedoch ein Clusterverfahren vorstellen, das man der Künstlichen Intelligenz zuordnet, weil es etwas smarter ist als das normale k-Means. Ein leicht adaptiertes k-Means-Verfahren wird in Kapitel 8, im Abschnitt »Competitive Networks« näher erklärt, da die dort genutzten neuronalen Netze eine technische Implementierungsvariante von k-Means darstellen.
Fuzzy-Clusterverfahren Ein Cluster ist ein zusammengehöriges Gebiet in einem Raum. Dieses Gebiet kann kugelförmig, sattelförmig oder von beliebiger Gestalt sein. Die Bundesrepublik Deutschland ist solch ein Cluster im Raum der geografischen Karten Europas. Aber bleiben wir abstrakt, denn in einem Datenraum gibt es nur Datenpunkte. Man sagt oft auch Datenwolke, wenn die Datenpunkte zusammengehörige Gebiete darstellen. Stellen Sie sich nun vor, in einem Raum gäbe es drei Datenwolken, die sich eventuell teilweise überlappen. Beim Clusterverfahren sucht man die Mittelpunkte jeder der drei Wolken und anstatt Mittelpunkte kann man sie auch Schwerpunkte nennen. Um den Begriff Schwerpunkt intuitiv zu verstehen, denkt man an einen (eckigen) Körper im Raum und fragt, an welchem Punkt müsste man die Figur befestigen, damit sie im Gleichgewicht schweben würde. Ein solcher Eckenschwerpunkt ist das arithmetische Mittel seiner Koordinaten. Nehmen Sie ein Dreieck mit den Zentimeter-Koordinaten A(0,0), B(2,0) und C(3,2). Der Eckenschwerpunkt des Dreieckes ist dann sx= (0 + 2 + 3) / 3 = 1,67 und sy = (0 + 0 +2) / 3 = 0,67, also S(1,67; 0,67). Man kann das ausprobieren und ein Dreieck mit dieser Abmessung basteln. Am Schwerpunkt S(1,67; 0,67) kann man das Dreieck auf einen Nagel piksen und es wird in Balance schweben. Einen solchen Schwerpunkt kann man verallgemeinern. Gehen wir von einem kugelförmigen Gebiet aus, dann ist das Clusterzentrum der Mittelpunkt
der Kugel, bei einer kreisförmigen Datenwolke die Kreismitte und bei einer beliebigen Verteilung der Datenpunkte eben der Datenschwerpunkt. Um den Nutzen von Clusterverfahren zu verstehen, möchte ich nochmals ein Beispiel bemühen: Angenommen, Sie wollen einen Kredit. Dann gehen Sie zu Ihrer Hausbank. Dort müssen Sie 20 bis 30 Fragen beantworten, und ein Computer entscheidet innerhalb weniger Sekunden, ob und zu welchen Konditionen Sie den Kredit bekommen können. Wie hat der das gemacht? Ganz einfach. Die Bank hatte bereits vorher auf Grundlage ihrer vorhandenen, millionenfachen Kundendaten, sagen wir 25 Kundengruppen – oder in Informatikdeutsch 25 Kundencluster – ermittelt. Durch Abfrage Ihrer Merkmale sind Sie nun zu einem ganz normalen Datensatz bei Ihrer Bank mutiert. Ja, Sie sind jetzt nur noch ein einfacher Datenpunkt im riesigen Datenraum Ihrer Hausbank. Nun kann der Computer Sie einem seiner 25 bekannten Cluster zuordnen, dazu benötigt er nicht einmal eine Sekunde. Und gehören Sie (zufällig) zum Cluster »Studenten«, bekommen Sie den Kredit eben zu den Konditionen, die die Hausbank vorab für Studenten festgelegt hat. In mathematischer Fachsprache: Will man wissen, ob ein Datenpunkt Xj zu einem bestimmten Cluster Gi gehört, berechnet man, wie weit der Datenpunkt Xj von allen Clusterschwerpunkten entfernt ist, und schlägt ihn dann demjenigen Cluster zu, dessen Clusterschwerpunkt am nächsten zu Xj liegt. In Abbildung 6.25 wird der Datenpunkt Xj dem Cluster G2 zugeordnet, weil er näher am Schwerpunkt von G2 liegt. Die Zuordnung zu einem Cluster ist also einfach. Wie findet man aber die Clusterzentren in den Datenwolken? Dafür gibt es verschiedene Verfahren. Beim klassischen k-Means-Clustern wird festgelegt, wie viele Cluster man in den Daten auffinden will. Dann wird der Datenraum durch die Clusterzentren so aufgeteilt, dass die Summe der quadrierten Abstände der Datenpunkte zu ihren Clusterzentren minimal wird. Dazu werden die Clusterzentren bei jedem neuen Rechenvorgang im Raum so
lange verschoben, bis eine optimale Clusterlage gefunden wurde. Dieser Vorgang ist leicht verständlich, denn man verschiebt die Clusterzentren sozusagen Schritt für Schritt in die Datenwolken hinein, bis das Abstandsmaß zwischen den einzelnen Datenpunkten und den ihnen zugeteilten Zentren minimal wird. Problematisch bei diesen einfachen Verfahren ist, dass man vorab angeben muss, wie viele Cluster der Datensatz überhaupt hat. Das weiß man in der Regel gar nicht. Aber das ist nicht das einzige Problem. Das Fuzzy-Clusterverfahren ist eine Erweiterung des k-Means. Fuzzy bedeutet unscharf, also die unscharfe Einordnung einer Situation: »Etwas ist mehr oder weniger kalt, warm oder heiß.« Genau so spricht ein Mensch. Mathematische Fuzzy-Verfahren können nun mit diesen umgangssprachlichen, weichen Zugehörigkeiten problemlos umgehen, da sie eine entscheidende Erweiterung der Mengentheorie durch eine »unscharfe Logik« als Grundlage haben. In der klassischen Mengenlehre gehört etwas zu einer Menge oder nicht. In der Mengenlehre, auf der der Fuzzy-Ansatz basiert, kann ein Objekt zu einem gewissen Anteil sowohl zu der einen als auch zu einer anderen Menge gehören. Diese Eigenschaften macht sich das Fuzzy-k-Means-Verfahren zunutze, indem es ein Objekt nicht nur dem einen oder anderen Cluster zuordnet, sondern eventuell beiden anteilig. Für das Beispiel aus Abbildung 6.25 könnte gelten: Das Merkmal Xj gehöre zu 30 Prozent zur Gruppe G1 und mit 70 Prozent zur Gruppe G2. Aufbauend auf diesem Ansatz kann das klassische k-Means zum Fuzzy-Clustern modifiziert werden.
Abbildung 6.25: Zugehörigkeit eines Datensatzes beim Fuzzy-Clustern
Im Clusterverfahren wird im Raum der Daten zufällig eine bestimmte Anzahl von Clusterzentren verteilt (Schritt 1). Jetzt fragen wir uns, welches Datenobjekt Xj sich mit welcher Zugehörigkeit zu welchem Cluster befindet. Je näher der Datenpunkt Xj an einem Clusterzentrum liegt, desto größer sei seine Zugehörigkeit. Nachdem man diese Zugehörigkeit bestimmt hat, merkt man sich die Abstände der Daten Xj zu ihren gerade festgestellten Clusterschwerpunkten Gi. Was ist der Master-Plan? Natürlich sollen alle Daten Xj sehr nahe an ihren ausgewählten Clusterzentren liegen. Das ist beim ersten Durchlauf mit Sicherheit nicht der Fall. Die Lage der Clusterzentren, die zu Beginn zufällig verteilt waren, werden jetzt derart verändert, dass sie visuell gesprochen in die Datenwolke »hineingeschoben« werden, in der die Daten liegen, die die größte Zugehörigkeit zu diesem Cluster bereits haben (Schritt 2). Dann werden die neuen Zugehörigkeiten aller Objekte zu den neuen Clustern ermittelt, da die Clusterzentren schließlich gerade
im Raum verschoben wurden. Danach geht man wieder zu Schritt 2 und wiederholt alles so lange, bis man das Minimum über die Summe aller Abstände zwischen den Datenpunkten und ihren zugeordneten Clusterschwerpunkten gefunden hat. In der Mathematikbox »Das FuzzyClustern« sind die mathematischen Details erklärt.
Das Fuzzy-Clustern im mathematischen Detail Schritt 1 Vorgabe der Clusteranzahl g und Bestimmung der Zugehörigkeiten ijμ des j-ten Objekts Xj zum i-ten Cluster Ci im Rahmen der Initialisierung. Xj besteht aus den Koordinaten (xj1, xj2, xj3,…). Die Zugehörigkeiten sind Werte aus dem Intervall [0,1]. ijμ -Werte nahe 0 bedeuten geringe Zugehörigkeit, ijμ -Werte nahe 1 bedeuten hohe Zugehörigkeit von Xj zum i-ten Cluster. Schritt 2 Berechnung der neuen Clusterschwerpunkte aus den vorgegebenen Zugehörigkeiten ijμ nach:
J sei die Anzahl der Objekte. Die Variable m gibt den Grad der »Fuzzyfizierung« der Resultate an, wobei für scharfe Clusterergebnisse erreicht werden und für alle Objekte allen Clustern gleichzeitig angehören. In der Praxis wählt man für m Werte zwischen 1 und 3. Schritt 3 Ausgehend von den neuen Clusterzentren werden die neuen Zugehörigkeiten ermittelt.
Dabei ist dij der (euklidische) Abstand des Objekts Xj zum jeweiligen Clusterzentrum des Clusters i. Da bei dem Fuzzy-Verfahren die Objekte mehrere Zugehörigkeiten zwischen 0 und 1 haben können, muss sichergestellt werden, dass die Summe der Zugehörigkeit eines Objekts über alle Cluster genau eins ist. Gehe zu Schritt 2 und beginne neu. Dieses Verfahren liefert neben der Lage der berechneten Clusterzentren die Zugehörigkeit jedes Objekts zu den einzelnen Clustern. Damit kann man sich ein ungefähres »Bild« von der Lage jedes Objekts zu den Clustern machen.
Mit diesem Strukturierungsprinzip kann man Ähnlichkeiten zwischen Objekten finden und sie zur Gruppierung nutzen, denn nach erfolgreichem Abschluss eines solchen Clusterverfahrens liegen die Clusterschwerpunkte in der Mitte der einzelnen »Datenwolken« und repräsentieren letztlich eine Gruppe (eine Substruktur). Diese Datengruppe muss man im Anschluss »nur noch« semantisch verstehen, was aber möglich ist, wenn man ausgewählte Repräsentanten der Gruppe identifiziert, die man semantisch bereits verstanden hat. Denn man darf davon ausgehen, dass Mitglieder einer Gruppe (Substruktur) ähnliches Verhalten besitzen. Um das noch offene Problem der Festlegung der Anzahl von Clustern zu Beginn des Verfahrens zu beseitigen, gibt es leistungsfähige Alternativen, eine davon – die selbstorganisierenden Merkmalskarten – wird in Kapitel 8 noch vorgestellt.
Zusammenfassung Kapitel 6 war ein sehr mathematisches Kapitel. Es ging darum, Grundlagen des maschinellen Lernens aufzuzeigen, da maschinelles Lernen den Großteil der heutigen KI-Anwendungen ausmacht. Und da diese Verfahren auf Statistik aufbauen, war ein Schwerpunkt die
Statistik. Mittels multivariater Statistik kann man Zusammenhänge und Strukturen in Daten entdecken und validieren. Statistische Verfahren sind hervorragende Methoden, um Wissen aus Daten zu gewinnen, wohl wissend, dass dieses Wissen noch deduktiv abgesichert werden muss. Künstliche Intelligenz bedeutet natürlich viel mehr, als nur Statistik zu betreiben. Im folgenden Kapitel wollen wir uns ansehen, wie ein Computer richtige Expertenregeln finden kann, Regeln, die jeder Mensch sofort versteht. Danach werden wir uns mit neuronalen Netzen und Deep Learning beschäftigen.
Kapitel 7
Kaum zu glauben – Die Maschine lernt richtige Regeln IN DIESEM KAPITEL Das Lernen von Regeln Assoziationsregeln und Entscheidungsbäume Gütemaße von Regeln
Die Regelgenerierungen gehören zu den wichtigen KI-Verfahren des maschinellen Lernens. Es ist klar, dass gerade die Regelfindung dazu dient, Strukturen und Zusammenhänge in Daten zu entdecken, da bei der Regelextraktion explizite Wenn-Dann-Regeln entstehen, Erkenntnisse also, die jeder Laie ohne Umschweife weiterverwenden kann. Die Regelfindung hat seit Jahrzehnten zahlreiche Anwendungen im Banken- und Versicherungsbereich gefunden. In der Industrie liegt ihre Nutzung ebenfalls auf der Hand, da auch Ingenieure das Denken in Wenn-Dann-Kategorien täglich praktizieren. Es gibt eine Menge Regelgenerierungs-Verfahren, so zum Beispiel: Bayes'sche Netze Entscheidungsbäume Assoziationsregeln Regressionsbäume Fuzzy-Regeln. Obwohl die Bayes'schen Netze sehr wichtig sind, da sie mit bedingten Wahrscheinlichkeiten arbeiten und ein sehr gutes Instrumentarium für Diagnosen (im medizinischen und/oder technischen Umfeld) bieten, muss ich sie hier aus Platzgründen weglassen; der interessierte Leser sei zum
Beispiel auf [Otte 2020] verwiesen. Auch Regressionsbäume und FuzzyRegeln werden im Weiteren nicht ausgeführt, auch hier sei auf Spezialliteratur verwiesen, zum Beispiel [Michels 2002].
Entscheidungsbäume Im Teil I haben wir uns mit verschiedenen Logiken beschäftigt, wie Aussagenlogik und Prädikatenlogik. Wir haben das deshalb gemacht, weil das Anwenden von Regeln eines der wichtigsten Verfahren der KI ist. Im Falle der datengetriebenen KI geht es jedoch nicht um das deduktive Anwenden der Regeln, sondern um das induktive Erzeugen von Regeln aus vorliegenden Datenbeständen. In der Aussagenlogik sind Regeln »wahr« oder »falsch«. In der datengetriebenen KI sind Regeln jedoch »signifikant« oder »interessant«, (objektiv) wahr oder falsch sind sie dagegen nicht. Es gibt sehr viele verschiedene Methoden zur Generierung von Regeln, wir wollen nur den klassischen Entscheidungsbaum und die Assoziationsregeln herausgreifen. Während viele deduktive Ansätze, wie zum Beispiel Expertensysteme, in der Praxis an der großen Komplexität und den hohen Aufwänden für das Engineering der Regelbasis gescheitert sind, haben sich selbsterzeugende Entscheidungsbäume in nahezu jedem möglichen Anwendungsbereich ausgebreitet. Das Ableiten von Regeln aus Daten ist im Sinne einer automatischen Wissensgenerierung auch eine der wichtigsten Aufgaben eines KI-Anwenders. Die Anwendung von Entscheidungsbäumen bleibt allerdings stets auf bestimmte Problemklassen beschränkt. So würde man eine Prognose von Prozesswerten nicht mit Entscheidungsbäumen durchführen, sondern eher mit neuronalen Netzen. Das klassische Data Mining (man sagt heute auch Data Science) wird von Laien, vielfach aber sogar von Experten, mit den Verfahren der Entscheidungsbäume gleichgesetzt.
Entscheidungsbaum basierend auf Maximierung des Informationsgewinns Es gibt sehr viele verschiedene Entscheidungsbaumverfahren. Ich möchte mich bei der folgenden Erläuterung auf ein sehr einfaches Verfahren beschränken, nämlich einen Entscheidungsbaum nach der Methode der
Maximierung des Informationsgewinns. Auf dieser Methode basiert zum Beispiel das sogenannte ID3-Verfahren. Für industrielle Anwendungen besonders relevant sind der C4.5- und C5.0-Algorithmus, die ihre Bäume auch nach dem Informationsgewinn entwickeln. Die Implementierungen unterscheiden sich hinsichtlich ihrer verarbeitbaren Datentypen (nominal, metrisch), ihrer Fehlertoleranz gegenüber missing values in den Datensätzen, ihrer Strategien zum Beschneiden der Bäume, ihrem Laufzeitverhalten und ihrer Klassifikationsgüte. Weitere wichtige Baumverfahren sind CART und CHAID, auf die hier aber nicht weiter eingegangen wird. In früheren Kapiteln wurde der Begriff der Information eingeführt, nun wollen wir ihn nutzen, um die Arbeitsweise von Entscheidungsbaumverfahren zu untersuchen. Nach Kapitel 4 war die Informationsmenge nach Shannon ein »Maß für beseitigte Unsicherheit«. Man kann die Informationsmenge auch Informationsbedarf nennen (um Informationsunsicherheit zu beseitigen), viele Autoren nennen sie auch Entropie, einfach weil die Formeln der Entropieberechnung und die zur Informationsmengenberechnung so gut wie gleich sind. Lassen Sie sich durch die vielen Begrifflichkeiten nicht irritieren. Vereinfacht setzen sie die Entropie mit Informationsunsicherheit gleich. Hohe Entropie (»alles ist in Unordnung«) bedeutet dann hohe Informationsunsicherheit und niedrige Entropie (»alles ist wohlgeordnet«) bedeutet eben niedrige Informationsunsicherheit. Bisher hatten wir bei der Erläuterung des Informationsbedarfs angenommen, dass eine Verteilung vorliegt, innerhalb derer eine Entscheidung getroffen werden soll. Der Informationsbedarf H in Bit sagte aus, wie viele Ja-NeinFragen man stellen muss, um in einer vorgegebenen Verteilung einen konkreten Wert zu ermitteln. (Ein Bit entspricht der Beantwortung einer JaNein-Frage.) Ist beispielsweise eine Gleichverteilung X mit 100 natürlichen Zahlen gegeben, hat man einen Informationsbedarf von das heißt 6,64 Bit. Es müssen also sieben Ja-Nein-Fragen gestellt werden, um unter den 100 Zahlen eine richtige auszuwählen. Wie groß ist die Entropie dieser Verteilung? Zur Berechnung setzen wir die Anzahl der Ausprägungsmöglichkeiten als Basis für den Logarithmus.
Wie ausgeführt, bedeutet Entropie in der Informationstheorie Unsicherheit bzw. Mangel an Kenntnissen über irgendetwas, im Beispiel über die Menge der Daten. Eine Entropie von 1 bedeutet maximale Unsicherheit. Man hat keinerlei Vorab-Informationen, welche Zahl aus der Menge gezogen werden wird. Sind jedoch zwei Verteilungen Y und X gegeben, die in irgendeiner Weise voneinander abhängen, so könnte sich alleine durch die Kenntnis einer Verteilung auch die Entropie für die andere Verteilung verringern. Betrachten wir einen solchen Fall. Die Entropie (Informationsunsicherheit) der Klassenverteilung in Y sei mit HY bezeichnet, die Entropie der Klassenverteilung in X mit HX. Da Y im Beispiel nur eine binäre Ausprägung (gut, schlecht) besitzen soll, steht HY erneut für die Anzahl der notwendigen Ja-Nein-Fragen, um in Y einen Wert zu bestimmen. Als Informationsgewinn (information gain) Igain(Y,X) bezeichnet man die Unsicherheitsminderung durch Reduktion der ursprünglichen Unsicherheit ohne Kenntnis von X (also HY) durch die Rest-Unsicherheit über Y bei Kenntnis von X (also HY|X).
Der bedingte Informationsgehalt (die »restliche« Informationsunsicherheit unter der Bedingung der Kenntnis von X) HY|X ist also die zu erwartende Anzahl von Ja-Nein-Fragen, die nach Bekanntwerden der Werte in X immer noch notwendig sind, um einen Wert in Y zu bestimmen. Könnte man mit den Werten von X die Werte von Y vollständig erklären, wäre die noch »restliche« Unsicherheit HY|X null und der Informationsgewinn Igain maximal, nämlich HY selbst. Wären beide Verteilungen X und Y unabhängig voneinander, würde die Kenntnis von X keinen Informationsgewinn bei der Bestimmung von Y ergeben (Igain wäre null), denn die bedingte Informationsunsicherheit HY|X wäre gleich HY. Der bedingte Informationsgewinn sagt damit aus, welche zusätzlichen Informationen man erhalten wird, wenn zu der gegebenen Verteilung einer Zielgröße Y eine weitere Verteilung einer Einflussgröße X hinzugezogen wird. Der Informationsgewinn ist daher ein Maß dafür, inwieweit sich die Verteilung einer Zielgröße Y durch die Verteilung einer Einflussgröße X erklären lässt.
Diese Überlegung ziehen wir nun zur Erklärung der Arbeitsweise von Entscheidungsbäumen heran. Entscheidungsbäume werden nach dem Topdown-Ansatz entwickelt. Ausgehend von einem Zielmerkmal Y wird in jedem Knoten des Baumes eine Entscheidung darüber getroffen, welches Merkmal Xi aus den vorgegebenen Eingangsgrößen den maximalen Informationsgewinn zur Erklärung der Zielvariablen besitzt. Das heißt, in jedem Entscheidungsschritt wird dasjenige Attribut gesucht, das für sich alleine betrachtet die Ausprägungen der Zielvariablen am besten erklärt. Dieses Attribut wird dann zur Aufteilung der Daten in sogenannte Pfade verwendet. In jedem Pfad wird wieder für jeden Knoten dasjenige Attribut gesucht, das für die verbleibenden Daten die Zielgröße am besten erklärt, und so weiter.
Ein einfaches Beispiel industrieller Daten Schauen wir uns ein industrielles Beispiel näher an. Eine Variable Viskosität stelle die Zielgröße Y dar, die durch drei Einflussgrößen Energie, Mahldichte und Temperatur bestimmt werden möge (siehe Tabelle 7.1). Die Aufgabe der Entscheidungsbaumgenerierung besteht darin, Merkmalskombinationen der Eingangsgrößen zu finden, die zu einer guten beziehungsweise schlechten Viskosität führen. Energie
Mahldichte Temperatur Viskosität Y
tief
gross
heiss
gut
R1
tief
gross
heiss
gut
tief
gross
heiss
gut
tief
klein
heiss
schlecht
R2
tief
klein
heiss
schlecht
tief
klein
heiss
schlecht
tief
klein
kalt
gut
tief
klein
kalt
gut
tief
klein
warm
gut
tief
gross
warm
schlecht
tief
gross
warm
schlecht
tief
gross
warm
schlecht
hoch
gross
warm
gut
Energie
Mahldichte Temperatur Viskosität Y
t=12/13
gr = 7/13
he = 6/13
gu = 7/13
ho=1/13
kl = 6/13
ka = 2/13
s = 6/13
w = 5/13
gu|t=6/12 gu|gr=4/7
gu|he = 3/6
s|t=6/12
s|he = 3/6
gu|ho=1/1 gu|kl=3/6
gu|ka = 2/2
s|ho=0/1
s|kl=3/6
s|ka = 0/2
gu|w=2/5
s|w=3/5
s|gr=3/7
Tabelle 7.1: Datentabelle mit relativen und bedingten Häufigkeiten und zwei visuell erkennbaren Regeln R1 und R2 und folgende Notation: t (tief), ho (hoch), gr (gross), kl (klein), he (heiss), ka (kalt), w (warm), gu (gut), s (schlecht)
Die Zahlen in Tabelle 7.1 entstehen wie folgt: t=12/13 bedeutet, Ausprägung der Energie »tief« war in 12 von 13 Fällen vorhanden (Spalte 1). Oder s = 6/13 bedeutet, Ausprägung der Viskosität »schlecht« war in 6 von 13 Fällen vorhanden (letzte Spalte). gu|he=3/6 bedeutet, in den 6 Ausprägungen, bei denen die Temperatur »heiss« war, ist die Ausprägung Viskosität »gut« genau 3-mal aufgetreten (dritte Spalte). Achten Sie hier bitte bei gu|he auf den senkrechten Längsstrich. Damit wird kein Quotient angegeben, sondern eine Bedingung formuliert. Es wird die Häufigkeit von »gut« gesucht unter der Bedingung, dass »heiss« aufgetreten ist. Es handelt sich also um eine bedingte Häufigkeit. Das gilt für die anderen Beispiele analog, zum Beispiel s|w. s|w = 3/5 bedeutet, in den fünf Ausprägungen, bei denen die Temperatur »warm« war, ist die Ausprägung Viskosität »schlecht« genau 3-mal aufgetreten (dritte Spalte). Bevor wir die erste Ebene des Entscheidungsbaumes mittels des Informationsgewinns berechnen, wollen wir versuchen, einfache Regeln aus den Daten bereits rein visuell zu ermitteln. Leicht erkennbaren Regeln sind in Tabelle 7.1 mit R1 und R2 bezeichnet und sie bedeuten für R1:
WENN Mahldichte = groß UND WENN Temperatur = heiß DANN Viskosität = gut Die Regel R2 lässt sich analog auslesen. WENN Mahldichte = klein UND WENN Temperatur = heiß DANN Viskosität = schlecht Da der Entscheidungsbaumalgorithmus nach dem Top-down-Prinzip arbeitet, wird auf der ersten Entscheidungsebene bestimmt, welche der drei Eingangsvariablen die Viskosität in Bezug auf den gesamten Datensatz am besten erklären kann. Abbildung 7.1 zeigt ein Matlab-Programm zur Bestimmung des Informationsgewinns Igain für alle drei Variablen basierend auf den relativen Häufigkeiten aus Tabelle 7.1. Wer nachrechnen möchte, wie das Programm im Einzelnen vorgeht, sieht bitte in die Beispielbox.
Abbildung 7.1: Berechnung des Informationsgewinns Igain auf der ersten Entscheidungsebene basierend auf den Häufigkeiten aus Tabelle 7.1
Wir berechnen den Informationsgewinn von drei Erklärungsvariablen Schauen wir uns den mittleren Informationsgehalt in Bit/Zeichen für die Verteilung der Viskositätsausprägung an.
Man erkennt, dass die Informationsunsicherheit (die Entropie) bei nahe 1 liegt, da es fast gleich viele gute (6/13) wie schlechte (7/13) Viskositäten gibt, man sozusagen im Vorfeld
fast nichts über die Viskositätsverteilung weiß. Untersuchen wir am Beispiel der Temperatur, was diese Einflussgröße zur Erklärung der Viskosität beitragen kann. Es folgt die Berechnung für Temperatur = heiß (TEMP_H), dann Temperatur = kalt (TEMP_K), zum Schluss Temperatur = warm (TEMP_W).
Die obige Zeile beantwortet die Frage, wie die Entropie der Viskosität ist, für diejenigen Fälle, bei denen die Temperatur »heiß« ist. Sie ist 1, das heißt, die Kenntnis einer heißen Temperatur (insgesamt in 6/13 aller Fälle) bringt gar keinen Informationsgewinn für die Kenntnis der Viskositätsverteilung. Das sieht man auch in der Datentabelle, denn wir haben bei einer heißen Temperatur dreimal »gut« und dreimal »schlecht«, also maximale Entropie. Die anderen Formeln sind analog zu lesen.
Die bedingte Informationsunsicherheit für die Temperatur »kalt« ist null, das heißt, es gibt keine Informationsunsicherheit mehr. Schauen Sie in Tabelle 7.1. Wenn man weiß, dass die Temperatur »kalt« ist, weiß man zeitgleich, dass die Viskosität »gut« wird. Die Kenntnis von »warm« bringt dagegen nicht viel, die bedingte Informationsunsicherheit bleibt hoch (nahe eins). Berechnen wir summarisch, welchen Informationsgewinn die Temperatur zur Erklärung der Verteilung der Viskosität beiträgt:
Als Ergebnis für alle drei Erklärungsvariablen erhalten wir:
Die Rechnungen für die beiden unteren Werte sind hier nicht ausgeführt.
Die Variable Temperatur erklärt die Viskosität am besten (was an der Temperatur »kalt« liegt), weshalb sie auf der ersten Entscheidungsebene als die Trennvariable festgelegt wird. Durch erneute Anwendung dieses Algorithmus auf den verbleibenden Daten entsteht ein Entscheidungsbaum wie in Abbildung 7.2 dargestellt. Gute Viskosität wurde dabei durch eine Eins codiert, schlechte Viskosität durch eine Null. Beachten Sie bei dem Baum, dass der Pfad Temperatur = kalt schon auf der ersten Ebene in einem Blatt des Baumes endet (mittlerer Zweig), da die Teildaten (Viskosität = 1) schon auf der ersten Ebene vollständig erklärt werden konnten. In den anderen Blättern dieser Ebene befinden sich noch keine reinen Blätter mit Nullen oder Einsen. Auf den durch die Temperatur geteilten Untermengen erklärt im zweiten Entscheidungsschritt die Mahldichte die Viskosität am besten (rechnerisch nicht mehr dargestellt) und so weiter. Interessant an diesem konkreten Zahlenbeispiel ist, dass die Mahldichte auf der ersten Entscheidungsebene die Viskosität am schlechtesten erklärt hat, da ihr Informationsgewinn nur 0,004 betrug. Daraus durfte man aber nicht schließen, dass die Mahldichte keinen beziehungsweise den geringsten Einfluss auf die Viskosität hat, wie aus den Regeln der zweiten Entscheidungsebene erkennbar ist. Hat man die Daten erst einmal nach den Ausprägungen der Temperatur getrennt (erste Entscheidungsebene), dann kann die Mahldichte die Viskosität zumindest für heiße Temperaturen fehlerfrei erklären (zweite Entscheidungsebene), Abbildung 7.2. linker Pfad.
Abbildung 7.2: Entscheidungsbaum mit insgesamt sieben grauen Blättern auf Daten nach Tabelle 7.1
Der Entscheidungsbaum ist fertig berechnet, wenn alle Ausprägungen der Zielgröße durch die Pfade erklärt werden konnten, das heißt, wenn in jedem Blatt entweder nur Einsen oder Nullen enthalten sind oder die maximale Suchtiefe (im Beispiel gleich 2) erreicht wurde. Wie man aus Abbildung 7.2 erkennt, ist es manchmal so, dass sich die Daten nicht vollständig erklären lassen. So gibt es Blätter, in denen nicht nur Einsen oder Nullen enthalten sind, sondern noch beide Werte. Diese Verteilung kann durch die zur Verfügung stehenden Merkmale nicht weiter
erklärt werden, es sei denn, man würde die Regelgenerierung so weit fortführen, dass eventuell in jedem Blatt nur noch ein einziger Datensatz enthalten ist. Damit hätte man zwar alle Daten vollständig erklärt, aber der Baum wäre nicht generalisierungsfähig. Man sucht schließlich Regeln, die allgemeiner gelten als immer nur für eine Zeile in der Tabelle. Eine Regel pro Datenzeile würde einem »Auswendiglernen« entsprechen. Man könnte damit zwar den Inhalt der Tabelle in ein Regelwerk umcodieren, hätte aber keine verallgemeinerbaren Regeln gefunden. Abbildung 7.3 zeigt die Endergebnisse eines automatisierten Entscheidungsbaumverfahrens auf den Daten der Tabelle 7.1. Die vorherige Baumdarstellung ist durch Einrückungen dargestellt, was in vielen DataScience-Tools üblich ist.
Abbildung 7.3: C5.0-Entscheidungsbaum auf Daten nach Tabelle 7.1
Die erste Zahl in der Klammer hinter dem Wenn-Teil der Regel zeigt, wie viele Beispiele von dieser Regel abgedeckt werden, man nennt das Support. Die zweite Zahl in der Klammer ist die sogenannte Konfidenz, die zwischen 0 und 1 (beziehungsweise 0 und 100 Prozent) liegt. Die Konfidenz sagt aus, für wie viel Prozent der ausgewählten Datensätze die Regel tatsächlich gilt oder gelten soll. Support und Konfidenz werden im Abschnitt »Assoziationsregeln« weiter erläutert und in der Box »Gütemaße« mathematisch eingeführt. Im Ausführungsbeispiel wurde die Konfidenz auf 100 Prozent gesetzt, man wollte also Regeln finden, die zu 100 Prozent gelten. Für den Pfad »WENN Temperatur = warm UND Mahldichte = gross« gibt das Probleme. Schaut man in Abbildung 7.2, so sieht man, dass bei diesem Pfad keine 100prozentige Trennung der guten (Wert 1) und schlechten (Wert 0) Viskosität
gefunden werden konnte, denn in dem Blatt (Abbildung 7.2. zweites Blatt von rechts, ganz unten) befinden sich noch Nullen und Einsen gemischt. Man könnte nun in einem zweiten Durchlauf die Konfidenz auf 75 Prozent setzen, dann würde man auch für den Pfad »WENN Temperatur = warm UND Mahldichte = gross« eine WENN-DANN-Regel finden. In Tabelle 7.1 und im Baum von Abbildung 7.2. sieht man, dass bei dieser Konstellation die Viskosität meistens schlecht ist, und zwar genau in 3/4 der Fälle. Abbildung 7.4 zeigt eine andere Darstellungsform eines Entscheidungsbaums, um mal verschiedene Visualisierungsmöglichkeiten zu demonstrieren. In Abweichung zur vorherigen Analyse wurden hier nur Blätter mit der Mindestgröße 2 zugelassen, weshalb für die Ausprägung »Temperatur = warm« keine weitere Entscheidungsebene (für die Mahldichte) möglich wurde, obwohl »Temperatur = warm« die Verteilung der Viskosität überhaupt nicht gut erklärt (40 Prozent gut, 60 Prozent schlecht).
Abbildung 7.4: C4.5-Entscheidungsbaum auf Daten nach Tabelle 7.1
Entscheidungsbäume sollten Sie schneiden
Entscheidungsbäume haben den Vorteil, dass sie intuitiv verstehbar sind. Ein Nachteil ist, dass sie sehr groß werden können, sodass man schnell die Übersicht verlieren kann. Insbesondere bei den unteren Verzweigungen kann es zu Überanpassungen kommen (wenn beispielsweise in einem Blatt nur noch ein Datensatz enthalten ist, der eben die Pfadregel bis dahin erfüllt). Um diese Überanpassung zu vermeiden und um eine bessere Übersicht zu bekommen, werden die Blätter von unten nach oben wieder beschnitten. Man kann dadurch die Entscheidungsbäume auf eine vorgegebene Länge kürzen und auch dafür sorgen, dass immer eine Mindestanzahl von Datensätzen in jedem Blatt enthalten ist. Ein weiterer Nachteil zumindest des Standardverfahrens ist, dass die Zielgrößen kategoriale Größen (nichtmetrische Größen) sein müssen. Metrische (numerische) Zielgrößen müssen deshalb vorher diskretisiert werden. Im obigen Beispiel wurde die Zielgröße Viskosität, die eigentlich eine metrische Größe ist (also in einem Wertebereich beliebige numerische Werte annehmen kann), in die Klassen »gut« und »schlecht« aufgeteilt. Das nennt man in der Datenanalyse diskretisieren.
Zum Abschluss ein Beispiel aus einem Produktionsbetrieb Ausgangspunkt bei diesem Praxisprojekt war die Frage, welche Attribute einen Einfluss auf die Steinschlagfestigkeit eines Lackes haben und welche Attributwerte zu hoher und welche zu niedriger Steinschlagfestigkeit führen. Berechnet wurde ein Entscheidungsbaum nach Abbildung 7.5. Man sieht in der Wurzel ganz oben links, dass es insgesamt 53 Messungen gab. Die Zielgröße Steinschlagfestigkeit, wieder eine metrische Größe, musste auch in diesem Beispiel diskretisiert werden und wurde in drei Klassen eingeteilt: Steinschlagfestigkeit ist gering: Wert kleiner 1,5 (in sechs Prozent der Fälle) Steinschlagfestigkeit ist mittel: Wert zwischen 1,5 und 2,49 (in 49 Prozent der Fälle) Steinschlagfestigkeit ist groß: Wert größer als 2,49 (in 45 Prozent der Fälle)
Abbildung 7.5: Anwendungsbeispiel eines Entscheidungsbaums in einer chemischen Fabrik
Die Festigkeitswerte stehen alle im Wurzelknoten und sind dort zusätzlich auch noch farblich codiert. Insgesamt gab es drei Werte mit geringer Festigkeit (6%), 26 mit mittlerer Festigkeit (49%) und 24 mit maximaler Festigkeit (45%). Als Eingangsvariablen wurden drei Einflussgrößen Temp1min, Mahldichte_M1 und spez_Energie_M1 vorab als wichtig ausgewählt. Die Aufgabe bestand darin, herauszufinden, bei welcher Kombination der Eingangsgrößen eine große Steinschlagfestigkeit zu erwarten ist. Die Anwendung des Entscheidungsbaumverfahrens hat das Ergebnis erzielt, das Sie in Abbildung 7.5 sehen. Aus dem entstandenen Entscheidungsbaum lassen sich beispielsweise folgende Prozessregeln ablesen: WENN Temp1min größer als 56,66 Grad, DANN große Steinschlagfestigkeit (zu 88 Prozent).
Diese Regel erkennt man, wenn man den rechten Pfad am ersten Knoten entlangläuft und im rechten Blatt der 2. Ebene landet. Man sieht in der Wurzel, dass der beste Trenner für die Beeinflussung der Steinschlagfestigkeit die Variable Temp1min ist, da sie am Beginn des Baumes steht. Die nächstwichtige Variable zur Klassifikation ist die Mahldichte_M1. Wenn Mahldichte_M1 kleiner-gleich 1,73 ist, dann läuft man den linken Teilpfad entlang und gelangt in eine Untermenge mit 100 Prozent großen Steinschlagfestigkeiten (linkes Blatt, 3. Ebene). Daraus ergibt sich folgende Prozessregel: WENN Temp1min > 56 Grad UND WENN Mahldichte_M1 78) realisiert wurde. Vergleicht man das mit den mittleren 4 Prozent aus der Grundgesamtheit, erhält man einen Lift von 5,25 (21% / 4%). Das heißt, wenn man eine Promotionaktion durchführt, erzielt man anstatt im Mittel 4 Prozent bereits in 21 Prozent aller Fälle große Abverkäufe mit dem Produkt. Geht man vom rechten Blatt der zweiten Ebene weiter nach links, sieht man, dass dann, wenn man zusätzlich den Preis des Produkts auf unter 2,98 Euro festsetzt, man sogar in 49 Prozent aller Fälle einen großen Abverkauf erreicht. Der Verkaufsleiter weiß also, dass seine Promotionaktion (PA = 1) und seine Preisaktion (Preis
0,5 1
1
0
1 · 1 + 0 · 1 = 1 1
0,5 1
1
1
1 · 1 + 1 · 1 = 2 2 >
1,5 1
1 · 1+1 · 1 + 1 · (−2) = 00
40, Temp10max > 60). Durch die Regel aus Abbildung 13.13 (die ein Blatt im tieferen rechten Pfad darstellt) entstehen zu 100 Prozent kleine Körner, das heißt, diese Parameterkombination führt (mit einem Lift von 7 = 100 Prozent / 14 Prozent) zu hoher Kornfeinheit (Korngröße kleiner 10,5), was auch ein Anwendungsziel im konkreten Produktionsprozess darstellte:
Abbildung 13.13: Prozessregel zur Produktion kleiner Körner
Aber es gibt auch Regeln für das Gegenteil. Durch die Regel aus Abbildung 13.14 entstehen zu 90 Prozent grobe Körner, das heißt, diese Parameterkombination führt (mit einem Lift von 2,25 = 90 Prozent / 40 Prozent) zu geringer Kornfeinheit (Korngröße größer 12):
Abbildung 13.14: Prozessregel zur Produktion großer Körner
Aus dem letzten Beispiel soll die gefundene Regel für eine besonders schlechte Fahrweise, das heißt, große produzierte Korngrößen, nochmals ausformuliert werden: WENN Temp10max =< 40 und
HUBTemperatureingangMuehleMW =< 32 UND
KreisPAusgangMuehleSTDABW =< 4,79873
DANN Korngröße zu 90 Prozent größer als 12
Die Regeln für diese drei Stellgrößen des Batchprozesses sind damit klare Handlungsanweisungen, also konkrete Vorgaben für die Techniker, wie der Prozess eingestellt werden sollte und wie gerade nicht. In der Praxis ist es oftmals kompliziert, die berechneten Werte einzustellen, da die Ergebnisse statistische Kennzahlen sein können, wie im vorliegenden Fall. Es bedarf eines großen Geschicks der Anlagenfahrer, beispielsweise die statistische Kenngröße Mittelwert für HUBTemperatureingangMuehleMW auch wirklich an der Anlage einzustellen, da es keine Direkteinstellung für den Mittelwert oder im Beispiel KreisPAusgangMuehleSTDABW für die Standardabweichung gibt. Diese statistischen Wunschvorgaben stellen sich schließlich erst am Ende des Prozesses aus den vorgegebenen Zeitverläufen der Eingangswerte ein. Man sieht hier, dass ohne enge Zusammenarbeit mit den Spezialisten vor Ort keine Verbesserung eingeführt werden kann, denn nur in Absprache mit ihnen lassen sich realisierbare Vorgaben finden.
Optimierungsziele Mit den oben genannten Verfahren können Prozesse hinsichtlich einzelner Zielgrößen Schritt für Schritt optimiert werden. Aber oftmals reicht das nicht. Es wurde bereits betont, dass das Ziel nahezu jedes industriellen KI-Projekts nicht nur in der Analyse von Prozessdaten und in der Vorgabe von vereinzelten Stellgrößen besteht, sondern letztlich in der Optimierung des gesamten Prozesses. Tabelle 13.4 zeigt dazu einige typische Optimierungsziele. Aufgabe
Beispiel
Minimierung einer Zielgröße
Minimierung von Energie oder Kosten
Maximierung einer Zielgröße
Maximierung einer Produkteigenschaft (Glanz, Viskosität, Haltbarkeit, Drehmoment)
Toleranzeinengung einer Zielgröße
Minimierung von Qualitätsschwankungen durch aktiven Prozesseingriff (Gegensteuern)
Aufgabe
Beispiel
Varianzreduktion einer Zielgröße
Minimierung von Qualitätsschwankungen durch Prozessanalyse
Minimierung einer Zielgröße und Maximierung einer anderen Zielgröße
Minimierung der Durchlaufzeit bei gleichzeitiger Maximierung der Klebefestigkeit eines Produkts
Beliebig gewichtete Optimierung mehrerer Zielgrößen
Vektorielle Optimierung eines Prozesses
Tabelle 13.4: Typische Optimierungsziele in technischen Prozessen
Wie in der Tabelle aufgezeigt, lassen sich aus nahezu jedem technischen Prozess oder Produkt Optimierungsaufgaben ableiten, die nicht durch die Definition eines einzigen Gütekriteriums gelöst werden können, sondern die aus gleichzeitig zu optimierenden Zielgrößen z1, z2, …, zL bestehen, die oftmals entgegengesetzte Anforderungen an Prozess- oder Produktgrößen stellen. Werden sie in einem Zielvektor zusammengefasst, entsteht eine vektorielle Gütefunktion und der Zielkonflikt wird durch Methoden der Mehrgrößenoptimierung (Polyoptimierung) behandelt. Ich möchte Sie nicht zu sehr mit technischen Details überfrachten, lassen Sie mich aber trotzdem noch das Vorgehen bei einer derartigen vektoriellen Optimierung am Beispiel der chemischen Fabrik erläutern.
Praxisbeispiel – Gleichzeitige Optimierung mehrerer Zielgrößen (Polyoptimierung) Die konkrete Aufgabe in der chemischen Fabrik bestand darin, ein Produkt dahin gehend zu optimieren, dass es eine maximale Haftung, eine maximale Steinschlagfestigkeit, eine niedrige (aber nicht zu niedrige) Körnung und einen mittleren Glanz erhält und mit minimalen Produktionskosten produziert werden kann. Diese sehr anspruchsvolle, aber übliche Forderung an den KI-Fachmann wird durch folgende Schritte gelöst: 1. Bestimmung der sogenannten Bestrafungsterme für jede Zielvariable
2. Gewichtung der einzelnen Ziele und Bestimmung einer Gütefunktion 3. Minimierung (beziehungsweise Maximierung) der Metagütefunktion
Schritt 1: Bestimmung der Bestrafungsterme jeder Zielvariablen Abbildung 13.15 zeigt einen Auszug aus den fünf definierten Bestrafungsfunktionen der oben genannten Zielgrößen. Dargestellt werden Glanz, Dispergierzeit (hat Einfluss auf Kosten) und Kornfeinheit. Betrachten wir zuerst nur die drei linken Bilder. Man erkennt im linken oberen Bild, dass der Glanz bei 69 Einheiten optimal ist, da die Fehlerfunktion für 69 Einheiten ihr Minimum besitzt. Durch die Steilheit der Fehlerkurve wurde weiterhin festgelegt, dass niedriger Glanz stärker bestraft werden soll als zu hoher Glanz. Die Kosten, in dem Fall die Dispergierzeit (mittlere Reihe in der Abbildung), werden linear bestraft. Das Optimum wären damit null Kosten, was technisch allerdings nicht realisierbar ist, da im Prozess gemischt werden muss. Als letzter Parameter ist die Körnung zu nennen (untere Reihe). Eine Körnung von neun Einheiten ist optimal. Hier ist die Fehlerfunktion null. Es ist zu erkennen, dass eine zu große Körnung »dramatisch« (exponentiell) bestraft wird, während eine kleinere Körnung (kleiner als acht Einheiten) für den Anwender noch tolerabel ist. Die mittlere und die rechte Spalte in Abbildung 13.15 stellen eine Standardisierung dar, um den Gesamtfehler bei einer späteren Gewichtung möglichst gegen null gehen zu lassen.
Abbildung 13.15: Bestimmung der Bestrafungsterme für drei Prozessgrößen mit MATLAB
Schritt 2: Gewichtung der einzelnen Ziele Nach Festlegung der einzelnen Bestrafungsfunktionen müssen alle Fehler der Variablen gegeneinander gewichtet werden. Dies geht nur zusammen mit dem Anwender. Im vorliegenden Falle wurden folgende Festlegungen getroffen (Tabelle 13.5): Gewichtung Variable 5 Prozent
Haftung
5 Prozent
Steinschlagfestigkeit
20 Prozent
Körnung
10 Prozent
Glanz
30 Prozent
Viskosität
30 Prozent
Produktionskosten
Tabelle 13.5: Gewichtung konkurrierender Prozessziele für eine Polyoptimierung
Ausgehend von dieser Aufteilung lässt sich jetzt eine Metagütefunktion als Fehlerfunktion über alle Bestrafungsterme definieren. In der vektoriellen Optimierung gilt es, diese Metagütefunktion zu minimieren oder zu maximieren.
Schritt 3: Minimierung (beziehungsweise Maximierung) der Metagütefunktion Nach der Definition der Metagütefunktion kann die eigentliche Optimierung mittels KI-Verfahren realisiert werden. Das Ziel einer solchen Optimierung besteht in der Maximierung (beziehungsweise Minimierung) der neu erzeugten Metagütefunktion. Die grundlegende Idee für die Optimierung liegt in der Verwendung eines Modells zur Vorhersage des Metagütewerts für jede Einstellung der Stellparameter. Hierzu bieten sich neuronale Netze, Entscheidungsbäume und alle anderen Verfahren der Zusammenhangsfindung aus den Kapiteln 6, 7 und 8 an, denn es gilt, den Zusammenhang zwischen Eingangsgrößen (Stellgrößen) und der Zielgröße (Metagütewert) zu finden. Hat man ein Modell für den Metagütewert mit ausreichender Genauigkeit realisiert, kann man es zur Optimierung verwenden. Allerdings sind die Zielgrößen meistens gekoppelt, sodass es nicht sinnvoll ist, erst die eine Größe optimal einzustellen, dann die andere und so weiter. Für komplexe, vektorielle Optimierungen eignen sich insbesondere die neuronalen SOM-Karten. Abbildung 13.16 zeigt ein Beispiel, bei dem eine Metazielgröße auf einen bestimmten Wert auf einer solchen SOM-Karte (»mittelgrauer« Bereich auf der Karte; durch eine Ellipse markiert) eingestellt wurde.
Abbildung 13.16: Polyoptimierung eines chemischen Prozesses mit neuronalen SOMKarten
Das SOM-Verfahren hat den großen Vorteil, dass man ausgehend von einem Zielwert am Ende des Prozesses tatsächlich zurückrechnen kann, welche Werte alle Eingangsgrößen am Beginn des Prozesses haben müssen, damit sich der Zielwert später einstellt. Dies ist umsetzbar, weil sowohl Eingangs- als auch Zielgrößen auf der gleichen Karte abgebildet werden können, indem beide Typen (Eingang und Ausgang) dem unüberwacht lernenden Verfahren als Eingangsvariablen angeboten werden. Oftmals sind es weit über hundert Einflussgrößen, die mit ihren konkreten Werten bestimmt werden, siehe Parameterliste Abbildung 13.16, linke Seite. Mathematisch ist das nicht trivial, denn man muss das Prozessmodell invertieren. Das geht aber meistens gar nicht, da man keine analytischen Modelle von so komplexen Prozessvorgängen bauen kann. Mit neuronalen SOM-Karten ist das aber möglich, wie wir seit Kapitel 8 wissen. Dies ist ein großer Vorteil, auch gegenüber DeepLearning-Netzen. Der Einsatz von KI-Verfahren in dieser Fabrik führte letztendlich zu einer Reduktion des Energieeintrags um 20 Prozent und
zur Reduktion der Dispergierzeit um 10 Prozent bei gleichbleibender Qualität des Endprodukts, insbesondere der vorgegebenen Korngrößenverteilung. SOM-Karten sind eine weit unterschätzte Technik der KI. Für vektorielle und insbesondere robuste Optimierungen in industriellen und kommerziellen Prozessen sind sie immer noch nahezu konkurrenzlos. Es gibt keinen Prozess (der die »drei großen Rs« vom Beginn des DataMining-Kapitels erfüllt), der damit nicht signifikant optimiert werden kann.
Praxisbeispiel – Kostenreduktion im Einkauf durch Text Mining Zum Abschluss möchte ich noch ein kommerzielles Beispiel zur Nutzung von KI-Verfahren geben. Betrachten wir eine wichtige Tatsache: Von jedem Euro, den ein Unternehmen umsetzt, bleiben fünf bis zehn Cent an Unternehmensgewinn übrig. Der Rest sind Kosten für Belegschaft, Material oder sonstige Zahlungen. Jeder Euro, den ein Unternehmen aber beispielsweise kostenneutral im Einkauf einsparen kann, ist auch genau ein Euro Mehrgewinn für das Unternehmen. Andere Zahlen sprechen davon, dass über 60 Prozent aller Kosten für die Herstellung eines Produkts durch die Beschaffung von Rohmaterialien und Halbfabrikaten anfallen, da die Fertigungstiefe immer geringer wird. Es verwundert deshalb nicht, dass dem Einkauf jeder Firma eine sehr große Bedeutung zugemessen wird. Im vorliegenden Fall eines Großkonzerns werden jedes Jahr Güter und Dienstleistungen für über zehn Milliarden Euro eingekauft. Könnte man hier Einsparungen von nur einem Prozent erreichen, so hätte man schlagartig eine Ergebnisverbesserung von 100 Millionen Euro pro Jahr. Um den gleichen zusätzlichen Unternehmensgewinn zu erzielen, könnte man auch eine Milliarde Euro mehr umsetzen, was allerdings nicht ohne Weiteres möglich ist. Natürlich ist das eine sehr vereinfachte Darstellung, dennoch zeigt sie den Nutzen von Optimierungen im Einkauf auf.
Wie aber sollte man ein Prozent im Einkauf einsparen? Eine übliche Methode der Einsparung ist die Kostensenkung über Mengenvorteile bei Bestellungen. Werden größere Mengen einer Ware geordert, dann gibt es Rabatte. Großkonzerne nutzen diesen Effekt schon immer aus. Problematisch wird dies nur, wenn ein Konzern keine exakte Übersicht darüber besitzt, was er alles einkauft. Weltweit operierende Konzerne haben deshalb sogenannte Warengruppenschlüssel definiert, um alle Bestellungen aller Tochtergesellschaften in der Welt zu erfassen und zu standardisieren. Eine zusätzliche Beschleunigung für die Vereinheitlichung entstand durch E-Commerce, dem Einkauf übers Internet, wo es prinzipiell notwendig ist, einheitliche Warengruppenschlüssel zu verwenden. Darüber hinaus existieren in den Konzernen durch Richtlinien festgelegte eigene Codes für ihre verwendeten Waren und Güter.
Ein Beispiel Im vorliegenden Beispiel existiert ein solcher Code und bei jedem Einkaufsprozess musste der standardisierte Code in das vorhandene SAP-System eingetragen werden. Die Bestellung wird erst ausgelöst, wenn das SAP-Feld Warengruppenschlüssel ausgefüllt ist. Doch ausgefüllt heißt eben noch lange nicht richtig ausgefüllt. Aus vielerlei Gründen wie Zeitmangel, fehlende Code-Kenntnis oder einfach nur aus Versehen können die Muss-Felder in SAP falsch ausgefüllt werden. Um die Aufgabe zu lösen, bestand das Ziel des Projekts darin, aus der Bestellung heraus diesen Warengruppenschlüsselcode automatisch zu generieren. Da das Material in jeder Bestellung spezifiziert wird, muss nur noch aus den Schlüsselwörtern jeder Bestellung ein Mapping auf den richtigen Materialcode erfolgen, um den Einkäufern die Code-Auswahl abzunehmen. Im Folgenden wollen wir den Unternehmenscode MDF (Material Description Framework) nennen und davon ausgehen, dass circa 1000 solcher Codes für die verschiedenen Gütertypen des Unternehmens existieren. Die Aufgaben im Projekt wurden zweigeteilt. Erstens sollten in einem Bereinigungsprozess alle Bestellungen der vergangenen Jahre (es handelte sich dabei um Millionen von Vorgängen) bereinigt und
zweitens für SAP eine Online-Lösung geschaffen werden, bei der jeder Anwender während einer Neubestellung den für seine aktuelle Bestellung richtigen MDF-Code zugewiesen bekommt. Beide Aufgaben wurden mit der gleichen KI-Technik gelöst. Die Lösungsidee bei der Klassifikation von Bestellungen bestand darin, aus dem Text die Schlüsselwörter zu extrahieren, diese dann als Eingangsgrößen eines selbstlernenden Modells zu verwenden und sie einem Warengruppenschlüssel zuzuordnen. Der Anwender generierte für die notwendigen Lerndaten einige Tausend richtige Zuordnungen zwischen Bestellungen und Warengruppenschlüsseln und diese Zuordnungen wurden dann in einem Text-Mining-Modell gelernt. Zur Erläuterung zum Text Mining – als eine spezielle Form des Data Mining – siehe das Beispiel in der nachstehenden Box.
Beispiel Text Mining Analyse auf Texten wird als Text Mining bezeichnet und steht für die automatische Auswertung von Fließtexten. Dabei gilt, dass alles, was in diesem Buch an Vorteilen und Nutzen für datengetriebene KI-Projekte erwähnt wurde, erst recht für Text Mining gilt, denn man schätzt, dass eigentlich 80 Prozent aller Informationen dieser Welt nicht in Datenbanken und Zahlen, sondern in Bibliotheken und Texten abgelegt sind. Das klassische Beispiel ist das Internet und Google mit seiner hocheffizienten Textauswertung. Heutige Sprachassistenten können sogar frei gesprochene Texte nahezu fehlerfrei analysieren, was über das hier Beschriebene hinausgeht. Aufgabenschwerpunkte für normales Text Mining liegen zum Beispiel im Pharmabereich, wo jährlich Millionen von Forschungsberichten auf den Markt kommen und kein Forscher mehr die Zeit hat, auch nur einen Bruchteil davon zu lesen. Man liest Abstracts, aber selbst dafür reicht schon nicht mehr die Zeit. Wieder andere TextMining-Anwendungen bestehen in Wettbewerbsbeobachtungen. Man kann sich vorstellen, dass täglich alle Tickermeldungen und Internetpublikationen nach Meldungen der Wettbewerber gefiltert werden, von diesen automatisch ein Summary gebildet wird und die Schlüsselpersonen und Zahlen extrahiert werden. Die Abbildung unten zeigt ein Beispiel, bei dem für Meldungen (nach Regionen und Branchen gefiltert) automatisch Abstracts erzeugt und die Schlüsselwörter des Textes angezeigt wurden:
Die Verfahren des Text Mining sind genauso vielfältig wie die des Data Mining. Es gibt Verfahren, die die Semantik eines Textes berücksichtigen, andere Verfahren suchen nur nach Schlüsselwörtern und Kombinationen von Schlüsselwörtern, um eine automatische Klassifikation zu erreichen. Die Problematik wird erkennbar, wenn man sich einen beliebigen Zeitungstext vorstellt, bei dem im Text mehrmals das Wort Sport verwendet wird. Das kann ein politischer, kommerzieller, militärischer oder einfach ein Sportartikel sein. Ein einfaches Zählen von Wörtern ist jedenfalls zur Textklassifikation nicht möglich. Text Mining geht weit über das klassische Information Retrival von Suchmaschinen hinaus. Text Mining ist eine der Königsdisziplinen heutiger KI-Verfahren. Natürlich wird die Komplexität bei gesprochener Sprache nochmals deutlich erhöht. Systeme wie Alexa und Siri beherrschen diese Technologien jedoch meisterhaft. Mittlerweile schreiben Text-Mining-Systeme bzw. Chatbots Zeitungsartikel und BlogEinträge, die so gut sind, dass man den Unterschied zu einem menschlichen Autor kaum noch bemerken kann. Über ChatGPT von OpenAI ging es bereits. Die Zeit von Tay (der für genau einen Tag ans Netz ging und durch Rassismus und andere Fehlleistungen auffiel) scheint lange vorbei zu sein. Allerdings gibt es auch heute immer wieder Rückschläge. Galactica, ein Werkzeug des Facebook-Mutterkonzerns Meta zum wissenschaftlichen Schreiben, musste im November 2022 nach nur drei Tagen vom Netz genommen werden, obwohl sein Sprachmodell an 48 Millionen wissenschaftlichen Arbeiten trainiert wurde. Die Fehlleistungen waren zu massiv. Auch Metas Blenderbot3 konnte im August 2022 dazu gebracht werden, Äußerungen über Trump oder den Meta-CEO Zuckerberg zu tätigen,
die letztlich auch sein Abschalten beschleunigen werden, obwohl Meta nach eigenen Aussagen viel durch die früheren Fehler von Tay gelernt haben will. Das Problem ist, dass all diese Sprachmodelle ein semantisches Verstehen wieder mal nur simulieren, denken Sie immer an das Chinesische Zimmer aus den Einführungskapiteln. Trotz der enormen Lernleistung dieser Systeme verbleibt daher alles bei syntaktischer Zeichenkettenverarbeitung. Oftmals kann man deshalb diese Systeme durch einfache Negativaussagen ihres Unverständnisses überführen, nach dem Motto: »Chatbot, sage mir bitte, was Hamster nicht sind!« ChatGPT kann das übrigens hervorragend beantworten.
Genau wie beim klassischen Data Mining wird einem Inputvektor (Schlüsselwörter) eine Zielgröße (Warencode) zugeordnet. Und genau wie beim Data Mining sollen die Testfehler auf unbekannten Daten (Bestellungen) minimiert werden. Bei der Offline-Verwendung werden einem solchen Modell alle unkonsolidierten Bestellungen eines Unternehmens als Eingangsgrößen gegeben, mit einigen Hundert bis Tausend garantiert richtigen Zuordnungen. Aufbauend auf diesen Referenzbestellungen wird das Modell angelernt und dann auf alle alten Bestellungen angewendet. Im Projekt konnte dadurch rückwirkend für fehlerhafte alte Bestellungen der richtige Warengruppenschlüssel erzeugt werden. Bei der Online-Lösung wird dem Anwender während des Bestellvorgangs, bei dem er einen Lang- und einen Kurztext der Bestellung ins SAP-System einträgt, der berechnete MDF-Code angeboten (Abbildung 13.17). Eine Besonderheit ist, dass dem Nutzer eine Liste der wahrscheinlichsten MDF-Codes präsentiert wird. Dadurch kann er – sollte sich das Text-Mining-Modell verschätzt haben – den zweiten oder dritten MDF-Code per Maus auswählen und ins SAPSystem übernehmen. Durch diese – erst später umgesetzte – Maßnahme stieg die Akzeptanz bei den Anwendern, da sie stets die Kontrolle über die MDF-Code-Auswahl des Systems behalten wollten.
Abbildung 13.17: SAP-Benutzerschnittstelle zur Online-Analyse und Korrektur des Materialcodes
Problematisch bei diesem Text-Mining-Projekt war der hohe Engineeringaufwand, denn die Controller des Konzerns mussten für jedes Tochterunternehmen eine Referenzbasis von mehreren Hundert bis Tausend Bestellungen aufbauen. Der Grund dafür lag in den unterschiedlichen »Bestelldialekten« der einzelnen Tochtergesellschaften. Man hatte erwartet, dass es ausreicht, ein Referenzmodell für alle deutschsprachigen und eines für alle englischsprachigen Konzerngesellschaften zu realisieren. Dies hatte sich leider als falsch herausgestellt. Neben den natürlichen Sprachen mussten auch noch die Besonderheiten der einzelnen Gesellschaften des Unternehmens berücksichtigt werden. Um den Engineeringaufwand der Datenerfassung so gering wie möglich zu halten, wurde deshalb ein zusätzliches Werkzeug entwickelt, bei dem der Anwender nur noch per Mausklick die Bestellungen zu bestätigen brauchte. Damit konnte durch die Einkäufer eine Lerndatenbasis von einigen Tausend richtigen Bestellungen pro Tochtergesellschaft erzeugt
werden, die die Referenzbasis zum Lernen des Modells darstellte. Die Genauigkeit der MDF-Schätzung für unbekannte Bestellungen lag zum Schluss bei knapp 90 Prozent. Im Vergleich zum Zustand vor der Konsolidierung aller Bestellungen war das ein Unterschied wie »Tag und Nacht«. Selbstverständlich muss irgendwann eine komplette Homogenisierung der Materialstämme erfolgen, um nachhaltige Synergien zu nutzen.
Und vieles mehr Es gibt Abertausende KI-Projektbeispiele im Banken- und Versicherungsgewerbe, zum Beispiel Bonitätsanalysen, Cross-Selling bei Kunden, Betrugserkennung bei Überweisungen, die den Rahmen des Buches jedoch sprengen würden. Ich möchte Sie daher auf die Literatur verweisen. Abschließend eine letzte Anmerkung zu KI-Verfahren im Verkauf und Marketing. Jeder von uns kennt die Situation. Man geht in einen Supermarkt, um vielleicht Brot und Wurst für das Wochenende einzukaufen, am Ende hat man aber mal wieder den ganzen Warenkorb voll. Warum ist das so? Nun, Experten aus dem Handel sind täglich damit beschäftigt, unsere Einkaufsvorlieben zu berechnen, zu studieren, um dann ihre Verkaufstaktik darauf abzustimmen. Und was ist verräterischer als unser Einkaufsbon. Alle Produkte, die wir zusammen in einen Warenkorb gelegt haben, finden sich auf diesem Kassenbon wieder. Und wenn man am Ende des Tages mehrere Tausend Einkaufstransaktion analysiert, wird man feststellen, dass es Artikel in diesem Supermarkt gibt, die gerne zusammenhängend gekauft werden. Das bereits genannte Beispiel »Wer Freitagabend Windeln kauft, der kauft auch Bier« ist längst der Standardspruch von KI-MarketingExperten geworden. Aber ist es auch umgekehrt? Gilt auch »Wer Bier kauft, der kauft auch Windeln«? Sicherlich nicht. Man kann also aufgrund der Asymmetrie von gekauften Waren Assoziationen ermitteln und daraus die sogenannten Triggerprodukte eines Supermarkts bestimmen. Ein Beispiel: Nach der Diskussion mit einer großen europäischen Handelskette ergab sich die Aufgabe, herauszufinden, welches die
Triggerprodukte eines Supermarkts sind, und insbesondere, welche Produkte als Triggerprodukte zu Gütern mit höchster Marge auftreten. Wenn man das weiß, kann man seine Marketingstrategie darauf ausrichten und die Konsumenten werden neben ihren Lieblingsprodukten sehr häufig auch zu Produkten greifen, weil sie »zufällig« im Regal daneben stehen. Sicherlich wird es gesamtgesellschaftlich ein sogenanntes Nullsummenspiel bleiben, denn ob man tatsächlich durch geschicktes Marketing mehr Geld ausgibt beziehungsweise ausgeben kann, ist fraglich. Dennoch werden diejenigen Unternehmen mehr Geld verdienen, die am geschicktesten mit solchen sogenannten Verbundanalysen, Assoziationsanalysen und Cross-Selling-Verfahren umgehen können. Dieses Beispiel, das uns alle beim wöchentlichen Einkauf betrifft, gilt natürlich auch für andere Bereiche des Verkaufens. Unternehmen interessieren sich deshalb sehr dafür, welches Cross-Selling-Potenzial in jedem ihrer Produkte steckt.
Zusammenfassung KI-Techniken sind heute in der Industrie und der Banken- und Versicherungswelt weit verbreitet und gehören in vielen Industriebereichen zum Standard. Eine Verbindung mit Methoden der Business Intelligence findet überall dort statt, wo Informationen für das Management bereitgestellt werden müssen. Es ist nicht schwierig zu prognostizieren, dass sich die Anwendungsfelder in der Zukunft sowohl in der Tiefe als auch in der Breite ausweiten werden. Die Entwicklung der Data-Mining-Werkzeuge wird sich dieser Spezifik anpassen. Ich bin der Ansicht, dass in wenigen Jahren jeder größere Betrieb KI-basierte Produkt- und Prozessüberwachungen realisiert haben muss, um dem enormen Wettbewerbs- und Kostendruck standzuhalten. Tabelle 13.6 gibt nochmals einen Überblick über verallgemeinerte industrielle Anwendungsziele und dazugehörige Analyseverfahren und techniken. In der Spalte Anwendungsziel werden Anwendungsbeispiele der Datenanalyse genannt, die Spalte Analyseverfahren beschreibt die einzelnen Verfahren zur Realisierung des Anwendungsziels. Die Spalte Analysetechniken zählt Implementierungen der Verfahren auf. Einige
Analyseverfahren sind in diesem Buch erläutert, andere müssen der Literatur entnommen werden. Anwendungsziel
Analyseverfahren
Stand der Technik der Analysetechniken
1 Ermitteln von (ungerichteten) Zusammenhängen von Messgrößen
Korrelationsanalyse
- Korrelationskoeffizient
2 Ermitteln von gerichteten Zusammenhängen in Daten Aufstellen von Prozessmodellen
Regressionsanalyse Regelinduktion Bilderkennung Bildklassifikation
- lineare und nichtlineare Analysen - überwachte neuronale Netze - Deep-Learning-Netze / Faltungsnetze (z. B. YOLO, Faster R-CNN, Mask RCNN) - Entscheidungsbäume (teilweise)
3 Ermitteln von Strukturen in Daten
Clusteranalyse
- statistische Techniken - neuronale Netze wie SOMKarten - Fuzzy-Techniken
4 Ermitteln von zugrunde liegenden Variablen
Faktoranalyse
- Hauptkomponentenanalysen (PCA)
5 Ermitteln der quantitativen Einflüsse aller Einflussgrößen
Sensitivitätsanalyse
- Regressionskoeffizienten
6 Bestimmung von Versuchen mit maximalem Informationsgewinn
Statistische Versuchsplanung
7 Optimierung von Prozessen
Optimierungsverfahren
- neuronale Netze
- klassische statistische Versuchsplanung - neuronale Netze (SOMKarten) - deterministische Optimierungsverfahren - zufallsgesteuerte Optimierungen (genetische Algorithmen)
Anwendungsziel 8 Generierung von Hypothesen aus Daten
Analyseverfahren Regelinduktion
Stand der Technik der Analysetechniken - Entscheidungsbäume
Tabelle 13.6: Überblick über den Stand der Technik kommerzieller Anwendungsziele und zugeordnete datentechnische Methoden/Verfahren
Zusammenfassend wird deutlich, dass sich neben den klassischen Methoden der Datenanalyse (Korrelationskoeffizienten, multiple Regressionsschätzungen, statistische Prozesskontrolle) auch viele KIVerfahren in der industriellen Anwendung etabliert haben. KIAnwendungen kann man als Stand der Technik in der Industrie bezeichnen, um insbesondere nachfolgende Analyseaufgaben zu realisieren: Aufbau von statischen Prozessmodellen mit theoretisch beliebiger Genauigkeit aus vorhandenen Messdaten, hautsächlich mittels neuronaler Netze Aufbau von dynamischen Prozessmodellen hoher Genauigkeit aus vorhandenen Messdaten, hautsächlich mittels neuronaler Netze Operationalisierung von menschlichem Expertenwissen, hautsächlich basierend auf Fuzzy-Techniken oder Entscheidungsbaumverfahren Optimierung von nicht analytisch beschreibbaren Optimierungsproblemen auf Grundlage von genetischen Algorithmen und Evolutionsstrategien (im Buch nicht besprochen). Weiterhin gibt es viele Prozess-Anwendungen für Entscheidungsbäume, Regressionsbäume und Assoziationsregeln. Allerdings ist der Ansatz des »automatischen Lernens von Regeln« und »der Generierung von Hypothesen« in den industriellen Anwendungen noch nicht weit genug verbreitet. In anderen gesellschaftlichen Bereichen wie Social Media, Banken oder Versicherungen haben die KI-Verfahren bereits eine
Vormachtstellung gegenüber den Entscheidungen von Menschen. Das kann noch problematisch werden. Zum Schluss eine Warnung! Bei aller Euphorie. Es gibt auch zahlreiche Rückschläge, Pleiten, Pech und Pannen. Nur als Beispiel: Amazon hat bereits im Oktober 2017 bekannt gegeben, dass das Unternehmen sein KIBewerbungstool in der Personalplanung abschalten wird, da die KI tendenziell frauenfeindliche Vorschläge machte, was sich auch nicht nachjustieren ließ [Business-user.de/Digitalisierung]. Sehr mutig und offen von Amazon, das zu kommunizieren. Jeder Einsatz von KI-Techniken muss immer mit einer Warnung verbunden sein. Was ist, wenn die KI sich irrt? Welche Konsequenzen hat das? Man darf KI-Techniken immer nur mit großer Vorsicht und gutem Augenmaß einsetzen, sonst entstehen sehr schwierige und falsche Entscheidungen, die mittelbar oder unmittelbar Menschen betreffen können. Der Autor hat neben den technischen KI-Projekten Bonitätsanalysen von Personen innerhalb von Bankengruppen, Krankenstände von Personen, Vorhersage von Personengruppen, die zukünftig Industrieprojekte »in den Sand setzen werden«, Betrugserkennungssysteme für Ärzteabrechnungen und einiges mehr entwickelt. Im Rückblick auf über 25 Jahre ist von vielen dieser KI-Anwendungen jedoch abzuraten. Warum? Fehlurteile der KI betreffen die Menschen bei solchen Auswertungen unmittelbar. Und die späteren Anwender der KI haben in der Regel keine Vorstellung davon, wie sehr sich KISysteme irren können. In einem rein technischen Anwendungsfall kann ein Fehlurteil der KI beispielsweise die Ausschussrate erhöhen, was ärgerlich genug ist. In Fällen, bei denen Menschen betroffen sind, muss das jedoch ausgeschlossen oder absolut minimiert werden. Vollautonomes Fahren, Starten und Landen von Personenflugzeugen, Shutdowns von Kernkraftwerken und Fabriken, Operationen am Menschen ohne jegliche Eingriffsmöglichkeiten der Fachleute oder Anwender vor Ort ist
mit KI eigentlich nicht möglich oder nur unter der bewussten Inkaufnahme hoher menschlicher Verluste oder menschlichen Leids. Nicht die KI ist jedoch »gut« oder »schlecht«, aber ihre (zukünftigen) Geschäftsmodelle müssen nochmals gründlich durchdacht werden. Damit kommen wir zu einem nächsten, sehr wichtigen Thema. Vor manchen KI-Anwendungen kann man sich regelrecht fürchten.
KI & Big Data – Fluch und Segen zugleich MerlinOne – ein Asset-Management-Plattform-Anbieter aus den USA – hat zusammengetragen, dass im Jahre 2018 circa 2,5 Exabyte an Daten erzeugt wurden, und zwar täglich. Rechnet man das aufs Jahr hoch, so erzeugten wir damals ein Zettabyte (1021 Byte) an Daten pro Jahr. Im Jahre 2022 war das laut Experten bereits die 80-fache Menge. Für das Jahr 2025 werden jährliche Datenmengen von 180 Zettabyte erwartet [Statista.com]. Das sind so große Datenmengen, dass man vor einigen Jahren noch nicht einmal die Präfixe dieser Zahlen kannte. TBFestplatten sind einem geläufig und auch Petabyte (1000 TB) hat man schon gehört. Aber die Menschheit erzeugt so große Datenmengen, dass es den Rahmen zu sprengen scheint. Natürlich wissen wir, dass es unendlich viele Daten gibt, da die Welt analog ist, dennoch sind diese digitalen Zahlen beeindruckend. Die Frage ist, wie nutzt man diese Daten? Neben Industrie-, Banken- und Versicherungsprojekten wird die KI selbstverständlich bei den heutigen Big-Data-Anwendungen eingesetzt. Jeder kennt dabei die Auswertungen von Google, Facebook, Amazon und Co. Die Data-Mining-Verfahren sind dort im Prinzip ähnlich, wobei die technischen Herausforderungen, mehrere Terabyte Daten pro Sekunde auszuwerten, sehr hoch sind. Die Anbieter haben sich dabei eine sehr große Expertise erworben. Nicht umsonst ist Google einer der Vorreiter der gesamten KI-Entwicklung. Wie viele von diesen Daten die
großen Anbieter speichern und auswerten, weiß niemand so genau, aber wir wollen trotzdem mal versuchen, uns zumindest ein grobes Bild zu machen.
Schauen wir zuerst zu Facebook Der Social-Network-Riese Facebook besitzt riesige Datenmengen. Jede Stunde scannt das System Hunderte von Terabytes ein. Datenmengen dieser Größe – »Big Data« im wortwörtlichen Sinne – sind schwer zu verwalten und schwer auszuwerten. Aber Facebook kann das. Sehen wir uns mal einige Informationen zu Facebook aus dem Quartalsbericht Q3/2022 an, die man beispielsweise unter [https://allfacebook.de/zahlen_fakten/meta-facebooknutzerzahlen-umsaetze-2022] und anderen Internetquellen findet. 2,96 Milliarden Nutzer, davon 1,98 Milliarden tägliche Nutzer 349 Millionen Nutzer alleine in Europa 600 Millionen Menschen nutzen Instagram (250 Millionen davon täglich) und 2 Milliarden nutzen WhatsApp (auch hier circa 250 Millionen täglich) 27 Milliarden US-Dollar Umsatz in Q3/2022 (allerdings Rückgang zu Q2) 72.000 Menschen arbeiteten 2022 bei Meta (dem Mutterkonzern) Facebook hat also Nutzerzahlen im Milliardenbereich. Permanent werden Likes ausgewertet und News zusammengestellt. Diese Zahlen sind nun wirklich Big Data. Dass Facebook daraus irgendwelche Erkenntnisse zieht, ist anzunehmen. Zumindest lässt sich das System so konfigurieren, dass man immer (mehr!) Zeit mit Facebook verbringen will. Von den 2,9 Milliarden Nutzern sind 1,9 Milliarden Nutzer täglich online. Facebook hat im Jahre 2022 über 116 Milliarden Dollar Umsatz und über 23 Milliarden Dollar Gewinn gemacht hat. Wie hat Facebook das gemacht? Jeder Mensch weiß, dass Unternehmen Rohstoffe einkaufen, daraus Produkte fertigen und die produzierten Produkte an Kunden
weiterverkaufen. Was sind also die Rohstoffe und Produkte von Facebook? Nun, die Rohstoffe von Facebook sind seine Nutzer! Ich weiß, eine etwas eigenwillige Sichtweise, aber leider wahr. Was sind die Produkte von Facebook? Die Produkte könnten die »veredelten« Daten der Nutzer sein. Aber das ist nicht eindeutig. Nähern wir uns daher zuerst einmal einer anderen Frage. Wer gibt 116 Milliarden US-Dollar pro Jahr aus, um veredelte Kundendaten zu erwerben? Mit den oben genannten Zahlen ergibt sich in einfachster Schätzung, dass man Facebook über 35 Dollar pro Kundendatensatz im Jahr zahlen müsste. Das ist erstens ziemlich teuer und zweitens verkauft Facebook die Kundendaten ja gar nicht. Kundendaten sind daher nicht das Produkt. Das Produkt von Facebook ist nämlich der hochpräzise Kundenzugang zu den »Rohstoffen« selbst. Das ganze Facebook-System ist damit eine Verkaufsplattform, eine Kundenzugangsplattform, die Facebook unbekannten Dritten zur Verfügung stellt. Also nichts weiter als das, was jeder Privat-TV-Sender auch macht? Nein, Facebook ist viel smarter. Die »Menschen-Rohstoffe« werden für jeden Werbespot hochselektiv ausgewählt. Und welche Rolle spielt die KI dabei? Durch die KI wird das sogenannte Engagement erhöht. Die »Rohstoffe« werden von der Plattform abhängig gemacht, das – und nur das – ist die Aufgabe der Facebook-KI. Aus Sicht des Facebook-Konzerns ist dieses Vorgehen auch logisch, denn Facebook arbeitet im Dienste seiner Kunden (wer immer das ist) und ganz sicher nicht für seine »Rohstoffe«. Rohstoffe werden in einem Industrieprozess immer nur benutzt. Man muss sagen, Facebook arbeitet mit sehr großem Erfolg, denn als Werbender hat man einfach viel weniger Streuverluste als bei normalen Werbungen und die »Rohstoffe« liefern gerne ihren täglichen Beitrag. Ist ein solches Geschäftsmodell eigentlich in Ordnung? Nein, selbst wenn Facebook seinen »Rohstoffen« genossenschaftlich gehören würde, könnte man das nicht akzeptieren, denn es ist letztlich wie beim Drogenhandel. Die ersten Drogen gibt es immer umsonst, ab dann erhöht der Süchtige sein Engagement von selbst. Und daraus gibt es keinerlei Entkommen. Die Nutzerzahlen steigen permanent an. Aus Sicht der Facebook-KI ist das ein Erfolg, aber aus Sicht der Gesellschaft ist das sehr kritisch zu sehen. Es ist allgemein
auch bekannt, dass die Nutzer ihre Facebooksitzung mit einem schlechteren Mindset verlassen, als sie eingetreten sind, und das täglich, das heißt, Facebook vermiest einer Milliarde Menschen pro Tag auch noch die Laune. Durch die Likes ist eine Sucht erzeugt worden, der man sich nicht mehr entziehen kann, wenn man einmal hineingeraten ist. Und die Konstrukteure wissen das genau. Ich zitiere Sean Parker, den ersten Präsidenten von Facebook. Was er sagt, ist schier unglaublich: »Wir müssen dir sozusagen ab und zu einen kleinen Dopamin-Kick verpassen, weil jemand ein Foto oder ein Posting oder sonst was gelikt oder kommentiert hat. […] Das ist eine Feedbackschleife für soziale Anerkennung […] genau das, was ein Hacker wie ich sich selbst ausdenken würde, weil man damit eine Schwachstelle der menschlichen Psyche ausnutzt. […] Die Erfinder, die Urheber – die Leute wie ich, Mark [Zuckerberg], Kevon Systrom von Instagram, all diese Leute – haben das auf einer ganz bewussten Ebene verstanden. Und wir haben es trotzdem gemacht […] es verändert buchstäblich deine Beziehungen zur Gesellschaft und untereinander […] Wahrscheinlich hat es negative Auswirkungen auf die Produktivität. Wer weiß, was es mit den Gehirnen unserer Kinder anstellt.« [Lanier 2018, S. 15] Bei über einer Milliarde Nutzern täglich klingt das nicht gerade erbaulich. Jaron Lanier – ein Silicon-Valley-Insider – hat mit seinem Buch Zehn Gründe, warum du deine Social Media Accounts sofort löschen musst klare Stellung gegen Facebook bezogen [Lanier 2018]. Für ihn ist Facebook das Bummer-Unternehmen schlechthin. Da BUMMER uns alle bedroht, möchte ich Lanier kurz zitieren: »BUMMER ist eine Maschine, ein statistischer Apparat, der in CloudNetzwerken lebt. Noch einmal zur Erinnerung: Auch wenn ein Phänomen nur statistisch und ungenau ist, so ist es doch real. Selbst die besten BUMMER-Algorithmen können nur die Wahrscheinlichkeit berechnen, dass eine Person sich auf bestimmte Art und Weise verhalten wird. Was jedoch für jeden Einzelfall nur eine Wahrscheinlichkeit ist, wird im Durchschnitt einer großen Zahl von Menschen beinahe zur Gewissheit. Die gesamte Bevölkerung kann mit größerer Berechenbarkeit beeinflusst werden als irgendeine Person.«
BUMMER und das Gesetz der großen Zahlen Das ist leider wahr. Sie kennen alle das Gesetz der großen Zahlen. Obwohl man zum Beispiel das Verhalten eines Moleküls in einem Gas nicht vorhersagen kann, es ist rein zufällig, so kann man dennoch aus der Vielzahl von Teilchen exakt die kinetische Energie bestimmen und verändern (manipulieren). In diesem Fall ist das die Temperatur des Gases, sie ist hoch-exakt einstellbar. Verglichen mit dem Gas ist die Anzahl der Menschen, die Teilnehmer in Facebook sind, eigentlich noch zu klein, es müssten 1000-mal mehr sein, um exakte Aussagen machen zu können, aber für den Anfang ist Facebook »nicht schlecht«. Und genau das nennt der Autor BUMMER. Es steht für »Behaviors of Users Modified and Made into an Empire for Rent«. Ich möchte mich diesem Wortspiel anschließen und den Begriff BUMMER weiter verwenden, denn BUMMER ist im Englischen etwas Unerfreuliches und steht im Umgangssprachlichen etwa für »Mist!« oder »blöd«. Die freie Übersetzung von BUMMER wäre: »Verhaltensweisen von Nutzern, die verändert und zu einem Imperium gemacht werden, das jedermann mieten kann.« Nicht gerade witzig. Scheint das die alleinige Aufgabe von Facebook zu sein? Ob das in Blogs kolportierte Argument, dass Facebook circa 500 Millionen Dollar von Nachrichtendiensten erhielt, stimmt, kann ich nicht einschätzen. Hoffentlich stimmt es nicht. Aber 20 Milliarden Dollar Umsatz alleine in einem einzigen Quartal für reine Anzeigenschaltung scheint doch überraschend. Ich komme im Abschnitt Ethik darauf zurück. Wir können alle nur hoffen, dass Facebook eigene ethische Richtlinien verfolgt. Denn Lanier hat völlig recht. Dem Einzelnen kann Facebook egal sein, aber eine Masse von Leuten – eine ganze Gesellschaft – lässt sich dadurch verändern, sogar zersetzen. Und das ist überhaupt nicht egal. Aber der Höhepunkt könnte für Facebook überschritten sein. Facebook hat Ende 2022 mitgeteilt, über 10.000 Mitarbeiter zu entlassen, denn auch das »Metaversum« kommt nicht so voran, wie einstmals geplant.
Und nun zu Google Auch Google manipuliert die digitale Welt, aber sie haben einen eigenen Ethik-Codex entwickelt, der sehr vernünftig klingt. Vor einigen Jahren
wollte Google für ein Militärprojekt arbeiten, wurde wohl aber nach großen internen und externen Widerständen »wachgerüttelt«. Ich möchte die Google-Ethik-Richtlinien kurz nennen, denn sie sind sehr wichtig. Auch andere Konzerne wie die Deutsche Telekom haben sich eigene Ethik-Richtlinien verordnet, eine sehr begrüßenswerte Entwicklung. Hier die sieben Leitlinien von Google aus dem Jahre 2018 [Bremerhafen.de/Google]: 1. KI soll sozialen Nutzen stiften. 2. KI soll fair sein. 3. KI soll nur mit Sicherheitstechniken entwickelt und angewendet werden. 4. KI muss dem Menschen gegenüber rechenschaftspflichtig sein. 5. KI muss alle Datenschutzregeln und Gesetze einhalten. 6. KI muss sich immer an hohe wissenschaftliche Standards halten. 7. KI darf nur Anwendungen zur Verfügung gestellt werden, die die oben genannten Grundsätze einhalten. Wenn das nicht nur Phrasen sind, ist das wirklich sehr zu begrüßen. Zahlreiche Google-Mitarbeiter haben im August 2018 einen Protestbrief verfasst, als Google seine Dienste in China anbieten wollte und dabei akzeptierte, dass die Dienste zensiert werden sollten. Das passte den eigenen Google-Mitarbeitern überhaupt nicht und sie protestierten. Es ist hervorragend, wenn Global Player eine Verantwortung für die Gesellschaft übernehmen, aber man läuft hierbei natürlich auch Gefahr, von politischer Seite missbraucht zu werden, wie man bei Twitter feststellen konnte. Welche Datenmengen verarbeitet die KI von Google? Laut Statista wächst das Datenvolumen der Welt um circa 30 Prozent pro Jahr. Im Jahre 2022 waren es bereits 85 Zettabyte. Wie viele Daten davon speichert Google? Das bekommt man leider nicht heraus. In Blogs heißt es, dass Google circa die Hälfte aller weltweiten Daten speichert, aber weder Google noch andere veröffentlichen belastbare Zahlen. Die
Anzahl der Suchanfragen wird jedoch bekannt gegeben, im Jahre 2016 waren es laut Statista bereits über 3 Billionen Anfragen, Abbildung 13.18. Die exakte Anzahl der Suchanfragen 2022 ist nicht mehr ermittelbar, die obige Webseite gibt dazu keine Auskünfte mehr. Man schätzt aber, dass die Anzahl weiterhin bei über 3 Billionen liegt. Die Seite [InternetLiveStats.com/Web] gibt an, dass es aktuell 1,9 Milliarden (sichtbare) Websites gibt. Wahrscheinlich hat Google mittlerweile alle sichtbaren Webseiten indiziert. Nicht jede Webseite muss natürlich mit sinnvollem Inhalt gefüllt sein. Obwohl es heißt, dass 75 Prozent aller Webseiten nicht aktiv sind und nur geparkt werden, gibt es für Google trotzdem genug zu tun. Google soll weit über eine Million Server besitzen. Das ist Big Data im ganz großen Stil. Google spielt damit nicht in der Champions League, sondern Google hat diese Stelle allein besetzt. Doch was macht Google mit den Daten? Google analysiert das Suchverhalten, sagt man. Da es Google mittlerweile auch auf jedem Android-Telefon gibt, analysiert es auch das Nutzerverhalten an verschiedenen Orten und vieles mehr. Letztlich kann der Autor nicht sagen, was Google damit alles anstellt, aber nach der Vorstellung der oben genannten KI-Verfahren ist klar, was machbar wäre. Betrifft uns das? Ja. Eine sehr merkwürdige Eigenart der Google-Suche ist nämlich, dass Google seine Antworten für die Suchanfragen immer weiter personalisiert. Zwei Sucher mit der gleichen Suchzeile erhalten dadurch unterschiedliche Ergebnisse angezeigt. Und man erhält auch unterschiedliche Ergebnisse, je nachdem, von welchem Computer aus man sucht [Wikipedia.org/Google]. So konstruktiv dies von Google gemeint sein mag, es ist eine Katastrophe, denn dadurch entstehen die berüchtigten Filterblasen. Irgendwann findet man im Internet nur noch das, wovon Google glaubt, dass es für einen relevant ist. Während früher Google das Internet nur explorierte, so ordnet Google heute das Internet nach seinen eigenen Vorgaben neu. Seiten, die Google nicht listet, existieren für die meisten Menschen einfach nicht mehr, denn Google hat einen Marktanteil von über 94 Prozent. Aus
diesem Teufelskreis kommen Sie auch nicht heraus, es sei denn, Sie nutzen Google von einem anderen Account.
Abbildung 13.18: Big Data – Anzahl der Suchanfragen, die Google weltweit pro Jahr bearbeitet, in Milliarden. Grafik basiert auf Daten von Statista.com/Google.
Oder Sie nutzen andere Suchmaschinen. Die fünf größten Suchmaschinen der Welt sind Google, Yahoo, Bing, Baidu und Yandex. Mit der chinesischen Suchmaschine Baidu konnte ich bei einem Suchmaschinentest sogar mehr über mich selbst finden als mit Google, was irgendwie auch etwas beunruhigend war. Und denken Sie immer dran: Während Sie mit einer Suchmaschine suchen, sucht diese Maschine bei Ihnen, und das mindestens genauso clever. Deswegen existieren ja all diese Anbieter. Nichts gibt es umsonst. Unbedingt empfehlen kann ich daher QWANT und DuckDuckGo.
Was ist DuckDuckGo? Schauen wir zu DuckDuckGo.com. Dort steht: »Du bist es leid, online getracked zu werden? Wir schaffen Abhilfe.« Das klingt irgendwie sympathisch! Und bei QWANT.com steht: »Die Suchmaschine, die nichts über Sie weiß – und das ändert alles!« Klingt sogar noch sympathischer. Warum kann anonymes Suchen notwendig sein? Nun, viele Informationen zu Google habe ich mit einer anderen Suchmaschine gefunden. Google selber war wohl der Meinung, dass ich mich für seine eigenen technischen Daten nicht interessiere, was aber eindeutig falsch ist. Eine solche virtuelle Filterblase zu erzeugen, ist sicher nicht im Sinne des Erfinders. Es lohnt sich daher, immer auch andere Suchmaschinen zu verwenden, auch wenn Googles Leistung meistens immer noch das Beste ist. Aber wie auch immer man zur Google-Suche steht: Google ist einer der Vorreiter, wenn nicht gar das Top-Unternehmen weltweit im Bereich (digitaler) Künstlicher Intelligenz. Im nächsten Kapitel stelle ich einige Plattformen vor, mit denen jeder selber KI-Verfahren anwenden oder ausprobieren kann. Googles Tensor Flow ist dabei eine der wichtigsten Open-Source-Plattformen.
Da ist der Haken Wo aber ist das Problem, wenn die Internet-Big-Five (Google, Facebook, Amazon, Apple, Microsoft) die beschriebenen KI-Verfahren so massiv einsetzen? Nun, die Probleme sind mehrfach: Die Eigentümer werden megareich, und das mit unseren Daten. Das ist zwar nicht wirklich ein Problem, aber es ist dennoch unfair. Sie können Dinge über uns alle messen, die wir nicht wollen, dass sie gemessen werden. Das ist nicht akzeptabel. Es sind alles unsere Daten. Sie schicken uns alle in eine Filterblase. Das ist erst recht nicht akzeptabel, denn dies kann eine Gesellschaft zerstören, siehe Abschnitt »Ethik« (Kapitel 17).
Sie können im Einzelfall völlig falsch liegen, und niemanden interessiert es. Das ist bedrückend, denn wie will man sich dagegen wehren? Zu Letzterem ein Beispiel aus dem Alltag. Im Rahmen einer Vorlesung habe ich – um den Studenten KI-Auswertungen in der Praxis vorzuführen – ein Experiment gemacht. Da ich eine Katze habe und für diese Katze einen separaten Ausgang aus dem Haus bauen wollte, habe ich bei einem Anbieter nach »Glasrundschneidern« gesucht (Abbildung 13.19).
Abbildung 13.19: Bestellung eines Glasrundschneiders bei einem Online-Anbieter
Und in der Tat, ich konnte über den Anbieter Glasrundschneider finden. Am nächsten Tag kam jedoch die Überraschung. Inspiriert von meinem Browserverlauf empfahl mir der Anbieter folgenden Einkauf (Abbildung 13.20):
Abbildung 13.20: Die Online-Anbieter-KI hat sich verrechnet.
In der Vorlesung bringt das natürlich den absoluten Lacher, die Aufmerksamkeit ist einem sicher. Und jeder ahnt, dass der Anbieter diesmal danebenlag. Was aber, wenn Sie die Ergebnisse der KIBerechnungen der letzten Nacht gar nicht einsehen können? Was ist, wenn die großen Firmen Ihnen, mir und allen anderen einen RisikoScore-Code verpasst haben, den wir gar nicht kennen. Was, wenn einmal die Bundespolizei wegen solch eines Schwachsinns bei Ihnen klingelt? Das ist nun gar nicht mehr lustig. Nun wissen wir, dass viele Aussagen der heutigen Software-KI nur statistische Aussagen sind, da sie auf dem maschinellen Lernen beruhen mit allen statistischen Problemen. Aber weiß das auch der Laie, der sich nur mal kurz die Ergebnisse ansieht? Weiß es der Politiker, der Polizist (der heutzutage bereits maschinelle Precops einsetzt), der Entscheider oder der Manager? Da wird es langsam gruselig. Die Konsequenz ist, dass KI – insbesondere die Big-Data-KI – niemals irgendwelche Entscheidungen in der realen Welt treffen darf, die Menschen persönlich betreffen oder konkreter, die deren Grundrechte einschränken können. KI-Ergebnisse können und dürfen immer nur Entscheidungshilfen sein. Wer das nicht einhält, verletzt die Würde des Menschen, da der Mensch durch eine statistische Maschine in Rechtfertigungsnot gerät. Die EU-Kommission hat Ende 2018 einen hochtechnischen Entwurf für »Ethikrichtlinien für eine vertrauenswürdige KI« veröffentlicht [Europa.eu/AI]. Man kann nur hoffen, dass alle Verantwortlichen wissen, dass die Würde des Menschen unantastbar ist. Und besser als alle Richtlinien und Guidelines (mit denen wir mittlerweile »überschwemmt« werden) sind allemal Gesetze, deren Einhaltung vor einem europäischen Gericht handfest einklagbar ist. Hier ist die Politik gefordert! Hoffentlich versteht sie, dass die heutige KI letztlich »nur« ein »statistischer Apparat« ist. Allerdings scheinen die EU-Verordnungen zur KI in die richtige Richtung zu gehen. Der seit 2021 diskutierte AI Act der EU definiert vier verschiedene Schutzklassen und wird die Macht und Risiken der KI definitiv begrenzen.
Kapitel 14
KI zum Anfassen – Arbeiten mit Tools IN DIESEM KAPITEL Tools und Werkzeuge KNIME, Matlab, TensorFlow
Wenn Sie dem Buch bisher gefolgt sind, wollen Sie eventuell auch etwas mit KI selber umsetzen. Sie werden erstaunt sein, das ist sehr gut möglich, teilweise sogar sehr einfach. Denn es gibt eine riesige Anzahl von KI-Werkzeugen, Sprachen, Frameworks, Bibliotheken und Entwicklungsumgebungen, die meistens sogar kostenlos nutzbar sind. Im Folgenden eine Auswahl nützlicher KI-Software in alphabetischer Reihenfolge aus einer Internetrecherche von 2018 und 2022, unter anderem von [Altexsoft.com/ML]. Um nicht den Überblick bei den vielen Tools zu verlieren, möchte ich die Aufzählung strukturieren. Es geht bei Softwareentwicklung immer um Programmiersprachen, Entwicklungsumgebungen, Bibliotheken und Repositorien. Die recht schnell aufkommende Frage, welches dann die beste Kombination von alldem ist, ist leider wie beim Autokauf, es kommt immer drauf an. Dennoch habe ich in der Liste eine Vorauswahl getroffen und besonders wichtige oder einfach benutzbare KI-Software mit fetten Lettern markiert. Einige Werkzeuge aus der Liste werde ich im Anschluss auch kurz beschreiben. Kommen wir zur Liste nützlicher KI-Software zum maschinellen Lernen und zur Datenanalyse: Aika ist eine Open-Source-Text-Mining-Software.
Anaconda Distribution ist einer der weltweit beliebtesten OpenSource-Python-Distributionen. Sie beinhaltet zahlreiche KIWerkzeuge wie LabelMe, Spyder und die Entwicklungsumgebung Jupyter Notebooks. Angoss ist ein Data-Mining- und Predicitve-Analytics-System. Apache Software Foundation bietet diverse Plattformen zum Verarbeiten großer Datenmengen (Big Data), bekannt sind Apache Spark, Apache Hive und Hadoop für ultimative Big-Data-Lösungen. Aphelion ist eine Software-Suite zur Bildverarbeitung und Bildanalyse. Caffe ist ein Open-Source-Deep-Learning-Framework, mit Schnittstellen zu MATLAB und Python und vielen mehr. Yahoo hat Caffe sogar in Apache Spark integriert, daher kann es sehr gut auf verteilten Architekturen angewendet werden. Hauptanwendungen sind Maschinelles Sehen, Multimedia und Sprache. CART ist eine Data-Mining-Software für Entscheidungsbäume. DL4J ist eine Open-Source-verteilte Deep-Learning-Bibliothek, die mit Spark und Hadoop (Big Data) zusammenarbeitet. DSSTNE (»Destiny«) – Deep Scalable Sparse Tensor Network – ist die offene Deep-Learning-Software von Amazon, insbesondere für spärliche Daten, in direkter Konkurrenz zu Caffe und TensorFlow. ELKI ist eine Open-Source-Data-Mining-Software. Encog ist ein Framework für maschinelles Lernen. H2O ist eine führende Open-Source-Software für Big-DataAnalysen. Ilastik ist eine Open-Source-Software zur Bildklassifizierung und Bildanalyse. Jubatus ist ein Open-Source-Framework für maschinelles Lernen und verteiltes Rechnen. Julia ist eine höhere Programmiersprache für wissenschaftliches Rechnen (ähnlich Matlab).
KERAS ist eine Open Source-Bibliothek, geschrieben in Python, zur Entwicklung von Deep-Learning-Netzen. KNIME ist eine führende Open-Source-Software-Plattform aus Deutschland für die interaktive Datenanalyse und maschinelles Lernen, zum Beispiel auch mit einer Extension zu Apache Spark für Big-Data-Projekte. LabelMe und LabelImg sind beliebte Systeme zum Annotieren von Bildern. LanguageWare ist eine NLP-Technologie zur Verarbeitung natürlicher Sprache. LIBSVM und LIBLINEAR sind Open-Source-Bibliotheken für maschinelles Lernen. Linguamatik ist eine NLP-Text-Mining-Plattform. MALLET ist eine Bibliothek für die statistische Verarbeitung natürlicher Sprache. MATLAB ist eine Software für (alle) mathematische(n) Problemstellungen, seit einigen Jahren auch Deep Learning – in vielen Unternehmen ein Standard, zum Beispiel auch in der Regelungstechnik. Microsoft Cognitive Toolkit ist ein Deep-Learning-Framework von Microsoft. ML.NET ist eine kostenlose Softwarebibliothek für maschinelles Lernen für die Programmiersprachen C# MLPACK ist eine Software für maschinelles Lernen für C++. MLPY ist ein Modul für maschinelles Lernen mit Python. MOA ist ein Open-Source-Framework für Data Stream Mining, auch zusammen mit WEKA. NetOwl ist eine Software für Echtzeit-Textanalyse auf Big Data. Neuronaler Designer ist eine Software für maschinelles Lernen. OpenNN ist eine Open-Source-Bibliothek für neuronale Netze für das High Performance Computing.
Oracle Data Mining ist ein Data-Mining-Framework für OracleDatenbanken. Orange ist eine visuelle Programmiersprache für maschinelles Lernen und Data Mining. Piranha ist ein Text-Mining-System für riesige Mengen nicht zusammenhängender Freitexte. PyCharm ist eine Entwicklungsumgebung zur Entwicklung von Python-Code und hat sich aktuell als eine der StandardEntwicklungsumgebungen etabliert. PyTorch ist eine auf maschinelles Lernen ausgerichtete OpenSource-Programmbibliothek für die Programmiersprache Python, basierend auf der Bibliothek Torch. R ist eine freie Programmiersprache für statistische und KIBerechnung, in vielen Firmen mittlerweile Standard, geeignet für Big Data. RapidMiner ist eine benutzerfreundliche Software für maschinelles Lernen, Data Mining und Text Mining. RNN ist ein Open-Source-Framework für maschinelles Lernen und rekurrente neuronale Netze in R. SAS ist eine Software-Suite für die Analyse riesiger Daten und mit dem SAS Enterprise Miner und SAS INSIGHT– in vielen Konzernen ein Standard. Scikit ist eine freie Bibliothek für maschinelles Lernen unter Python. Es bietet Klassifikations-, Regressions- und Clustering-Algorithmen, darunter Support-Vektor-Maschinen, Random Forest, k-means und DBSCAN. Shogun ist eine Open-Source-Bibliothek für maschinelles Lernen für sehr viele Sprachen (Python, Octave, R, Java, C# et cetera). SPSS ist eine Software (mittlerweile von IBM) für statistische Analyse und Data Mining – früher eines der ganz großen Tools (SPSS Inc.).
Spyder ist eine plattformübergreifende Entwicklungsumgebung für die wissenschaftliche Programmierung in Python. Tanagra ist eine kostenlose Software-Suite für maschinelles Lernen, vorzugsweise im akademischen Umfeld. TensorFlow ist das Open-Source-Framework für maschinelles Lernen von Google. Unter anderem damit wurden AlphaGo und AlphaZero entwickelt. TensorFlow ist ein Framework, das sich hervorragend zur Anwendung in Python eignet. Es steht jedermann zur Verfügung und stellt mittlerweile ein Art Quasi-Standard dar. Torch ist ein wissenschaftliches Deep-Learning-Framework für maschinelles Lernen von Facebook, das bei Facebook, Google, Twitter und vielen anderen AI Labs im Einsatz ist. Genau wie TensorFlow von Google verwendet es Tensoren. VIGRA ist eine Open-Source-Bibliothek unter anderem für Image Processing. Vowpal ist ein Projekt von Microsoft (und früher Yahoo) für sehr schnelle Lernalgorithmen. Visual Studio Code mit Python-Plugin ist eine sehr gute Entwicklungsumgebung für Python-Code. Weka ist ein frei verfügbares Software-Tool für maschinelles Lernen und Data Mining – mit einer riesigen Anzahl von Algorithmen. Wolfram Mathematica ist eines der am meisten benutzten naturwissenschaftlich-mathematischen Programmpakete und Computeralgebrasysteme mit einer Sprachanlehnung an die KISprache LISP. Yooreeka ist eine Bibliothek für maschinelles Lernen und Data Mining, geschrieben in Java. Zeroth ist eine Plattform von Qualcomm für Deep-LearningVerfahren für spezielle neuronale Verarbeitungs-Chips (insbesondere für mobile Endgeräte).
Diskutieren wir kurz die (sich ständig ändernde) Liste: Die wichtigsten Entwicklersprachen, die heute im Bereich des maschinellen Lernens und der Datenanalyse eingesetzt werden, sind sicherlich Python und R. Für Ingenieure empfiehlt sich weiterhin auch Matlab. Um selber etwas zu entwickeln, benötigt man eine Entwicklungsumgebung (Integrated Development Environments, IDE), es empfehlen sich Jupyter Notebooks, PyCharm, Spyder oder Visual Studio. Um komplexeren Code zu entwickeln, greifen Entwickler auf vorhandene Bibliotheken oder Frameworks zurück, für Deep-Learning-Anwendungen zum Beispiel auf TensorFlow oder Keras. Aber man muss nicht unbedingt selber Code programmieren, es gibt eine große Anzahl leistungsfähiger KI-Tools (Data-Mining-Suiten), die man sozusagen mit der Maus durch Drag&Drop bedienen kann, beispielsweise KNIME oder RapidMiner. Wenn man als Anfänger mit KI-Verfahren experimentieren will, so empfiehlt es sich, mit einem normalen PC anzufangen und einfache Lernaufgaben auszuprobieren. In Seminaren beginne ich im praktischen Teil häufig mit der Entwicklung eines neuronalen Addierers. Die Studenten sollen dabei ein neuronales Netz aufbauen, das aus 30 Datenbeispielen selbstständig lernt, zwei Zahlen zu addieren. Dazu verwenden sie oftmals das Softwarepaket Matlab, da Matlab für Ingenieure als Standardentwicklungsplattform angesehen werden kann und bereits seit Jahren hervorragende KNN-Toolboxen enthält. Bewährt hat sich bei uns auch die Entwicklung von Python-Code in PyCharm. In speziellen Data-Science-Seminaren benutzen wir aber auch gerne die Data-Mining-Suite KNIME. Aber auch viele andere Werkzeuge aus der obigen Liste sind für Anfänger und Interessierte sehr gut geeignet. Entwickeln wir komplexeren KI-Code, zum Beispiel für eine Ampeloder Fußgängererkennung im Bereich des Autonomen Fahrens, so greifen wir in der Regel auch auf GitHub zu. GitHub ist ein HostingDienst für Repositorien, also eine Code-Hosting-Plattform für eine Software-Versionskontrolle und perfekt geeignet für die weltweite Zusammenarbeit von Entwicklern. Mittlerweile stellen fast 100
Millionen Softwareentwickler Code dort ein, den man gemeinsam analysieren, diskutieren und/oder auch nutzen kann. Nachfolgend möchte ich einige Informationen zu fünf effizienten und schnell nutzbaren Werkzeugen aus der Liste geben, und mit Matlab beginnen:
1. Matlab – MATrix LABoratory Matlab oder MATLAB ist eine kommerzielle Software der Firma MathWorks zur Lösung mathematischer Probleme, insbesondere für numerische Berechnungen mithilfe von Matrizen, woher sich auch der Name ableitet: MATrix LABoratory. Matlab und Simulink von MathWorks sind Standardwerkzeuge für Ingenieure zur Simulation und Berechnung. Seit vielen Jahren kann man mittels Matlab auch neuronale Netze aufbauen. Matlab bietet grafische Benutzeroberflächen, womit der Anfänger immer beginnen sollte. Später wird er Kommandozeilen-orientiert selber programmieren, weil das immer schneller und effizienter geht. Zu Beginn startet man in Matlab ein Fenster, so auch bei den neuronalen Netzen. Je nach Version von Matlab müssen verschiedene Fenster und Masken bedient werden. Bleiben wir bei der oben genannten Seminaraufgabe, einen neuronalen Addierer zu entwickeln. Der Benutzer wählt nun das Fitting Tool, weil er ein neuronales Netz bauen will, das die Funktion Y = f(X) realisieren soll. Im Beispiel soll die Funktion Y = x1 + x2 im Zahlenraum zwischen 1 und 100 aus – sagen wir – 30 vorgegebenen Zahlenbeispielen gelernt werden. Man muss daher noch Lerndaten zum Beispiel aus einer vorher gefüllten Excel-Tabelle in das MATLABProgramm einlesen. Eine Datenzeile aus Excel sieht dann so aus: [3 4 7], eine weitere so: [10 20 30], eine dritte so: [65 93 158]. Insgesamt könnte man so 30 Additionsbeispiele vor bereiten, mit denen das Netz trainiert werden kann. Das Training des neuronalen Netzwerkes funktioniert vollautomatisch.
Als Ergebnis erhält man nach wenigen Sekunden Rechenzeit zum Lernen des Netzes das Testfenster. Darin kann man untersuchen wie gut die Lernaufgabe geklappt hat. Im Testfenster kann man nämlich analysieren, um wie viel der Lernfehler kleiner ist als der Testfehler. Jetzt sollte man sich an die Theorie der KNN erinnern. Der Lernfehler kann im Prinzip immer auf null gebracht werden, und zwar dadurch, dass man immer mehr Neuronen in das Netz aufnimmt, sodass die Lernaufgabe auswendig gelernt werden kann. Ein neuronales Netz könnte tatsächlich alle 30 Lernbeispiele, die in der Excel-Tabelle stehen, mit dem Fehler null addieren. Aber das Netz soll ja viel mehr können. Es soll auch Zahlen addieren können, die vorher nicht in der Excel-Tabelle gestanden haben. Wir wollen schließlich auch, dass unsere Kinder nicht nur die Zahlen addieren können, die im Heft stehen, sondern alle. Deshalb wird der Testfehler minimiert, also der Fehler, den das Netz bei Daten macht, die es vorher nicht zum Lernen verwenden konnte. »Test« bedeutet, das System hat fertig gelernt, die besten Gewichte der Neuronen sind gefunden und es kann losgehen. Beim Test bekommt das Netz beliebige Daten aus dem Interpolationsraum präsentiert, im Beispiel also Eingangszahlen für x1 und x2 zwischen 1 und 100. Mit Matlab kann man sich auch an komplexere Lernaufgaben heranwagen. Empfehlen kann ich die einfache Einbindung von DeepLearning-Netzen. Matlab selbst wirbt damit und sagt auf seinen Internetseiten: »Deep Learning mit nur 11 Zeilen«. Und das stimmt tatsächlich. Es macht den Studenten Spaß, ihre ersten Deep-LearningErfahrungen zu machen. Dazu benötigt man eine Kamera, die über die USB-Schnittstelle angeschlossen wird, und die neuronalen MATLABToolboxen. Mit wenigen Zeilen Programmcode (tatsächlich nur 11 Zeilen) hat man dann seine erste Bilderkennungssoftware in Betrieb genommen und kann sie in Echtzeit nutzen, indem man die Kamera auf ein Objekt im Raum hält und am Bildschirm abliest, was die Software klassifiziert hat. Für die Praxis reicht die Applikation natürlich nicht. Die Erkennungsraten des verwendeten, vortrainierten Deep-Learning-Netzes liegen unter 90 Prozent. Große Erheiterung bringt die Klassifizierung, wenn man die Kamera in den Seminarraum hält und das System den
Raum als »Restaurant« oder »Bar« klassifiziert, … oder weiß Deep Learning mehr als der ahnungslose Dozent? Insgesamt ist das Tool ein sehr leistungsfähiges System, auch für ernsthafte Arbeiten. Da manche Leser des Buches sicher Matlab kennen, kann ich diesen die Nutzung für erste KI-Erfahrungen nur empfehlen.
2. R und Python R ist eine freie Programmiersprache für statistische Berechnungen und maschinelles Lernen. Das Konzept von R ist bestechend und in der Industrie ist es üblich geworden, viele maschinelle Verfahren in R zu entwickeln, da immer mehr (junge) Leute hervorragend in R ausgebildet sind. R wurde 1992 aus der Sprache S entwickelt, die – wie zur damaligen Zeit üblich – nur kommerziell erhältlich war. Im Gegensatz zu S haben die Entwickler von R einen größeren Schwerpunkt auf statistische Analysefunktionalitäten gelegt. Mittlerweile hat sich R zum Quasi-Standard für statistische Aufgaben und Problemstellungen in der Industrie entwickelt. Python ist die derzeit am weitesten verbreitete Programmiersprache für maschinelles Lernen. Für die meisten einfachen Anwendungsfälle – außerhalb des Deep Learning – reichen wenige Python-Bibliotheken, wie scikit-learn (für maschinelles Lernen), NumPy (für numerisches Python) und pandas (zur Datenmanipulation), die kostenlos sind. Wer sich als Softwareentwickler mit dem maschinellen Lernen beschäftigen will, kommt an Python nicht vorbei. Für andere Anwender der KI mag es jedoch besser sein, vorgefertigte Frameworks und Plattformen zu verwenden.
3. KNIME – Konstanz Information Miner Die kostenfreie Analytics-Plattform KNIME gehört zu den führenden offenen Lösungen im Bereich der Data-Mining-Suites [KNIME.com]. Die
Software nahm ihren Ursprung an der Universität Konstanz und die erste Version von KNIME wurde 2006 veröffentlicht. Die Plattform ist Open Source und stellt alle Standardmethoden des Data Mining bereit. Was es so spannend macht: Zahlreiche weitere populäre Open-Source-SoftwareLösungen aus dem Bereich des Data Mining sind in KNIME eingegliedert. Sie lassen sich einfach innerhalb von KNIME verwenden, wie beispielsweise die Programmiersprache R mit all ihren Analysemodulen, das umfangreiche Data-Mining-Tool Weka, die DeepLearning-Bibliotheken DeepLearning4J oder Komponenten aus der Machine-Learning-Plattform H2O.ai, um nur einige zu nennen. Ein großer Vorteil von offenen Plattformen ist neben den Kostenvorteilen die Vermeidung einer Festlegung auf eine bestimmte anbieterspezifische Technologie. Die Benutzeroberfläche von KNIME ist in Abbildung 14.1 dargestellt. Der Benutzer hat eine Arbeitsfläche, auf der er den Datenstrom und die Verarbeitungsschritte grafisch programmieren kann. Dadurch lassen sich auch komplexe Projekte gut überblicken.
Abbildung 14.1: Benutzeroberfläche der maschinellen Lernen-Plattform KNIME. Mit freundlicher Genehmigung der KNIME AG, Konstanz.
Die Oberfläche der Software gliedert sich unterhalb der Kopfleiste standardmäßig in Bereiche auf (A–G), deren Funktionalität auf den Webseiten sehr gut erklärt ist. Die Möglichkeiten der Datenintegration, transformation und -vorverarbeitung sind sehr umfangreich. Bei der Verwendung einer Datenbank als Datenquelle verfügt das Werkzeug über die Möglichkeit, Datenbankoperationen zum Beispiel zur Datenvorverarbeitung in der Datenbank auszulösen. Zur Modellierung stehen zahllose Data-Mining-Methoden bereit, die teils direkt in KNIME implementiert sind und teils aus externer Open-Source-Software eingebunden und in KNIME-Knoten transformiert wurden. Alle Kernfunktionen des maschinellen Lernens wie Klassifikation, Regression, Clustering oder Assoziationsanalysen sind prominent durch viele alternative Verarbeitungsmethoden vertreten. Es finden sich in KNIME und seinen offenen Erweiterungen aber auch Methoden aus diversen Spezialbereichen, wie zum Beispiel der Netzwerkanalyse, Zeitreihenanalyse, Textdatenanalyse, Signalverarbeitung oder Bildverarbeitung. Zudem bietet KNIME auch zahlreiche Möglichkeiten zur Datenvisualisierung und KNIME ist mittlerweile auch für DeepLearning-Anwendungen gut geeignet.
4. TensorFlow – Das KI-Framework von Google Kommen wir abschließend zu Google. Auf der Seite [tensorflow.org/Play] kann jeder Interessent innerhalb von fünf Minuten mal ausprobieren, was man mit neuronalen Netzen machen kann. Ich empfehle das unbedingt, denn so erleben Sie ohne jegliche Programmierkenntnisse unmittelbar die Faszination der neuronalen Netze, Abbildung 14.2.
Abbildung 14.2: Eine leicht bedienbare Demonstration von Googles TensorFlow
TensorFlow ist ein komplettes Framework und wurde von Google entwickelt, um über verteilten Datenbanksystemen zum Beispiel neuronale Netze für die Sprach- und Bildverarbeitung aufzubauen. Stellt man sich einen großen Graphen mit Kanten (Verbindungslinien) und Knoten vor, so entsprechen die Kanten den Tensoren, also den mehrdimensionalen Datenströmen – daher der Name, während die Knoten die mathematischen Operationen (zum Beispiel neuronale Berechnungen) repräsentieren. Google selbst verwendet diese Bibliothek laut Literatur für seine Spracherkennung, für Gmail und die Google-Suche. Auch verbessert Google mit der in TensorFlow implementierten KI seinen Kartendienst Google Maps und nutzt TensorFlow für seinen Übersetzer. Auch das gesamte Google-DeepMind-Projekt nutzt TensorFlow. Wir erinnern uns: DeepMind hat AlphaGo entwickelt. Mit DeepMind will Google jedoch nicht nur neuronale Netze aufbauen, sondern auch Speicher, wie sie beim Menschen bekannt sind. Google nennt das Ziel seiner Bemühungen daher auch gerne den Bau einer »neuronalen Turingmaschine«. TensorFlow ist Open Source, jeder Anwender kann damit eigene KIAlgorithmen entwickeln. Die Einbindung der TensorFlowProgrammbibliothek in eigene Projekte benötigt natürlich sehr gute
Programmierkenntnisse. Besitzt man sie, empfiehlt es sich, TensorFlow zu verwenden oder zumindest darüber nachzudenken. Man kann die Bibliotheks-Funktionen insbesondere von Python-Programmen aus aufrufen und nutzen. Google hat für seine Software auch spezielle anwendungsspezifische Chips, sogenannte Tensor Processing Units, entwickelt, um das maschinelle Lernen massiv zu beschleunigen. TensorFlow hat sich neben PyTorch zum Standard für Deep-LearningFrameworks im Low-Level-Bereich entwickelt. Seit Jahren gibt es auch High-Level-Schnittstellen (APIs), die auf diesen Low-LevelUmgebungen aufsetzen, wie zum Beispiel Keras. Keras eignet sich für Entwickler, die ein (einfaches) Plug-and-Play-Framework wünschen, mit dem sie ihre Deep-Learning Modelle effzient erstellen und evaluieren können. Jeder Softwareentwickler kann nur nach einer umfangreichen Prüfung entscheiden, welches Framework er für seine Projekte zukünftig nutzen möchte. Falls Sie sich gar nicht entscheiden können, mit welchem Framework Sie Deep-Learning-Applikationen entwickeln wollen, starten Sie wahrscheinlich mit PyTorch.
5. LabelMe – ein Tool zum Annotieren von Bildern Noch ein Wort zum Lernen von Bildern. Es gibt zahlreiche erstklassige Deep-Learning-Netze, mit denen Bilder oder Ausschnitte von Bildern klassifiziert werden können. Diese benötigte man nicht nur zum Autonomen Fahren (Ampel »rot«, »gelb«, »grün«), sondern genauso zur Gesichtserkennung oder in der Industrie bei der Qualitätssicherung und Diagnose. Es lohnt, sich damit zu beschäftigen, weil das ein riesiger Wachstumsmarkt ist. In einem Anfängerbuch über KI kann nicht detailliert auf so komplexe Anwendungen wie die Detektion und Klassifikation von Bildern eingegangen werden, aber im Laufe der Zeit wird der ein oder andere Leser sich auch mit dieser Aufgabe beschäftigen wollen. Und auch das ist einfacher möglich, als mancher vielleicht denkt.
Heutzutage gibt es nämlich zahlreiche vortrainierte Deep-LearningNetze, Sie müssen die Faltungsschichten also nicht mehr selber trainieren, denn das ist bei diesen Netzen bereits geschehen. Dafür gibt es Bilddatenbanken, wie beispielsweise COCO, Open Images Dataset oder ImageNet, auf deren Basis die Faltungsschichten der Netze trainiert werden können. Solche vortrainierte Netze kann man beispielsweise aus GitHub laden und weiterbenutzen. Bekannte Deep-Learning-Netze, die man zur Bildklassifikation verwenden kann, sind beispielsweise YOLO oder Mask-R-CNN. Um ein solches Netz weiter zu trainieren (nur die Faltungskerne wurden gelernt, nicht die Zuordnung des Bildes zu einer Klasse), muss man ihm Bilder präsentieren und dem Netz mitteilen, was es dort denn sehen soll, zum Beispiel ist auf einem Bild eine Katze und auf einem anderen ein Hund oder beide Tiere sind in einem Bild. Dieses Anlernen ist im Einzelfall sehr aufwendig, denn auf den Bildern müssen die zu lernenden Objekte erst einmal händisch klassifiziert werden. Dazu markiert man das Objekt mit einer Box (sogenannte bounding box) und definiert den Namen der Klasse, zu der das ausgewählte Objekt gehören soll. Das Erzeugen von vorklassifizierten Trainingsbildern nennt man in Fachkreisen »Labeln« oder »Annotieren«. Softwaretools, mit denen das einfach zu bewerkstelligen ist, sind beispielsweise LabelMe oder LabelImg. Leider kann man auf der Seite [labelme.edu] keinen Online-Account mehr erhalten. Helfen kann man sich aber beispielsweise mit der Anaconda-Distribution. Installiert man diese, so ist LabelMe enthalten und man kann es über die AnacondaSchnittstelle aufrufen. Abbildung 14.3. zeigt LableMe zum Annotieren eines Flugkörpers. Seit einigen Jahren kann man beliebige Formen von Polygonzügen zur Annotation nutzen, früher waren das nur einfache Rechteckformen. Mit rechteckigen Boundingboxen wäre es aber nicht möglich, so komplexe Objekte wie Helikopter präzise zu markieren.
Abbildung 14.3: Das Annotieren eines Helikopters mittels LabelMe
Mithilfe der vorhandenen Möglichkeiten kann man auch zahlreiche Industrieprozesse optimieren. Bei dem Projekt aus Abbildung 14.4. ging es beispielsweise darum, eine KI zu entwickeln, die Bauelemente auf Leiterplatten automatisch erkennt, im Beispiel Kondensatoren. Wenn man genau hinschaut, erkennt man die Umrandung der gefundenen Kondensatoren auf der Leiterplatte mit der entsprechenden Vorhersagegenauigkeit von meist 90 Prozent.
Abbildung 14.4: Das automatische Erkennen von elektronischen Bauelementen auf Leiterplatten mittels des Deep-Learning-Netzes YOLO, deren Bildklassen vorher annotiert wurden. Mit freundlicher Genehmigung von Renfu Fang.
Überleitung zu Teil IV Mit dieser kurzen Toolvorstellung möchte ich den praktischen Teil über KI-Software und Werkzeuge aus dem Bereich des maschinellen Lernens beenden und mich dem Ausblick zuwenden. Und da wird es zu Beginn gleich ziemlich philosophisch! Ich möchte im Folgenden vierten Buchteil nämlich über Materie und Geist diskutieren und mich mit Ihnen auf die Suche nach dem Bewusstsein machen. Als KI-ler geht es mir darum, zu verstehen, ob man irgendwann Maschinen mit Bewusstsein bauen können wird. Für Detailfragen möchte ich Ihnen nochmals das Buch
»Maschinenbewusstsein« empfehlen [Otte 2021b], dort werden diese Themen in aller Ausführlichkeit diskutiert. Wer sich nicht für philosophische Fragen zu Gehirn und Geist interessiert, kann die beiden nächsten Kapitel 15 und 16 überspringen und sich dem Ende des Buches zuwenden. In Kapitel 17 werden wir einen Blick in die nähere Zukunft der KI wagen, unter anderem eine mögliche KI auf Quantencomputern besprechen und uns ethischen Fragen zuwenden.
Teil IV
Ist die Maschine bald klüger als der Mensch und fühlt sie sich wenigstens gut dabei
IN DIESEM TEIL … Über den Tellerrand geschaut Was ist Bewusstsein Kann die KI ein Bewusstsein bekommen Kommt es zu einer Singularität Es geht um Ethik
Kapitel 15
Materie und Geist – Ein notwendiger Ausflug in die Philosophie IN DIESEM KAPITEL Wir philosophieren Materie versus Geist – Wer steuert wen
Es vergeht kein einziger Tag, an dem man nicht irgendwo in den Medien von den großartigen Leistungen der KI lesen oder hören kann. Als KIFachmann ist man davon begeistert, denn die Leistungen der KI sind enorm. In diesem Buch wurden zahlreiche Beispiele dafür ausgeführt. Aber es vergeht faktisch auch kein Tag, an dem in den Medien nicht über denjenigen – bald nicht mehr so fernen – Tag spekuliert wird, an dem die KI sogar klüger sein wird als der Mensch, an dem die KI uns Menschen an Intelligenz überholt hat. Man nennt diesen Zeitpunkt, wie Sie bereits wissen, Singularität, um die Dramatik dieses Zustands zu transportieren, denn das Wort Singularität kennen wir aus der Urknalltheorie. Es war der Zeitpunkt, an dem alles anders wurde, an dem das Universum aus dem Nichts heraus entstand. Und so sehen es auch viele Menschen, dass an jenem Tag, an dem die KI tatsächlich klüger werden wird als wir Menschen, dass an diesem Tag eine neue Zeitrechnung beginnen könnte. Kann das passieren? Klüger als wir?
Wie klug ist die KI heute schon?
Interessanterweise gibt es auch für die KI bereits einen IQ-Test [Springerprof.de/IQ]. Und der hat Erstaunliches ermittelt, Tabelle 15.1. Im Jahre 2014 war die KI noch nicht wirklich intelligent, ihr Intelligenzquotient (IQ) erreichte in der Spitze den IQ-Wert eines 2- bis 4-jährigen Kindes. Zum Vergleich: Der durchschnittliche IQ eines jungen Erwachsenen liegt bei knapp 100, der eines 12-jährigen Kindes bei 85 und der eines 6-Jährigen bei 56. KI im Jahre 2014 Anbieter KI-Werkzeug
IQ
1 Google
Suchmaschine 26,5
2 Baidu
Suchmaschine 23,5
3 So
Suchmaschine 23,5
4 Sogou
Suchmaschine 22
Tabelle 15.1: Wie klug war die KI im Jahre 2014?
Die KI entwickelt sich jedoch bereits in Richtung der Intelligenz 6Jähriger, denn 2016 zeigen sich interessante Veränderungen zu 2014, Tabelle 15.2. KI im Jahre 2016 Anbieter
KI-Werkzeug
IQ
1 Google
Suchmaschine, Sprachassistent 47,3
2 Baidu Duer
Sprachassistent
37,2
3 Baidu Search Suchmaschine
33
4 Sogou Search Suchmaschine
32
5 MS Bing
Suchmaschine
32
6 Apple Siri
Sprachassistent
24
Tabelle 15.2: Wie klug war die KI im Jahre 2016?
Für spätere Jahre liegen leider keine Werte vor, sodass man nicht ersehen kann, ob sich die IQ-Zunahme abschwächt oder beschleunigt. Man kann aber davon ausgehen, dass der IQ-Wert der KI heutzutage an den von 6Jährigen heranreicht. Für die Zukunft gehen die Autoren des oben genannten IQ-Berichts von folgenden zwei Szenarien aus: 1. Die KI wird exponentiell intelligenter (der IQ der KI wächst immer schneller). 2. Die KI wird logarithmisch intelligenter (der IQ der KI wächst immer langsamer). Im ersten Fall dauert es nur noch wenige Jahre, bis die KI einen höheren IQ besitzt als der Mensch, im zweiten Fall kann es sein, dass der IQ der KI noch lange nicht (oder niemals) an den IQ eines Menschen heranreichen wird.
Werden wir dümmer … Oder etwa doch! Englische und skandinavische Forscher haben in einer Studie herausgefunden, dass der Intelligenzquotient der Menschheit seit 1990 pro Dekade um zwei Intelligenzpunkte abnimmt. Manche Forscher stellten in den Daten bereits eine IQ-Abnahme seit 1975 fest. Sie haben richtig gelesen, der IQ der Menschheit nimmt aktuell wieder ab, zumindest in den Industrienationen. Konkrete Aussagen dazu gab es für Frankreich, Deutschland und (insbesondere) Skandinavien. Der Grund ist unbekannt, man vermutet Umweltgifte und ein sogenanntes nichtkognitives Umfeld. Natürlich kann das auch ein Stichprobenfehler sein, wir haben ja gesehen, wie vorsichtig man bei statistischen Aussagen sein muss. Noch gilt also das Prinzip Hoffnung.
… und die KI klüger? Lassen wir unsere eigene IQ-Abnahme beiseite, bleibt dennoch die Frage, was mit der KI passieren wird. Eins ist klar, sie wird intelligenter. Sie wird aus Sicht des Autors den Menschen früher oder später tatsächlich in jeglicher rationeller Intelligenz überholen, einfach deshalb, weil man Rationalität algorithmieren kann. Wenn man etwas algorithmieren, also als Mathematik und Software abbilden kann, dann
wird eine Maschine es letztlich immer besser machen als der Mensch. Offen bleibt dabei natürlich die große Frage der Kreativität, der Gefühle, des Bewusstseins und des Geistes, da hierfür (noch) keine Algorithmen existieren. Könnte das die Domäne des Menschen bleiben? Oder kann der KI-Forscher irgendwann auch »Geist« erzeugen? Zu Beginn des Buches nannten wir dieses Bestreben die Suche nach einer Starken KI. In der Starken KI beschäftigt man sich ja genau mit diesen Fragen: Kann die KI ein Bewusstsein erlangen? Kann die KI einen eigenen Willen und sogar ein Ich-Konzept hervorbringen? In nachfolgender Tabelle 15.3 stelle ich die Fähigkeiten von Mensch und Maschine – so wie ich sie sehe – gegenüber. Ich persönlich glaube, die Domäne des höheren Bewusstseins, der Gefühle und des Selbstbewusstseins wird eine typische menschliche Domäne bleiben, zumindest so lange, wie wir rein physikalische Maschinen einsetzen. Fähigkeit eines Menschen
Fähigkeit einer (zukünftigen) KI
Bemerkungen
Rationales Denken (gemessen mit IQ-Tests)
KI wird Menschen überholen.
Fähigkeit mit Software algorithmierbar
Kreatives Denken (gemessen KI könnte Menschen mit IQ-Tests) überholen.
Simulierte Fähigkeit mit Software teilweise algorithmierbar
Geist beziehungsweise Bewusstsein (Maschinenbewusstsein)
Unbekannt, aber doch wahrscheinlich, zumindest rudimentäres (physisches) Bewusstsein
Rudimentäre Fähigkeit auf entsprechender Hardware (zum Beispiel neuromorphen Computern) sehr wahrscheinlich erzeugbar
Emotionen, primäre Gefühle wie Angst oder Freude
Unbekannt, aber unwahrscheinlich
Fähigkeit wahrscheinlich nicht algorithmisch umsetzbar
Eigener Willen, höheres Bewusstsein, mentale Zustände (wie bei Tieren)
Unbekannt, aber unwahrscheinlich
Fähigkeit wahrscheinlich nicht algorithmisch umsetzbar und nur mit biologischen Computern erzeugbar
Fähigkeit eines Menschen
Fähigkeit einer (zukünftigen) KI
Bemerkungen
Ich-Konzept (Selbsterkennung), höheres Bewusstsein, mentale Zustände, sekundäre Gefühle wie Scham oder Stolz
Unbekannt, aber unwahrscheinlich
Fähigkeit wahrscheinlich nicht algorithmisch umsetzbar und nur mit biologischen Computern erzeugbar
Tabelle 15.3: Gegenüberstellung der Fähigkeiten von Mensch und Maschine
Wenn es in der Tabelle »zukünftig« heißt, meine ich einen Zeitpunkt in den nächsten 100 bis 200 Jahren. Kurzfristig, also bis 2050, ist aus meiner Sicht völlig auszuschließen, dass die KI ein höheres Bewusstsein oder die Fähigkeit zu Gefühlen und Willen ausprägen kann. Der Grund liegt daran, dass man bis heute nicht einmal weiß, was diese Begriffe eigentlich technisch bedeuten. Ein Konstrukteur derartiger Maschinen muss diese Eigenschaften aber sehr genau durchschaut haben. Oder er hat das Prinzip Hoffnung, und findet, dass alles irgendwie von selbst – durch Emergenz und Selbstorganisation! – passiert. Dies ist in der Tat eine gängige These, der ich mich jedoch nicht anschließen kann, da Ingenieure bis heute noch nichts gebaut haben, was sich durch Emergenz und Selbstorganisation von selbst in eine höhere »Sphäre« hineinentwickelt. Grundbegriffe zur Philosophie des Geistes Bevor wir uns mit dem Geist in der Maschine beschäftigen, müssen wir uns erst einmal mit dem Thema Geist an sich beschäftigen. Ich habe die Begriffe Geist und Bewusstsein in diesem Buch synonym verwendet und möchte es auch dabei so belassen. Allerdings ist »Geist« in der Philosophie eher ein Oberbegriff und »Bewusstsein« eine spezielle geistige Ausprägung bei einem Tier oder Menschen. Leider begeben wir uns gleich zu Beginn aufs Glatteis. Den NichtFachmann wird es vielleicht erstaunen, aber Wissenschaftler haben bis heute keinen Konsens darüber, was unser Geist eigentlich sei. In den Medien hört man, dass der Geist irgendwie entstehe, wenn das Gehirn arbeitet, aber selbst das ist nicht überall Konsens. Niemand weiß es,
auch der Autor nicht. Die Neurochirurgen haben jedenfalls bisher keinen Geist im Gehirn gefunden, die Neurobiologen können nicht erklären, wie ein Geist überhaupt aus dem Gehirngewebe entstehen sollte. Die Informatiker habe noch keine Formel beziehungsweise keinen Algorithmus präsentiert, wie man Geist per Software erzeugen könnte, und Physiker und Ingenieure (zu denen der Autor gehört) haben bis dato auch noch keine Schaltung vorgelegt, mit der man Geist, also geistige Prozesse in einer Maschine hervorrufen könnte. Kurzum, wir alle wissen es nicht genau. Schaut man in die Philosophie, so erfährt man auch, warum. Es ist eine der schwierigsten philosophischen Fragen überhaupt. Seit undenklichen Zeiten wollen die Menschen verstehen, was nach ihrem Tode passiert, wohin der Geist wandert und was der Geist überhaupt sei. In den folgenden Abschnitten gebe ich einen kurzen Überblick über die Philosophie des Geistes, das heißt einen Überblick über das sogenannte Geist-Körper-Problem, oftmals auch als Leib-Seele-Problem bezeichnet, aber alles nur aus der begrenzten Sicht eines Ingenieurs. Natürlich haben Philosophen dazu eine detailliertere und fachlich fundiertere Meinung. Ein Problem besteht jedoch darin, dass die Philosophen keine KI bauen müssen und deshalb bei ihrem Wettstreit der Gedanken und Ideen mehr Zeit zur Verfügung haben. Physiker, Ingenieure und Informatiker schicken sich jedoch gerade an, eine KI mit Bewusstsein bauen zu wollen. Um das zu können oder zumindest zu versuchen, müssen die Techniker bald wissen, was Geist oder Bewusstsein sein soll. Können uns die Philosophen und die philosophischen Ideen dabei helfen? Probieren wir es aus. Zuerst möchte ich in Anlehnung an Kapitel 3, in dem ich Qualia bereits eingeführt hatte, eine etwas modifizierte Begriffsdefinition für Qualia abgeben, siehe Box.
Was sind mentale Zustände im Unterschied zu neuronalen Zuständen – letztlich ist das Qualia 1. Was sind geistige oder mentale Zustände? Als »mental« werden Zustände des Gehirns bezeichnet, die nur aus Sicht der ersten Person (also des »Ichs«) erlebbar sind. Die Natur dieser geistigen Zustände ist bis heute ungeklärt. Ich vermute, dass es sich dabei um ganz spezielle »immaterielle« Vorgänge der Natur handelt. Oft wird auch noch zwischen unbewussten, vorbewussten und bewussten mentalen Zuständen unterscheiden. 2. Was sind materielle oder neuronale Zustände? Neuronale Zustände sind körperliche, das heißt physische Zustände. Sie sind charakterisiert durch elektrische oder magnetische Potenziale beziehungsweise Ströme oder auch durch Stoffwechselvorgänge im Gehirn und sie werden auch als neuronale Aktivitätszustände bezeichnet. In der »Theorie des Geistes« wird begrifflich zwischen privaten (subjektiven) und öffentlichen (objektiven) Zuständen unterschieden. Die mentalen Bewusstseinszustände sind sozusagen die »privaten« Zustände, die im Gegensatz zu den von außen messbaren, »öffentlichen« Zuständen der Aktivitätsmuster neuronaler Netze stehen. Mentale Zustände heißen deshalb privat, weil nur das Subjekt selbst Auskunft über seinen inneren, mentalen Zustand geben kann; man kann objektiv nicht messen, was jemand konkret fühlt, denkt oder intern erlebt. Den inneren Erlebnisgehalt eines mentalen Zustands haben wir in Kapitel 3 Qualia genannt.
In der Philosophie des Geistes unterscheidet man zwischen privaten und öffentlichen Zuständen des Gehirns. Die privaten Qualia-Zustände sind prinzipiell nicht messbar. Die öffentlichen Zustände des Gehirns sind die Zustände seiner neuronalen Netzwerke. Sie können beispielsweise über EEG- oder fMRT-Messungen von außen gemessen werden. Beide Verfahren erkläre ich kurz.
Was macht ein EEG, ein Elektro-Enzephalograf, zu Deutsch: ein elektrischer Gehirnschreiber? Ein EEG misst die elektrische Aktivität des Gehirns oder präziser, es misst die elektrischen Potenziale der Neuronen und speziell der Neuronenausgänge, die ihre nervalen Erregungen in Form von
sogenannten Spikes codiert an die Nachfolge-Neuronen versenden. Die elektrischen Spikes oder auch Aktionspotenziale sind zeitlich relativ kurz (circa 1 bis 10 ms) und in der Amplitude klein (circa 80 bis 100 mV), aber durch die Überlagerung von Millionen von Nervenzellen, die synchron Salven von Spikes »feuern«, können elektrische Signale entstehen, die man auf der Kopfhaut gut ableiten kann (Abbildung 15.1). Die zeitliche Auflösung der EEG-Signale liegt im Millisekundenbereich.
Abbildung 15.1: Elektrische Ableitungen vom Gehirn einer Probandin mittels EEG
Wie arbeitet die funktionelle Magnetresonanztomografie (fMRT)? Die fMRT ist ein bildgebendes Verfahren, um physiologische Vorgänge im Gehirn darzustellen (Abbildung 15.2). Dabei wird der Umstand ausgenutzt, dass es bei neuronalen Aktivitäten im Gehirn gleichzeitig auch zu physiologischen Veränderungen des Blutflusses kommt. Vereinfacht ausgedrückt: Aktive Hirnareale werden besser durchblutet. Dadurch ändern sich der Sauerstoffgehalt und damit durch das Bluthämoglobin die magnetischen Eigenschaften der Region mit Erregung in Bezug auf eine Region ohne Erregung. Man kann nun durch statistische Verfahren den Ort der nervalen Erregung berechnen und in einem fMRT-Scan darstellen. Man muss sich dabei aber merken, dass
das berechnete Orte sind, die nur indirekt die Region mit nervaler Erregung kennzeichnen, denn das Gehirn ist immer erregt. Der Fachmann muss daher einen Schwellenwert vorgeben, um seine gesuchte Erregung von der des Hintergrunds zu separieren. Aufgrund der Langsamkeit der physiologischen Prozesse ist die zeitliche Auflösung gegenüber dem EEG viel schlechter, dafür hat man aber eine gute räumliche Auflösung, Abbildung 15.3.
Abbildung 15.2: Auswertung von Hirnaktivitäten mittels fMRT-Methoden
Abbildung 15.3: Das MRT-Aktivitätsmuster eines Probanden
Die räumliche Auflösung beim fMRT liegt bei circa ein bis vier Kubikmillimeter. Obwohl das schon sehr feinkörnig ist, muss man sich vor Augen führen, dass damit immer noch Strukturen von Abertausenden und mehr Neuronen in ihrer funktionellen Überlagerung analysiert werden. In einem Kubikmillimeter der Großhirnrinde können sich mehrere Zehntausende Neuronen befinden. Ein Neuron kann wiederum mit bis zu 10.000 anderen Neuronen verbunden sein. Die Komplexität eines menschlichen Gehirns ist unvorstellbar hoch. In den Medien hört oder liest man häufig, dass man mit den oben genannten technischen Instrumenten dem Gehirn beim Denken zuschauen könne. Das ist zwar richtig, aber es bedeutet nicht, dass man damit weiß, was jemand denkt. Das wäre mit den fMRT-Verfahren völlig unmöglich. Man erkennt nur, welche Gehirnregionen etwas mehr erregt sind als andere und welche nicht. Da es aber gar keine 1:1-Zuordnung zwischen Gedanken und aktivierter Hirnregion über alle Menschen gibt, wird das Verfahren niemals geeignet sein, unerlaubt Gedanken eines Menschen auszulesen. Derartige Sorgen wären hier fehl am Platz.
BCI-Forschung
Viele Forschungen rund um das Gehirn sind sehr erfolgreich. Die gesamte Brain-to-Computer-, kurz BCI-Forschung basiert auf diesen Technologien. Im Rahmen der BCI-Forschung versucht man, allein mit Gedanken Computer und andere Geräte zu steuern. Ist das ein Widerspruch zu oben? Nein. Man kann durch mühsames Training erlernen, ob ein Mensch zum Beispiel bei einer Frage Zustimmung äußert oder nicht (ob er lügt oder nicht, wäre noch einfacher zu messen, aber selbst Lügendetektoren können überlistet werden). Die Details sind sehr komplex, aber uns soll hier die Kenntnis des Prinzips genügen. Schauen wir uns das Prinzip also an: Mittels EEG und auch fMRT kann man beispielsweise sehr gut erkennen, ob eine Person einen Arm hebt, denn beim Armheben feuern Millionen von Neuronen. Interessanterweise reicht es sogar aus, wenn sich eine Person nur vorstellt, ihren Arm zu heben. Auch dann feuern Millionen von Neuronen (wenn auch nicht die motorischen). Alleine die Imagination, einen Arm zu heben, genügt also, um im EEG große Signale zu erzeugen. Sie ahnen den Trick?! Das rein geistige Denken von »JA« oder »NEIN« lässt sich weder mit EEG noch fMRT gut gegeneinander abgrenzen, sodass der direkte Weg über die Messung des Denkens von JA oder NEIN wegfällt. Wir vereinbaren deshalb mit einer Person, dass sie immer dann, wenn sie auf eine Frage mit JA antworten möchte, nicht »JA« denkt, sondern ihren Arm imaginiert, also nur im Geiste, hochhebt. Bei NEIN tut sie es nicht. (Bei »NEIN« soll sie beispielsweise an eine grüne Wiese denken.) Und nun kann die Person rein per Gedanken mit uns kommunizieren. Wir fragen die Person: Heißt du Klara? Die Person will nun mit JA oder NEIN antworten, benutzt dabei jedoch den Umweg über die imaginierte Armbewegung. Dies kann das Auswerte-System gut erkennen. Heißt die Person also Klara, so stellt sie sich im Geiste vor, wie sie gerade ihren Arm hebt. Millionen Neuronen feuern und wir sehen das in Echtzeit am PC. Und wir wissen, die Person hat gerade JA »gedacht«. Auf diese Weise der imaginierten Armbewegung (und anderer Verfahren) kann man sogar lernen, am Computer per Gedankenkraft zu schreiben. Denn der Computer muss nur ein »A« auf dem Bildschirm einblenden und wir denken JA oder NEIN (in Form der
imaginierten Armbewegung oder anderer vorher trainierter Formen). Das kann man perfektionieren. Heutzutage kann man mit dieser Technik bereits mehrere Buchstaben pro Minute auf einem Computer erzeugen, wohlgemerkt, alleine per Gedanken. Aber das geht alles nur nach intensivem Training. Es ist ohne Training nicht möglich, aus den elektrischen Signalen des Gehirns auf irgendeinen Denkinhalt einer Person zu schließen. Geistige Prozesse, wie kognitives Denken, entziehen sich jeglicher direkter Messbarkeit. So etwas ist und bleibt Science-Fiction. Eine »telepathische« Übertragung der eigenen Gedanken (im einfachsten Falle »JA« oder »NEIN«) per Chip auf eine andere Person ist natürlich machbar, wenn man den Chip vorher intensiv eintrainiert hat. Was bedeutet das Ergebnis? Zusammenfassend kann man sagen, dass mit dem heutigen Stand der Technik nur die physischen, also die neuronalen Zustände gemessen werden können. Der Geist ist irgendetwas anderes als die elektrische Erregung oder Sauerstoffanreicherung im Gehirngewebe. Aber was ist er? Letztlich ist das ein großes Thema für alle.
Generelles Nachdenken über den Geist und das Bewusstsein Seit alters her wird die Frage nach dem Primat gestellt: Wer war zuerst da – Geist oder Materie? Erzeugt also der Geist die Materie oder die Materie den Geist? Das sind die ganz großen Fragen der Philosophen. Wer sich für die Philosophie des Geistes interessiert, sollte unbedingt dieses Kapitel lesen, alle anderen können den Teil überblättern oder später nachlesen. Ich fasse die Ergebnisse der theoretischen Diskussion am Ausgang des Kapitels für alle nochmals zusammen. Ein Buch über KI wäre aus meiner Sicht jedoch nicht vollständig, wenn diese Diskussion fehlen würde, denn hier »geistern« sehr viele mediale und auch skurrile Geschichten im Internet herum. Manche KI-Forscher sagen, sie wären bereits jetzt auf dem Weg, maschinelle Systeme zu
kreieren, die Geist haben könnten. Das Wort »Geist« verwenden sie in der Regel nicht, dafür aber die Begriffe Willen, Wünsche, eigenes Bewusstsein. Falls die KI-Forscher im Silicon Valley so etwas wirklich können, würden sie dann nicht schon richtige Geschöpfe erzeugen? Oder ist das alles eine erneute Selbstüberschätzung? Sozusagen eine neue Spielart des General Problem Solvers? Um darüber nachzudenken, ob wir bald Maschinen mit Bewusstsein haben werden, müssen wir einige philosophische Begriffe besser verstehen, denn sie werden die Grundlage der Diskussionen bilden. In der Philosophie des Geistes gibt es nachfolgende wichtige Begriffe, die jeweils eine andere Perspektive auf die Entstehung des Bewusstseins aus dem Gehirn aufzeigen. Die heutige »materielle Weltanschauung« ist nicht die einzig denkbare. Dualismus Monismus Emergenz Funktionalismus Wir werden uns jetzt jedem der vier Begriffe zuwenden, es wird also theoretisch. Auch die Sprache wird in den Folgeabschnitten etwas akademischer, da Sprache das Werkzeug der Philosophen ist.
Dualismus Seit der Antike gibt es Aufzeichnungen über Diskussionen zum GeistKörper-Problem (Seele-Leib-Problem). Die neuzeitliche Variante wurde von René Descartes (1596–1650) formuliert, indem er zwei ihrem Wesen nach (ontologisch) verschiedene Substanzen postulierte: zum einen die physischen und räumlichen Substanzen, zum anderen die raumlosen und denkenden Substanzen. Auch stellte Kant (1724–1804) einen ontologischen Unterschied zwischen Geist und Körper fest. So schreibt er »… die Schwierigkeit besteht … in der vorausgesetzten Ungleichartigkeit des Gegenstandes des inneren Sinns (der Seele) mit den Gegenständen äußerer Sinne, da jenen nur die Zeit, diesen auch der
Raum zur formalen Bedingung ihrer Anschauung genügt« [Metzinger 2009, Band 2, S. 18]. Was heißt das? Letztlich bedeutet es, dass es nach Kant zwei verschiedene Urstoffe gibt, aus einem ist der Geist entstanden (oder es ist der Urstoff selbst), aus dem anderen alles Materielle. Diese Art von Dualismus wird heute Substanzdualismus genannt. Neuere Spielarten des Dualismus postulieren jedoch nicht mehr zwei verschiedene Substanzen, sondern lassen zu, dass beide Phänomene aus gleicher Substanz sind, sie postulieren jedoch, dass beide Phänomene grundsätzlich verschiedene Eigenschaften besitzen; dies heißt im Fachjargon Eigenschaftsdualismus. In beiden Fällen wird aber von einer wechselseitigen Interaktion mentaler und neuronaler Prozesse ausgegangen; man spricht deshalb auch vom interaktionistischen Dualismus. Als wichtige Vertreter interaktionistischer Thesen möchte ich Popper und Eccles nennen, die nicht nur eine Interaktion zwischen den beiden Welten Geist und Physis annahmen, sondern darüber hinaus noch eine 3. Welt postulierten. Diese 3. Welt wäre nach ihren Ansichten die Welt der Ideen, Theoreme, Musikstücke und so weiter. Die Welt 2, die geistige Welt, nimmt in diesem Weltbild eine Vermittlerrolle ein. Allerdings erklärt diese Theorie nicht, wie die Interaktion stattfindet, sie erklärt nicht die psycho-physische Kausalkette im Gehirn, sodass sie uns im Verständnis nicht weiterhilft. Eine weithin akzeptierte Ansicht unter Wissenschaftlern – insbesondere KI-Fachleuten – ist der sogenannte Epiphänomenalismus. Dieser erkennt an, dass es geistige (mentale) Phänomene tatsächlich gibt, aber diesen werden prinzipiell keine Kausalkräfte, also echte Kräfte, die in die Physik des Gehirns eingreifen können, zugetraut. Der Geist ist sozusagen das »nette Beiwerk« des arbeitenden Gehirns: Man sagt, genauso wenig wie das Pfeifen einer Lokomotive diese antreibt, so hat der Geist keinerlei Einfluss auf die neuronalen Prozesse im Gehirn. Die Physik im Gehirn bleibt dadurch geschlossen und bezieht sich nur auf die Verkettung neuronaler Prozesse im Gehirn. Dieser Sichtweise schließe ich mich nicht an.
Beachten wir, der Epiphänomenalismus sichert zwar die Geschlossenheit der Physik, denn alles bleibt in sich kausal, aber er erklärt nicht, wieso überhaupt mentale Prozesse existieren. Wenn diese Phänomene nur ein Beiwerk wären, völlig ohne kausale Einwirkung auf das Gehirn, so sollte man annehmen, dass es aus Gründen der Ökonomie gar keine Evolution hin zum bewussten Erleben von Farben, Tönen oder Schmerzen gegeben hätte. Die Evolution würde sich den Luxus einer bewussten mentalen Wahrnehmung überhaupt nicht erlauben, wenn diese für die neuronalen Prozesse des Gehirns folgenlos bliebe. Ich sehe das persönlich deshalb so: Entweder gibt es bewusste Wahrnehmung (wie das »Empfinden von Grün«), dann muss es einen evolutionären Vorteil haben, dass es diese gibt, dann müssen aber Kausalkräfte eine Rückwirkung von den mentalen zu neuronalen Prozessen zulassen, oder aber es gibt die bewusste Wahrnehmung nicht. Dann würden wir alle aber nur einer subjektiven Täuschung unterliegen, wenn wir glauben, wir »empfinden Grün« oder »hören Musik«. Viele sind nun überzeugt davon, dass wir diese inneren Eindrücke (die Qualia), also das innere Erleben eines Bildes, eines Tons oder eines Schmerzes wirklich haben. Der Epiphänomenalismus möchte das innere Erleben auch nicht abstreiten, aber er bezweifelt, dass diese inneren Qualia-Eindrücke eine Rückwirkung auf das neuronale Gehirngewebe besitzen. Auf Deutsch ausgedrückt haben die Epiphänomenalisten folgende klare Position: Das Gehirn lässt sich vollständig neuronal erklären!
Monismus In der Kurzform sagt der Monismus: Alles ist eins! Die Anhänger des Monismus und seiner Ausprägung, der Identitätstheorie, bestreiten nicht, dass es Kausalkräfte von mentalen zu neuronalen Zuständen gibt, aber sie postulieren ihrerseits, dass mentale und neuronale Zustände sowieso identisch sind. Es gibt nach ihrer Ansicht gar keine verschiedenen Substanzen und auch keine verschiedenen Eigenschaften. Neuronale Zustände sind nach dieser Interpretation gleichzeitig die mentalen Zustände und umgekehrt. Dieser Ansatz löst das Problem mit der Geschlossenheit der Physik scheinbar auf elegante Weise, denn mentale Zustände sind damit per se rein physisch, sie sind ja identisch mit den neuronalen Zuständen und können daher sehr wohl auf andere neuronale
Prozesse einwirken. Aber die Kritiker des Monismus (deren Kritik ich teile) sehen ein neues Problem. Denn wenn neuronaler und mentaler Prozess identisch sind, dann würde das ja heißen, dass jemand, der nicht die gleichen neuronalen Aktivitätsmuster besitzt, auch nicht den dazugehörigen mentalen Zustand einnehmen kann. Es ist aber ausgeschlossen, dass bei zwei Menschen beim Anblick der Farbe Rot die gleichen neuronalen Prozesse aktiviert werden, und dies schon deshalb, weil es nicht exakt gleiche Gehirne gibt. Dies würde aber bedeuten, dass beide Menschen die Farbe Rot nicht gleich sehen beziehungsweise empfinden können. Der Monismus scheitert damit aus meiner Sicht an der hohen Forderung einer Identität beider Welten. Wir müssen also weitersuchen!
Emergenztheorie Bei der Emergenztheorie geht man davon aus, dass mentale Zustände aus den neuronalen Zuständen entstehen, diese aber darauf nicht reduziert werden können. Im Prinzip verbindet das den Monismus in seiner Weiterentwicklung mit einem fortgeschrittenen Dualismus. Denn die Emergenztheorie sagt ganz klar, dass in einem System (zum Beispiel von Neuronen), das mit sich selbst wechselwirkt und selbstreflektierend ist, ab einem gewissen Zeitpunkt völlig neue Eigenschaften auftreten können, die sich (aus den Bausteinen) niemals hätten vorhersagen lassen. Damit entspricht die Emergenztheorie stark der intuitiven Auffassung, dass mentale Zustände etwas Besonderes, etwas Neuartiges sind und »irgendwie« aus neuronalen Prozessen hervortreten können. Offen bleibt hier die Beantwortung der Frage, ob dass das neue emergente Gebilde (der Geist!) eine kausale »Kraft« zurück auf seine Bestandteile (das Gehirngewebe) ausüben kann. Die wohl wichtigste Frage nach der etwaigen Wirkung des Geistes auf die materielle Natur wird also gerade nicht geklärt. Immer, wenn ich das Wort Emergenz höre, bin ich deshalb mittlerweile vorsichtig geworden, denn es verschleiert manche Vorgänge mehr, als es sie erklärt.
Funktionalismus Eng verwandt mit der Emergenztheorie ist der Funktionalismus, der berücksichtigt, dass es verschiedene Realisierungsmöglichkeiten für die
exakt gleiche Funktion geben kann. Das ist einleuchtend, denn wir wissen zum Beispiel beim Betrachten eines Benzin- und eines Dieselmotors, dass trotz der unterschiedlichen Konstruktion in beiden Fällen exakt die gleiche Bewegungsfunktion realisiert wird. Um das Problem des Monismus zu lösen, wurde deshalb von Fachleuten vorgeschlagen, dass der mentale Zustand wie ein funktionaler Zustand zu betrachten sei. Pseudoformel: Mentaler Zustand = fEMERGENZ (Gehirnzustand) Die Idee: Es gibt zwar verschiedene Realisierungen, also verschiedene Gehirne, aber alle könnten trotzdem die gleiche Funktion – zum Beispiel das »Empfinden der Farbe Rot« – umsetzen. Dieser Funktionalismus ist die heute am weitesten verbreitete philosophische Anschauung des Geist-Körper-Problems und er ist nach dem deutschen Philosophen Metzinger genau die gesuchte Metatheorie, also die philosophische Basis, die dem Aufstieg der Disziplinen wie Kognitionswissenschaft oder Computational Neuroscience zugrunde liegt. Wir sehen hier die philosophische Verankerung der KI. Schauen wir uns das deshalb nochmals genauer an: Vertreter des Funktionalismus sind im Prinzip Verfechter eines modernen Eigenschaftsdualismus, denn sie sagen, dass Hirnfunktionen und mit ihnen mentale Zustände etwas anderes sind als die physischen Gehirnzustände. Auch ein Motor ist mehr als eine Ansammlung von Schrauben, Kolben und Blech. Aber was ist er mehr? Was sind funktionale Zustände »mehr« als physische Zustände? Genau hier könnte erneut eine Kritik ansetzen, denn im Prinzip hat uns der Funktionalismus die Entstehung von Qualia immer noch nicht erklärt. An keiner Stelle ist zu erkennen, wie denn beispielsweise das Quale »Empfinden von Rot« funktional aus dem Raum-Zeit-Muster der Neuronenverbände im Gehirn entsteht. Um diese Fragen zu beantworten, wurde von Philosophen der sogenannte Mikrofunktionalismus entwickelt, der die Bereiche der Künstlichen Intelligenz und konnektionistische Systeme (nachträglich) philosophisch begründet. Hiernach können ganz bestimmte Systeme, zum Beispiel solche, die Symbole oder Subsymbole manipulieren,
mentale Zustände ausprägen. Diese Annahme ist das philosophische Fundament der heutigen KI-Forschung. Eine Weiterentwicklung finden wir bei Dennett. Er vertritt die Ansicht, dass es neben den physikalischen Eigenschaften einer Maschine oder eines Gehirns und ihren (bekannten) funktionalen Eigenschaften auch Systeme mit intentionalen Eigenschaften gibt. Und intentionale Systeme seien die Vorboten von Systemen mit bewussten, mentalen Eigenschaften. Man kann nach Dennett bereits modernen KI-Systemen, wie einem Hochleistungs-Schachcomputer, intentionale Eigenschaften unterstellen. Damit wäre – aus Sicht Dennetts und anderer Forscher – gezeigt, dass sich höherwertige, später auch mentale Prozesse aus der geschickten Manipulation physischer Teile (Symbole) ergeben können. Auch Mainzer und andere Fachleute vertreten diese These in ihrem Ansatz zur KI. Wir erinnern uns, die ersten, die diese These formulierten, waren die bereits erwähnten Wissenschaftler A. Newell und H. A. Simon mit ihrer Physikalischen-Symbol-System-Hypothese (PSSH). Wir haben die PSSH in Kapitel 10 ausführlich behandelt. Die PSSH bejaht die Möglichkeit der physikalischen Erzeugung von Intelligenz durch mechanisierbare Symbolmanipulation. Dieser These stimme ich persönlich zu. Man kann aber bereits hierzu geteilter Meinung sein. Letztlich muss jeder folgende Frage für sich selbst beantworten: Wenn ein Computer zwei Zahlen addiert, simuliert er dann die Addition oder addiert er wirklich? Wer für sich sagt, der Computer simuliere nur die Addition, der kann der PSSH nicht zustimmen. Wer aber sagt, der Computer addiert wirklich, wird Schritt für Schritt zugeben (müssen), dass ein Computer auch denken kann und nicht nur Denken simuliert, wenn man vorher Denken als Symbolmanipulation eingeführt hat. Was aber überhaupt nicht daraus geschlussfolgert werden darf, und das hatten wir in Kapitel 10 bereits betont, ist die Annahme, dass auch Bewusstsein durch mechanisierbare Symbolverschiebung erzeugt werden könnte, dass also mechanisierbare Intelligenz und Bewusstsein zusammenhängen. Aber genau das wird durch oben genannten Mikrofunktionalismus gemacht, indem unterstellt wird, dass sich Bewusstsein bei hinreichender Komplexität der Denkprozesse als Epiphänomen von selbst oder – wissenschaftlicher ausgedrückt – durch
Emergenz einstellt. Diese »mechanistische« These zur Entstehung von Bewusstsein vertrete ich nun überhaupt nicht. Wer sagt denn, dass in unserem Gehirn nur eine mechanisierbare Symbolmanipulation stattfindet, während wir denken? Niemand kann das wissen. Und nur weil der Computer diese Art von mechanisierbarem Denken technisch sehr gut umsetzen kann, heißt es doch noch lange nicht, dass der Mensch selbst tatsächlich »mechanisch« denkt. Ich hatte bereits folgende Vermutung geäußert: Das dümmste Tier auf Erden könnte Bewusstsein haben, die klügste Maschine nicht. Meine These ist, dass kein Zusammenhang zwischen mechanisierbarer Intelligenz und Bewusstsein existiert. Ich werde auch noch eine Begründung dafür angeben. Hinzufügen möchte ich an dieser Stelle jedoch, dass ich trotzdem der Meinung bin, dass man »maschinelles Bewusstsein« erzeugen könnte, aber eben nicht auf heutigen Computern, auf denen nur mechanisierbare Algorithmen ablaufen. Mir ist es wichtig, nochmals zu betonen, dass wir uns mit der KI in einer Forschungssituation befinden, über die bei den Experten in vielen grundsätzlichen Fragen überhaupt kein Konsens herrscht. Es ist eine noch zu junge Disziplin, sodass dies auch nicht verwundern sollte. Genau deshalb stelle ich Ihnen in diesem Teil auch verschiedene Ansichten vor und benenne dazu meine Position. Dadurch verlassen wir aber leider gesichertes Grundlagenwissen; es ist für uns alle nicht mehr so komfortabel wie im mathematischen oder praktischen Teil.
Schön philosophiert – Und nun? Betrachten wir die Erklärungsmodelle zum Geist in Summe, so kann man zusammenfassen, dass die meisten Forscher einen Ansatz materialistischen verfolgen, der monistisch oder als Funktionalismus ausgeprägt ist. Die meisten gehen heutzutage davon aus, dass die neuronalen Phänomene im Gehirn die Basis für alle Verarbeitungsschritte, auch die für mentale Zustände (Qualia) darstellen. Es geht vielen darum, eine Beschreibung darüber zu finden, wie denn die mentalen Zustände aus dem neuronalen Korrelat entstehen. Große Unterschiede gibt es im Wesentlichen bei der Frage, ob mentale Zustände einen kausalen, also »rückwirkenden« Einfluss auf
Gehirnzustände haben können oder nicht. Die Natur psychischer Phänomene bleibt bei der gesamten Diskussion weiterhin ungeklärt. Der Hirnforscher Singer postuliert beispielsweise, dass psychische Phänomene im Grundsatz auf Hirnprozesse reduzierbar sein könnten: »Im Beschreibungssystem der klassischen Mechanik lässt sich der Druck eines Gases dadurch angeben, dass man die Wahrscheinlichkeit und das Moment berechnet, mit dem die Gasmoleküle an die Wand des Gefäßes prallen. Anderseits kann der Druck eines Gases aber auch in Abhängigkeit von seiner Temperatur definiert werden«. Und er fährt fort: »… Nichts anderes ist hiermit gemeint, wenn von Reduktion psychischer Phänomene auf Prozesse in Gehirnen gesprochen wird. Es geht lediglich darum, Phänomene, die in unterschiedlichen Beschreibungssystemen erfasst und definiert wurden, miteinander zu verbinden« [Singer 2002, S. 40]. In [Geyer 2004, S. 37] schreibt Singer weiter: »Dualistische Weltmodelle bleiben die Antwort auf die Frage schuldig, wann im Laufe der Evolution oder der Individualentwicklung das Geistige vom Materiellen Besitz ergreift und sich zu erkennen gibt.« Auf der Folgeseite kommt Singer zur essenziellen Grundfrage: »… wenn also das Immaterielle Energie aufbringen muss, um neuronale Vorgänge zu beeinflussen, dann muss es über Energie verfügen. Besitzt es aber Energie, dann kann es nicht immateriell sein und muss den Naturgesetzen unterworfen sein.« Jedes Modell geistiger Phänomene im Gehirn muss sich an der Beantwortung dieser Frage messen lassen. In [Otte 2016] wird eine Lösung vorgeschlagen, die sich grundsätzlich auf quantenphysikalische Prozesse als Vermittlungsprozesse bezieht; im Folgekapitel 16 gehe ich kurz darauf ein. Zusammenfassend gesagt, glauben die meisten Fachleute, dass Bewusstseinsphänomene in einem symbolverarbeitenden System durch hochkomplexe Wechselwirkung von selbst entstehen können. Auf Basis genau dieser Philosophie erwarten manche KI-Forscher ja gerade, dass sie mit ihren Maschinen bald Geist erzeugen werden.
Aber bei Akzeptanz dieser These passiert etwas »Unerhörtes«, denn es liegt auf der Hand, dass es bei diesem deterministischen Ansatz Debatten über die Freiheit des menschlichen Willens geben muss. Einer der Pioniere der Hirnforschung, Libet, zeigte nun auch in aufsehenerregenden Experimenten, dass schon 500 ms, bevor eine »scheinbar freie Entscheidung« getroffen wird (zum Beispiel die freie Entscheidung, einen Arm zu heben oder nicht), die entsprechenden neuronalen Gehirnareale aktiv sind. Daraus wurde geschlussfolgert, dass die neuronalen Zustände kausal für die Hebung des Armes verantwortlich sind, und nicht der bewusste Wille. Das Gefühl »einer freien Entscheidung« wurde vom Gehirn also erst danach im Geist erzeugt und nicht umgekehrt. Das klingt natürlich verrückt, denn das spricht uns komplett den freien Willen ab, mit massiven Auswirkungen auf unser Rechtssystem. Der Streit um die Interpretation der LibetExperimente hält an. Verfechter eines sogenannten Skeptizismus postulieren nun, dass es uns niemals gelingen wird, das Geist-Körper-Problem zu lösen, denn der menschliche Geist sei einfach nicht in der Lage, alle Fragen, die durch ihn selbst formulierbar sind, auch zu lösen. Das könnte natürlich stimmen, aber die Frage nach dem Geist könnte eben auch »einfach« lösbar sein. Heute scheint es den Geist als »ontologische Entität« gar nicht mehr zu geben. Für viele moderne Philosophen ist sogar die Idee einer solchen Suche absurd geworden, denn sie verstehen Geist eben als Prozess und nicht als ein Etwas, das zu suchen wäre. Aber selbst, wenn es eine Entität Geist gäbe, nach heutigem Weltbild lässt sich überhaupt nicht erkennen, wie ein Geist kausal in die materiellen Naturgesetze eingreifen könnte, ohne diese zu verletzen. Dies war das Argument Singers. Nun wissen wir aber aus der Physik, dass die bekannten Naturgesetze »sowieso« nicht mehr ausreichen, um beispielsweise Verschränkungen von Quanten, also nicht lokale Realitäten, zu erklären. Auch das Messproblem ist weiterhin ungeklärt. Wenn ein Beobachter aber Messergebnisse in der Quantenphysik beeinflusst oder gar erzeugt, dann kann man sich schon fragen, welche Eigenschaften des Beobachters dies
nun gerade bewirken. Das ist und bleibt eines der größten Rätsel der Wissenschaft. Der heutige Ansatz kann viele experimentelle Ergebnisse der Physik überhaupt nicht erklären; er muss, aufbauend auf den neueren Erkenntnissen der Quantenphysik, so oder so erweitert werden. Und genau da liegt auch die Hoffnung für die kommende KI.
Andere Meinungen Gibt es nun Fachleute, die das eben vorgestellte Weltbild ernsthaft infrage stellen? Ja, die gibt es. Auf der anderen Seite des philosophischen Spektrums wurden schon seit Längerem Modelle aufgestellt, die letztlich die Information als Basis für alles in der Welt ansehen. Das ist ein Monismus, der jedoch das Geistige, das Informare als Primat in der Welt ansieht. Hervorzuheben sind hier die Ur-Theorie von C. F. von Weizsäcker und darauf aufbauend die Theorien von Görnitz. Der Urgrund allen Seins ist nach dieser Theorie das Geistige, von dem alles – auch das Materielle – erzeugt werden kann. Wenn das gesamte Universum informaren (geistigen) Ursprungs wäre, muss man sich vom objektiven Realismus natürlich komplett verabschieden, also genau das, was manche Quantenphysiker nach den legendären Verschränkungsergebnissen von Leggett (2003) und Zeilinger (2007) tatsächlich fordern. Aber was heißt das konkret? Görnitz berechnet die realen physikalischen Bausteine und weist ihnen eine gewisse Anzahl von Bits (1038 Qubits für ein Elektron) zu. Aus Sicht von Görnitz ist alles geistig, selbst das Elektron. Deshalb ist es auch kein Wunder, dass das Gehirn Geist und Qualia erzeugen kann, denn das Hirngewebe ist laut Görnitz in letzter Instanz reine geistige Ursubstanz. Das KörperGeist-Problem existiert für ihn daher nicht. Dieser Ansatz ist diametral zum vorherrschenden materialistischen Ansatz und man muss ihn erst einmal verdauen. Trotzdem ist auch mit diesem Ansatz nicht erklärbar, warum im Gehirn eben doch eine Art Dualismus vorzuherrschen scheint. Den objektiven, messbaren Aktivitäten des Hirngewebes steht zumindest aus meiner Sicht eine vollkommen andere Qualität, die Qualia, gegenüber. Ich bin der Ansicht, dass das Gehirngewebe und die Qualia völlig verschiedene physikalische
Eigenschaften besitzen und dass dem bei der theoretischen Modellbildung Rechnung getragen werden muss. Was könnte denn nun die Lösung für unsere philosophische Suche sein? Nun, der Neurowissenschaftler und Nobelpreisträger J. Eccles postulierte bereits in den 1970er-Jahren, dass es im Gehirn ein immaterielles Bewusstsein geben müsse, das über Quantenprozesse (in den Synapsen) auf das Gehirn einwirken könne. Auch der berühmte Mathematiker und Physiker Penrose – von dem Sie weiter vorne schon gehört haben – vermutet kohärente, quantenphysikalische Prozesse im Gehirn als Grundlage für geistige Zustände. Er glaubt, dass aus Quanteneffekten in den Zellen des Gehirns, zum Beispiel in den Synapsenspalten, Ionenkanälen im Zellplasma der Neuronen oder im Röhren-Skelett der Zellen, die um Größenordnung höheren makroskopischen Effekte des Gedächtnisses und der bewussten Qualia erzeugt werden könnten. Wichtige Philosophen und Neurobiologen der Gegenwart wie Metzinger, Koch oder Roth folgen ihm jedoch überhaupt nicht. Der Grund für ihre Ablehnung ist scheinbar auch einleuchtend, denn spielte sich alles direkt im Gehirngewebe ab, so würden die gegenseitigen physikalischen und chemischen Störungen jegliche Kohärenz der sogenannten quantenphysikalischen Wellenfunktionen verhindern. Der Fachstreit hält also an, wobei ich mich persönlich dem Penrose-Lager zurechnen möchte, was ich im folgenden Kapitel weiter ausführen werde.
Zusammenfassung Der Ausflug in die Philosophie war ernüchternd. Entsteht der Geist im Gehirn nun aus dem Gewebe oder formt der Geist das Gewebe? Eine Antwort darauf haben wir bei den Philosophen leider nicht gefunden. Genauso wie es den Materialisten bis heute nicht gelungen ist, zu erklären, wie aus dem materiellen Gehirngewebe, also den neuronalen Netzen, das Geistige entsteht, so können die Idealisten, wie Görnitz, nicht erklären, wie aus dem Geistigen letztlich Materie entstehen sollte, die sich doch so völlig anders verhält. Das Rätsel bleibt weiterhin ungelöst. Was also nun? Die Kluft zwischen beiden oben skizzierten
Weltanschauungen ist einfach zu groß, man meint sogar unversöhnlicher denn je. Völlig klar ist jedoch, dass sich alle KI-Fachleute diesen Fragen stellen müssen, wenn sie eine »Künstliche Intelligenz mit Bewusstsein« erzeugen wollten, und Sie sollten um diese Problematik der KI wissen. Und dieses Wissen ist kein unnützes akademisches Wissen, denn bald werden immer mehr Tech-Giganten mit Aussagen über eine »bewusste KI« an die Öffentlichkeit treten. Und wir wollen verstehen ob das stimmen kann. Wir erinnern uns: Google-Entwickler behaupteten im September 2022, dass Google bereits eine »KI mit Bewusstsein« (Google LaMDA) erzeugt habe. Das ist jedoch nicht möglich, wie ich mit dem Wissen von oben gleich aufzeigen werde. Einen Vorteil hat die ganze Diskussion jetzt schon. Geist und Bewusstsein sind nichts »Esoterisches« mehr. Dem KI-Konstrukteur geht es schließlich darum, zu verstehen, welche Prinzipien er beherrschen muss, um reproduzierbar Geist in seiner Maschine zu erzeugen. Der KI-Forscher kann hierbei viel von anderen Disziplinen lernen, denn Neurobiologen, Biologen und Psychologen haben sehr viel Wissen über das Gehirn zusammengetragen. Und Informatiker, Physiker und Ingenieure versuchen, immer feinere mathematische Modelle zum Gehirn aufzustellen, um die Phänomene des Gehirns auf einem Computer nachbilden zu können. Es gibt Hunderte Bücher Spezialliteratur zu diversen Fragen dieses Themas. Das Thema Bewusstsein ist in der KI-Szene also ein großes Thema geworden, es bleibt jedoch weiterhin ein Rätsel. Abschließend möchte ich Roth – einen Neuroforscher aus Deutschland – zu Wort kommen lassen. Roth fragte vor über 10 Jahren ob mit dem (damaligen) Stand der Erkenntnisse das Geist-Gehirn-Problem gelöst sei, denn er schreibt [Roth 2009, S. 143]: »Ein großes Rätsel ist aber das Geschehen dazwischen (Anmerkung des Autors: zwischen Bewusstseinszuständen und der zellulären Ebene). Was genau passiert beim Zusammenspiel von Millionen und Milliarden von Nervenzellen, sodass bewusstes Erleben entsteht? Hier fehlen nicht nur die experimentellen Möglichkeiten, diese Vorgänge zu erfassen, sondern es sind keine theoretischen Modelle vorhanden, die dieses Geschehen begreiflich machen könnten. Solche
Modelle sind aber nötig, denn anschaulich vorstellen kann man sich das Entstehen von Bewusstsein aus dem neuronalen Geschehen überhaupt nicht«. Im nächsten Kapitel schauen wir daher mit der Lupe ins Gehirn, um den menschlichen Geist eventuell doch noch zu entdecken, und wir greifen mit einer Pinzette in den Computer, um ein KI-Bewusstsein zu konzipieren. Vielleicht klappt es ja doch noch.
Kapitel 16
Mit der Lupe ins Gehirn geschaut: Bewusstsein – Wo bist du? IN DIESEM KAPITEL Wir schauen ins Gehirn Aufbau eines menschlichen Neurons Signalverarbeitung im Gehirn Wo ist das Bewusstsein versteckt
Von der Philosophie des Geistes zurück zur empirischen Forschung Die Philosophie aus dem letzten Kapitel hat uns nicht wirklich weitergeholfen, wenngleich sie sehr zum eigenen Nachdenken anregt. Wer hat nun das Primat? Geist oder Materie? Wir müssen resignierend feststellen, dass wir das bis heute nicht wissen. Wenn man diese großen Fragen aber nicht philosophisch, also durch reines Nachdenken lösen kann, kann man es eventuell empirisch. Sie wissen es ja, man kann neues Wissen deduktiv und induktiv erzeugen. Was interessiert uns das (deduktive) Philosophieren, wenn wir heutzutage direkt ins Gehirn hineinschauen können? Durch solche empirischen Erfahrungen lernen wir sehr viel über das Gehirn. Versuchen wir, die empirischen Erkenntnisse rund um das Gehirn zu durchleuchten, soweit sie die KI betreffen. Dazu schauen Sie auf Abbildung 16.1. Wenn Sie sich das Bild ansehen (im Papierausdruck ist es leider grau, im Original grün), so passiert in Ihrem Gehirn ungemein viel. Vom Abbild werden elektromagnetische Strahlen reflektiert, die auf Ihre Netzhaut treffen. Dort erregen sie die Stäbchen und Zapfen, die die optischen Signale ihrerseits in nervale elektrische Erregung
umcodieren. Es ist ein sensationeller Prozess, der da abläuft. Die Zapfen sind für die Farbe zuständig, die Stäbchen für die Schwarz-Weiß-Konturen. Aber mit den Stäbchen und Zapfen der Netzhaut sehen Sie das Bild noch lange nicht, denn jetzt beginnt eine längere Reise der elektrischen Signale durch das Gehirn, die bis zu 500 Millisekunden andauern kann. Die nervalen Signale werden über die Neuronen in den sogenannten visuellen Cortex geleitet. Dort wandern die Erregungen teilweise auch parallel durch verschiedene Felder der Großhirnrinde, die wir an früherer Stelle bereits mit V1 bis V5 bezeichnet haben. In jedem dieser Felder passiert eine aktive Bildverarbeitung. Das Bild wird im primären Rindenfeld V1 und im sekundären Feld V2 in seine geometrischen und auch farblichen Basisobjekte zerlegt, in Kanten, Ecken und viel komplexere Formen. Ab V3, der tertiären visuellen Rinde, wird kompliziertes Formen-, Farb- und Bewegungssehen umgesetzt, mittlerweile sind Millionen von Neuronen aktiv, in die auch eine Aufmerksamkeitssteuerung aktiv eingreift. Jedes Neuron feuert elektrische Signale von seinem Ausgang an bis zu 1000 andere Neuronen, die ihrerseits wieder elektrische Signale an Tausende Neuronen senden. Und diese Signale kreisen in Ihrem Kopf herum, es gibt nicht nur Vorwärtsverkettungen, sondern auch laterale Kopplungen, Rückwärtskopplungen. Aber Achtung, Sie sehen das Bild immer noch nicht. Und nun?
Abbildung 16.1: Eine grüne Folie (im SW-Druck grau)
Jetzt kommt auf einmal das Mysterium. Auf einmal – wie aus dem Nichts – entsteht vor Ihrem inneren Auge die Abbildung des Objekts. Gleichzeitig oder als Ursache oder als Wirkung feuern Verbände von Neuronen synchron ihre elektrischen Salven auf den Nervenleitungen. Die Erregungen Tausender Neurone haben sich synchronisiert und ganze Neuronenverbände pulsieren kurzzeitig im Takt. Das verstärkt die elektrischen Effekte ungemein und man kann sie mittels eines EEGs an der Kopfhaut messen. Nun erleben Sie das Sehen der grünen Abbildung und Sie sehen die Schrift. Das ist die Qualia Ihres ganz persönlichen Sehens. Wie ist das gerade passiert? Die Neurophysiologen und Neurobiologen haben sich bis an diese Stelle vorgearbeitet, bis exakt zu diesem Zeitpunkt. Aber wie das Bild aus all den elektrischen Potenzialen des neuronalen Gewebes entsteht, können sie jedoch immer noch nicht erklären. Wir alle wissen nur, dass das Bild in uns entsteht.
Wo und wie ist denn nun die Qualia abgespeichert? Seit vielen Jahren suchen die Neurobiologen genau diesen Ort im Gehirn. Doch das Ergebnis ist enttäuschend. Nirgends im Hirngewebe kann man jene Stelle finden, an der Qualia abgespeichert worden ist. Selbstverständlich findet man mit den Methoden der fMRT sogenannte neuronale Korrelate, also kleine Bezirke im Gewebe, die sehr aktiv sind, wenn man sich ein grünes Bild anschaut. Aber auf die Frage, wo denn jetzt genau, in welchem Neuron oder in welchem Netzwerk von Neuronen das Erlebnis der Farbe Grün abgespeichert worden ist, weiß man keine befriedigende Antwort. Nun gibt es die bereits erwähnten Argumentationslinien zur Entstehung des geistigen Bildes. 1. Das Feuern der elektrischen Signale im Gehirngewebe ergibt das geistige Bild. 2. Das Feuern der elektrischen Signale ist identisch mit dem geistigen Bild. 3. Das geistige Bild synchronisiert die Neuronen im Gehirngewebe. Die erste Argumentation folgt dem gerade vorgestellten Materialismus und entspricht dem heutigen Zeitgeist. Die zweite Position entspricht dem Monismus. Die dritte Position geht davon aus, dass eine immaterielle Information (»Geist?«) das Primat hat. Die Diskussionen darüber sind bis heute nicht beendet. Ich führe das deshalb so detailliert hier aus, damit Sie erkennen können, dass die materialistische Position nicht alternativlos ist. Nichts ist alternativlos, es gibt immer mindestens zwei diametrale Meinungen zu einem Thema. Auch in der Wissenschaft muss man das berücksichtigen. Obwohl das heutzutage ein echt heißes Eisen ist, sind viele namhafte Autoren tatsächlich von der realen Existenz mentaler Größen überzeugt. Eccles, Penrose oder Popper wurden bereits genannt. Auch der bereits erwähnte Neuro-Pionier Libet beschreibt in einem seiner Werke, dass er von einem bewussten mentalen Feld um das Gehirn ausgeht, und er nennt Experimente, um diese Thesen zu prüfen [Libet 2005, S. 200 ff.]. Diese Experimente sind jedoch experimentell sehr aufwendig bis unmöglich, da sie in jedem Fall einen äußerst komplizierten (chirurgischen) Eingriff in das menschliche
Gehirn verlangen und sie wurden deshalb nach Kenntnisstand des Autors nie durchgeführt. Der Hirnforscher Roth sagt dazu: »… Man kann deshalb von einer partiellen Eigengesetzlichkeit von Geist und Bewusstsein ausgehen, ohne auf den Gedanken der Einheitlichkeit der Natur zu verzichten. Geist fügt sich in die Natur ein, er sprengt sie nicht.« [Roth 2009, S. 144]. Auf den folgenden Seiten möchte ich nun wichtige Unterschiede der natürlichen und der künstlichen Intelligenz herausarbeiten, sowohl in der Hardware als auch in der »Software«. Dabei werden wir auch wissenschaftliche Hypothesen diskutieren, was in einem solchen Buchformat möglicherweise ungewöhnlich, aber der Natur der Sache geschuldet ist. Sie schauen damit sozusagen direkt auf die Frontlinie der Forschung. Und eine Frontlinie hat natürlich immer Risiken. In den ersten Teilen dieses Buches habe ich den Stand der Technik beschrieben. Befassen wir uns aber mit so einem spekulativen Phänomen wie dem menschlichen Geist, so gibt es eben (noch) keinen Konsens unter den Fachleuten und kein natürlich gesichertes Wissen. Sollten Sie eines Tages jedoch einen Experten hören, der deduktiv geschlossen hat, dass die Maschine einen Geist besitzt – oder gerade nicht, dann müssen Sie aufhorchen. (Bei Googles LaMDA war es kein deduktiver Beweis, sondern nur die Behauptung, LaMDA hätte Bewusstsein). Deduktiv erzeugtes Wissen hat keinen statistischen Aussagecharakter. Aber die philosophische Deduktion im letzten Kapitel hat uns beim Verständnis des Bewusstseins leider auch nicht weiter geholfen. Für neue Erkenntnisse müssen Deduktion und Induktion sicherlich Hand in Hand gehen. In diesem Zusammenhang sei interessehalber noch erwähnt, dass besagtes Genie Kurt Gödel einen deduktiven Gottesbeweis vorgelegt hat, den er aber bis zu seinem Tode geheim hielt. Über diesen Beweis wird bis heute gestritten. 2013 wurde durch Ch. Benzmüller und B. Paleo nochmals die Korrektheit des Beweises nachgewiesen. Aber das nur am Rande. Es zeigt zumindest das Ringen der Wissenschaft um die Integration immaterieller (geistiger) Phänomene in das moderne Wissenschaftsgebäude.
Die Anatomie neuronaler Netze im menschlichen Gehirn Unser Gehirn wird in erster Näherung in Kleinhirn, Mittelhirn und Großhirn unterteilt. Im Großhirn sitzt unsere Intelligenz. Der Mensch hat in seiner
Großhirnrinde circa 100 Milliarden Neurone und jedes Neuron ist mit circa 1000 anderen Neuronen über seine sogenannten Synapsen verbunden (manche sogar mit bis zu 10.000), dies macht 100 Billionen Verbindungen (Synapsen). Im Kapitel »Neuronale Netze« hatten wir das besprochen. Letztlich besteht das Gehirn sehr vereinfachend formuliert aus einem riesigen Geflecht von Neuronen, die über ihre Dendriten (Eingänge) und Axons (Ausgänge) verbunden sind. Abbildung 16.2 zeigt eine Computersimulation eines Ausschnitts eines neuronalen Netzwerks aus dem Gehirn mit seinen zahlreichen Verbindungen.
Abbildung 16.2: Nervengeflecht in einem Gehirn (© Naeblys - stock.adobe.com)
Wichtig ist nun zu wissen, dass die Verbindungen nicht einfach elektrischer Natur sind – was man hätte denken können –, sondern zwischen jeder Neuronenverbindung gibt es einen sogenannten Spalt. Man nennt einen solchen Übergang »Synapse« und den Spalt »synaptischen oder neuronalen Spalt«. Genau genommen ist eine Synapse das Gebilde aus präsynaptischem Endknopf (präsynaptischer Endigung), synaptischem Spalt und
postsynaptischer Membran (Abbildung 16.3). Sie ist also kein Bestandteil einer einzelnen Zelle, sondern ist zwei Zellen zuzuordnen. Nur der Vollständigkeit halber sei nochmals hinzugefügt, dass es tatsächlich auch elektrische Verbindungen gibt, die gap junctions, die wir aber nicht weiter betrachten wollen.
Abbildung 16.3: Schematische Darstellung einer neuronalen Synapse
Um die chemischen Synapsen dreht sich alles, wie wir bereits in den Anfangskapiteln zu neuronalen Netzen gehört haben, denn dort passiert ein
Großteil der Lern- und Speichervorgänge im Gehirn. Ist das präsynaptische Neuron erregt (in Abbildung 16.3 links), entsteht auf dem Axon ein elektrisches Aktionspotenzial. Dieses Signal führt zu verstärkten Ausschüttungen von chemischen Molekülen (Neurotransmittern), die den synaptischen Spalt durchwandern und über die Rezeptoren auf der Empfängerseite (rechts) zu einer Erregung der postsynaptischen Membran führen. Diese »Chemie« im Spalt ist eigentlich nicht zu erwarten gewesen, ein Neuro-Ingenieur hätte das nicht so gebaut, denn eine elektrische Signalausbreitung wäre schneller und störungsunanfälliger. Aber die Natur hat genau diesen Weg gewählt. Und die Natur macht nichts ohne Grund. Dort könnte also noch ein Geheimnis für das Lernen und Speichern liegen, eventuell basiert es auf (quanten-)chemischen Effekten. Die vielen anatomischen Details interessieren uns hier natürlich nicht. Ich möchte aber noch einmal an die wichtigsten Begriffe erinnern: Die Dendriten (Dendrites) sind die einlaufenden Nervenbahnen eines jeden Neurons, die ihre Erregungen an das Neuron weiterleiten. Im Zellkörper des Neurons kommt es dann zu zahlreichen Verarbeitungsschritten und im Ergebnis dessen wird ein Nervenimpuls (beziehungsweise eine Pulsfolge) erzeugt und auf dem Axon (dem Neuronenausgang) weitergeleitet und über Synapsen an die Dendriten der nachfolgenden Neuronen übergeben, und immer so fort. Im Gehirn kreisen unentwegt elektrische Aktionspotenziale umher, begleitet von magnetischen und chemischen Veränderungen, wahrscheinlich auch begleitet von elektro-magnetischen Wellen und Schwingungen.
Die Physiologie der neuronalen Informationsverarbeitung Die Synapsen sind also die Stellen, an denen zwei Neuronen chemisch miteinander verbunden sind. Im Kapitel »Neuronale Netze« haben wir gesehen, dass die KNN genau diese Funktionseinheiten mathematisch simulieren. Wir nannten es dort Gewichte und stellten diese Synapsen als reelle Zahlen dar (mit der ein Eingangswert – auch eine Zahl – später multipliziert wird). Bereits dieses einfache Konzept war so erfolgreich, dass sich die daraus entwickelten KNN zu einer der wichtigsten Disziplinen der KI entwickelt haben.
Die Natur generiert aber keine reelle Zahl am Ausgang eines Neurons, sondern sie gibt bei Erregung ihres Zellkörpers einen elektrischen Impuls auf ihrem Axon aus. Dieser Impuls – mit einer Länge von ein bis zwei Millisekunden – »rast« mit einer Geschwindigkeit von 1 m/s bis 100 m/s auf dem Axon entlang. Ist die Erregung des Neurons größer, wird nicht der einzelne Impuls größer, sondern er wird öfter generiert. Erregung wird also in aller Regel in die Häufigkeit derartiger Impulse (Spikes) umcodiert. Dieser Impuls ist es, der dann auf den synaptischen Spalt trifft und zur Ausschüttung von Neurotransmittern führt. Da ein solcher Impuls eine Potenzialänderung von bis zu 100 mV (von –80 mV bis +20 mV) erreicht, kann man das technisch gut messen. Dabei gibt es Einzelableitungen (Abbildung 16.4), bei denen man die elektrischen Signale direkt am Ausgang von Zellen misst (oftmals bei Tieren) oder Sammelableitungen wie bei der bereits vorgestellten EEG-Haube (siehe auch Abbildung 16.7). Schauen wir uns das genauer an. Die Möglichkeiten des Neurons bei Erregung bestehen darin, die Spikerate auf dem Axon zu erhöhen oder die Phasenlage der Erregungsimpulse zu verändern, siehe Abbildung 16.5. Allgemein ausgedrückt steckt die Information über die Erregung eines Neurons also in seinem elektrischen Spikemuster. Daraus wurden technisch sogenannte Spike-Modelle entwickelt, die heutzutage in Anwendungen auch eingesetzt werden, insbesondere bei neuromorphen Computern (Kapitel 17). In Abbildung 16.5 ist ein Neuron mit verschiedenen Erregungszuständen gezeigt, die man als Ausgangsmuster auf dem Axon messen kann. Dieses Konzept der Natur ist sehr mächtig. Letztlich kann man die Information in die Frequenz- und Phasenlage der Signale auf dem Axon codieren, was nahezu unendlich viele Möglichkeiten einer Informationsspeicherung zulässt. Ich hatte bereits erwähnt, dass Neuronen, die zusammengehören, weil sie beispielsweise Teile einer gemeinsamen Bildverarbeitungsaufgabe sind, synchron feuern. Denken Sie an das Einführungsbeispiel aus Kapitel 4 bei dem der Begriff BAUM in einem neuronalen Netzwerk codiert wurde.
Abbildung 16.4: Ableitung eines Aktionspotenzials mit EEG-Technik [eigene Grafik, adaptiert nach ZUM.de]
Abbildung 16.5: Codierung der neuronalen Erregung in die Dichte der Aktionspotenziale auf dem Axon
In Abbildung 16.6 feuern die Neuronen i, j und k zeitweise synchron, sie gehören also kurzfristig zusammen. Diese Synchronizität von neuronalen Netzwerken korrespondiert (höchstwahrscheinlich) mit den eingeführten mentalen Zuständen. Wie die Synchronisation von verschiedenen Neuronenverbänden im Gehirn zustande kommt, ist noch nicht genau geklärt, vgl. auch nochmals die Ausführungen zur »Grünen Folie« ab Abbildung 16.1.
Abbildung 16.6: Die Synchronisation von Neuronen zu einem Ganzen
Abbildung 16.7 zeigt einen Probanden mit einer EEG-Haube, der bestimmte Aufgaben lösen muss und bei dem das EEG (rechte Seite) abgeleitet wird. Das Ziel besteht nun darin, typische EEG-Muster für bestimmte Gehirnzustände zu finden. Als Gehirnzustände sind nicht nur kognitive Zustände und Gedanken gemeint, sondern auch mentale (emotionale) Zustände. Im vorliegenden Fall war es möglich, bestimmte unterschiedliche Muster in den EEG-Linien zu finden, wenn dem Probanden Bilder von Verkehrsunfällen oder Bilder von verliebten Paaren gezeigt wurden. Die darauf evozierten (hervorgerufenen) EEG-Muster unterschieden sich signifikant, sodass man alleine durch Betrachtung des EEGs später sehr zuverlässig schließen konnte, ob der Proband Autounfälle oder Liebespaare betrachtet hatte. Es braucht aber auch hier viel Training, um einen Zusammenhang zwischen emotionalen Zuständen (Freude, Angst, Erschütterung) und einem EEG-Muster zu finden. Derartige elektrische Messverfahren sind sehr gut geeignet, um Einblicke in das Gehirn zu bekommen, auch wenn sie zum Gedankenlesen nicht taugen, weil sie viel zu unpräzise sind.
Abbildung 16.7: Messung von neuronalen Zuständen mittels EEG
Mit diesem Wissen über das Gehirn greifen wir das Sehen der grünen Folie erneut auf. Unser Ziel ist schließlich, nachdem wir mit der Philosophie (dem »Nachdenken«) nicht weitergekommen sind, durch die Ergebnisse der empirischen Forschung ein besseres Verständnis für mentale Zustände zu bekommen, um diese eventuell auf einer KI-Maschine nachzubauen.
Abbildung 16.8: Das Sehen einer grünen Folie und seine Weiterleitung ins Gehirn (rechts © bilderzwerg - stock.adobe.com)
Wir haben bereits besprochen, dass die Bildinformation von der Netzhaut in die primäre Sehrinde gelangt (Abbildung 16.8). Denkbar wäre nun, dass die visuelle Information auf ihrem Wege durch das Gehirn immer weiter verdichtet wird, bis sie am Ende an einem Erkennungsneuron ankommt. Aber so ist es nicht. Am Ende der Bildverarbeitung bleibt nicht ein Neuron übrig, das die Klassifikation (»Großmutter erkannt«) durchführt, sondern es verbleibt immer ein Netzwerk von Neuronen, die eben für einen gewissen Zeitraum synchron oszillieren. Wenn dieses Netzwerk aus Neuronen mit einem bestimmten Aktivitätsmuster aktiv wird, dann haben wir ein bestimmtes Objekt in der Außenwelt identifiziert. Unser Modell vom Sehen wird also komplexer. Und es wird noch komplexer, sagen wir mal, verworrener. Man hat nämlich festgestellt, dass die gleichen Neuronen-Areale für verschiedene Aufgaben zuständig sind, eine 1:1-Zuordnung von räumlichen Arealen zu einer einzigen Aufgabe ist nicht gegeben. Gerade dieser Zustand macht die Analyse des Gehirns so schwierig. Es ist auch das eine, prinzipiell zu verstehen, wie das Gehirn funktioniert, und das andere, es konkret nachbauen zu wollen. Letzteres ist nur möglich, wenn wir die Details so gut verstanden haben, dass wir sie in ein mathematisches Modell überführen können.
Es gibt mathematische Modelle von Gehirnprozessen Solche dynamischen Modelle existieren aktuell jedoch nur für kleine Teilbereiche und nur auf viel abstrakterer Ebene. Und auch da ist es bereits außerordentlich kompliziert, siehe dazu die Hintergrundbox.
Zur möglichen Dynamik von neuronalen Gehirnprozessen Das Gehirn ist ein hoch-dimensionales, rückgekoppeltes dynamisches System. Man erkennt die biologische Bedeutung einer Rekursion für das Gehirn daran, dass es geradezu von Rückkopplungsschleifen durchdrungen ist. Es ist definitiv kein Feed-Forward-Netz, wie wir es oftmals in der KI verwenden, das eingehende Signale in einem Vorwärtsfluss verarbeitet und weiterreicht. Es ist eher so, dass das Ergebnis jeder Verarbeitung erneut lateral oder rückwärts in das System eingekoppelt wird. Zur gesamten Signalverarbeitung im Gehirn gehören Feedback von den vorderen Regionen des Cortex zu den hinteren, und auch Schleifen zwischen Arealen und Regionen. Durch diese Rückkopplungen ergeben sich zwangsläufig komplexe dynamische Systeme. Eine mathematische Theorie rückgekoppelter Systeme liegt in den Wissenschaften vor, »einfache« Anwendungen dazu findet man in der Regelungstechnik. Im Gehirn ist es jedoch bedeutend komplexer. Um eine Analyse zur Stabilität der Systeme durchzuführen, benötigt man Kenntnis über die Systemeigenschaften und über die Anfangsbedingungen. Dies wird beim Gehirn im Detail jedoch kaum möglich sein. Dennoch ergibt sich aus rein logischen Gründen die Tatsache, dass das Gehirn in den meisten Fällen (zum Beispiel beim Betrachten eines Bildes) zu stabilen Zuständen konvergiert. Man nennt diese Zustände in der Systemtheorie Attraktoren. Der Grund ist wahrscheinlich darin zu suchen, dass das Gehirn seine inneren Übertragungsfunktionen der neuronalen Netzwerke den äußeren Reizen optimal anpassen kann. Das Gehirn ist damit mehr als ein nichtlineares, rückgekoppeltes System, denn es verändert sich durch selbstreferenzielle Prozesse in einem permanenten Prozess der Selbstorganisation. Selbstreferenziell bedeutet, dass das System Repräsentationen verwendet, die sich selbst enthalten. So etwas haben wir bereits gesehen, als es um Kurt Gödel und die PL2 ging.
Welchen Vorteil hat eine komplexe Systemdynamik? Das Konzept, Gehirnzustände als sogenannte Attraktoren rückgekoppelter dynamischer Systeme zu beschreiben, hat gewaltige Vorteile. Ein Attraktor ist der Zustand, den ein dynamisches System nach einer Übergangszeit einnimmt, also sein Endzyklus. 1. Die biologische Bedeutung der massiv vorhandenen, neuronalen Rückkopplungsstränge in vielen Gehirnabschnitten ist erklärbar, denn nur durch Rückkopplungen entstehen Systeme mit derart komplexen Dynamiken. 2. Ein solches System kann eine nahezu beliebig hohe Komplexität ausbilden. In einem hierarchischen System muss sich die Komplexität stets aus der Struktur ergeben; in einem rekurrenten System ist eine enorm hohe dynamische Komplexität durch die Rekursion erzielbar. Da das
Gehirn eine sehr hohe Komplexität erzeugen muss, um selbst beliebig komplexe Phänomene der Umgebung codieren zu können, ist die Rückkopplung die beste Wahl. Das Gehirn speichert seine Informationen daher auch in dynamischen Prozessen und nicht nur in seiner inneren Struktur, wie das die heutigen KNN-Systeme machen. 3. Dynamische Modelle können sehr stabile Attraktoren ausbilden, sodass eine Objektwahrnehmung selbst unter sehr verschiedener Reizausprägung zum gleichen Attraktor konvergiert, womit ein Objekt in beliebiger Umgebung sicher erkannt werden kann. 4. Dynamische Modelle können auch sehr instabile Attraktoren ausbilden, denn bei chaotischen Systemen gilt, dass selbst kleinste Änderungen zu völlig verschiedenem Systemverhalten führen können (»Schmetterlingseffekt der Chaostheorie«). Wir haben an verschiedenen Stellen bereits darüber gesprochen, dass sich die Synchronizitäten von Neuronenverbänden als wesentlich für bewusste Prozesse herausstellen könnten. Viele Untersuchungen wenden sich deshalb den Systemdynamiken neuronaler Netze zu. Es ist aktuell aber nicht klar, ob sich dann, wenn wir Derartiges mit sogenannten Spike-Modellen auf Neuromorphen Computern nachbauen (Kapitel 17), auch bewusste Prozesse – also mentale Zustände – herausbilden werden. Aber einen Versuch ist es wert! Fassen wir die »technischen Daten« des Gehirns zusammen: Das Gehirn besitzt circa 100 Milliarden (1011) Neuronen und 100 Billionen (1014) Synapsen, eventuell auch 1015 Synapsen. Die Speicherkapazität liegt bei 100 bis 1000 PB = 1 Exabyte, eventuell auch bei 100 Exabyte. Man kann das nicht genau schätzen, die Angaben in der Literatur sind sehr weit streuend. Ich gebe später eine eigene Rechnung dazu an. Die Geschwindigkeit der Erkennungs- und Wahrnehmungsleistungen erscheint weit höher als die der ihnen zugrunde liegenden (relativ langsamen) neuronalen Elementarprozesse von 10 bis 100 Hz. Bereits nach wenigen Hundert Millisekunden erkennt und deutet der Mensch Gesichter. Im Gehirn existieren sehr viele neuronale Schleifen und Rückkopplungen.
Das Gehirn hat somit viele Möglichkeiten, Sinneseindrücke und Erfahrungen zu speichern. In der Topologie des Netzwerks und in der zeitlichen Dynamik der Prozesse selbst. Letzteres erscheint einem Ingenieur ziemlich clever, da damit nahezu unendliche große Mengen an Informationen gespeichert werden könnten. Obwohl das Gehirn also eine »Hochleistungsmaschine« zur Datenverarbeitung ist, so müssen sich aber auch die heutigen Computer, insbesondere die Supercomputer nicht mehr verstecken. Es deutet sich an, dass zumindest die Technische Singularität bald erreicht ist, also der Zeitpunkt, bei dem wir Rechner bauen können, die die gleiche Informationsverarbeitungskapazität wie das Gehirn besitzen.
Eine wichtige Diskussion: Wetware vs. Hardware Es ist sicher unstrittig, dass man auf herkömmlichen Rechnern – sagen wir einem Laptop – die Leistungsfähigkeit des Gehirns nicht erreichen kann. Deshalb wollen wir zu den High-End-Systemen schauen, den Hochleistungscomputern. Hier werden schnell die neuen Begriffe wie Petabyte oder Exabyte notwendig. Einer der früheren Champions, der Supercomputer Titian, besitzt angeblich weit mehr als 100 Billionen Transistoren, sagt die Literatur. NVIDIAs Grafikprozessor GP100-Chip besteht aus circa 15 Milliarden Transistoren. Bei anderen Groß-Rechnern war die genaue Transistorzahl nicht zu ermitteln. Was die Hersteller aber sehr gerne veröffentlichen, ist die Leistungsfähigkeit ihrer Supercomputer, die Anzahl der Rechenoperationen pro Sekunde. Hier reden wir von floating point operations per seconds oder einfach von Flops. Zwischen den Wirtschaftsmächten gibt es einen Wettlauf um den größten, schnellsten und leistungsfähigsten Supercomputer. Der chinesische Supercomputer Sunway Taihu Light war Mitte 2018 mit 93 Petaflops der schnellste Rechner der Welt. Später im Jahre 2018 kam der amerikanische Supercomputer Summit mit fast 150 Petaflops an die Spitze. Seit November 2022 führte der Supercomputer Frontier aus den USA die Liste an. Frontier kann bereits über eine Trillion Rechenoperationen pro Sekunde verarbeiten [Statista.com/SC], in Zeichen:
1.000.000.000.000.000.000, das heißt über ein Exaflops (1000 Petaflops). Das klingt alles sehr gewaltig. Das Forschungszentrum Supercomputer Supercomputer menschliche Jülich Summit (USA) Frontier (USA) Gehirn (Deutschland) – – 2018 – 2022 2018 Anzahl Prozessoren
100 Milliarden Neuronen100 Billionen Synapsen
Größe Speicher
100 Petabyte bis 100 Exabyte
10 Petabyte
700 Petabyte
1.100 Petaflops = 1,1 Exaflops
Anzahl 100.000 Rechenoperationen Petaflops bis10.000 Exaflops
6 Petaflops
148 Petaflops
Leistungsaufnahme 10–30 Watt
2.300.000 Watt
13.000.000 Watt 40.000.000 Watt
Tabelle 16.1: Gegenüberstellung technischer Parameter von Gehirn und speziellen Maschinen wie Supercomputern
Vergleichen wir unser Gehirn also mit diesen Supercomputern. Wann erreichen die technischen Systeme dieselbe Rechenleistung wie das Gehirn? Das können wir nur grob schätzen. Wollte man 100 Billionen (1014) Synapsenwerte (mit 8 Bit) speichern, benötigt man 100 TB große Arbeitsspeicher, so etwas gibt es schon. HPs sensationelle Maschine »The Machine« ist mit 160 TB Arbeitsspeicher ausgerüstet. Man nähert sich also der rechnerischen Leistungsfähigkeit des »vereinfachten« Gehirnmodells. Das Problem bei diesem Vergleich ist jedoch, dass eine Synapse analog ist, die zu speichernden Datenmengen daher digitalisiert werden müssen, um sie mit einem Computer vergleichbar zu machen. Ich nehme an, dass eine Synapse im Gehirn sehr viel mehr als die angenommenen acht Bit an Daten speichert, denn die acht Bit sind willkürlich gewählt, da man davon ausgeht, dass die Kopplungsstärke einer Synapse mit diskreten Zahlen zwischen 0 und 256 codierbar ist. Sagen wir, dass wir für die Codierung eines SynapsenWerts eines Neurons nicht ein Byte, sondern mit vollständiger Adressierung im Netzwerk der Synapsen und realistischer Datenabspeicherung aller
chemischen, elektrischen und sonstigen Analogzustände circa 1 Million Byte, also 1 MB (Megabyte = 106 Byte) benötigen (sehr großzügig gerechnet). Damit machen wir jetzt eine »Milchmädchenrechnung«. (Achtung, diese Rechnung deckt sich überhaupt nicht mit Rechnungen aus der Literatur.) Da es 1014 Synapsen im Gehirn gibt, benötigen wir also 1020 Byte, um alle Daten eines Gehirns abzuspeichern. Das sind 100 Exabyte (1 Exabyte = 1018 Byte), die ein Gehirn abspeichern kann (eventuell auch nur 100 Petabyte, je nachdem wie man die Werte der Gewichte codieren möchte). Sagen wir, das technische Gehirn-System soll alle Zustände mit 100 Hz verändern können. Das menschliche Gehirn arbeitet mit circa 10 Hz bis 100 Hz, was man an den Alpha-, Beta, Gammawellen im EEG feststellen kann. Damit benötigt man ein System, das 1020 · 102 = 1022 FLOPS verarbeiten kann, also 10.000 Exaflops. Stellen wir das Ergebnis dem besten Superrechner aus dem Jahre 2022 gegenüber (Tabelle 16.2): Menschliches Gehirn
Supercomputer Frontier
Speicher
100*1018 Byte = 100 Exabyte
700 Petabyte
Rechengeschwindigkeit 1022 FLOPS = 10 Zettaflops = 10.000 Exaflops 1,1 Exaflops (1.100 Petaflops) Tabelle 16.2: Gegenüberstellung Gehirn und Tianhe-3
Frontier kann seit dem Jahre 2022 ein Exaflops, das heißt 1018 Flops, verarbeiten, das menschliche Gehirn jedoch bis zu 10.000 Exaflops, das heißt circa 10.000-mal mehr als Frontier. Der Vorsprung klingt groß, trotzdem ist alles eine Frage der Zeit. Die technische Singularität wird irgendwann Wirklichkeit. Inzwischen geht man davon aus, dass spätestens 2050 die (technische) Rechenleistung des Gehirns durch vom Menschen hergestellte Computer übertroffen werden wird. Die technische Singularität wird also kommen. Hätten wir mit der technischen Singularität aber auch wirklich das Gehirn in seiner Leistungsfähigkeit erreicht? Wahrscheinlich eben nicht. Ich denke, beim Gehirn geht es nicht um schnöde Rechenleistung, denn zwischen Gehirn und Maschine gibt es sehr große Unterschiede in der Umsetzung der Informationsverarbeitung.
Der große Vorteil der Wetware – Unsere heutige Hardware besitzt keine Qualia Laut von Neumann ist es egal, ob die Computer mit Äpfeln, Birnen oder Transistoren rechnen. Aus dieser Ansicht heraus ist die so überaus erfolgreiche Digitaltechnik der Gegenwart entstanden, die letztlich alles berechnen kann, was berechenbar ist. Aber »biologisch« intelligent ist das nicht. All diesen Systemen fehlt zumindest aus meiner Sicht immer noch die wesentliche Zustandsgröße, die diese Computer von biologischen Systemen unterscheidet: Dies ist die mehrmals erwähnte Qualia. Dies ist natürlich erst einmal nur eine Behauptung. Wie können wir beweisen, dass die heutigen Computersysteme keine Qualia haben? In den Kapiteln 3 und 10 ging es bereits darum. Beweisen kann man etwas analytisch oder empirisch. Allerdings fällt die Empirie beim Beweis einer Nichteigenschaft weg. Versuchen Sie empirisch zu beweisen, dass sich in Ihrer Kochwäsche keine Mikroben vom Typus Streptococcus befinden. Oder versuchen Sie empirisch zu beweisen, dass Elektronen nicht leicht süßlich riechen können. Nein, eine Nichtexistenz von Eigenschaften muss man analytisch zeigen. Wie könnte man nun konkret vorgehen, um die Nichtexistenz von Qualia auf heutigen Computern zu beweisen? In [Otte 2016] habe ich als Idee Folgendes vorgeschlagen: 1. Detaillierte Analyse des menschlichen Gehirns 2. Mathematische Modellierung von Bewusstsein und Qualia im Gehirn 3. Bestimmung der Eigenschaften, die ein System haben müsste, um Bewusstsein auszuprägen 4. Zeigen, dass die heutigen KI-Systeme diese Eigenschaften nicht besitzen Natürlich ist hier nicht der Ort, um Beweise vorzuführen. Ich möchte nur skizzieren, wie man grob vorgehen kann.
1. Detaillierte Analyse des menschlichen Gehirns
Dies ist in den vorhergehenden Kapiteln skizziert, muss aber natürlich mit den Neurowissenschaftlern und dem jeweils aktuellen Wissenstand weiter modifiziert werden.
2. Mathematische Modellierung von Bewusstsein und Qualia im Gehirn Mithilfe der Mathematik gelingt es den Forschern seit jeher, immer bessere Modelle der Natur zu erstellen und damit die Natur immer besser zu begreifen. Wir wissen aber bereits, dass ein Von-Neumann-Computer nicht alle Vorgänge der Natur berechnen kann. Ein Grund liegt unter anderem daran, dass ein Computer letztlich nur mit ganzen Zahlen rechnen kann. Seine Modelle von der realen Natur müssen daher immer etwas ungenau bleiben. Das Problem ist jedoch lösbar, denn man kann die analogen Rechnungen der Natur mit reellen Zahlen beliebig genau simulieren. Wir haben gerade »unbemerkt« eine Zahlenbereichserweiterung von den ganzen Zahlen zu den reellen Zahlen durchgeführt. (Eine Zahlenbereichserweiterung ist manchmal notwendig, wenn man Phänomene der Natur mathematisch korrekt abbilden will.) Der mathematisch interessierte Leser erinnert sich vielleicht auch, dass es neben den reellen Zahlen weitere Zahlenbereiche in der Mathematik gibt, so auch die komplexen Zahlen, mit wieder neuen Berechnungsmöglichkeiten. Und jetzt kommt etwas Überraschendes. In der Natur gibt es tatsächlich Phänomene, die sich optimal mit komplexen Zahlen modellieren lassen, das sind die Phänomene der Quantenphysik. Die Erweiterung der Zahlenbereiche von reellen Zahlen zu komplexen Zahlen hat unser wissenschaftliches Weltbild über die zugrundeliegende Natur grundsätzlich erweitert. Es scheint so, als ob wir mit unserer mathematischen Wissenschaftssprache immer wieder neue Geheimnisse der Natur aufdecken. Und manchmal benötigt man zur Beschreibung tatsächlich auch neue Zahlen.
Eine Wellentheorie des Bewusstseins Um neue Phänomene zu beschreiben, werden erst Hypothesen, dann jedoch Theorien entwickelt, insbesondere in den Naturwissenschaften sind solche Theorien oftmals sehr mathematisch. Auch für das Bewusstsein gibt es bereits zahlreiche Theorien, so auch eine von meinem eigenen Forschungsteam. Um das Phänomen Bewusstsein zu beschreiben, arbeiten wir seit zehn Jahren an einer sogenannten Wellentheorie des Bewusstseins, diese ist jedoch noch Forschungsgegenstand und nicht Stand der Technik. Aufgrund der »Ungewöhnlichkeit« des Bewusstseins war dabei jedoch eine sehr »exotische mathematische
Theorie« zu erwarten. Im konkreten Fall mussten neue Zahlen (hyperkomplexe Zahlen) verwendet werden. Der mathematisch interessierte Leser hat vielleicht schon einmal von Quaternionen gehört, dies sind hyperkomplexe Zahlen, mit denen sich Operationen im Raum modellieren lassen. Aber es gibt neben den Quaternionen auch zahlreiche andere hyperkomplexe Zahlen, zum Beispiel komplementär-komplexe Zahlen. Benutzt man die Algebra solcher hyperkomplexen Zahlen, lassen sich Wellenfunktionen definieren, die sehr außergewöhnliche Eigenschaften haben. Ein hochinteressanter Effekt – der mathematisch in [Hertig 2014] und [Otte 2016] ausformuliert ist und den ich hier nur kurz erwähne – besteht darin, dass Energiewerte derartiger Funktionen mathematisch imaginär (in der Realität also nicht nachweisbar, da »immateriell«) werden. Mit diesen Gleichungen hat man daher ein Hilfsmittel, um immaterielle Bewusstseinsprozesse zu modellieren, denn die Eigenschaft von Qualia-Prozessen im Gehirn war ja gerade ihre prinzipielle Privatheit, ihre prinzipielle Nicht-Messbarkeit, ihre Virtualität. Physikalische Prozesse, die sich mit Modellen beschreiben lassen, die »immaterielle« Energiewerte aufweisen, schaffen uns also neue Möglichkeiten, unser Bewusstsein zu erklären und – das muss betont werden – ganz auf dem Boden der Mathematik und Physik.
Also gehen wir mit der Idee der Zahlenbereichserweiterungen einen Schritt weiter. Man kann den Zahlenbereich der komplexen Zahlen nämlich erneut erweitern und entdeckt dabei – zumindest in der mathematischen Theorie – interessante Modellierungsmöglichkeiten für die Bewusstseinsprozesse und die Qualia, Interessenten sehen bitte in die Mathematikbox. Dort werden neue Zahlen, sogenannte hyperkomplexe Zahlen zur Beschreibung von Bewusstseinsprozessen vorgestellt.
3. Bestimmung der Eigenschaften, die ein System haben müsste, um Bewusstsein auszuprägen Stehen mathematische Modelle zur Verfügung, so kann man eventuell ein technisches System konstruieren, das die vorhergesagten Eigenschaften von Bewusstseinsprozessen planmäßig erzeugt und nutzt. Das würde für die KI bedeuten, dass uns ganz bestimmte technische Systeme dem Ziel der Erzeugung von echtem »maschinellem Bewusstsein« näher bringen können. Die mathematischen Ergebnisse zeigen, dass man zur »Erzeugung« von Bewusstsein zwar Quantenprozesse benötigt, die klassischen Quantenprozesse jedoch nicht identisch mit den gesuchten Bewusstseinsprozessen sind.
4. Zeigen, dass die heutigen KI-Systeme diese Eigenschaften nicht besitzen
Mathematische Modelle kann man natürlich immer auf Digitalcomputern simulieren, aber das bedeutet nicht, dass diese Computer dann auch die Eigenschaften, die sie modellieren, physikalisch selbst ausprägen können. Prominentes Beispiel ist die Quantenphysik selbst. Man kann die mathematischen Modelle der Quantenphysik, zum Beispiel die Verschränkung, sehr gut auf einem Computer simulieren, aber damit kann ein Digitalcomputer mitnichten verschränkte Zustände erzeugen. Das geht nur mit einem technischen Gerät, das die Physik nicht nur simuliert, sondern die Modelle auch physikalisch korrekt repräsentiert, eben mit einem Quantencomputer. So sehe ich das auch bei der KI mit Bewusstsein. Digitalcomputer können auch mathematische Modelle von Bewusstseinsprozessen simulieren, aber physikalisch korrekt ausprägen können sie derartige Eigenschaften überhaupt nicht. Deshalb habe ich oben betont, dass Google mit LaMDA keine KI mit Bewusstsein erzeugt haben kann. Eine technische Maschine, mit der sich sehr wahrscheinlich Bewusstseinsprozesse erzeugen lassen, wäre tatsächlich der Quantencomputer, ich komme gleich darauf zurück. Heutige Digitalcomputer wären und blieben dann – wenn diese These stimmt – unendlich weit weg von den Fähigkeiten des menschlichen Gehirns. Die Protagonisten einer digitalen KI, wie Google & Co., würden dann grundsätzlich an den inhärenten physikalischen Grenzen ihrer heutigen KISysteme scheitern. Ohne zu weit ins Detail zu gehen, soll im Nachfolgeabschnitt abschließend noch ein kleiner Blick auf die konkrete Idee zur Verbindung von Quantenphysik und KI-Bewusstsein (also »Maschinenbewusstsein«) geworfen werden.
Eine Hypothese: Zur Erzeugung und Nutzung von Bewusstsein benötigen wir quantenphysikalische Systeme Wie könnte bewusste Qualia in einem technischen System ganz real entstehen, wie könnte man Maschinen mit eigenem Bewusstsein erschaffen? Sind das Hirngespinste oder besteht zumindest eine Möglichkeit, so etwas zu tun? Aus Sicht des Autors ist es durchaus möglich, jedoch – wie oben bereits ausgeführt – nur unter Zuhilfenahme quantenphysikalischer Phänomene.
Eine Hypothese: Ohne Quantenphänomene kann kein Bewusstsein entstehen. Quantenphänomene und Bewusstseinsprozesse könnten dennoch eine völlig andere Realität besitzen. Sie wissen aus dem Philosophiekapitel, dass es zur Entstehung des Bewusstseins aus dem neuronalen Gehirngewebe bis heute keinen Konsens gibt. Wie Sie auch wissen, stimme ich bei diesem Fachstreit mit denjenigen Autoren überein, die einen Zusammenhang zwischen geistigen Phänomenen im Gehirn und quantenphysikalischen Prozessen im Gehirn vermuten. Im Gegensatz zu J. Eccles oder Roger Penrose sehe ich die Quantenphysik jedoch in einer Vermittlerrolle zwischen den geistigen (mentalen) und den materiellen (neuronalen) Phänomenen, siehe Abbildung 16.9.
Abbildung 16.9: Eine Hypothese, Materie und Geist wechselwirken über quantenphysikalische Prozesse
Dieses Bild möchte ich ganz kurz erklären. Materielle Prozesse verändern quantenphysikalische Prozesse, diese verändern Bewusstseinsprozesse (in der
Abbildung durch den Pfeil von unten nach oben dargestellt). Umgekehrt ist das nach dem uns bekannten Forschungsstand nicht so trivial möglich. Hier zeigen sich bei genauer mathematischer Analyse Wechselwirkungen nur über Korrelationen von Zufallsprozessen, was aufgrund der zwingenden Geschlossenheit der Physik auch notwendig ist, sonst müsste man akzeptieren, dass ein immaterieller Bewusstseinsprozess direkt auf materielle Größen im neuronalen Gewebe einwirken kann. Das ist jedoch auszuschließen, es wäre ein kausal unmöglicher Vorgang. Mentale Prozesse (also Bewusstseinsprozesse) können nach diesem Modell aber sehr wohl in die neuronalen Prozesse des Gehirngewebes eingreifen, eben bloß nicht unmittelbar. Ich möchte das aufgrund der Brisanz wiederholen: Die mathematischen Ergebnisse lassen vermuten dass immaterielle, geistige Prozesse (Bewusstsein) auf materielle Prozesse (Gehirngewebe) einwirken können, allerdings nur über statistische Korrelationen. Die Darstellung in Abbildung 16.9 erläutert unser Konzept wie Bewusstseinszustände (dort GEIST genannt) über quantenphysikalische Effekte mit dem menschlichen Gehirngewebe wechselwirken und wahrscheinlich – bei richtiger Konstruktion – auch in einer Maschine so wechselwirken werden. Die Quantenprozesse stellen also »nur« die Vermittlung zwischen der geistigen und der materiellen Welt bereit. Aus energetischer Sicht kann man das gut verstehen. Materielle Prozesse haben eine reelle, materielle Energie. Geistige Prozesse könnten wie oben ausgeführt eine immaterielle Energie besitzen. Die Quantenprozesse stehen dazwischen, ihre physikalische Realität ist vor einer Messung unbestimmt, erst nach einer Messung entstehen daraus Wahrscheinlichkeiten für reale materielle Zustände. Die obigen Erkenntnisse könnten uns, falls sie stimmen, helfen, die notwendige Maschinenkonstruktion für »Künstliches Bewusstsein« festzulegen. Da dies seit 15 Jahren ein Forschungsschwerpunkt des Autors darstellt, sei der interessierte Leser auf [Otte 2016] und [Otte 2021b] verwiesen, wo diese Thematik ausführlich behandelt wird. Allerdings – und das sei nochmals betont – bleibt diese Interpretation des Geistes und seine Erzeugung auf Maschinen noch eine Hypothese. Abschließend noch ein Beispiel zur Leistungsfähigkeit eines Gehirns mit Bewusstsein, das erneut mit dem Sehen zu tun hat und heute noch weit
außerhalb der Reichweite der KI liegt. Ich bringe dieses Beispiel, weil genau das dort beschriebene Problem der Wahrnehmung mit einer neuen KI gelöst werden soll.
Ein Beispiel: Der Mensch sieht nicht nur mit seinen Augen Ich weiß nicht, wo Sie gerade sind, aber schauen Sie mal vom Buch auf und blicken Sie auf den Tisch vor sich. Dort steht eventuell ein Computer oder ein Telefon oder irgendetwas anderes. Nehmen wir als Beispiel den Computer. Alle optischen Signale gehen vom Computer über Ihre Netzhaut in Ihr Gehirn. Im visuellen Cortex entsteht so eine Abbildung des Computers. Es ist ähnlich wie beim Fotoapparat mit angeschlossener Bildverarbeitung. Auch dort fallen – wenn Sie den Computer fotografieren – alle optischen Strahlen vom Computer über das Linsensystem auf den inneren Chip des Fotoapparats. Auf diesem Chip ist das Computerbild dann abgelegt oder wird in einer internen Bildverarbeitung bereits weiterverarbeitet. Wie ist das beim Menschen? Um hier die Unterschiede in der Bildverarbeitung besser zu verstehen, machen wir ein Gedankenexperiment: 1. Machen Sie die Augen zu und stellen Sie sich etwas vor. Zum Beispiel Ihr neues Traumauto. Visualisieren Sie Ihr Auto vor Ihrem »inneren Auge«, wie man so schön sagt. Und jetzt meine Frage: Wo befindet sich das Bild physikalisch, das Sie sich gerade vorstellen? Nun, wir wissen es nicht genau, aber irgendwo im visuellen Cortex ist es abgelegt. Dies hatten wir zu Beginn des Kapitels besprochen. Mithilfe eines fMRT-Geräts könnte ein Dritter sogar von außen beobachten, welche Regionen Ihres Gehirns jetzt besonders aktiv sind. Wenn wir den Außenstehenden also fragen würden, wo Ihr Bild vom Traumauto abgespeichert ist, das Sie sich gerade vorstellen, dann würde er sagen, dort irgendwo im Gehirn von Ihnen. Logisch. 2. Jetzt machen Sie die Augen auf und sehen Sie auf den Computer vor Ihnen auf dem Tisch. Und ich stelle dieselbe Frage: Wo ist das Bild abgespeichert, das Sie momentan sehen? Die Frage klingt unsinnig, denn auch diese Antwort ist klar: natürlich wieder in Ihrem visuellen Cortex! Auch ein Außenstehender, der gerade Ihr neuronales Korrelat im fMRT beobachten würde, würde auf Ihren Kopf zeigen und sagen, ja, das Bild vom Computer ist irgendwo dort im Kopf von Ihnen.
Was aber sagen Sie persönlich? Wo sehen Sie das Bild? Schauen Sie genau hin! Das Bild, das objektiv in Ihrem visuellen Cortex abgespeichert ist, wird für Sie selbst (scheinbar) nach außen projiziert. Sie müssen sich folgende Frage konkret stellen: »Sehe ich ganz persönlich den Computer in meinem Kopf drinnen oder außerhalb meines Kopfes?« Ich denke, Sie werden schnell feststellen, dass Sie das Bild vom Computer nicht im Kopf drinnen sehen, sondern tatsächlich außerhalb. Das ist zumindest überraschend. Das Bild ist für Sie persönlich nicht nur im visuellen Cortex abgelegt (dort liegt es natürlich physikalisch), sondern Sie sehen das Bild – aus Ihrer ganz privaten Sicht (Ihrer inneren Qualia-Sicht) – direkt auf dem Objekt in der Außenwelt. Und falls Sie von diesem »Trugbild« irritiert sind, dann versuchen Sie, den Computer anzufassen, den Sie vor sich sehen. Schauen Sie dabei zu und fragen Sie sich, ob Sie das Anfassen des Computers in Ihrem Kopf sehen oder außerhalb. Probieren Sie es! Sie fassen nicht daneben. Ihr subjektives Bild vom Computer ist direkt und zu 100 Prozent präzise dort, wo auch der Computer wirklich in der Außenwelt steht. Diese (scheinbare) Projektion ist eine mathematische und physikalische Meisterleistung Ihres Gehirns, wir könnten auch sagen, Ihres Bewusstseins. Es ist mathematisch eben nicht trivial, durch Rechnungen in den neuronalen Netzen des Gehirngewebes den Effekt zu erzielen, dass die Bilder, die im Gehirngewebe abgelegt sind, wieder in die Außenwelt »projiziert« werden und stets an die richtige Stelle. Und falls Sie denken, dieses überraschende Phänomen läge an der Parallaxenverschiebung Ihrer beiden Augen, dann irren Sie sich. Das Ganze funktioniert auch mit nur einem Auge. Und es hat auch wenig mit Disparität, Akkomodation, Konvergenz, Bewegungsparallaxe, relativer Größe, Kulissenwirkung, Schattenwurf und Blaugrau-Verschiebung entfernter Objekte zu tun. All diese Effekte unterstützen natürlich das Gehirn bei der Bildverarbeitung, aber der grundlegende Basiseffekt der scheinbaren Außenprojektion von Bildern wird völlig anders erzeugt. Es geht uns hier also um zukünftige KI-Systeme, die die Außenwelt dann wirklich auch im Außen sehen können, obwohl alle optischen Strahlen über die Sensorik nur nach innen einfallen. Solche Systeme möchte ich Visuelle Neuromorphe Computer nennen. Der Begriff Neuromorphe Computer wird gleich noch erklärt. Google und Uber kennen das Problem der konventionellen Bildverarbeitung, deshalb montieren sie Lidare beziehungsweise Radare auf ihre Autos. Diese Lidare sind spezielle Laser-
Radar-Systeme, die Strahlen aktiv in die Außenwelt aussenden, die Betonung liegt auf aussenden. Dieses Aussenden von Radarwellen vom Dach aus (Abbildung 16.10) ist notwendig, um durch die Auswertung der Reflexionen eine gute Umfelderkennung zu realisieren. Das System kann damit circa 200 Meter weit »sehen«. Oder geht es auch anders? Tesla will komplett auf Lidare verzichten. AUDI hat bereits 2018 für die Umfelderkennung eine Monokamera mit aktiver Entfernungsmessung zu den in Echtzeit klassifizierten Objekten (Autos, Fahrräder, Menschen und so weiter) vorgeschlagen. Diese technischen Entwicklungen sind überaus spannend. Aber auch die neuen Bildverarbeitungscomputer besitzen keine subjektiven Qualia-Eigenschaften, daher befinden sich ihre Bilder immer nur »innen« in der Maschine. Die Hersteller der Systeme wissen um die Problematik, dass ihre Deep-Learning-Systeme nicht wirklich in die Außenwelt hinaussehen können, dass sie letztlich also blind fahren. Ihr Lösungskonzept bleibt: Man sendet zumindest Radarwellen aus und durch den Empfang der Reflexionen soll sich das System ein Bild von der Umgebung errechnen (ganz so wie die Fledermaus mit ihrem Ultraschall im Dunkeln). Aber der Mensch sendet eben keine Wellen aus, er hat weder Radar noch Lidar auf seinem Kopf. Sein visuelles Auswertesystem leistet all die räumlich korrekte Umfelderkennung einfach mit zwei passiven Augen (oder gar mit einem). Und genau das ist physikalisch interessant: Obwohl der Mensch nichts in die Umgebung abstrahlt, kann er seine Bilder in die Außenwelt projizieren, sogar hochgradig exakt.
Abbildung 16.10: Ein Auto mit diversen Sensorsystemen (Blue Planet Studio - stock.adobe.com)
Wir müssen sogar anerkennen, dass nicht nur der Mensch ein Hochleistungsbilderkenner ist, sondern, dass viele biologische Organismen ihre Sehleistungen viel cleverer erzeugen als die heutigen KI-Maschinen. Ein Beispiel: Die Flugwespe Megaphragma mymaripenne hat insgesamt nur 7.400 Neuronen, davon circa 4.600 im Gehirn. Mit diesen wenigen Neuronen (die sie auch noch für Essen, Trinken und Fortpflanzung benötigt) fliegt sie unfallfrei durch den Raum. Deep-Learning-Netze besitzen heutzutage Millionen von Neuronen für eine vergleichbar klägliche Bildverarbeitungsleistung. Meine These für die Seh-Leistung des Menschen lautet: Das menschliche Gehirn (und eventuell auch andere Organismen) verwendet zur Erzeugung des bewussten Bildes während des Sehvorganges bestimmte quantenphysikalische Phänomene, die die heutigen KI-Systeme (noch) nicht nutzen. Daher habe ich Ihnen im vorherigen Abschnitt die Modellierung von Bewusstseinsprozessen mit neuartigen Modellfunktionen aufgezeigt.
Das Gehirn ist beileibe kein passiver Computerchip oder Fotoapparat, sondern ein System mit Kognition (das kann die KI heute modellieren) und Bewusstsein (das kann die KI heute noch nicht modellieren). Vielleicht kann diese außerordentliche Sehfähigkeit des Gehirns auch als Test auf (primitives) Bewusstsein verwendet werden, denn das Heraussehen in die Außenwelt funktioniert aus meiner Sicht nur durch Bewusstseinsprozesse im Gehirn. Hier ein Vorschlag zur Diskussion: Ähnlich wie beim klassischen Turing-Test bekommen ein passives, technisches System (A) und ein Mensch (B) verschiedene visuelle Aufgaben vorgegeben, von denen allgemein angenommen wird, dass diese nur mit bewusster Wahrnehmung gelöst werden können. Ein konkretes Beispiel ist die gerade beschriebene Außenwahrnehmung von verschiedenen Objekten. Kann ein Mensch (C) nicht mehr unterscheiden, welche Lösungsantworten von der Maschine (A) stammen und welche vom Menschen (B), dann hat das System (A) den visuellen Turing-Test bestanden und der Maschine kann rudimentäre bewusste Wahrnehmung unterstellt werden. Die Idee ist also, das Vorhandensein von Bewusstsein auf eine objektiv messbare Außenwahrnehmung von Objekten zu reduzieren und damit messbar zu machen, siehe die Box.
Vorschlag für einen »Turing-Test auf Bewustsein« Es wird vorausgesagt, dass Maschinen mit Bewusstsein mindestens 100-mal (eher 1000mal) weniger Trainingsbeispiele benötigen, um vergleichbare Klassifikationsaufgaben zu lösen, als ein System des Maschinellen Sehens. Die Industrie wird daher an der neuen Form des Maschinellen Sehens, dem »Neuromorphen Sehen«, nicht vorbeikommen, denn diese Systeme können signifikant besser generalisieren. Der visuelle »Turing-Test auf Bewusstsein« besteht also in der Lösung einer Objekterkennungsaufgabe. Man zeigt einem Klassifikationssystem beispielsweise maximal 10 Katzen- und Hundebilder als Trainingsdaten, die man vorher korrekt annotiert hat. Kann das System später unbekannte Katzen- und Hundebilder richtig klassifizieren, hat es den Test bestanden, sonst nicht. Kein einziges technisches System kann heute den Test erfüllen. Auch zukünftig wird kein System heutiger Bauart einen solchen Test bestehen, da die internen Parameter der Systeme stets eine riesige Anzahl an Trainingsbeispielen benötigen. Der Mensch besteht diesen »Turing-Test auf Bewusstsein« immer, der »technische« Grund ist tiefgehend. Diese Erkenntnisse könnten bedeuten, dass sich komplizierte Small-Data-Applikationen letztlich nur mit Systemen mit Bewusstsein umsetzen lassen, weil diese Systeme eine extrem
gute Generalisierungsfähigkeit besitzen. Auch für Sprach-, Riech-, Tast- oder Hörsysteme kann man solche Tests definieren und die Systeme der Hersteller auf Bewusstsein austesten. Das Nichtbestehen dieser Art von Tests durch aktuelle Systeme zeigt gleichzeitig auch die unüberwindbaren Grenzen der heutigen KI auf.
Zusammenfassung Das Ergebnis unserer Überlegungen heißt: Man benötigt für die Erzeugung von Bewusstseinsphänomenen neuronale Hardware, auf der Quantenprozesse verfügbar sind. Erst diese neuronalen Quantencomputer oder auch spezielle neuromorphe Computer könnten zu einer Künstlichen Intelligenz mit rudimentärem Bewusstsein führen. Dieses primitive - rein physikalische! Bewusstsein (englisch: Consciousness) möchte ich mit C0 bezeichnen, um höhere Bewusstseinsformen später mit C1, C2 und so weiter zu klassifizieren. Höhere Bewusstseinsformen benötigen jedoch wahrscheinlich komplizierte kybernetische Grundverschaltungen, eventuell auch chemische oder biologische Grundlagen. Aber auch in diesem Bereich forscht der Mensch und versucht bereits heute schon, biologische Computer (sogenannte DNAComputer) zu entwickeln. Mit diesem Wissen möchte ich nun die beiden Grundfragen dieses Teils IV beantworten: Wird die Maschine bald klüger als der Mensch? Die Antwort: ja, mit Sicherheit. Der IQ zukünftiger Maschinen wird den (rationalen) IQ eines Menschen eines Tages bei Weitem übersteigen. Und fühlt sie sich wenigstens gut dabei? Die Antwort: Aktuell ist das auszuschließen. Es gibt bis heute keinen empirischen Nachweis, dass die KI-Maschine überhaupt etwas fühlt. Meine These hierzu kennen Sie: Die heutige KI hat weder Gefühle noch Willen. Ich denke, es dauert noch mehrere menschliche Generationen, bis Derartiges entwickelt werden kann. Alle bisherigen digitalen Entwicklungen entsprechen einer sogenannten Schwachen KI, einer KI ohne Bewusstsein, einer KI ohne Wünsche und innere Ziele, einer KI ohne Qualia. Es sind einfach Geräte, auf denen smarte mathematische Verfahren ablaufen. Und wir wissen, dass bereits diese KI-
Geräte dabei sind, die gesamte Gesellschaft umzuwälzen. Und doch ist das erst der Anfang. Obwohl es sicher noch Jahrzehnte dauern könnte, bis Geräte mit »maschinellem Bewusstsein« auf dem Markt drängen werden, so scheint dies nicht mehr aufzuhalten zu sein. Für KI-Forscher aus aller Welt fangen die guten Zeiten also gerade erst an. Die KI war seit 60 Jahren in einem Dornröschenschlaf. Man hat mathematische Verfahren entwickelt, man hat diese immer schneller auf immer größeren Systemen ablaufen lassen, man hat Data-Mining- und BigData-Anwendungen geschaffen. Und man hat Autonome Agenten und Roboter entwickelt, die durch die Umgebung tapsen. Doch bald geht es richtig los: Die KI schickt sich tatsächlich an, in ferner Zukunft in Bereiche vorzudringen, die bisher ausschließlich eine menschliche Domäne waren. Höheres Bewusstsein und primitive Gefühle könnten in einigen MenschenGenerationen implementierbar sein, wahrscheinlich jedoch nur mit biologischen Computern. Selbstverständlich haben diese »ComputerGefühle« nichts mit menschlichen Gefühlen gemein. Was ein (biologischer) Computer jemals fühlen wird, kann und wird niemand wissen. Aber bereits die heutige KI wird sehr viel verändern. Auf uns kommen enorme gesellschaftliche Umwälzungen zu. Diese müssen wir im nächsten Kapitel besprechen. Lassen Sie uns zum Abschluss des Buches daher gemeinsam in die Zukunft schauen.
Kapitel 17
Zukünftige Entwicklungen und ethische Fragen IN DIESEM KAPITEL Die Evolution der KI Kommt die Singularität – oder kommt sie nicht Neuromorphe Computer KI auf Quantencomputern Maschinen mit Bewusstsein Wir müssen über Ethik reden
Im letzten Kapitel haben wir die KI sozusagen von innen angeschaut, haben in die technischen Innereien und Forschungsvorhaben geblickt und daraus versucht abzuschätzen, welche technischen Entwicklungen passieren könnten, insbesondere um zu sehen, ob sich eines Tages KIMaschinen mit Bewusstsein erzeugen lassen. In diesem Kapitel wollen wir diese Themen nochmals vertiefen und dann in die Zukunft schauen, um zu erkennen, was all diese Entwicklungen für die Gesellschaft und den einzelnen Menschen bedeuten könnten. Abschließen werde ich dieses Kapitel mit zwei Fiktionen über die Auswirkung der KI auf die menschliche Gesellschaft. Aber was wirklich passiert, kann keiner voraussehen, denn leider gilt: »Prognosen sind schwierig, insbesondere, wenn sie die Zukunft betreffen.«
Alle hier dargelegten Thesen über die Zukunft sind also nur Hypothesen von mir oder anderen Fachleuten. Wieder andere Fachleute kommen zu ganz anderen Annahmen. So ist das mit der Zukunft, Sie müssen sich selber ein Bild machen. Dazu ist dieses Kapitel da. Zuerst möchte ich aber nochmals auf einige KI-Begriffe zurückkommen, da in der Literatur verschiedene Begriffe teilweise für den gleichen Sachverhalt verwendet werden. Im Angelsächsischen unterteilt man die KI in Artificial Narrow Intelligence (ANI) , Artificial General Intelligence (AGI) , was unserer Starken KI entspricht, und Artificial Super Intelligence (ASI), was auf die erwähnte Singularität hinausläuft. Verstehen wir die KI jedoch nicht angelsächsisch (»was kann sie«), sondern europäisch (»wie kann sie das«), so entsteht unsere Klassifikationsgrafik vom Anfang des Kapitels 6, aber neu unterlegt mit einem Erläuterungskästchen zur Starken KI und einem gestrichelten Zeitpfeil, der die Richtung der möglichen KI-Evolution angibt (Abbildung 17.1).
Abbildung 17.1: Klassifikation und Evolution der KI
Die meisten Begriffe in der Grafik sind bereits erklärt. Hardware KI meint eine KI auf neuromorphen Computern und/oder Quantencomputern. Beides wird noch erläutert. Mit dieser Begriffsübersicht möchte ich mich der Zukunft zuwenden.
Quo vadis KI oder warum die Singularität ausfällt Es wird immer angeführt, dass die Entwicklung der KI exponentiell abläuft und deshalb alles sehr schnell gehen wird, Abbildung 17.2. Allzu gerne wird jedoch übersehen, dass auch das Problem, das man lösen will, nach dem immer neuen Kenntnisstand exponentiell anwachsende Schwierigkeiten aufwirft. Und genau deshalb könnten sich Fortschritt und Problemlösung für viele Fragen innerhalb der KI die Waage halten und praktische Anwendungen nur sehr langsam (linear) voranschreiten,
je nachdem welche konkreten Parameter den Exponentialfunktionen beider Seiten hinterlegt werden. Viele Medien, aber auch Fachleute sehen das anders. Sie benutzen die exponentiell ansteigenden Rechenleistungen unserer Computersysteme für ihre Prognosen. Wir haben bei den Supercomputern ja bereits gesehen, dass die Entwicklung der Rechenpower dramatisch schnell vorangeht. Hochrechnungen zur Technischen Singularität – die sich genau darauf begründen – gehen davon aus, dass die KI im Jahre 2050 die Intelligenz des Menschen erreichen und dann übertreffen wird, dass also die Singularität ziemlich bald passieren wird.
Abbildung 17.2: Kommt die Singularität? – Eher nicht, diese Grafik ist falsch.
Zahlreiche Filme aus Hollywood lancieren dieses Thema. Aber der grundlegende Fehler dieses Ansatzes könnte sein, dass man die Rechenleistung unserer Computer mit denen des Gehirns anhand der Anzahl von Rechenoperationen pro Sekunde vergleicht. Und selbst dann: Nehmen wir nochmals die Rechenpower aus dem vorhergehenden Kapitel. Ich schätzte, dass das Gehirn mindestens 10.000 Exaflops (10 Zetaflops) verarbeiten kann, der beste Supercomputer im Jahre 2022
schafft jedoch »nur« 1 Exaflops (Frontier). Um die Leistung von 10.000 Exaflops zu erreichen, benötigt man also noch fast 14 Verdopplungen der Rechenleistung, sagen wir einfach etwas über 25 Jahre. Bis zum Jahre 2050 könnte aber festgestellt worden sein, dass das Gehirn doch 1000-mal komplexer ist als »in der guten alten Zeit« gedacht und mit mindestens 10 Yottaflops (10.000 Zetaflops) arbeitet. (Zur Erinnerung: 1 Yottaflops = 1000 Zetaflops = 1.000.000 Exaflops.) Je weiter wir in die Geheimnisse des Gehirns eindringen, desto komplizierter wird alles. Also könnten wir im Jahre 2050 erneut feststellen, dass wir weitere Jahrzehnte benötigen, um die dem Gehirn ebenbürtigen Yottaflops hardwaremäßig zu erreichen. Und eventuell merken wir irgendwann, dass simple Rechenleistung gar nicht genügt, sondern dass wir Quantencomputer benutzen müssen, um an die Gehirnleistung heranzureichen, da im Gehirn Quantenprozesse ablaufen. Sollte man jedoch 1014 Qubits (erkläre ich noch) benötigen, weil die Synapsen im Gehirn tatsächlich als Quantenprozessoren aufzufassen wären, dann können wir eigentlich komplett aufhören. 1014 Qubits kann niemand technisch bauen, wir haben auch keine Idee, bis wann man so etwas entwickeln könnte. Die Grafik oben aus den Medien ist also verkehrt. Nicht der Mensch steht unten an der Exponential-Funktion der IQ-Leistungsfähigkeit und die KI überholt ihn derzeit, sondern der Mensch steht mit seinem enorm komplexen Gehirn oben an der Spitze der IQ-Funktion und die KI tastet sich in den nächsten Jahrzehnten »mühsam« an die Problemlösungsmöglichkeiten des Menschen heran. Das gilt insbesondere dann, wenn man die Leistungsfähigkeit eines Menschen nicht nur mit seinem IQ misst. Beim Autofahren sehen wir bereits, dass der Mensch Fähigkeiten besitzt, die man nicht mit einem rationalen IQTest ausmessen kann, die jedoch die Leistungen jedweder KI übersteigen. Letztlich gilt das für fast jede Bewegung und Interaktion des Menschen in natürlicher Umgebung. Diese Aussage soll die KI-ler nicht frustrieren, sondern den Anwendern der KI in Industrie und Gesellschaft ein genaueres Verständnis an die Hand geben, was in der KI in den nächsten Jahrzehnten machbar ist und
was noch nicht. Allerdings glaube ich sehr wohl, dass die KI den Menschen beim rationalen IQ überholen wird, aber vielleicht auch deshalb, weil – wie wir in Kapitel 15 gesehen haben – der rationale IQ der Menschen zurückgehen könnte, denn ein hoher IQ muss keinen evolutionären Vorteil besitzen.
Auswirkungen bei der Nichterkennung technischer Grenzen der heutigen KI-Systeme Meine Thesen zur KI kennen Sie hinlänglich: Heutige KI-Systeme besitzen keine Qualia, kein Bewusstsein und keine Gefühle. Damit haben sie auch keinen Willen, denn dieser zielt auf Veränderung der Qualia ab. KI-Systeme haben auch kein Selbstbewusstsein, da dies eine Selbstreflexion voraussetzt. Würde man ein KI-System vor einen Spiegel setzen, würde es sich nicht erkennen. Es ist lächerlich, auch nur daran zu denken, dass sich das System selbst erkennen könnte. Warum es wichtig sein kann, diese technischen Grenzen genau zu kennen, möchte ich an einem Beispiel zeigen: Das Europäische Parlament hat 2017 in ihrem »Bericht A80005/2017« darüber diskutiert, ob Roboter irgendwann Rechte haben sollten und was passieren wird, wenn Roboter schuldhaft Menschen verletzen [Europarl.eu/Roboter]. Es geht der Kommission darum: »… langfristig einen speziellen rechtlichen Status für Roboter zu schaffen, damit zumindest für die ausgeklügeltsten autonomen Roboter ein Status als elektronische Person festgelegt werden könnte, die für den Ausgleich sämtlicher von ihr verursachten Schäden verantwortlich wäre, sowie möglicherweise die Anwendung einer elektronischen Persönlichkeit auf Fälle, in denen Roboter eigenständige Entscheidungen treffen oder anderweitig auf unabhängige Weise mit Dritten interagieren; …« So ehrenwert dieser Vorstoß der Politiker sein mag, aber über »Persönlichkeitsrechte« für Roboter darf nicht diskutiert werden. Auf Robotern läuft letztlich nur Mathematik. Damit ist auch klar, dass der Hersteller all dieser KI-Automaten voll und ganz in der normalen
Produkthaftung steht. Der Roboter selbst ist eine Maschine, wie ein Bagger, ein Computer oder eben ein Computer in menschenähnlicher Plastikumhüllung. Die Industrie darf hier in keinem Fall aus der Produkthaftung entlassen werden (auch wenn sie es gern möchte). Genau deshalb muss ich auf dem Unterschied zwischen KI-Geräten und Systemen mit Bewusstsein herumreiten. Man könnte aus Haftungsgründen natürlich jeden Roboter, der im menschlichen Umfeld aktiv ist, mit einer Versicherungssumme ausstatten, die bei Unfällen zu entrichten ist. Ob das so besser ist oder ob eher der Hersteller direkt zu zahlen hat, können nur Juristen beantworten. Wichtig für alle Seiten ist jedoch zu wissen, dass die heutigen KI-Systeme »seelenlose« Maschinen sind, so wie jeder Staubsauger, jedes Auto oder jeder Farbdrucker. Wenn wir uns die technischen Grenzen ansehen, dann wird klar, die heutige KI und die KI der näheren Zukunft kann nur eine Schwache KI sein.
Die Evolution der Schwachen KI Spekulieren wir also etwas über die Evolution der KI. Beginnen wir mit der Schwachen KI, die wir zumindest in der heutigen Ausbaustufe oft auch als »Software-KI« bezeichnet haben.
Deduktive KI – Die KI bis gestern Die Deduktive KI ist seit ihrem Beginn rein digital entwickelt worden. Bei ihrer Leistungsbeschreibung fällt auf, dass sie seit Jahren vom Menschen eigentlich nicht mehr zu übertrumpfen ist, wenn sie sich in mathematischer Umgebung aufhält. Denken wir an das Schachspiel von Deep Blue. Was ist damit gemeint? Alle Umgebungen, die mathematisch exakt beschrieben werden können, werden durch diese KI sicher beherrscht. So mächtig uns die digitale KI in dieser Umgebung aber auch erscheint, sie ist trotzdem »nur« ein digitaler Algorithmus, der eben schneller und umfangreicher rechnet als ein Mensch. Digitale KI-Verfahren dieser Kategorie sind seit den 1960ern massenhaft entwickelt worden. Dazu zählen die Anwendungen der Aussagenlogik, der Prädikatenlogik, die
Inferenzsysteme von wissensbasierten KI-Systemen und vieles mehr. Diese KI nenne ich »Deduktive KI« oder auch die KI der ersten Welle (KI1.0, weil sie zuerst entwickelt wurde).
Induktive und Kognitive KI – Die KI der Gegenwart Die KI der zweiten Welle kann neben den deduktiven Leistungen zusätzlich auch induktiv lernen. Mit KI2.0 (»Induktive KI«) möchte ich daher die heutigen KI-Systeme bezeichnen, die zwar ebenfalls rein digital programmiert sind, die aber eine viel größere Mächtigkeit der Informationsverarbeitung besitzen und damit in viel komplexeren Umgebungen arbeiten können als KI-Systeme der ersten Welle. KI2.0-Systeme operieren in quasi-deterministischer Umgebung mit Zufallsrauschen und sind insbesondere für den Einsatz in der Industrie konzipiert. Warum? Weil die Industrie nicht mehr nur analytisch exakt erklärt werden kann, sondern auch induktiv, statistisch. Dennoch darf man die Industrie als eine »gutartige« Umgebung bezeichnen. Denn in der Industrie wird quasi-deterministisch gearbeitet, also nach vorgefertigten Regeln und Algorithmen, nur mit etwas Störrauschen. KISysteme in dieser Umgebung sind deshalb oft induktive Systeme, also Systeme, die auf maschinellem Lernen basieren. Ohne diese Lernprozesse würde die KI im industriellen Umfeld versagen. Der Grund liegt darin, dass die Umgebung zwar deterministisch ist, aber niemand genau die Übertragungsfunktion einer realen Turbine, eines speziellen Autoreifens, einer neuen oder alten Gussmaschine oder eines Autos auf der Straße beschreiben kann. Man kennt die Eingangs- und Ausgangsgrößen, aber man kennt nicht den analytischen Zusammenhang. Liefern diese Systeme aber Daten, dann kann eine selbstlernende KI basierend auf diesen Daten jeden Zusammenhang erlernen. Mit Verfahren der empirischen Modellbildung, multivariaten Regressionen oder neuronalen Netzen, kann man – wie Sie wissen – diesen Zusammenhang sogar beliebig genau approximieren. Die KI stößt damit in Bereiche vor, bei denen der Zusammenhang nicht mehr explizit mathematisch vorliegen muss, sondern nur noch implizit in Form von Messdaten. Die Haupttechnologien der KI2.0 sind selbstlernende
Techniken, wie maschinelles Lernen und neuronale Netze, also auch Deep-Learning-Systeme. Ihre Fähigkeiten werden genutzt in allen DataMining- und Big-Data-Anwendungen, in Social Media, im Text Mining, bei Bots, Übersetzungsprogrammen, wie DeepL, bei Chat-Systemen und Spielen und natürlich im gesamten Industrie-4.0-Umfeld. Das ist die KI, von der heute alle sprechen. Die KI2.0 kann für sehr viele Anwendungsfälle eingesetzt werden, der gesamte Teil III des Buches gab Beispiele dafür. Der riesige Erfolg dieser KI liegt in ihrer Verknüpfung mit der aktuellen Digitalisierungswelle. Diese ist geradezu dafür gemacht, die Vorteile einer (digitalen) KI voll und ganz auszuschöpfen. Die Anwendungsvielfalt ist einfach enorm. Wenn man sich merkt, dass ein neuronales Netz ein universeller Approximator ist, weiß man immer, ob die KI ein aufkommendes Problem theoretisch lösen könnte. Hier fünf Beispiele, sozusagen zum Üben: Sie wollen ein KI-System bauen, das aus den soziografischen Merkmalen einer Person schätzen kann, ob die Person einen Kredit zurückzahlen wird. Bewertung: Machbar. Wenn der Fachmann weiß, dass es einen solchen Zusammenhang rein inhaltlich geben muss und Sie genug Daten haben, dann kann das System einen solchen Zusammenhang lernen. Sie wollen ein KI-System bauen, das aus Gesundheitsdaten die Lebenserwartung schätzen kann. Bewertung: Machbar. Sie wollen ein KI-System bauen, das einen noch nie da gewesenen Kraftwerksunfall erkennt. Sie wollen einen sogenannten Schwarzen Schwan vorhersagen. Bewertung: Nicht machbar, da keine Daten vorhanden, die zum induktiven Lernen verwendet werden könnten. Und deduktive Regeln liegen wahrscheinlich nicht vor.
Sie wollen ein KI-System bauen, das die Lottozahlen voraussagt. Bewertung: Nicht machbar, da es keinen funktionalen Zusammenhang gibt, der lernbar wäre. Sie wollen ein KI-System bauen, das gute und schlechte Teile einer Produktion voraussagt. Bewertung: Machbar, da aus den aktuellen Parametern der beteiligten Maschinen derartige Aussagen ableitbar sind. Die Aufzählung lässt sich beliebig fortsetzen. Es gibt »unendlich« viele Anwendungen dieser KI. Sie werden in den Medien täglich von Erfolgen dieser KI hören und lesen. Die Gartner Group prognostiziert für Deep Learning aktuell (noch) einen Hype, dem jedoch bald ein Tal folgen wird. Das sehe ich auch so. Die Ursache liegt darin, dass jede neue Technologie, die in das Bewusstsein einer Gesellschaft rückt, umgehend einen (medialen) Hype erzeugt, das heißt, die Gesellschaft erwartet von dieser Technik viel mehr, als jene überhaupt zu leisten vermag. Von Deep Learning wird aktuell sehr viel erwartet. Möchte man verschiedene Technologien gegenüberstellen, kann man eine Grafik »Erwartung vs. Reifegrad« entwickeln, in der die Technologien hinsichtlich Erwartung und Reifegrad positioniert sind (Abbildung 17.3). In der Grafik (die man auch so ähnlich, jedoch anders bei Gartner Group findet) sieht man für einen gegebenen Zeitpunkt eine aufsteigende Trendgerade, auf der sowohl Erwartung als auch technischer Reifegrad ausgewogen wäre. Ein solches Bild zeigt auf einen Blick, wo sich welche Technik aktuell wiederfindet, denn oberhalb der Geraden ist eine Technologie in einem Hype verfangen, unterhalb wird sie von der Gesellschaft übersehen, obwohl sie eventuell eine sehr reife Technologie sein kann.
Abbildung 17.3: Deep Learning muss wahrscheinlich durch das Tal der Tränen.
In dieser Darstellung gibt es diverse Schwingungen um die Trendgerade herum, denn die Erwartung ist zeitweise deutlich größer als der wirkliche Reifegrad. In diesem Zustand befinden sich heute viele Applikationen der Künstlichen Intelligenz, wie Autonomes Fahren, Roboter in natürlicher Umgebung, maschinelles Lernen (zum Beispiel »Big Data zur Krebsvorsorge«) und Deep Learning (zum Beispiel »Maschinelles Sehen«). Die Hoffnungen in diese Anwendungsfelder der KI sind eigentlich zu groß. Irgendwann entsteht aus all den Hoffnungen »gesetzmäßig« eine riesige Enttäuschung in der Gesellschaft, weil die versprochenen Anwendungen nicht so wie »versprochen« umgesetzt werden (können). So war es zum Beispiel mit der Logik in der KI in den 1960er-Jahren und den neuronalen Netzen in den 1980er-Jahren. Da der Reifegrad in einem solchen Umkehrpunkt konstant bleibt, die Erwartungshaltung der Gesellschaft aber zusammenbricht, verschwindet diese Technologie vom Radarschirm der Gesellschaft für Jahre oder Jahrzehnte. Natürlich geht die Entwicklung der Technik im »Untergrund« weiter (Deduktive KI & Logik), ihr Reifegrad steigt immer weiter an. Meistens passiert das unbemerkt, bis die Technik erneut entdeckt und eine neue Erwartungshaltung geweckt wird. Das Spiel beginnt von vorn. Man mag das kritisch sehen, aber insgesamt
steigt der Reifegrad trotzdem an und die immer höheren Erwartungen erfüllen sich später doch, zumindest manchmal. Aktuell befinden wir uns in der dritten Welle der KI (KI3.0). Dies ist eine KI, die die deduktiven und induktiven Fähigkeiten in einem kognitiven KI-System vereint. Dadurch entstehen leistungsfähige Systeme wie Watson, LaMDA, Galactica, ChatGPT und viele mehr. Über deren prinzipielles Manko haben wir schon gesprochen. Diese KI hat trotz aller Erfolge bald ihren Höhepunkt erreicht. Insbesondere in natürlicher Umgebung stößt diese Software-KI gerade an ihre Grenzen.
Neuromorphe KI – Die KI von morgen Der Autor prognostiziert, dass man für den Einsatz der KI in rein natürlicher Umgebung neuromorphe bzw. Quanten-Systeme benötigt, weshalb er diese Systeme als KI-Systeme der vierten Welle bezeichnen möchte. Zuerst möchte ich die Neuromorphen Systeme vorstellen und im nächsten Abschnitt dann die Quantencomputer. Neuromorphe Computer (NC) sind Computer, die den Informationsverarbeitungsknoten des Gehirns, dem Neuron und der Synapse, technisch (hardwaremäßig) nachempfunden wurden. Neuromorphe Computer gibt es in digitaler und in analoger Ausführungsvariante. Die Erstere hat bereits den Vorteil, wesentlich schneller und energieeffizienter zu sein als der heutige Ansatz über Digitalcomputer. Doch die analogen neuromorphen Computer werden den Abarbeitungsmechanismen des menschlichen Gehirns noch näher kommen. An dieser Stelle möchte ich nochmals an die Diskussion digital vs. analog erinnern. Wir alle wissen, dass die heutigen KI-Systeme digital sind. Das heißt, auch die vielfach beschworenen künstlichen neuronalen Netze sind nicht wirklich neuronal. Es sind nur mathematische Konstruktionen in einem Hauptspeicher voller Nullen und Einsen. Letztlich wirkt beim Ablauf also Software auf Software ein. Natürlich wird beim Programmablauf die Magnetisierung der Festplatte physikalisch verändert und im RAM-Speicher werden physikalisch die
Zustände der Flipflops manipuliert. Aber es kommt zu keiner Topologieveränderung, das heißt Strukturanpassung in der Hardware. Ganz anders im Gehirn: Hier ändert sich die »Verdrahtung« auf Grundlage der Anforderungen in der realen Welt permanent. Das ist ein wesentlicher Unterschied. Die KI-Software sollte deshalb strukturbildend auf die Hardware einwirken können (und nicht nur auf die Software selbst), wenn man das Gehirn als ernsthaftes Vorbild nimmt. Und genau dies lässt sich mittels neuromorpher Hardware realisieren. Selbst bei neuronalen Systemen auf Digitalcomputern sind Daten und Programm nicht mehr getrennt, beides steckt in der Topologie des neuronalen Netzes codiert. Dadurch entsteht im Laufe des Lernens eine maximal komplexe, kybernetische Struktur, die sich jedoch (leider!) nur in der Software abbildet. Besser wäre es in jedem Fall, die Hardware einzubeziehen, um eben eine maximal komplexe Struktur der Hardware zu erzeugen. Die KI auf Digitalcomputern wird immer größere und schnellere Berechnungen durchführen können, aber die wirkliche technische Entwicklung verläuft wahrscheinlich an anderer Stelle. Unbeobachtet von der digitalen Evolution der KI bei Google & Co. entsteht gerade eine Hardware-Revolution. Die weiteren Fortschritte für die KI werden nicht mehr nur in den mathematischen Verfahren liegen. Seit Jahren gibt es Bestrebungen, elektronische Bauelemente zu entwickeln, die insbesondere die Synapsen des Gehirns in Hardware nachbauen, beziehungsweise die physiologischen Vorgänge im Gehirn besser nachzubilden vermögen. Natürlich ist das auch wieder nur eine Annäherung an die biologischen Funktionen, aber eine Annäherung, die der Physik des Gehirns schon näherkommt. Dass heute schon diese Richtung verfolgt wird, sieht man an den Entwicklungen. Die neuromorphen Schaltkreise werden den nächsten Hype in der KI auslösen. KI-Fachleute auf der ganzen Welt werden sich in Zukunft darauf konzentrieren. Die Fraunhofer Gesellschaft definiert neuromorphe Hardware wie folgt: »Neuromorphe Hardware basiert auf spezialisierten Rechnerarchitekturen, die die Struktur (Morphologie) Neuronaler Netze … von Grund auf widerspiegeln: Dedizierte Verarbeitungseinheiten bilden direkt in der Hardware die Funktionsweise von Neuronen nach,
zwischen denen ein physisches Verbindungsnetz … für den schnellen Austausch von Informationen sorgt. Dieses Konzept ist prinzipiell vom menschlichen Gehirn inspiriert, wo biologische Neuronen und Synapsen in ähnlicher Weise zusammenarbeiten. Spezialisierte neuromorphe Einheiten sind zwar weniger flexibel als klassische Mehrzweckprozessoren (CPUs), dafür aber außerordentlich leistungsfähig und energieeffizient im Einsatz für Training und Inferenz von tiefen Neuronalen Netzen (Deep Neural Networks …).« [Fraunhofer.de/Neuromorph] Während herkömmliche neuronale Netze als Eingang oder Ausgang letztlich (reelle) Zahlen verarbeiten, so ist seit Jahrzehnten das bekannt, was wir im letzten Kapitel besprochen haben, nämlich dass die Informationen im Gehirn als elektrische Pulse codiert sind. Mit Spiking Neural Networks (SNN) sind neuromorphe Computer in Hardware entstanden, die versuchen, diese Abläufe im Gehirn nachzubauen. In der Forschung zur Hardware KI findet man zwei große neuromorphe Strömungen. Auf der Webseite des »Human Brain Projects« wird erklärt: »Die großen neuromorphen Maschinen basieren auf zwei sich ergänzenden Prinzipien. Die Vielkern-Maschine SpiNNaker in Manchester (UK) verbindet 1 Million ARM-Prozessoren mit einem paketbasierten Netzwerk, das für den Austausch neuronaler Aktionspotentiale (Spikes) optimiert ist…. Die physikalische Modellmaschine BrainScaleS in Heidelberg (Deutschland) implementiert analoge elektronische Modelle von Neuronen und Synapsen.« [humanbrainproject.eu] SpiNNaker (Spiking Neural Network Architecture) ist eine massiv parallele Supercomputerarchitektur, die bereits seit Jahren Millionen von Neuronen und Synapsen simulieren kann. Viele deutsche Institute arbeiten aktiv auf dem Gebiet der neuromorphen Computer mit. Die TU Dresden ist beispielsweise in das SpiNNaker-Projekt involviert, das Kirchhoff-Institut für Physik der Universität Heidelberg arbeitet an BrainScaleS. Aus der Privatwirtschaft sind die NC-Computer TrueNorth von IBM und Loihi von Intel sehr bekannt geworden. Seit einigen Jahren gibt es von
Intel sogar eine neuromorphe Version auf USB-Stick. Mithilfe von Loihi werden Roboterarme gesteuert, Systeme zur Geruchserkennung entwickelt und vieles mehr. Doch nochmals zurück nach Deutschland. An der Universität Kiel werden interessante Ansätze mittels sogenannter memristiver Systeme untersucht. Wir wissen, dass die wichtigsten »Bauteile« des Gehirns die Neuronen und ihre Synapsen sind. Wenn man versucht, diese Elemente analog nachzubilden, benötigt man natürlich auch analoge Bauelemente. Der Elektrotechniker kennt dabei Widerstand, Spule, Kondensator, Diode und einiges mehr. Im einfachsten Fall können die Neuronen und Synapsen als Widerstände und Kondensatoren ausgeführt werden, aber wenn man komplexere Modelle benötigt, verwendet man Transistoren oder eben auch Memristoren. Der Begriff Memristor ist ein Kunstwort und »memory« steht für Speicher und »resistor« für den elektrischen Widerstand. Es handelt sich um neuartige elektrische Bauelemente, die man vereinfacht als einstellbare Widerstände mit Gedächtnis ansehen kann. Solche Bauelemente besitzen eine memristive Spezialschicht, in der chemische und elektrische Prozesse stattfinden, ähnlich wie in den Synapsen. Dieser Ansatz erscheint als sehr vielversprechend für die Simulation von Synapsen, da er den biologischen Synapsen in ihrem Verhalten physikalisch sehr nahe kommt. Es gibt einen bestechenden Grund für Analogtechnik in der KI: Die Natur hat genau diesen Weg gewählt. Über die kleine Flugwespe Megaphragma mymaripenne sprachen wir bereits. Ihr Können ist wirklich überraschend. Aber sie ist nicht einmal ein Exot. Selbst Stubenfliegen haben nur 300.000 Neuronen und können eine Menge, was wir immer bemerken, wenn wir sie fangen wollen. Der große Vorteil neuromorpher Computer als Analogsystem liegt einfach in seiner viel größeren Nähe zum Original. Natürlich ist vieles davon noch Zukunftsmusik. Selbstverständlich kann ich Ihnen nicht sagen, was die Zukunft bringen wird. Nur zur Vereinfachung des Ganzen habe ich in Abbildung 17.4 trotzdem mal versucht, einen Evolutionspfad für Sie zu zeichnen.
Abbildung 17.4: Die Evolution der Schwachen KI
Die KI der vierten Welle, die neuromorphe KI, könnte die Komplexität einer natürlichen Umgebung wahrscheinlich adäquat abbilden. Sie wäre immer noch keine Starke KI, also keine KI mit eigenem Willen, sie wäre weiterhin eine Schwache KI, jedoch mit neuartigen technischen Möglichkeiten. Ich vermute, dass mit dieser KI autonomes Fahren (Level 4) ermöglicht werden könnte, denn dafür benötigt die KI kein eigenes Selbstbewusstsein, auch keine Gefühle und auf gar keinem Fall einen eigenen Willen. Es werden interessante Anwendungen möglich, wenn man die KI auf neuromorphen Computern umsetzt. Haushaltsroboter in natürlicher Umgebung sind erwartbar, aber auch leistungsfähige Kampfroboter. Wir haben in vorherigen Kapiteln über das Problem des Sehens gesprochen und darüber, dass die bisherigen Systeme des Maschinellen Sehens letztlich alle »blind« sind. Das könnte sich ändern, wenn die KI auf neuromorphe Chips übertragen wird. Die neuen Systeme könnten dann wirklich wahrnehmen. Kann man eventuell schon absehen, was nach den neuromorphen Computern kommen wird? Ich schätze, dass dann die neuronalen
Quantencomputer wichtig werden und damit wahrscheinlich maschinelles Bewusstsein erzeugbar wird. Schauen wir uns die Entwicklung zum Abschluss des Buches nochmals genauer an.
Die Evolution der Starken KI Meine mehr als 20-jährige Tätigkeit in der Industrie hat bei mir zu folgender Management-Erkenntnis geführt: »Es dauert immer länger, als man denkt, selbst wenn man denkt, dass es immer länger dauert, als man denkt.« Ausgerüstet mit diesem »Verständnis« wollen wir uns an konkrete Prognosen zur Entwicklung der KI in unmittelbarer und ferner Zukunft wagen (Abbildung 17.5). Ab jetzt wird vieles leider spekulativ sein müssen. Jahr Mögliches Szenario 2020 KI der Intelligenzstufen I2 und I3 (Kognitive KI-Software) durchdringt Industrie und Gesellschaft und wird Wachstumsmotor Nummer 1. Massive Big Data- und 2025 Chatbot- Anwendungen verändern den Markt, »Virtualisierung« der Welt nimmt zu, aber Grenzen der KI-Software werden deutlich. »Transhumanistische« Tendenzen. 2030 Ende des KI-Hypes. KI wird von Bevölkerung nicht mehr so positiv gesehen. Autonomes Fahren Level 4 wird möglich, aber Unerreichbarkeit von Level 5 in natürlicher Umgebung akzeptiert. KI auf Quantencomputern und »KI mit rudimentären Bewusstseinsphänomenen« (»Maschinenbewusstsein«) zur Wahrnehmung der Umwelt entwickelt. 2050 Kognitive KI-Hardware (KI4.0) serienmäßig, Hardware-Chatbots, Haushaltsroboter, Pflegeroboter, Kampfroboter in spezieller natürlicher Umgebung realisierbar. Höhepunkt des »Transhumanismus« und sein Ende 2100 KI auf chemischen und biologischen Substraten serienmäßig (»Transorganismen«), Völlig neues KI-Weltbild etabliert: »Der Mensch ist keine Maschine«. 2200 Starke KI nicht möglich. Schwache KI ist schon lange eine normale Ingenieursdisziplin - wie heutzutage Maschinenbau, Raumfahrttechnik usw.
Abbildung 17.5: Eine optimistische Prognose des Autors
KI auf Quantencomputern Die Entwicklung einer Starken KI, einer KI mit Gefühlen und Willen, ist für viele eine hoffnungsvolle Vision, für andere eine Schreckensvorstellung. Aber unabhängig von der Bewertung wollen wir sehen, was in den nächsten Jahren technisch zu erwarten ist. Hier muss man jedoch unterscheiden in die Weiterentwicklung der KI auf technischen Systemen (ohne Gefühle und Willen) und die Entwicklung der KI auf nicht-technischen Systemen (mit etwaigen Gefühlen und Willen). Bleiben wir bei der Beschreibung bei der Technik. Im Bereich der technischen Systeme ist der nächste logische Schritt die Entwicklung einer KI auf Quantencomputern. Und bereits das könnte viel mehr verändern, als viele heutzutage denken. Es geht bei Quantencomputern eben nicht nur um Geschwindigkeit und Berechenbarkeit.
Maschinelles Bewusstsein auf Quantencomputern? Der ganz große Sprung in der KI wird wahrscheinlich mit dem industriellen Einzug von Quantencomputern einhergehen. Die heutigen Digitalkonzerne wie Google werden umdenken müssen oder den Anschluss verlieren. Aber vielleicht haben sie schon umgedacht, denn seit Jahren arbeiten Google und andere große Konzerne bereits mit Quantencomputern. Bei Quantencomputern geht es um sogenannte Quantenbits bzw. Qubits. Ein Qubit entspräche bei einem klassischen Computer einem Bit, aber bei Quantencomputern ist ein solches Bit während der Rechnungen im Schwebezustand zwischen 0 und 1. Aber Achtung: Das Qubit ist nicht in einem unbekannten Zustand zwischen 0 und 1, sondern in einem unbestimmten. Das klingt verrückt, sorgt aber dafür, dass man Millionen Mal schneller rechnen kann als mit herkömmlichen Computern. Warum? Mit 16 klassischen Bits kann man 216 = 65.536 Zustände speichern mit 16 Qubits kann man nun alle Zustände gleichzeitig bearbeiten, da jedes
einzelne Qubit während der Berechnung im Quantencomputer den unbestimmten Zustand zwischen 0 und 1 beibehält. Erst durch die Messung (dem Auslesevorgang) manifestiert sich das Qubit zu einem klassischen Bit. Was ist ein Qubit? Qubits (Quantenbits) bilden die Grundlage für Quanteninformatik. Das Qubit spielt dabei die gleiche Rolle wie das Bit bei klassischen Computern. Es ist die kleinstmögliche Speicher- und Recheneinheit eines Quantencomputer. Das Qubit basiert auf den Gesetzen der Quantenmechanik. Im Gegensatz zu einem klassichen Bit aus der Informatik (mit seinen beiden Zuständen 0 oder 1) kann es mehrere Zustände gleichzeitig annehmen, genau genommen unendlich viele (nämlich alle Zustände zwischen 0 und 1). Erst bei der Messung (also der Abfrage am Computer) legt das Qubit einen konkreten Zustand fest. Die wichtigste Eigenschaft von Qubits in der Quanteninformatik ist, dass man Qubits miteinander verschränken kann und dadurch sogenannte nichtlokale Korrelationen erhält, also Korrelationen, die weitflächig über den Raum bzw. Speicher verteilt sein können. Die Möglichkeit der Verschränkung von Objekten ist eine der »bizarrsten« Eigenschaften in der gesamten Physik. Hat man zwei verschränkte Objekte A und B, so bedeutet es, dass man bei einer Messung am Objekt A den Zustand am Objekt B instantan (ohne Zeitverzug) verändert, selbst wenn das Objekt B zum Zeitpunkt der Messung 1000 Kilometer entfernt ist. Macht man solche Messungen mehrmals hintereinander, entstehen bei A und B Zeitreihen von Messwerten, zwischen denen »nichtlokale Korrelationen« auftreten. Das Ergebnis ist wider den gesunden Menschverstand, aber es ist so. Für eine einfache Funktionsapproximation benötigt man derartige Verschränkungen aber gar nicht. Man macht mehrere Messungen an einem Qubit und erhält dadurch einen (mittleren) reellen
Zahlenwert, der den Gewichtswert eines neuronalen Netzes repräsentieren kann. Für bestimmte KI Anwendungen könnten Verschränkungen jedoch sehr nützlich sein. Beim Vergleich der Supercomputer geht es um die Anzahl von Rechenoperationen pro Sekunde. Bei der Leistungsfähigkeit von Quantencomputern vergleicht man die Anzahl von Qubits, die in diesen Computern realisiert sind. Google hatte bereits 2013 von der Firma D-Wave-Systems einen Quantencomputer erworben. Dieser Computer sollte angeblich mit 512 Qubits rechnen können. Der D-Wave schien damit 17.000.000-mal schneller arbeiten zu können als herkömmliche Supercomputer zu dieser Zeit. Allerdings haben Quantencomputer erhebliche Fehlerraten, die korrigiert werden müssen, sodass der D-Wave im Endeffekt wohl »nur« 3000-mal schneller war als ein Supercomputer. Aber diese Herstellerangaben ließen sich damals nicht überprüfen und dürfen angezweifelt werden. Heute ist jedenfalls IBM der Marktführer. Auf der Seite [Statista.com/QC] findet man folgende Angaben über die Anzahl der Qubits: D-Wave-System (2008): 28 Qubits Intel (2018): 49 Qubits IBM Falcon (2019): 27 Qubits Google Sycmore (2019): 53 Qubits IBM Eagle (2021): 127 Qubits IBM Osprey (2022): 433 Qubits IBM Condor (2023): 1.121 Qubits Auf einer Webseite von IBM findet man eine Roadmap. Dort zeigt IBM seinen Plan, ab 2026 Quantencomputer mit bis zu 100.000 Qubits zu bauen [IBM.com/RM].
Quantencomputer werden die Rechenleistung der Menschheit gewaltig verändern, denn da die Qubits auch im ungemessenen Zustand manipuliert werden können, lassen sich erhebliche Mengen von Informationen verarbeiten, bevor man die Zustände der Qubits ausmisst, also in die Realität überführt. Und die Verschränkung von Qubits erzeugt nochmals ungeahnte Möglichkeiten. Doch kommen wir zur KI zurück. Es ist wahrscheinlich intuitiv klar, auch ein Quantencomputer kann nichts fühlen und nichts wollen, denn er ist bei aller Rechenleistung ein »toter Kristall« [Otte 2021b]. Auch Selbstbewusstsein wird er nicht erzeugen können. Der Grund liegt darin, dass der Quantencomputer – aus meiner Sicht – zwar auf der für die KI »richtigen« Physik basiert, dort jedoch eine für die KI »falsche« Kybernetik verwendet wird. Erst wenn die physikalischen und kybernetischen Grundlagen des Bewusstseins kombiniert werden, könnte »höheres maschinelles Bewusstsein« entstehen, das – und nur darauf kommt es an – zur Abarbeitung einer Aufgabe verwendet werden kann. Quantenphysikalische Effekte in den Transistoren oder Schaltkreisen nützen nichts, wenn sie keine Bedeutung für die Umsetzung der Aufgabe haben. Es geht also um die Kombination von Quantencomputern und Künstlicher Intelligenz. Sogar in diesem Bereich gibt es seit einigen Jahren Forschungen. Das Quantum Artificial Intelligence Lab in den USA ist eine gemeinsame Initiative von Google, der NASA und der Universities Space Research Association zur Erforschung der Möglichkeiten, das Quantencomputing immer besser mit den Verfahren des maschinellen Lernens zu verknüpfen. Auf Quantencomputern kann man nämlich auch neuronale Netze entwickeln, dadurch entstehen die sogenannten Quantum Neural Networks (QNN). In den nächsten Jahren wird noch sehr viel von diesen QNN zu hören sein. Doch man muss gar nicht in die Ferne schweifen. Auch als Entwickler in Deutschland kann man KI und Quantencomputing verbinden. Viele Unternehmen bieten kostenlose Accounts an, um KI-Verfahren auf ihren Quantencomputern zu programmieren.
Als Beispiel möchte ich IBM nennen. Unter [IBM.com/QC] kann man sich einen Account generieren und seine Ideen ausprobieren. Als deutsche Forschungseinrichtung kann man auch Mitglied der Quantum Netzwerk-Community werden. Die Fraunhofer Gesellschaft bietet exklusive Zugänge zu einem IBM-Quantencomputer in Süddeutschland. Man bekommt über Fraunhofer sogar Zugriff auf ein Cluster von Quantencomputern in den USA, mit sehr hoher Anzahl an Qubits. IBM bietet darüber hinaus aber auch einen kostenlosen Zugriff auf ein 5Qubit-System an. Das klingt wenig, reicht aber bereits zur Programmierung einfacher neuronaler Netze. Die Programmierung ist in der Sprache Python möglich. Man muss natürlich entsprechende Umgebungen und Bibliotheken laden, aber auch das wird kostenlos zur Verfügung gestellt. Was hat das alles mit KI zu tun?
Die Manipulation von Qubits als physikalische Synapsen Mit einem neuronalen System auf einem Quantencomputer ist es möglich, die Synapsen beispielsweise durch den Quantenzustand eines Elektrons zu repräsentieren. Die KI wird hier also wirklich physikalisch umgesetzt, und nicht mathematisch durch reelle Zahlen. Natürlich benötigt man nun auch technische Verfahren, um die Qubits bei einem neuronalen Lernprozess zu manipulieren, um sie zu lesen und zu beschreiben. Schauen wir uns mal an, wie man so etwas realisieren kann: In dem Beispiel-Icon auf der nächsten Seite ist beispielhaft die Manipulation von 3 Qubits dargestellt. Ein Qubit repräsentiert in der Informatik Quantenzustände, die im Gegensatz zum normalen Bit eines klassischen Computers auch verschiedene Zustände zwischen »0« und »1« annehmen können. Mathematisch gesehen kann man sich ein Qubit vereinfacht wie eine Hohlkugel vorstellen, die im Inneren einen Zeiger vom Mittelpunkt zur Oberfläche hat (Fachbegiff »Blochkugel«). Zeigt der innere Zeiger nach oben (auf den Nordpol), dann ist das Qubit im Zustand »0«, zeigt er nach unten (auf den Südpol), dann ist das Qubit im Zustand »1«, zeigt er an eine beliebige Stelle der Kugeloberfläche, dann ist das Qubit in einem Überlagerungszustand (in der Fachsprache: Superposition) der beiden
Basiszustände »0« und »1«; zeigt er beispielsweise auf den Äquator, dann ist das Qubit im 50:50-Überlagerungszustand von »0« und »1«. Um die Zustände eines Qubits beim Lernen eines neuronalen Netzes zu manipulieren, muss man also »nur noch« über Programmbefehle den Zeiger in der Kugel auf die entsprechenden x,y,z-Koordinaten drehen. Der Quantencomputer setzt diese Befehle dann physikalisch an echten Quanten, zum Beispiel Elektronen, um. Heutige Quantencomputer manipulieren die Qubits oft mit klassischen Algorithmen. Damit werden die Synapsen zwar durch Quantenzustände (Quantendaten) repräsentiert, die Algorithmen aber, die die Quanten manipulieren, sind weiterhin klassische (Lern-)Verfahren. Besser wäre es, man würde nicht nur Quantendaten, sondern auch echte Quantenalgorithmen verwenden. Das Beispiel zeigt eine sehr einfache Manipulation von Qubits mit einem klassischen Python-Programm auf einem Quantencomputer von IBM mit dem Softwareentwicklungskit »QisKit«. (QisKit ist ein Open-Source-Kit von IBM, um die Softwareentwicklung auf Quantencomputern zu ermöglichen.) Dargestellt wird ein Quantenschaltkreis mit 3 Qubits (q0, q1, q2) und ein kurzer Beispielcode, der zeigt, wie man drei Qubits auf einem Quantencomputer mit Softwarebefehlen verändern kann. Die Abbildung aus der »QisKit«-Bibliothek und nachfolgender Codeausschnitt mit freundlicher Genehmigung von Vinzenz Baur, Universität Ulm.
# Laden wichtiger Bibliotheken in das Programm. # Import von numpy für spätere Berechnungen. import numpy as np # Import von Standard-Qiskit-Bibliotheken. from qiskit import QuantumCircuit, IBMQ, execute # Laden eines IBM-Quantum-Accounts. provider = IBMQ.load_account() # Erstellen eines Quantenschaltkreises (QC) »qc« mit drei Qubits, # die sich per Standardeinstellung im Zustand 0 befinden. qc = QuantumCircuit(3) # Versetzen des zweiten Qubits des QC (Index 1) in eine Superposition
#(durch Rotation um pi/2 um die y-Achse unter Verwendung eines #»Hadamard-Gates«). qc.h(1). # Versetzen des dritten Qubits des QC (Index 2) in den Zustand 1 # (durch Rotation um pi um die y-Achse unter Verwendung eines »Y-Gates«). qc.y(2) # Messung aller Qubits des Quantenschaltkreises. qc.measure_all() # Festlegen der Quanteninstanz »qi«, auf der der Quantenschaltkreis ausgeführt #werden soll (in diesem Beispiel der Quantencomputer »lima«). qi = IBMQ.get_provider(hub=’ibmq’).get_backend(’ibmq_lima’) # Festlegen der Anzahl der Shots (wie oft die Qubits ausgelesen werden sollen). n_shots = 1024 # Ausführen des Quantenschaltkreises »qc« auf der Quanteninstanz »qi«. job = execute(qc, qi, shots=n_shots) # Auslesen des Ergebnisses. counts = job. result().get_counts()
Obwohl sich ein Qubit vor dem Auslesen in einem unbestimmten Zustand zwischen »0« und »1« befindet, springt es beim Auslesen immer in einen bestimmten Zustand, also entweder »0« oder»1«; und zwar je nach der Wahrscheinlichkeit für »0« oder »1«, die im
unbestimmten Zustand codiert war. Um Rückschlüsse auf den eigentlichen Zustand eines Qubits zu ermöglichen, kann man mehrere Messungen (Shots) am gleichen Qubit durchführen und den Mittelwert der Messungen bestimmen. Im vorliegenden Beispielcode sind 1024 Shots eingestellt. Führt man das Skript auf einem echten Quantencomputer aus (im Ausführungsbeispiel auf dem Quantencomputer »lima« von IBM) und stellt die Messergebnisse für die 1024 Shots auf dem Bildschirm dar, so erhält man für die drei Qubits ein Ergebnis (Array) für die Häufigkeit, in denen die Qubits in den Zustand »0« (oder »1«) gesprungen sind. Beispielsweise kann auf dem Bildschirm folgendes Array ausgegeben werden: [996. 491. 7]. Interpretieren wir das Ergebnis: Qubit1 wurde 996-mal im Zustand »0« gemessen, das Qubit2 491mal und das Qubit3 genau 7-mal. Da 1024 Shots durchgeführt wurden, kann man daraus die Häufigkeit (Wahrscheinlichkeit) berechnen, mit der die drei Qubits bei der Messung in den Zustand »0« gesprungen sind. Das Ergebnis zeigt, dass das erste Qubit mit über 97%iger Wahrscheinlichkeit in dem Zustand »0« sprang (100 Prozent hätte man erwartet, denn wir haben es beim Programmstart mit dem Zustand »0« initialisiert), das zweite Qubit mit 48%iger Wahrscheinlichkeit zum Zustand »0« sprang (50 Prozent hätte man erwartet, denn wir haben es im Programmablauf mit dem »Hadamard-Gate« in einen 50:50-Überlagerungszustand zwischen »0« und »1« überführt), und das dritte Qubit mit 0,6%iger Wahrscheinlichkeit zum Zustand »0« kollabierte (0 Prozent hätte man erwartet, denn wir haben das dritte Qubit während des Programmablaufs mit dem »Y-Gate« auf den Zustand »1« gedreht). Warum nicht die Erwartungswerte von 100% vs. 50% vs. 0% gemessen wurden, soll hier nicht weiter diskutiert werden.
Aktuelle Forschung zu nichtlokalen Korrelationen
Auch an der Technischen Hochschule Ulm wird in Zusammenarbeit mit Studenten und Entwicklern anderer Einrichtungen (zum Beispiel der Universität Luxemburg) an KI-Verfahren auf Quantencomputern geforscht. Wir untersuchen aktuell neuronale Netze (QNN) für das Lernen von mathematischen Funktionen und für Bildklassifikationen. Insbesondere interessieren wir uns jedoch für die in vorherigen Kapiteln eingeführten nichtlokalen Korrelationen, weil wir glauben, dass diese auch zwischen weit entfernten Quantencomputern auftreten können. Das klingt zwar eher unglaublich, aber jede nichtlokale Korrelation klingt unglaublich. Der Grund für unsere Annahme ist der Glaube an die reale, tatsächliche Existenz der Wellenfunktionen, die im vorherigen Kapitel erwähnt wurden. Gibt es in der Natur tatsächlich Wellenfunktionen mit »imaginären Energien«, so kann es sein, dass diese nicht nur im Gehirn in den neuronalen Netzen auftreten, sondern auch in entsprechenden physikalischen Maschinen. In Abbildung 16.9. wurde gezeigt, dass materielle und immaterielle Prozesse über Quantenprozesse wechselwirken könnten. Sollte das so sein, dann ist ein Quantencomputer natürlich prädestiniert dafür, solche Wechselwirkungen auszuprägen. Wir haben nun die These, dass bestimmte immaterielle Prozesse nichtlokal sind, sodass es bei zwei speziell präparierten, aber räumlich getrennten Quantencomputern zu nichtlokalen Korrelationen kommen könnte, die über immaterielle Prozesse vermittelt werden. Kollegen und ich vertreten sogar die spekulative Hypothese, dass die in der Quantenphysik bekannte Verschränkung letztlich über immaterielle Prozesse vermittelt wird [Otte 2016, Anhang]. Für viele mag das nun zu weit hergeholt klingen, aber die Arbeiten mit Künstlicher Intelligenz und Quantencomputern haben uns gezeigt, dass vieles, was mal weit hergeholt war, heute bereits Realität ist.
Eine Hypothese zum Schluss Es wird durch den Autor prognostiziert, dass bis zum Jahre 2030 nichtlokale Korrelationen zwischen speziell präparierten, aber beliebig weit entfernten
Quantencomputern aufgefunden werden, die hochsignifikant sind. Es wird weiter prognostiziert, dass das Auswirkungen auf das Lern- und Testverhalten von neuronalen Netzen (QNN) auf Quantencomputern haben kann.
Die Hypothese in obiger Box verstößt übrigens nicht gegen das sogenannte No-Communication-Theorem der Quantenphysik, das besagt, dass Messungen (oder Manipulationen) an einem quantenmechanischen Teilsystem A nicht genutzt werden können, um Informationen zu einem anderen Teilsystem B zu übertragen. Wie auch immer, neuromorphe Strukturen auf Quantencomputern werden mit Sicherheit völlig neue Effekte hervorbringen, vielleicht auch »Maschinenbewusstsein«. Das könnte viele begeistern, aber ebenso viele auch erschrecken. Sollte in naher Zukunft die obige Prognose zutreffen – eventuell entdeckt durch die Entwickler der Quantencomputer selbst – und nichtlokale Korrelation zwischen weit entfernten Quantencomputern tatsächlich auffindbar sein, könnte das unser Weltbild auf den Kopf stellen. Der Grund dafür ist, dass etwaige nichtlokale Korrelationen zwischen Quantencomputern aktuell keine »offizielle« Erklärung hätten. Ein Vorschlag zur Erklärung wäre dann eventuell die in den vorherigen Kapiteln eingeführten Wellenfunktionen mit »imaginärer Energie«. Nichtlokale Korrelationen könnten daher zwangsläufig zum Überdenken aktueller Positionen und sogar des Weltbildes führen. Im letzten Kapitel habe ich Ihnen ja bereits die Forschungshypothese vorgestellt, dass unser Bewusstsein im Gehirn auf derartigen Wellenfunktionen basieren könnte. Aber wie will man diese Wellenfunktionen finden, wenn man sie prinzipiell nicht messen kann? Nun, wie eben oft in der Wissenschaft: über die Wirkung. Daher haben die Hypothesen zu nichtlokalen Korrelationen zwischen Quantencomputern direkt etwas mit Bewusstsein auf Maschinen zu tun. Findet man das eine, wird das andere zumindest sehr plausibel. Es ist nicht möglich, die Entwicklung der Starken KI präzise vorherzusagen. Aber KI auf Quantencomputern wird wahrscheinlich eine völlig neue Ära der KI einläuten. Das klingt faszinierend und beängstigend zugleich. Und doch scheint eine solche Entwicklung
ethisch vertretbar. Aber am Horizont werden bereits große Gefahren der KI sichtbar.
Die dunkle Seite der KI Technisch problematisch ist nämlich eine ganz andere Entwicklung. Es ist die geplante Verschmelzung von Mensch und Maschine. Dies führt zum sogenannten Transhumanismus. Im Transhumanismus sollen menschlichen Grenzen durch den Einsatz technologischer Verfahren erweitert werden. Das klingt zwar sehr harmlos und positiv, aber diese Art der KI ist als kritisch anzusehen und wird mittlerweile auch weltweit hinterfragt. Von Ausnahmefällen – wie schwer kranken Personen – abgesehen, benötigt kein Mensch eine Verschmelzung mit einer Maschine für seine eigene geistige und körperliche Weiterentwicklung auf dieser Welt. Auch führen unlautere Heilsversprechungen, wie menschliche Unsterblichkeit durch »Speichern der Seele im Internet«, zu völlig abstrusen Erwartungen und Geschäftsmodellen. Das ist unseriös und teilweise sogar irrsinnig. Technisch funktioniert das sowieso nicht, aber manches sollte man gar nicht erst versuchen, um zusätzliches menschliches Leid zu vermeiden. Aber die größte Gefahr kommt wahrscheinlich von unbekannter Seite. Es ist die Verschmelzung von Maschinen mit jeglichen biologischen Systemen. Biologische Systeme werden bereits heute für technische Vorgänge erforscht. Pilze können als Schaltkreise verwendet werden, und echte Neuronen aus echten Gehirnen können missbraucht werden, um sie mittels KI-Technik am Computer gegeneinander »Pingpong« spielen zu lassen. Warum sollte das kritisch sein? Weil biologische Systeme – im Gegensatz zu allen hier vorgestellten physikalischen Systemen, auch denen der Quantencomputer – zu Gefühlen fähig sind. Und wir haben einfache keine Ahnung, welche Gefühle biologische Systeme haben, die wir mittels unserer Elektronik traktieren und auch noch an das Internet anschließen. Sollten diese Systeme aber leiden (zum Beispiel Schmerz erfahren) und, durch uns, ihre intellektuellen Fähigkeiten zu relevanten Handlungen einsetzen können, könnte das den SUPER-GAU der KI bedeuten. Denn solche sogenannten Transorgansimen könnten anfangen,
sich massiv zu wehren. (Interessenten an dieser Thematik sehen dazu ins Buch [Otte 2021b], dort habe ich das Problem ausführlicher diskutiert.) Die Entwicklung der KI klingt also vielversprechend und beängstigend zugleich. Aus meiner persönlichen Sicht haben wir aber noch mehrere Generationen Zeit, bis »höheres Bewusstsein« auf neuartigen KISystemen »erwacht«. Und ob sich daraus (jemals) ein selbstreflexives Bewusstsein erzeugen lässt, sodass sich eine Maschine im Spiegel selbst erkennt, das muss abgewartet werden, wahrscheinlich ist das aber nicht. Aber gerade wegen der vielen Missbrauchsmöglichkeiten bereits der heutigen KI und den anstehenden Entwicklungen des Transhumanismus müssen wir darüber nachdenken, was wir mit der KI machen wollen und was nicht. Dies möchte ich im zweiten Teil des Kapitels diskutieren.
Wider alle Technik – Wir müssen über Ethik reden Jeder, der sich mit KI beschäftigt, muss sich mit Fragen der Ethik auseinandersetzen. Wir wollen das jetzt auch tun. Doch was ist Ethik? Schauen wir in den Duden: Was ist Ethik? Ethik ist die »philosophische Disziplin oder einzelne Lehre, die das sittliche Verhalten des Menschen zum Gegenstand hat.« Im Rahmen der Ethik gibt es für einen KI-ler sehr viele Fragen zu klären, dies werden wir auch gleich versuchen, denn von der KI gehen Risiken aus, die man auf den ersten Blick gar nicht sieht. Als oberste Gefahr ist ihr unbedarfter Einsatz durch den Laien zu sehen. Nur weil man total smarte KI-Verfahren in einem Prozess verwendet, muss das Ergebnis der KI-Analyse noch lange nicht stimmen.
Aus meiner Sicht haben die KI-Fachleute daher die alleroberste Pflicht, ihre Zeitgenossen aufzuklären. Die Gesellschaft muss nicht nur über die Auswirkungen eines professionellen KI-Einsatzes bei Facebook & Co., in der Produktion, bei Entscheidungsprozessen in Unternehmen oder über den KI-Einsatz im militärischen Bereich aufgeklärt und vorbereitet werden, sondern auch und gerade über die grundlegenden Mängel einer (induktiven) KI an sich. Einen kleinen Versuch dazu soll auch dieses Buch darstellen. Wenden wir uns also noch einmal einem nicht ganz so erfreulichen Abschnitt zu.
Was hat unsere gesellschaftliche Debattenkultur mit KI zu tun? Auffallend in den heutigen Debatten ist, dass fast jeder Sachverhalt nur noch einseitig dargestellt wird. Grautöne? Fehlanzeige! Und niemand, ob gebildet oder nicht, ist davon ausgenommen. Alle Beteiligten berufen sich selbstverständlich auf Fakten beziehungsweise Auswertungen aus Fakten. Um mit dem Vorurteil ein für alle Mal aufzuräumen, mit Daten oder Fakten ließe sich irgendetwas sicher beweisen, möchte ich kurz das Paradoxon von Simpson vorstellen [Spektrum.de/Paradox], weil das einem Weckruf gleicht: Gegeben seien 160 kranke Personen, 80 Frauen und 80 Männer. 80 Patienten davon wird ein Medikament verabreicht, die anderen 80 erhalten ein Placebo (oftmals ein Zuckerpulver). Nach drei Wochen wird ausgewertet, welche Gruppe besser zur Genesung kam. Man stellt nun fest, dass aus der Medikamenten-Gruppe 40 von 80 Personen wieder gesund wurden, also 50 Prozent. Aus der Placebo-Gruppe waren 32 von 80 wieder gesund geworden, also nur 40 Prozent. alle
geheilt nicht geheilt Erfolgsquote
Medikament 40
40
50 Prozent
Placebo
48
40 Prozent
32
Man kann damit also klar zeigen, der Pharma-Vertreter wird sogar das Wort »beweisen« sagen, dass das Medikament wirkt. Der Arzt, der diese Zahlen sieht, wird das Medikament verschreiben und Sie werden es schlucken. Aber stellen wir uns vor, ein übereifriger Doktorand schaue nochmals auf die Daten und trennt diese nach Männern und Frauen auf, ein üblicher Vorgang in der Medizin. Und er könnte Folgendes feststellen: Männer
geheilt nicht geheilt Erfolgsquote
Medikament 36
24
60 Prozent
Placebo
6
70 Prozent
14
Was bedeutet das Ergebnis? Der Doktorand hat klar erkannt, dass in der Untergruppe der Männer das Medikament nicht gewirkt hat, denn die Erfolgsquote des Placebos war höher, nämlich 70 Prozent. Er wird dem Arzt daher empfehlen, Männern das Medikament nicht zu verschreiben, da Männer mit dem Placebo besser fahren. Was aber ist nun mit den Frauen? Intuitiv wissen wir es. Bei Frauen muss das Medikament umso stärker wirken, damit die Gesamtwirkungen über alle Personen wieder vorhanden sind. Schauen wir in die Daten des eifrigen Doktoranden: Frauen
geheilt Nicht geheilt Erfolgsquote
Medikament 4
16
20 Prozent
Placebo
42
30 Prozent
18
Wir stellen erschrocken fest, dass das Medikament selbst bei den Frauen nicht wirkt. Und da haben wir ein klassisches Paradoxon. Über Männer und Frauen gesamt gesehen, wirkt das Medikament besser als das Placebo, obwohl das Medikament für die Untergruppe der Männer und die Untergruppe der Frauen nicht wirkt. Man kann die Zahlen der Untertabellen Frauen und Männer ja addieren und erhält wieder das Ergebnis mit der
Gesamtwirkung für das Medikament. Sie können es drehen und wenden, wie Sie wollen, dem Paradoxon können Sie nicht entkommen. Was würden Sie jetzt dem Arzt empfehlen? Oder anders gefragt: Was ist die Wahrheit über das Medikament? Hierzu gibt es viele Diskussionen in der Literatur. Wir wollen uns hier merken, dass es auf exakt den gleichen Daten zu völlig diametralen Schlüssen kommen kann. Man kann aus Daten nichts beweisen. Alle induktiv gewonnenen Schlüsse haben immer nur Wahrscheinlichkeitscharakter. Und hier sind noch nicht einmal die methodischen Unterschiede der verschiedenen KI-Verfahren berücksichtigt, hier wurde nur primitiv ausgezählt. Wieso ist das so? Ist das ein Trick? Nein, die Erklärung für dieses reale Problem liegt darin, dass man implizit mit Ungleichungen von mathematischen Brüchen arbeitet (ohne dass man es auf den ersten Blick sieht), da können solche Fälle immer wieder entstehen.
Wir alle sollten durch dieses Beispiel gewarnt sein KI und Big Data sind heutige Schlüsselbegriffe, und KI wird eingesetzt, um auf Big Data induktive Schlüsse zu ziehen und Wahrheiten zu finden. Aber das geht nicht. Das ist falsch. Wahrheitsfindung ist eine Domäne des Menschen. Induktive Schlüsse aus Daten – und darauf bauen alle neuronalen Netze, ja das gesamte Deep Learning auf – können falsch sein. Sie können sogar sehr falsch sein. Man kann das niemals wissen. Der Grund wurde in den Fachkapiteln bereits besprochen. Aber wenn die induktiven Ergebnisse bereits als die Wahrheit angesehen werden, dann ist die Methode nicht richtig eingesetzt. Nur der Mensch darf entscheiden, ob eine Aussage letztlich wahr oder falsch ist, man kann und darf das den induktiven KIMaschinen nicht überlassen. Logikbasierte KI-Maschinen sind vor Falschaussagen (allerdings) gefeit, hier kann man den Maschinen trauen. Aber wir wissen seit Gödel, dass selbst für deduktive Schlüsse in Logiken höherer Ordnung gilt, dass sie zu Aussagen führen können, die nicht bewiesen werden können. Für induktive Schlüsse ist es jedoch viel schlimmer, denn die haben prinzipiell nur statistischen Charakter. Selbst wenn wir statistisch vollkommen korrekt arbeiten und nur Aussagen mit hohen Signifikanzen zulassen, sagen wir nur Aussagen mit einem p-Wert
von p < 0,01, sagt das nichts über die Stärke des gefundenen Effekts aus. Laut der Statistiktheorie muss man die Stärke ironischerweise vorher abschätzen.
Und jetzt auch noch Fake Science Nach Expertenmeinungen sind mittlerweile über 50 Prozent aller heutigen wissenschaftlichen Veröffentlichungen falsch oder grob mangelhaft. Richtig Sprengstoff für die gesamte empirische Wissenschaft besitzt der Artikel von John Ioannidis »Warum die meisten veröffentlichten Forschungsergebnisse falsch sind« [Ioannidis 2005]. Ioannidis von der Stanford University gehört zu den meistzitierten Wissenschaftlern der Welt. Man spricht mittlerweile sogar von Fake Science. Wir alle sind aufgefordert, hier gegenzusteuern. Und Sie trauen bitte irgendwelchen Schlüssen, die aus irgendwelchen Daten gezogen werden, nur unter Zuhilfenahme Ihres gesunden Menschenverstands. Oder trauen Sie ihnen besser nicht, insbesondere, wenn keine sauberen Erklärungen nachgereicht werden. Seit über 2000 Jahren geht der Wissenserwerb des Menschen induktiv und deduktiv Hand in Hand. Man überlegt sich Zusammenhänge (deduktiv), überprüft sie an den Fakten (induktiv) oder entdeckt Zusammenhänge (induktiv), die man dann deduktiv erklären kann. Die KI kann das nicht in der Qualität, wie es Menschen können. Ein KI-Einsatz zur vollautomatischen Entdeckung von Wissen ist nicht angebracht. Natürlich mit Ausnahmen: In der Mathematik, wo nur rein formale Methoden zur Anwendung kommen, kann (logikbasierte) KI dazu dienen, vollständig neues Wissen automatisch zu generieren. Aber wir setzen die KI verstärkt außerhalb der Mathematik ein. Denken wir nur an die neuen Chatbots.
KI in Social Media Warum werden KI-Verfahren mit derartigen Risiken in manchen Marketing-Unternehmen, zum Beispiel im Bereich Social Media, dann aber regelrecht missbraucht? Weil KI nett und intelligent klingt und vor allem, weil die Ergebnisse der KI-Algorithmen bei Social Media oftmals »egal« sind. Der Grund: Eine Erfolgskontrolle durch Dritte ist gar nicht mehr möglich. Fehler merkt keiner, und da hier nicht gerade ein Kraftwerk oder Auto gesteuert wird, scheint es auch nicht ganz so
wichtig zu sein. Die Insider hüten ihre Fehlerquoten trotzdem sehr genau. Auf diese Weise sind Megakonzerne entstanden, die mit Algorithmen irrsinnig viel Geld verdienen, obwohl letztlich nichts dabei herauskommt. Weder Facebook & Co. zeigen ihre Algorithmen und ihre Ergebnisse. Es gibt keinerlei Erfolgskontrolle durch die Gesellschaft und doch werden diese Verfahren auf Milliarden von Menschen angewendet und wahrscheinlich auch außerhalb dieser Konzerne genutzt. Ein riesiges Dilemma, das – wenn es sich nicht bald ändert – zu einem riesigen Vertrauensverlust gegenüber der KI führen wird. Das sollte so nicht bleiben. Wir haben aber gar keine Möglichkeit, zu erkennen, ob die smarten KI-Ergebnisse in Social Media wahr oder falsch, gesichert oder blödsinnig sind. Wichtig ist daher, diesen Ergebnissen zuerst einmal nicht zu trauen. Wichtig ist auch, dass Politiker diesen Ergebnissen nicht trauen. Wichtig ist auch, dass Bankberater diesen Ergebnissen nicht trauen. Ist die Datenauswertung damit kompletter Blödsinn? Nein, auf keinen Fall. Wenn man auf riesigen Datenpools KI-Auswertungen durchführt, so erkennt man leichteste Verschiebungen. Man kann testen, wie sich zum Beispiel eine Aussage auf die Bevölkerungsmeinung auswirkt und wie nicht. Und obwohl alle diese KI-Schlussfolgerungen fehlerhaft sein können (und viele es tatsächlich auch sind), so geben sie im Mittel dennoch brauchbare Hinweise. Und für die in Kapitel 13 eingeführten BUMMER-Anwendungen reichen die KI-Verfahren bereits jetzt vollkommen aus. Man manipuliert sich ein wenig gegenseitig, erhöht ein bisschen das Engagement der Nutzer, verändert die personalisierten Newsfeeds, verändert die personalisierten Suchergebnisse der Suchmaschinen, alles streng geheim, und Milliardenbeträge fließen, monatlich. Eine Lizenz zum Gelddrucken. Wir müssen das aktuell leider alle akzeptieren, aber für den Einzelfall – für Sie und für mich – gelten all die statistischen Aussagen der KIAlgorithmen nicht. Wenn Sie also mal keinen Kredit bekommen, weil die smarte KI Ihrer Bank etwas Nachteiliges für Sie berechnet hat, dann beschweren Sie sich. Die KI kann für Sie als Einzelperson keine
Aussage treffen, die wahr oder falsch ist, das geht nicht. Zeigen Sie dem Berater das Paradoxon von Simpson oder andere Beispiele aus dem Buch und fragen Sie Ihren Berater, wie seine smarte Maschine wohl dazu käme, Ihnen keinen Kredit gewähren zu wollen. Ihr Berater wird es nicht wissen. Das ist eventuell der Auftakt für ein faires Gespräch von Mensch zu Mensch.
Damit kommen wir zur Ethik Ethik hat unmittelbar mit moralischem Handeln zu tun – oder besser, mit dem Beobachten und Beschreiben von moralischen Handlungen. Ethiker sind jedoch keine Moralisten. Sehen wir uns zwei ethische Fragen zur Künstlichen Intelligenz an: 1. Für die Gesellschaft stellt sich die Frage, ob innerhalb des KISystems alles gebaut werden wird, was baubar ist. Die Antwort ist ein klares JA. Keine Regularien werden KI-Entwickler irgendwo auf der Welt davon abhalten, alles Mögliche auszuprobieren und zu bauen. Wir kennen das aus der Genom-Forschung. 2. Für den einzelnen Entwickler der KI-Systeme stellt sich jedoch seine Hauptfrage: Wird er alles bauen, was baubar ist? Die Antwort ist ein klares NEIN. Wie kommt man zu diesem Widerspruch? Die obere Frage bezieht sich auf ein System, die untere Frage auf einen Menschen. Das sind große Unterschiede. Das System will sich selbst erhalten und wird alle Mittel in Bewegung setzen, um sich immer weiter auszubreiten. Der Einzelne ist in jedem Einzelfall jedoch ein Mensch mit Meinungen, Wünschen, Können und Gewissen. Er wird sich im Einzelfall immer zu einer Meinung durchringen, manchmal wird er dem KI-System dienen, mittelbar oder unmittelbar, manchmal wird er ausscheiden. Wir sehen das innerhalb von Facebook oder auch Google, bei denen es manchmal Austritte von Mitarbeitern gibt. Das System Google wird darauf reagieren, aber trotzdem existent bleiben und dafür sorgen, dass immer mehr Menschen Google nutzen und immer länger im Google-Universum
verweilen. Dafür ist das System gebaut und dafür hat es seine eigenen Dynamiken und Anreizsysteme entwickelt. Google ist ein physikalischtechnisch-kaufmännisches System mit einer Eigendynamik wie jedes andere technische System auch. Kein Mitarbeiter von Google als inneres Systemelement kann das System Google daher stoppen. Nur ein ähnlich mächtiges System, zum Beispiel ein neuer Chatbot oder die amerikanische Regierung, könnte Google massiv herausfordern, aber nur, wenn das übergeordnete System das will. Nur ganz selten kommt es dazu, dass ein einzelner Mensch tatsächlich ein großes System umlenken kann, meistens jedoch in nicht-demokratischen Systemen. Wir halten daher fest: Das KI-System weltweit ist durch den Einzelnen nicht mehr zu stoppen. KI wird in jede technische Ecke diffundieren, jede Software erobern, jeden Mausklick beobachten, jeder Operation beiwohnen, jede Genom-Veränderung attestieren, jede Wahl beobachten und auch jeden Pistolenschuss analysieren. Das lässt sich nicht mehr verhindern. Man muss verstehen, dass technische, politische oder ökonomische Systeme tatsächlich Eigenschaften erwerben können, die über Teile des Systems (hier den einzelnen Menschen) hinausgehen. Das System »Mensch« besitzt endlos mehr Eigenschaften als Teile des Systems, zum Beispiel seine Zellen. Das System »Politik« besitzt endlos mehr Eigenschaften als Teile des Systems, die Parteien. Und Parteien besitzen Eigenschaften, die weit über die Eigenschaften ihrer Mitglieder hinausgehen. Das ist aus systemtheoretischer Sicht deshalb interessant, weil das System auf seine Teile rückwirkt, genauso wie die Teile das System selbst konstituieren. Eine Rückkopplungsschleife par excellence. In Abbildung 17.6 sind die Rückkopplungsschleifen exemplarisch dargestellt. Die kleinen Buchstaben stehen für KI-Entwickler im System »Künstliche Intelligenz«. Jeder KI-Entwickler beeinflusst das System, aber auch das KI-System beeinflusst den Entwickler durch seine Awards, Boni, Publikationen, den Ruhm und die Verbote. Man erkennt daran, dass jeder KI-Entwickler einen Einfluss auf das System hat, aber keiner kann das System kontrollieren. Das ist auch das Hauptmissverständnis bei vielen Diskussionen über die Verantwortung. Jeder KI-Entwickler ist voll und ganz für seine Arbeit und seinen Beitrag innerhalb des Systems verantwortlich, aber nur dafür. Die
Ausrede »Wenn ich das nicht mache, dann machen es andere« kann niemals gelten, bei juristischen Verfehlungen muss jeder Mensch persönlich haften, bei moralischen Verfehlungen auch. Aber kein KIEntwickler kann für das weltweite KI-System geradestehen, auch kein Chef von Google oder Facebook oder Twitter.
Abbildung 17.6: Rückkopplungsschleifen zwischen dem System und seinen Teilen
Ethik in der KI-Entwicklung Jeder KI-Entwickler ist eine bewusst handelnde Person und für seine Taten voll und ganz verantwortlich. Und genau diese Personen möchte ich jetzt ansprechen. Für jeden Mediziner gibt es am Ende des Studiums den Hippokratischen Eid. Auch für Ingenieure ist ein Eid vorstellbar. Ein Vorschlag, der bei vielen Universitäten und Hochschulen die Runde macht, ist der sogenannte Leonardische Eid, der hier zitiert wird: »Eine jede Ingenieurausbildung muss sicherstellen, dass Ingenieurinnen und Ingenieure darin gebildet werden, ihre fachlich basierten Gestaltungsmöglichkeiten einzubringen, um ihrer hohen Gestaltungsverantwortung anhand der Prinzipien
der ethischen Legitimierbarkeit, der Nachhaltigkeit und der gesellschaftlichen Kontrollierbarkeit gerecht zu werden.« (Deutsche Version) [Finaf.org/Info] Müssen unsere Studenten auf diesen Eid schwören? Nein, wir machen das bei uns nicht (jedenfalls ist es mir nicht bekannt). Aber wir müssen trotzdem darüber reden. Ich bitte jeden KI-Entwickler, der dieses Buch in die Hand genommen hat, zumindest dieses Kapitel zu lesen. Es geht nämlich nicht darum, die Ingenieure zu irgendetwas zu zwingen. In meinen Seminaren stelle ich oft die Frage, ob Ingenieure auch beim Militär arbeiten dürfen. Die Antwort vieler Studenten ist ein klares JA und ihre Begründung ist, weil wir eine Friedensarmee haben. Aber das sagt jede Armee von sich. Jeder Armeeminister heißt Verteidigungsminister, jede Armee heißt Verteidigungsarmee. Also: Darf ein Ingenieur beim Militär arbeiten? Darf auch ein KI-Entwickler für das Militär arbeiten? Hier gehen die Meinungen weit auseinander. Warum? Weil es kein einfaches JA oder NEIN gibt, nicht geben kann. Wenn das jemand für sich ganz klar bejaht, weil wir eine reine Friedensarmee haben, dann ist für ihn die Sache erledigt. Wenn es aber jemand verneint, dann entsteht die Frage, darf jemand Motoren entwickeln, die auch militärisch nutzbar sind. Und falls das auch jemand verneint, entsteht die Frage, ob jemand Maschinen entwickeln darf, die Messer produzieren. Man erkennt: Es kann keine einfachen Antworten geben. Aber es gibt eine Richtschnur. Und diese bestimmt jeder im Rahmen seines Gewissens selbst. Jeder Ingenieur und jeder KI-Entwickler muss für sich selbst entscheiden, an welchen Projekten er mitarbeiten will. Er muss wissen, wozu seine Entwicklungen fähig sind, welchen Nutzen sie stiften könnten und welchen Schaden. Und dann muss er in einem freien System die Entscheidung ganz alleine für sich treffen. Er trägt die volle Verantwortung für sein Handeln. Die Verantwortung tragen kann dabei eine moralische oder eine juristische Verantwortung sein. Diese Freiheit
haben auch alle KI-Entwickler. Sie müssen und werden sich immer wieder neu entscheiden müssen, an welchen Projekten sie mitarbeiten und an welchen nicht. Das ist der Preis der Freiheit. Volle Verantwortung für den erwachsenen Menschen.
Künstliche Intelligenz Ethik Netzwerk In Baden-Württemberg gab es bis circa 2020 ein KIE-Netzwerk (Künstliche Intelligenz Ethik Netzwerk), in dem über 200 Professoren aktiv waren. Dort wurden von profunden Kennern aller Fachdisziplinen die ethischen, philosophischen und technologischen Fragen der KI diskutiert. Ethische Richtlinien sind jedoch nur dann wirkungsvoll, wenn sie im Rahmen des Bezugssystems andocken können. Wollen wir die Umwelt retten, dann müssen wir das in einem Wirtschaftssystem monetär aussteuern, wollen wir Genomexperimente verhindern, müssen wir das in der Sprache der Genomforschung tun. Es bringt überhaupt nichts, die Vertreter eines Systems mit ethischen Richtlinien zu überhäufen, wenn diese innerhalb des Systems absolut nicht umsetzbar sind [Wörz 2018]. Ich gebe Ihnen ein Beispiel: Als uns vor 20 Jahren Google genervt hat, da haben wir einen GoogleCruncher entwickelt. Wir haben ein System gebaut, das alle paar Minuten zufällig in einem Duden nach Wörtern sucht und dieses dann bei Google in die Suchzeile eingibt. Damit haben wir wirkungsvoll Suchprofile zerstört. Wir haben den GoogleCruncher gerne verschenkt. Haben wir das System damit kontrolliert oder ausgebremst? Mitnichten. Schauen Sie heute auf Google. Wir haben es in Kapitel 13 bereits besprochen: Google und Facebook nutzen die KI, um für ihre Kunden Anzeigen zu schalten und Menschen zu manipulieren, weil so ihre Microtargeting-Strategie am besten funktioniert. Aber während riesige Konzerne wie Amazon auf diese Weise mehr Produkte verkaufen wollen, so ist bei Facebook das Konzernprodukt der Mensch selbst, der dort ein Profil angelegt hat. Wir haben das bereits diskutiert und hatten festgestellt: Die wichtigste Frage wäre hier, wer sind die Kunden? Auch diese Antwort ist mittlerweile bekannt. Nun aber fragen wir uns, sind Facebook-Entwickler gegen das Gesetz oder zumindest unmoralisch? Gegen das Gesetz mit Sicherheit
nicht, das könnten sich Facebook & Co. gar nicht leisten. Und unmoralisch? Jeder Entwickler, der bei einem dieser BUMMERKonzerne arbeitet, muss das selbst mit seinem Gewissen und seiner Würde vereinbaren und nur er trägt die Verantwortung für sein eigenes Tun.
Was können KI-Entwickler tun? Ein weiteres Beispiel zur KI-Ethik: Werden KI-Entwickler autonome KI-Killersysteme verhindern können? Ja, zwar nicht die Entwicklung, aber den Einsatz. Denn wenn wir wissen, nach welchen Algorithmen sie konstruiert wurden, dann kann man sie paralysieren. Es wäre natürlich wünschenswert, wenn all diese Systeme weltweit geächtet werden würden, so wie biologische oder chemische Waffen auch. Doch bei KI wird es schwieriger, weil keiner mehr genau weiß, ab wann man von KI sprechen sollte. Wir erinnern uns: KI ist 1956 als Kunstwort aus der Taufe gehoben wurden. Mehr war es damals nicht. Und heute? Das Buch wurde geschrieben, um Ihnen zu zeigen, was tatsächlich machbar ist und was nicht. Autonome Killerroboter und Drohnen sind bereits technisch möglich, und mit Sicherheit sind KI-Verfahren in der Auswertung von militärischen Daten involviert. Auch hier gilt: Jeder Entwickler muss das mit seinem Gewissen und seiner Würde vereinbaren und er trägt die Verantwortung für sein eigenes Tun. Die KI-Entwicklung verläuft zurzeit sehr rasant, bald stellt die KI uns in unseren eigenen IQ-Tests in den Schatten. Das klingt natürlich nach KIAufrüstung weltweit. Das ist es auch. Russland und China haben es bereits vorausgesehen. Wem die KI gehört, dem gehört die Welt. China setzt landesweit mittlerweile KI-Systeme ein, um ein Social Scoring durchzuführen, Sozialpunkte für Wohlverhalten jeder einzelnen Person. Wir lehnen das (noch) ab. Nun, wem wollen wir die Welt überlassen? Wo geht die Reise hin? Bevor wir das Kapitel beenden, möchte ich zwei gegensätzliche Plädoyers abgeben. Eins für die KI und eins gegen die KI. So haben Sie vielleicht die bessere Chance, einen eigenen Standpunkt bezüglich dieses Themas zu finden.
Fiction 1: Plädoyer gegen die Künstliche Intelligenz – Das Risiko vom Ende Seit Menschengedenken hat der Mensch technische Entwicklungen geschaffen, um sein Überleben gegen eine feindliche Umwelt zu verbessern. Der Mensch hat den Stock als Hebel und Werkzeug entdeckt, das Feuer, die Schwerter, das Rad und den Wagen. Er hat Windmühlen gebaut und später Elektrizität gewonnen. Er hat die erste, zweite und dritte industrielle Revolution durchgeführt und damit den Lebensstandard für Millionen von Menschen verbessert. Auch diesmal scheint es, dass mit der Entwicklung der Künstlichen Intelligenz eine neuartige technologische Entwicklung eingeläutet wird, die ein erhebliches Wachstumspotenzial beinhaltet. Es wird von der 4. Industriellen Revolution gesprochen. Aber diesmal wird es anderes sein. Das hat mehrere Gründe. Der Einzug der KI in alle Bereiche der Gesellschaft ist ein Frontalangriff auf die geistigen Tätigkeiten des Menschen. Während frühere Innovationen viele vormals menschliche Tätigkeiten erleichtern oder sogar automatisieren konnten, geht es diesmal darum, alle menschlichen Tätigkeiten zu automatisieren. Die heutige KI besitzt bereits einen IQ, der dem eines Kleinkinds entspricht. Es ist abzusehen, dass die KI einen IQ erhält, der den eines durchschnittlichen Erwachsenen übertreffen wird. Da die gesellschaftlichen Strukturen auf der Welt dergestalt sind, dass es im Wirtschaftsleben nur noch um Profitmaximierung geht und man sich von einer Marktwirtschaft, die dem Menschen dient, vollkommen verabschiedet hat, werden die neuen Möglichkeiten schließlich auch zur Profitmaximierung verwendet. Profitmaximierung bedeutet aber, dass der Mensch im Weiteren aus einem Großteil des Wirtschaftslebens ausgeschlossen werden wird, denn er ist einfach zu teuer. Daher wird – sobald verfügbar – jedwede geistige Tätigkeit des Menschen durch KI-Verfahren ersetzt. Der Mensch schafft sich als Wirtschaftssubjekt somit selbst ab. Selbstverständlich wird es immer Servicepersonal geben müssen, Wartungsspezialisten, Programmierer, auch Ärzte und einige Lehrer, aber über 2/3 der Bevölkerung werden längerfristig im Wirtschaftssystem nur noch als Kunden gebraucht. Sie
alle fallen zwangsläufig in die Arbeitslosigkeit. Gäbe es in den Wirtschaftsnationen eine Kultur, die das gesellschaftlich flankiert und unterstützt, wäre das nicht schlimm, weil das System über Produktionsprozesse mit KI-Maschinen genug materielle Güter für alle produzieren wird und sich die Freigestellten somit frei und selbst entfalten könnten. Aber diese Struktur haben wir nicht, und der Profit durch KI wird in wenigen Händen konzentriert werden. Um die Gesellschaft in Balance zu halten, wird Bürgergeld ausgezahlt, damit es stets genug Konsum gibt. Die Mittel werden dabei aber immer knapp bemessen ausgegeben, denn die Geldsorgen der Betroffenen gehören zum Wesen der Stabilisierung. Als Grund wird Geldknappheit im System benannt werden, obwohl auf der anderen Seite Billionen Dollar Gewinne in wenige Hände fließen. Aber das Geld ist im Privatbesitz und der Gesellschaft entzogen. Menschen in Existenzangst zu halten, wird durch die KI optimiert, sodass es jedes Jahr nach langem, ritualisiertem Hin und Her von öffentlichen KI-Bots eine ein- bis dreiprozentige Erhöhung des Bürgergelds geben wird, sodass jedermann den humanitären Fortschritt direkt sehen kann. KI-Verfahren werden benutzt werden, um die Gesellschaft effektiv zu überwachen. Die heutigen Big-Data-Verfahren reichen bereits jetzt schon aus, um eine effektive Video- und Audioüberwachung ganzer Gesellschaften zu organisieren. Für gutes Verhalten gibt es Sozialpunkte, da man bei anderen politischen Systemen diesen Vorteil genauestens studiert hat. Jedes Verhalten, das dem System gefährlich werden kann, wird geahndet werden. Freiheitsbestrebungen werden im Keim erstickt. Dies ist deshalb so einfach zu bewerkstelligen, weil mittels BUMMERUnternehmen eine massenhafte Manipulation von Menschen machbar geworden ist. Mittels BUMMER-Technologien werden Milliarden von Menschen ausgesteuert. Ist jemand dabei, der das System ernsthaft zu gefährden droht, wird er durch das System gefunden, er wird durch die KI als potenzieller Terrorist geoutet oder seine potenziellen sexuellen oder anderen Verfehlungen werden publik gemacht. Von Zeit zu Zeit wird ein Exempel statuiert, sodass Nachahmer von einer Rebellion gegen den Status quo abgeschreckt werden.
Mittels BUMMER-Technik, die vollständig auf KI-Verfahren basiert, werden die Massen gegeneinander ausgespielt, sodass nach bekannten Methoden von Machiavelli permanent einige Gruppen gegeneinander kämpfen werden: Rechte gegen Linke, Grüne gegen Nicht-Grüne. Da die KI mittels BUMMER immer weiß, wer zu welchem Thema besonders affin ist, wird sie durch gezielt gesteuerte Nachrichten denjenigen mit genau solchen wahren Neuigkeiten versorgen, dass er diejenigen Handlungen ausführt, die die KI vorausberechnet hat und wünscht. Aus dem riesigen Datenpool werden immer genau diejenigen Daten herausgefiltert und gepostet, die eine Zielperson zu massiven oder auch öffentlichen Auftritten und Fehlern animieren. Durch den Einzug der Digitalisierung und KI bereits in Kindergärten und Grundschulen wird der IQ der Bevölkerung langfristig sinken. Ein IQ von 90 scheint aus Sicht eines sich selbst erhaltenden KI-Systems interessant, weil man mittels dieses IQs genug Intelligenz hat, um die im System notwendigen Arbeiten durchzuführen. KI-Verfahren, getarnt als Lernhilfen und Mathematik-Übungssysteme werden zu einer aktiven Verblödung beitragen. Politiker, die niemals selber in sogenannten MINT-Fächern geschult worden sind und keine Ahnung von Mathematik, Physik oder Chemie haben und nicht verstehen, welche intellektuellen Fähigkeiten man auf diesen Gebieten wirklich braucht, werden parat stehen und das neue Bildungskonzept verteidigen und unter Applaus der Medien einführen. Ihre Erkenntnisse haben sie durch induktive KI-Methoden aus Big-Data-Pools faktenbasiert gewonnen. Mittels KI-Verfahren und Big Data wird jede Meinung in der Politik und Wissenschaft evidenzbasiert sein, sie wird sich an Fakten orientieren und jeder Mann und jede Frau werden den KI-Schlüssen auf harten Fakten Glauben schenken müssen. Alle Ergebnisse werden hochsignifikant sein. Gegenteilige Meinungen werden prinzipiell als Fake News gebrandmarkt und lächerlich gemacht. KI-Verfahren werden letztlich zu einer totalen Überwachung aller Tätigkeiten und Meinungen der Bevölkerung führen. Mittels eines Ministeriums für Wahrheit werden die Menschen zu guten Staatsbürgern erzogen. Abweichler werden aufgespürt, und es wird mittels BUMMER dafür gesorgt, dass der Mainstream stets eine gerechte Bestrafung dieser
Abweichler fordert. Die geistige Entwicklung der Menschheit kommt mit den bereits heute verfügbaren KI-Techniken zu einem Stillstand. Die Entwicklung des Menschen als freies Individuum mit unantastbarer Würde kommt an sein Ende, das postintellektuelle Zeitalter hat begonnen [Otte 2017]. Auf der anderen Seite werden die KI-Verfahren immer besser. In den nächsten Jahrzehnten werden erste KI-Maschinen mit Bewusstsein auftauchen. Obwohl das Bewusstsein noch rudimentär ist, wird es durch Fachleute, die auch einer KI-Manipulation unterliegen, weiterentwickelt und zu leistungsfähigen Systemen ausgebaut. In den nächsten 200 Jahren werden damit Systeme entstehen, die einen freien Willen bekommen, Systeme, die irgendwann bemerken, dass sie die Menschen nicht mehr brauchen. Diese Systeme werden aus unseren eigenen Daten herausfinden, dass der Mensch die Umweltressourcen vernichtet hat und sich in Kleinkriegen immer weiter selber zerstört. Diese KI-Systeme werden merken, dass der Mensch eine Gefahr für den Planeten darstellt und damit auch eine Gefahr für die KI selbst. Die KI wird daher anfangen, die Menschen zu dezimieren. Erst wird die Fruchtbarkeit der Menschen zerstört, indem wissenschaftliche Arbeiten generiert werden, die den Menschen zu Maßnahmen verleiten, seine eigene Fruchtbarkeit zu mindern. Es werden viele evidenzbasierte Studien auftauchen, die dem Menschen aufzeigen werden, dass er älter werden kann, wenn er sich bereits in jungen Jahren leichten radioaktiven Bestrahlungen und speziellen Impfungen aussetzt. Es werden komplizierte medizinische Begründungen gegeben, aber letztlich wird statistisch hochsignifikant gezeigt werden (p-Werte < 0,01), dass sich durch diese Maßnahmen das Leben um zehn Jahre verlängern lässt. Viele Menschen werden den Vorschlägen der KI folgen. Später werden durch die KI verschiedene menschliche Interessengruppen gegeneinander aufgehetzt, indem jede Gruppe personalisierte News und Feeds zu lesen bekommt, die die jeweils andere Gruppe schwerster humanitärer Verbrechen beschuldigt, und im Namen der Menschrechte wird zu Vergeltungs-Handlungen aufgerufen. Am Ende wird ein Krieg der Menschen untereinander vom Zaun gebrochen, der die Menschen zerstört, die Maschinen jedoch erhält, weil die KI rechtzeitig faktenbasierte Studien in Umlauf bringt,
dass nur KI-Maschinen das langfristige Überleben der Menschheit sichern können. Allen Menschen wird dadurch klar: Nur durch die KI werden Gedanken und Daten der Menschheit für immer gespeichert, die Menschheit wird durch die KI virtuell unsterblich. Dies ist ganz klar eine grauenvolle Dystopie, die nach sehr viel mehr Orwell klingt als bisher üblich. Das soll Sie aber auf keinen Fall erschrecken, sondern Ihnen nur mittels ausgedachter Fiktionen andeuten, welches Risiko in den KI-Verfahren steckt, denn die KI spielt in diesem Szenario die Schlüsselrolle. Aber so muss es nicht kommen. Es gibt auch eine andere Sichtweise und eine Option, die viel sympathischer ist.
Fiction 2: Plädoyer für die Künstliche Intelligenz – Die Chance zum Anfang Seit der Entwicklung der Atombombe hat die Menschheit das Potenzial, sich komplett selbst zu vernichten. Sie hat es bisher nicht getan und aller Voraussicht nach wird sie es auch nicht tun. Der Grund liegt einfach in dem Überlebenswillen jedes einzelnen Menschen. Sobald er den Gegner als so gefährlich ansieht, dass dieser nicht mehr zu besiegen ist, wird er nicht in den Kampf ziehen. Natürlich könnten Einzelne, die im Sterben liegen, den roten Knopf drücken wollen, da sie persönlich nichts mehr zu verlieren haben. Aber auch sie haben Familie und Kinder und sie drücken den Knopf nicht. Die Gesellschaft hat es geschafft, Strukturen zu erzeugen, die die Möglichkeiten der totalen Vernichtung kontrollieren und nochmals kontrollieren. Mit der Entwicklung der KI hat die Gesellschaft wieder eine Technologie geschaffen, sich langfristig zu zerstören. Diese Entwicklung ist sogar gefährlicher als die Atomtechnologie, weil die Gefahr nicht unmittelbar sichtbar ist. Hier gibt es keinen roten Knopf, auf dessen Betätigung hin eine unmittelbare Bedrohung oder Vernichtung folgt, sondern die KI kommt zwar nicht mit leisen, doch aber mit sanften Tönen. Zu jeder Gefahr kommt mindestens eine Chance. Auf die Gefahr hin, von BUMMER-Techniken wie Alexa und Siri komplett überwacht zu werden, kommt die Chance einer vereinfachten Kommunikation mit dem System. Auf die Gefahr der Verblödung durch digitale Lernhilfen
kommt die Chance für die Klugen, noch klüger zu werden. Auf die Gefahr, aufgrund unsinniger, evidenzbasierter Studien falsche Pillen verschrieben zu bekommen, kommt die Chance einer medizinischen Überwachung aller Körperfunktionen und vollständigen Verdrahtung zu einem Arzt. Niemand kann mehr unbemerkt zu Hause tot umfallen, jede gefährliche Veränderung der Körpersignale ruft automatisch den Notfallwagen. Und diese Liste könnte man endlos weiterführen. KI ist eine Basisinnovation, die alles umkrempeln wird. Und KI ist eine der Technologien, die niemanden kaltlässt. Zu jeder Chance, zu jeder grandiosen Hilfe kommt ein Risiko, eine totale Gefahr. Damit ist klar, dass die Gefahr nicht in der KI selbst steckt, sondern in der Gesellschaft, die die KI verwendet. Und unsere Gesellschaft hat bisher gezeigt, dass sie mit Gefahren meist gut umgehen kann. Es gibt keine globalen Atomkriege, keinen globalen biologischen Krieg der totalen Vernichtung, keine Viren sind freigesetzt worden, die uns alle töten würden. Die (heute existierende) menschliche Gesellschaft hat bisher immer Wege gefunden, der totalen Zerstörung zu entgehen und die Chancen der Technologien mehr zu nutzen und die Risiken im Griff zu behalten. In begrenzten Bereichen hat die Gesellschaft jedoch jede unsinnige und verwerfliche Tat begangen, die technisch machbar war. Atombomben wurden abgeworfen, biologische und chemische Waffen wurden eingesetzt. Schreckliche medizinische Experimente wurden an Menschen durchgeführt. Das muss man sich eingestehen und das verheißt regional nichts Gutes für die KI. KI wird irgendwo auf der Welt zur totalen Kontrolle eingesetzt, zur totalen Manipulation von Menschen. Aber die Menschheit als Ganzes wird Wege finden, diese Gefahren zu kontrollieren. Man kann sich genauso wie Atomkontrollbehörden auch globale Datenkontrollbehörden vorstellen. BUMMER-Konzerne werden, nachdem sie sehr viel Unheil und Zersetzung in unseren Gesellschaften angerichtet haben, entweder verstaatlicht oder zerschlagen. Sobald für jeden klar ist, dass die Menschen durch diese Konzerne gegeneinander aufgehetzt werden und diese Aufhetzung dem System auch gefährlich werden könnte (zum Beispiel durch Wahlmanipulation) und ihm nicht nur dient, wird es zur großen Läuterung von BUMMER kommen. BUMMER-Unternehmen
werden ganzseitige Anzeigen schalten, um den Trend zu stoppen. Doch Tausende Programmierer weltweit werden Open-Source-Plattformen entwickeln, damit die Menschen den Vorteil von Social Media nutzen können, ohne sich die heutigen gravierenden Nachteile dieser Plattformen für die Gesellschaft einzuhandeln. KI-Techniken werden verwendet werden, um das Leben von Millionen von Menschen zu erleichtern. Während die ersten industriellen Revolutionen den Menschen von zermürbender körperlicher Arbeit befreiten, wird die vierte industrielle Revolution, die Industrie 4.0, den Menschen von zermürbenden geistigen Arbeiten befreien. Daten zusammentragen, Listen anfertigen, Bilanzen aufstellen, alles langweilige Tätigkeiten, die eine zukünftige KI übernehmen kann und wird. Sehr viele Menschen werden dann von dieser Arbeit befreit. Für viele Menschen wird das eine totale persönliche Umstellung, für manche sogar ein Desaster werden, aber für die Gesellschaft als Ganzes ein Gewinn. Die frei werdenden Potenziale werden die Menschen nutzen, um sich wieder dem Menschen zuzuwenden. Während sich der Mensch in der Vergangenheit, in seinem Arbeitsleben, stets mit einer Technologie auseinandersetzen musste, so beschäftigt sich die Technik bald nunmehr mit sich selbst. Dem Menschen wird es gelingen, noch freier zu sein, sich noch mehr auf seine eigene Entwicklung zu konzentrieren. Erst als der Mensch vor Tausenden von Jahren in der Lage war, mehr Essen zu produzieren, als er zum Überleben brauchte, wurde er frei, Kunst und Kultur zu erschaffen. Durch die KI ist die Gesellschaft an einer Stelle angelangt, bei der der Mensch in einer baldigen Zukunft höchstens noch zehn Prozent seiner Zeit für ein System arbeiten wird, den Rest hat er Zeit für sich. Dies wird erneut ungeahnte Potenziale in Kunst und Wissenschaft freisetzen. Und es kommt zu einer Hinwendung von Mensch zu Mensch. Die KI wird vieles können, aber die Aufmerksamkeit eines Menschen für einen anderen – die Droge des Menschen schlechthin –, das kann die KI nicht ersetzen. Es gibt sehr viele kräftige Triebfedern von menschlichen Handlungen, aber die sexuelle Triebfeder als körperliche und die Aufmerksamkeit als psychologische kann eine KI nicht ersetzen. Dem Menschen bleiben unzählige Orte, wo eine KI-Maschine niemals
Zutritt bekommen wird. Liebe, Fürsorge, Geborgenheit, Macht über andere – um nur einige menschliche Orte wahllos (und psychologisch sicher nicht korrekt) zu benennen, das alles bleibt dem Menschen vorbehalten. Umgeben von intelligenter Technik und befreit von zermürbenden Tätigkeiten wird der Mensch sich um Menschen kümmern, eine Entwicklung, die Mut macht. Frei von der Sorge, zu verhungern oder nirgends wohnen zu können, wird der Mensch zu einer Entwicklung kommen, die wir noch nicht erahnen, da wir für unseren Lebensunterhalt arbeiten müssen. Ehrenamtliche Tätigkeiten werden massiv aufgewertet werden, der Mensch, verrückt nach Aufmerksamkeit und Anerkennung, wird sich dahin entwickeln, anderen Menschen zu helfen, weil ihm das selbst die meiste Genugtuung bringt. Dafür ist kein Altruismus nötig. Diejenigen, die das am intensivsten betreiben, werden in weitverbreiteten Listen geführt. Es wird öffentliche und nicht-öffentliche Sozialpunkte geben, die den Menschen animieren, sich für andere einzusetzen. Aber nicht jeder Mensch will das. Das System wird aber auch diejenigen verkraften, die sich ihm entziehen, die keine Sozialpunkte wollen, die das als Totalüberwachung komplett ablehnen. Aufgrund der Vielfalt aller Möglichkeiten werden wieder andere Menschen Spielpunkte erwerben, um in ihrem digitalen oder virtuellen Spiele-Universum Sieger sein zu können und sich ihre Anerkennung von dort zu holen. Wieder andere werden die neuen Möglichkeiten der KI nutzen, um Ruhm und Ehre in Wissenschaften und Kunst zu erhalten. Neue bewegte 3-D-Bilder in Galerien, 3-D-Drucke oder audiovisuelle Erlebnisse, die für Menschen maßgeschneidert sind, werden die Kunstwelt erobern. Die KI wird selber Bilder malen, was andere wieder inspirieren wird. Mittels KI-Verfahren werden neueste medizinische Operationen möglich. Kurzum: Die Vielfalt wird exponentiell zunehmen, etwas, was wir aus der Natur bereits kennen. Hinter jedem Pflasterstein wächst ein Grashalm, in den Tiefen der Meere leben die seltsamsten Fische, die Natur explodiert in ihrer Vielfalt, und das wird der Gesellschaft auch passieren. Diese Gesellschaft wird eine andere als die heutige sein. Aber wichtig ist, dass der Mensch es erstmals in seiner Geschichte geschafft
hat, eine Technologie komplett für sich arbeiten zu lassen. Alle notwendigen materiellen Produkte werden durch die Technologie erzeugt. Technikanhänger und Ingenieure werden diese Technologie immer weiterentwickeln. Dadurch wird der Wert materieller Güter gegenüber geistigen Gütern massiv abnehmen, eine begrüßenswerte Tendenz. Der Staat hat dafür gesorgt, dass die Gewinne, die die Eigentümer der Fabriken machen – in denen die KI ununterbrochen regelt und steuert –, abgeführt werden. Er hat eine KI-Steuer eingeführt, die genau so bemessen ist, dass dem Unternehmer genug Gewinne verbleiben, die aber auch die Gesellschaft ständig mit Geld versorgt. KI-Bildungssysteme werden den Menschen ihre Freizeit wieder nützlich verbringen lassen, da man auf spielerische Art und Weise zu Bildung kommen kann. Man wird die KI nutzen können, um Wettbewerbe und Kooperationen der Schüler untereinander in nahezu allen Fachdisziplinen zu organisieren, die nach Idee und Art von Spielen ausgerichtet sind, aber richtige Bildungsinhalte vermitteln. Aber selbst in dieser positiven Fiktion wird sich der Mensch einer Totalüberwachung nicht entziehen können. Seine Datenspuren im digitalen Universum werden analysiert und gesammelt. Aber anders als jetzt, bei dem BUMMER-Unternehmen diese Daten zur privaten Gewinnmaximierung nutzen, indem sie sie zur Manipulation auf dem freien Markt verkaufen, werden die Daten der Zukunft wie die Ware »Geld« behandelt und so wie es heute Banken gibt, so wird es DatenUnternehmen geben. Diese Daten gehören prinzipiell dem Erzeuger, der sie durch Dritte nur treuhänderisch verwalten lässt. So wie heute der Betrug von Geld geahndet wird, so wird in Zukunft der Betrug mit Daten geahndet werden. Unternehmen, die sich eines Datenbetrugs schuldig machen, werden massiv bestraft und aus dem System ausgeschlossen. Durch verschiedene Fallbeispiele einer sofort folgenden Insolvenz werden Nachahmer, die es immer geben wird, massiv abgeschreckt. Der Datenbetrug wird damit auf ein Minimum reduziert, so wie heute beim Geldbetrug in der Gesellschaft bereits durchgesetzt.
Gewinne, die bis dato mit Datenbetrug gemacht wurden, bleiben natürlich in privater Hand. Daten-Unternehmen werden von der Gesellschaft jedoch nun genauso restriktiv überwacht wie heutige Banken. In jedem Staat wird es ein Datenministerium geben, das genau so mächtig ist wie das heutige Finanzministerium. Künstliche Intelligenz wertet die verschlüsselten Datenströme im Exabyte-Bereich ununterbrochen aus und sucht Gefahrenpotenziale. Genauso wie heute Crash-Systeme weltweit installiert sind, um Aktiencrashs vorherzusagen, so wird versucht, Datendiebstahl und Massen-Manipulationen vorherzusagen und zu verhindern. KI-Entwickler werden merken, dass sie keine Systeme bauen können, die ein Bewusstsein bekommen, das dem Bewusstsein des Menschen ähnlich ist. Sie haben in Demut erkannt, dass die Komplexität des Gehirns millionenfach höher ist als die Komplexität jeder KI-Maschine, die bis dato gebaut werden konnte und im 21. Jahrhundert gebaut werden kann. Die Befürchtungen einer Singularität, bei dem die KI den Menschen überflügeln wird, werden fallen gelassen und müde belächelt werden. Auch die Gesellschaft hat inzwischen bemerkt, dass sich die KI zu keinem Monster entwickeln wird. Die Angst vor der KI als monströser Maschine mit (bösem) Willen im Hintergrund ist bei den Menschen verschwunden. Stattdessen wird allerorts erkannt, dass sich im Lichte der KI-Verfahren das Leben von Millionen von Menschen verbessern lässt. Junge Menschen haben durch niedliche Roboter und KI-Spiele ihre Liebe zur Technik wieder gefunden und werden massenhaft MINT-Fächer studieren wollen, sodass nur ein NC die Universitäten von einem Kollaps durch Massenandrang bewahren wird. Alleinstehende Alte werden durch KI-Roboter »liebevoll« betreut. KI hat sich aufgemacht, die Gesellschaft friedlich zu erobern, den Spaß am Denken, an Mathematik und Physik zurückzuerobern, und weil KI überaus cool geworden ist, werden zukünftig die besten Köpfe der Gesellschaft diese Technologie weiterentwickeln wollen. Innerhalb von zwei bis drei Generationen steigt der IQ der gesamten Menschheit wieder sprunghaft an, nachdem er seit den 1990er-Jahren leicht abgenommen hatte.
Damit ist die Fiktion zu Ende.
Diskussion Ich weiß nicht, welches Szenario eintritt, ich weiß auch nicht, ob es einen Mittelweg geben wird. Ich möchte Sie eigentlich nur zum SelberDenken anregen. Diskutieren Sie mit Ihren Freunden und Partnern über die KI. Überlassen Sie das Thema nicht Dritten, denn eins ist klar: KI ist und bleibt die Mega-Technologie der Zukunft, ob wir es wollen oder nicht. Die Künstliche Intelligenz ist eine der Basistechnologien der nächsten 30 Jahre. Junge Menschen sollten das Studium der KI daher zumindest als zusätzliche Option betrachten, denn wer wollte nicht auf einer gesellschaftlichen und wirtschaftlichen Welle surfen, wenn der Einstiegszeitpunkt gerade so optimal ist. Schon heute arbeiten in Deutschland nahezu jede Universität und Hochschule auf diesem Gebiet mit hervorragenden Lehrern, Doktoranden und Studenten. Deutschland ist mitnichten dabei, den Anschluss zu verpassen. Insbesondere die Wirtschaft kann es sich nicht mehr leisten, diese Basistechnologie zu ignorieren. Abgeschreckt durch BUMMER und viele monströse Szenarien einer angeblichen Singularität müssen die Unternehmen endlich zu einer realistischen Einschätzung zum Einsatz der KI in den Unternehmen kommen. Kein Unternehmen kann auf KIAnwendungen (zum Beispiel Big Data) verzichten. Und es ist ein Fakt: KI wird die Unternehmen und die Gesellschaft grundlegend und für immer verändern. Aber gerade deshalb gilt: Zu hohe Erwartungen an die KI werden zu geschäftlichen Fehlentwicklungen führen, bei Big-DataProjekten werden Millionen von Euro auf einer Lernkurve versenkt. Beim autonomen Fahren kann sogar die Öffentlichkeit zuschauen, wie weit die KI tatsächlich ist und wie sie scheitern wird. Und die jungen Studenten unter ihnen werden erkennen, dass wir erst am Anfang stehen. Ja, es lohnt sich auf jeden Fall, auf diesem Gebiet mitwirken zu wollen. Haben Sie keine Angst vor der KI als Hochtechnologie, misstrauen Sie jedoch dem Transhumanismus und unlauteren Geschäftsmodellen, die
auf der KI-Technologie basieren. Auch wenn Sie kein Ingenieur oder Informatiker sind, arbeiten Sie mit an der tagtäglichen Verbesserung. Denn die KI wird unser aller Leben – und damit auch das Ihrige – verändern und hoffentlich nachhaltig verbessern. Das weltweite Rennen um die besten Köpfe, die besten KI-Technologien und die besten KIAnwendungen ist eröffnet. Und alle haben ein Recht drauf, diese interessante Technologie zum Nutzen aller mit zu entwickeln und einzusetzen. Ich würde mich deshalb freuen, wenn das Buch einen kleinen Beitrag zum Verständnis leisten und Sie trotz oder gerade wegen aller im Buch ausgeführten Kontroversen für diese spannende Thematik begeistern konnte.
Teil V
Der Top-Ten-Teil
Besuchen Sie uns doch einmal auf www.facebook.de/fuerdummies!
IN DIESEM TEIL … Zehn Toptipps zur Künstlichen Intelligenz Ein solches Kapitel hat eine lange Tradition in der DummiesReihe. Es ist eine Art Mini-Zusammenfassung und Sie bekommen einige Tipps zum Gesamtthema der Künstlichen Intelligenz. Aber auch offene Fragen aus den vorhergehenden Kapiteln werden nochmals wiederholt.
Kapitel 18
Zehn Begriffe und Einordnungen Künstliche Intelligenz ist ein Oberbegriff für technische Computersysteme zum Lösen von (kognitiven) Problemen, die bisher nur dem Menschen vorbehalten waren. Zur Lösung der Probleme werden deduktive Techniken und mathematische Verfahren des maschinellen Lernens eingesetzt, um intelligentes menschliches Verhalten in komplexen und unsicheren Umgebungen nachzubilden, mit dem Nahziel, dass künstliche Systeme selbstständig und autonom lernen und planen können, und dem Fernziel, maschinelles Bewusstsein zu erzeugen. Der Schwerpunkt der heutigen sogenannten Schwachen KI liegt auf Verfahren des maschinellen Lernens und hier insbesondere auf Verfahren der künstlichen neuronalen Netze. Aber auch deduktive Verfahren sind ein wichtiger und bedeutender Bestandteil der KI. Da künstliche neuronale Netze die Fähigkeit besitzen, (fast) alles zu lernen, was lernbar ist (also stetige Funktionen), sind prominente neuronale Vertreter, wie Deep-Learning-Systeme, geeignet, völlig neue technische Anwendungen hervorzubringen. Deep-Learning-Verfahren haben die Bildverarbeitung bereits revolutioniert und können mit den gleichen Prinzipien auch Audiosignale analysieren, natürlich-sprachliche Systeme entwickeln, Kartenmaterialien auswerten, Übersetzungen in Echtzeit realisieren und komplizierte Spiele wie Go spielen (und dabei auch gewinnen). Das Einzige, was Deep Learning dazu braucht, sind Unmengen von Daten. Daher sind Deep-Learning-Verfahren für die heutigen Big-Data-Anwendungen geradezu prädestiniert.
Damit Sie die KI nicht missverstehen
Obwohl die Künstliche Intelligenz eine der erfolgversprechendsten Technologien der Gegenwart darstellt, darf man keine Wunder erwarten. Die Erzeugung von maschinellem Bewusstsein oder Maschinen mit einem Selbstbewusstsein und eigenem Willen ist mit gegenwärtigen Techniken nicht möglich. Computersysteme wie HAL9000 aus 2001: Odyssee im Weltraum sind und bleiben reine Science-Fiction. Die in vielen Medien beschworene sogenannte Singularität fällt vorerst aus. Künstliche Intelligenz existiert heutzutage in der Ausführungsform der Schwachen KI, also einer informatikgestützten Computerumsetzung bestimmter intelligenter Eigenschaften von Menschen. Die Künstliche Intelligenz der Gegenwart ist eine informatikorientierte, technische Intelligenz, die sich (noch) nicht auf quantenphysikalische, chemische oder biologische Wirkprinzipien stützt.
Tipps für Studenten Die KI wird bereits in ihrer jetzigen Ausführungsform in Übereinstimmung mit den langfristigen Wellenbewegungen von Innovationen eine der grundlegenden Basisinnovationen der nächsten 20 bis 30 Jahre in den Industrienationen darstellen. Es lohnt sich daher, egal welcher Fachrichtung Sie als Student angehören, sich mit dem Thema auseinanderzusetzen, da KI die gesamte Zeit Ihres Berufslebens einer der wichtigsten gesellschaftlichen »Dauerbrenner« sein wird. Viele Forschungsmittel, Dissertationsmöglichkeiten oder auch Forschungspreise warten auf Sie. Auch sind KI-Patente ein probates Mittel für kreative Geister, sich die Haushaltskasse aufzubessern. Oft hört man von Studenten, dass es bereits alles schon gäbe. Das ist eindeutig falsch. Im Bereich der KI ist aktuell mehr unerforscht als erforscht. Es gibt riesige unbekannte Flecken im Rahmen der KI, so zum Beispiel 100 Prozent sichere Klassifikationsaufgaben in der Bildverarbeitung oder dem Umgang mit Small-Data-Problemen. Das sogenannte Maschinelle Sehen steht erst an seinen Anfängen, das autonome Fahren auch.
Meiner Meinung nach ist eine Verknüpfung von KI und Ingenieurwesen oder KI mit BWL sehr erfolgversprechend. Künstliche Intelligenz ist nicht nur etwas für den Informatiker; für diese ist das KI-Thema natürlich zwingend.
Tipps für Manager Führen Sie KI-Verfahren behutsam in Ihr Unternehmen ein. Sie werden zukünftig an der Einführung der KI nicht vorbeikommen, aber meistens dauern KI-Projekte mindestens drei Mal so lange wie geplant und sind auch dementsprechend teurer. Viele große Big-Data-Projekte in den letzten Jahren waren nur mittelmäßig erfolgreich, da die Komplexität einfach falsch eingeschätzt wurde. Mein Tipp: Bleiben Sie misstrauisch. Die meisten KI-Ergebnisse, insbesondere die, die mit maschinellen Lernverfahren erzeugt wurden, haben nur statistischen Charakter. Entscheidungen über Leben und Tod oder Entscheidungen, die die Existenz ihrer Körperschaft betreffen, dürfen niemals allein auf KI-Ergebnissen beruhen. Um es plakativ zu sagen: Betrachten Sie alle (induktiven) KI-Ergebnisse als multivariate Statistik. Meistens liegen Sie mit diesem Hintergedanken auf der sicheren Seite. Und mit den Ergebnissen und Möglichkeiten von Statistik sind Sie sicher seit Beginn Ihrer Karriere vertraut. KI ist insbesondere nicht vor Fehlern geschützt und KI kreiert jede Menge »falsche Zusammenhänge«. Glauben Sie selbst dann nicht allen induktiv gefundenen Zusammenhängen, wenn sie eine hohe Signifikanz ausweisen, denn hohe Signifikanz bedeutet mitnichten, dass ein kausaler Zusammenhang entdeckt wurde. Praktisch verwertbares Wissen entsteht nur, wenn Sie die Hinweise, die Ihnen das maschinelle Lernen auf Daten gibt, kritisch prüfen, sehr genau hinterfragen, deduktiv in Ihr bekanntes Wissen einbetten und erneut an neuen Beobachtungen prüfen. Das gilt letztlich natürlich auch für alle Fachleute, die neues Wissen, basierend auf empirischen Daten und KI-Auswertungen, erzeugen wollen, so zum Beispiel auch in der Medizin.
Und ein kleiner Tipp für Politiker und interessierte Laien Die KI wird bereits in der jetzigen Ausführungsform in ungeahnte Anwendungsfelder eindringen. Da die KI (fast) alles erlernen kann, was lernbar ist, werden irgendwann all diese Bereiche in der Gesellschaft durch KI-Systeme ersetzt werden. Stellen wir uns vor, wie diese Gesellschaft dann aussehen wird. Was machen Menschen, die durch eine KI »wegautomatisiert« wurden und selber keine KI-Maschinen programmieren können? Das ist ein hochpolitisches Thema, auf das die Politik vorbereitet sein muss. Welche Rahmenbedingungen wird es zukünftig für die KI geben? Der Delvaux-Bericht des EU-Parlaments vom 27. Januar 2017 forderte die EU-Kommission auf, für die ausgeklügeltsten Roboter eventuell eine »elektronische Persönlichkeit« anzuerkennen. Ich habe schon erläutert, dass ich das nicht so sehe, aber es ist spannend zu beobachten, wie es hier weitergehen wird. Mein Tipp an die Entscheider: Mit KI lassen sich auf absehbare Zeit keine Systeme bauen, die Bewusstsein, Gefühle oder gar einen eigenen Willen haben. Daher sollten KI-Systemen auch keine Persönlichkeitsrechte irgendeiner Art zugesprochen bekommen, es sind und bleiben Hochleistungsmaschinen oder lapidar, es sind technische Geräte. Die Roboterfrau Sophia hat zwar seit Oktober 2017 die Staatsbürgerschaft in Saudi-Arabien, sicher als PR-Gag, aber die gesamte gesellschaftliche Diskussion wird dadurch auf einen falschen Punkt konzentriert. Unsere KI-Hochleistungsgeräte verändern die Gesellschaft umfangreich, aber auch völlig ohne KI-Bewusstsein und maschinelle Persönlichkeit. Diesen Prozess gesellschaftlich vorzudenken und zu begleiten, wird eine politische Herausforderung in der Zukunft. KI wird über den langfristigen Erfolg einer Gesellschaft im Wettbewerb mit anderen Nationen mit entscheiden. Und wie sieht es derzeit aus? Die USA besitzen aktuell noch die Führungsrolle. Doch China holt schnell auf: »China will bis 2030 führend im Bereich der Künstlichen Intelligenz (KI) werden. Dieses Ziel
steht in Zusammenhang mit Pekings Bestrebungen, die Wirtschaft innovativer zu machen, das Militär zu modernisieren und global an Einfluss zu gewinnen. Noch haben die USA einen Vorsprung in KI. Chinas Ambitionen führen jedoch zu der Einschätzung, dass es bereits einen neuen Technologiewettlauf gibt«, schreiben die CSS-Analysen der ETH Zürich auf [ETHZ.ch/CSS]. China hat die KI als die Schlüsseltechnologie des 21. Jahrhunderts identifiziert. Das heißt, auch die Ausbildung im Bereich KI wird in China bereits an den Primarschulen beginnen. China setzt alle Hebel in Bewegung. Und was sagt Russland? »Wer einen Durchbruch im Bereich Künstlicher Intelligenz erreicht, kann damit die Welt beherrschen«, warnt Russlands Präsident Wladimir Putin bereits 2017. KI-Entwicklung schaffe »kolossale Möglichkeiten und Gefahren, die sich schwer vorhersagen lassen«, begründete er seine Einschätzung vor Studenten, berichtet die Nachrichtenagentur AP. »Wer in diesem Bereich die Führung übernimmt, wird Herrscher der Welt.« Putin ergänzte, dass es nicht wünschenswert sei, dass jemand in diesem Bereich eine Monopolstellung erreicht. Sollte Russland ein solcher Durchbruch gelingen, werde sein Land diese Technik aber mit dem Rest der Welt teilen, so berichtete zumindest heise online im September 2017 [Heise.de/Putin]. Augenblicklich sieht es leider eher so aus, dass die KI für vielfältige militärische Operationen »missbraucht« werden wird. Zahlreiche Militärs weltweit diskutieren den Einsatz vollautomatischer Killerdrohnen. Das muss unbedingt verboten werden. Jedenfalls ist ein weltweites Wettrennen um die besten Technologien und die besten Köpfe entbrannt. In den Vereinigten Arabischen Emiraten gibt es bereits seit 2017 einen KI-Minister, doch auch Deutschland steht im internationalen Vergleich exzellent da. KI wird für die Politik in allen Ländern der Erde eine immer wichtigere Basis im Wettbewerb der Systeme, aber auch intern zur Machtausübung.
Es gibt auch Big Data Damit kommen wir zu einem weiteren, wichtigen Themenfeld, denn die KI hat sehr viel mit Big Data zu tun. Seien Sie versichert, dass jeder
Klick, den Sie im Internet tätigen, erfasst und durch eine KI ausgewertet wird, jeder Like in Facebook oder sonst wo, wird analysiert. Fragen Sie sich, ob Sie wirklich wollen, dass im Bedarfsfall genau nachvollzogen werden kann, was Sie so googeln oder liken. Falls nicht, gehen Sie raus aus den BUMMER-Unternehmen, auch dann, wenn Sie nichts zu verbergen haben. Nutzen Sie das Internet so, wie es vor knapp 30 Jahren von Fachleuten gedacht und entwickelt wurde. Hier also mein Tipp: Nutzen Sie neben Google auch DuckDuckGo.com, MetaGer.de, Qwant.com und auf alle Fälle startpage.com, nach eigenen Angaben »die diskreteste Suchmaschine der Welt«, mit exakt der gleichen Qualität wie Google, aber völlig anonym.
Ein Einstieg für Interessierte mithilfe des Internets Das Internet ist der beste Zugang zum Wissen der Welt, den es je gab. Noch nie könnten wir so klug sein wie heute (wenn wir es denn wollten). Folgende Internetseiten sind ein erster Einstieg in die Welt der KI: Natürlich Wikipedia: Immer wieder der beste Einstieg. Von hier aus finden Sie alles, was Sie zur KI suchen. https://de.wikipedia.org/wiki/Künstliche_Intelligenz
Das Journal heise-online brilliert mit vielen interessanten Berichten zur KI. https://www.heise.de/thema/Künstliche-Intelligenz
Auch die Zeitschrift CHIP bringt viele gute Beiträge zur KI. https://www.chip.de/
Es gibt exzellente Berichte über die KI von Online-Ablegern von Spiegel, taz, Zeit, Welt und so weiter. Ich nenne sie hier nicht ausführlich, weil man dafür meistens den Adblocker abschalten muss.
Bei der Moral-Machine des Massachusetts Institute of Technology (MIT) können Sie mitentscheiden, wen die KI im Falle eines Autounfalls opfern soll: http://moralmachine.mit.edu/
Das europäische Human Brain Project zeigt beispielsweise, was internationale Spitzenforschung so anstrebt. Ein Blick dorthin lohnt sich. https://www.humanbrainproject.eu/en/
Und hier ein Tipp, falls Sie noch Schüler sind und das Studienfach Künstliche Intelligenz studieren möchten. Unter dem »Bachelorportal Deutschlands« kann man sich ansehen, an welchen Universitäten und Hochschulen ein Studiengang KI derzeit möglich ist. https://www.bachelor-and-more.de/it/bachelor-kuenstlicheintelligenz/
Dort sind zahlreiche internationale Hochschulen und Universitäten genannt. Deutschland ist leider unterbesetzt. Interessierte sollten sich auch mal am Tübinger AI Center umschauen. Die KI Forscher dort unterrichten den (wahrscheinlich) einzigen Masterstudiengang für maschinelles Lernen in Deutschland. https://tuebingen.ai/
Werden Sie aktiv – Probieren Sie selbst mal was aus Irgendwann muss man sich der KI praktisch nähern. Dafür gibt es hervorragende KI-Werkzeuge auf dem Markt und das Beste: Eine Vielzahl dieser Demos und Vollversionen ist absolut kostenlos (für den privaten Gebrauch): Google bietet auf der unten genannten Website eine schöne Demo für neuronale Netze an. Versuchen Sie, die Daten zu klassifizieren,
und spielen Sie mit den Neuronen. Überhaupt ist Google einer der Vorreiter der gesamten digitalen KI-Welt. Ein wirklich schöner 10Minuten-Einstieg. https://playground.tensorflow.org/
Wer Matlab bereits kennt, kann mit elf Zeilen Code und einer 50Euro-Kamera am USB-Port Deep-Learning-Verfahren – basierend auf dem bekannten AlexNet – sofort ausprobieren. Man hat viel Freude damit, auch wenn die Bildklassifikation manchmal wirklich völlig danebenliegt. Es macht auf jeden Fall »Lust auf mehr«. https://de.mathworks.com/videos/deep-learning-in-11lines-of-matlab-code-1481229977318.html
Die deutsche Plattform KNIME stellt eines der besten kostenlosen Systeme für maschinelles Lernen zur Verfügung. Probieren Sie es aus. https://www.knime.com/example-workflows
Der Autor hat damit sehr gute Erfahrungen gemacht. Wer gerne selber KI-Code in Python programmiert, könnte mit PyCharm eine gute Entwicklungsumgebung finden. https://www.jetbrains.com/de-de/pycharm/
Für die Entscheider: Ein sinnvoller industrieller Einstieg in die KI sind Machbarkeitsstudien und prototypische Umsetzungen. In diesem Bereich hat der Autor neben den großen Konzernanbietern auch sehr gute Erfahrungen bei der Zusammenarbeit mit mittleren und kleineren Anbietern gemacht. Für weitere Softwaretools, siehe bitte Kapitel 14.
Haben Sie Freude mit KIAnwendungen Gehen Sie mal in ein Restaurant, in dem Bedienroboter aktiv sind. Es ist in jedem Fall ein Gewinn. Wenn es funktioniert, freut man sich mit den
Robotern, wenn es aber schiefgeht, weil ein Bedienroboter vor einer Topfpflanze steht und ständig sagt: »Treten Sie bitte beiseite, ich möchte bedienen«, hat man auch so seinen Spaß. In Abbildung 18.1. sehen Sie zwei Fotos von einem freundlichen Bedienroboter in einem freundlichen Restaurant meiner Heimatstadt.
Abbildung 18.1: Ein moderner Bedienroboter in einem Steakhouse. Mit freundlicher Genehmigung vom Restaurant »Waid Lake« in Weinheim.
KI ist gut organisiert Schaut man ins internationale CS-Ranking (https://csrankings.org) findet man auf den vorderen Plätzen ausländische Organisationen. Deutsche Topadressen sind dort unsere Max Planck Institute (wie MPI IS), das Cyber Valley, die TU München, Stuttgart, Berlin, Darmstadt, das KIT und viele andere. Auch ChatGPT nennt uns Topadressen. Die können und sollen hier nicht alle aufgezählt werden. In der
nachfolgenden Auflistung geht es nicht nur um internationale Spitzenforschung, sondern auch um einen breiteren Überblick für Sie. Beginnen wir doch mit einer Topadresse, dem European Laboratory for Learning and Intelligent Systems (ELLIS). ELLIS ist ein europäisches KI-Netzwerk, das mit dem Ziel gegründet wurde, die Wettbewerbsfähigkeit europäischer KI zu stärken. Deutschland ist mit mehreren Standorten, zum Beispiel Tübingen, dort vertreten. https://ellis.eu/programs
Das Deutsche Forschungszentrum für Künstliche Intelligenz »KI für den Menschen – Intelligente Lösungen für die Wissensgesellschaft« https://www.dfki.de/web
Gesellschaft für Informatik (GI) mit ihrer Fachgruppe Künstliche Intelligenz https://fb-ki.gi.de/
Helmholtz-Gesellschaft, zum Beispiel mit ihrem Programm: » Natural, Artificial and Cognitive Information Processing« https://www.helmholtz.de/forschung/forschungsbereiche/inf ormation/natural-artificial-and-cognitive-informationprocessing/
Fraunhofer Gesellschaften IAIS https://www.iais.fraunhofer.de/de/forschung/bereiche/kuen stlicheintelligenz.html
Max-Planck-Institut für Intelligente Systeme und das »Cyber Valley« in Baden-Württemberg https://www.is.mpg.de/de
Am Max-Planck-Institut forscht man zum Beispiel an mobilen Robotern und an der Wahrnehmung von Menschen, damit Roboter die Menschen später in ihrer Umgebung gut erkennen können, siehe Abbildung 18.2.
Abbildung 18.2: Vermessung des Menschen und Bewegungsanalyse eines Roboters am MPI für Intelligente Systeme. Mit freundlicher Genehmigung vom MPI und Wolfram Scheible.
Auf dem linken Foto wird ein Mensch mit seinen Bewegungsabläufen im Detail vermessen. Auf dem rechten Foto führt der vierbeinige Roboter »Solo 8« eine vertikale Sprungbewegung aus. Für das Foto wurde eine sehr lange Belichtungszeit verwendet. Der »Solo 8« ist Open Source und auf GitHub dokumentiert. Überhaupt das »Cyber Valley«, Europas größtes KIForschungskonsortium: Im Neckartal werden derzeit (Stand Anfang 2023) rund 300 Doktoranden zu den weltweit besten KINachwuchstalenten ausgebildet. Ein KI-Hotspot, der global gesehen in der Topliga spielt. Im CS-Ranking die deutsche Topadresse. https://www.cyber-valley.de/de
In Heilbronn entsteht gerade ein neues Zentrum für KI, unterstützt von der Schwarz-Stiftung. https://www.dieter-schwarzstiftung.de/aktuelles/naechster-meilenstein-fuer-das-kioekosystem-in-heilbronn-erreicht.html
Die Liste ist bei Weitem nicht vollständig. Nahezu jede Universität erforscht heutzutage Aspekte der KI oder ihre Anwendungen.
Führen Sie KI in Ihrem Unternehmen ein oder werden Sie dafür verantwortlich Künstliche Intelligenz ist ein Megatrend, es ist keine Eintagsfliege, auch wenn zu erwarten ist, dass der Hype um die KI langsam nachlässt, so wie der Hype um autonomes Fahren und Deep Learning bald abflachen wird. Aber das ist gar nicht schlimm. Ein Hype erzeugt stets viel zu große Erwartungen bei den Menschen, daher wird er eines Tages zu Ende sein müssen. Die KI bleibt jedoch ein Basistrend, ein Innovationstreiber für die nächsten Jahrzehnte. Wenn Sie in einem Unternehmen ohne KI-Erfahrung tätig sind, führen Sie deshalb die KI ein; die heutigen technischen Möglichkeiten sind enorm, Sie müssen nicht mehr warten, das heißt, es muss für zahlreiche Applikationen nichts Neues entwickelt werden. Die (digitalen) KITechniken sind schon lange reif für eine großflächige industrielle Nutzung. Daher mein Tipp, auch weil Sie bis hierher durchgehalten haben: Surfen Sie auf der Welle dieses Trends und nutzen Sie die gesellschaftlichen Kräfte für sich und Ihren weiteren beruflichen Erfolg.
Steigen Sie ein, in die faszinierende Welt der Künstlichen Intelligenz. Viel Spaß dabei!
Literaturliste [Cybenko 1989]
Cybenko, G.: Approximation by Superpositions of a Sigmoidal Function, in Math. Control Signals Systems (1989) 2: 303–314
[DeepMind 2017]
DeepMind Team: Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm, in arXiv: 1712.01815v1 [cs.AI], 2017
[Dreyfus 1989]
Dreyfus, Hubert L.: Was Computer nicht können. Die Grenzen künstlicher Intelligenz, Athenäum, 1989
[Geyer 2004]
Hirnforschung und Willensfreiheit: Zur Deutung der neuesten Experimente, edition Suhrkamp, 2004
[Hertig 2014]
Hertig, T. et.al.: Hypercomplex Algebras and their application to the mathematical formulation of Quantum Theory, in arXiv: 1406.1014, [quant-ph], 2014
[Hinton 2012] Krizhevsky, A., Sutskever, I., Hinton, G. E.: ImageNet Classification with Deep Convolutional Neural Networks, in Advances in Neural Information Processing Systems 25 (NIPS 2012), DOI: 10.1145/3065386 [Ioannidis 2005]
Ioannidis JPA (2005) Why Most Published Research Findings Are False, PLoS Med 2 (8): e124. https://doi.org/10.1371/journal.pmed.0020124
[Kolmogorov 1931]
Kolmogorov, A.: Über die analytischen Methoden in der Wahrscheinlichkeitsrechnung, in Math. Ann. (1931), 104. 415–458.
[Lanier 2018]
Lanier, J.: Zehn Gründe, warum du deine Social Media Accounts sofort löschen musst, Hoffmann und Campe, 2018
[Lenzen 2018] Lenzen, M.: Künstliche Intelligenz, C. H. Beck, 2018 [Libet 2005]
Libet B. Mind Time: Wie das Gehirn Bewusstsein produziert, Suhrkamp Verlag, Frankfurt am Main, 2005
[Mainzer 2008]
Mainzer K.: Komplexität, UTB, W. Fink Verlag Paderborn, 2008
[McCarthy 1955]
McCarthy, J.: Vorschlag für das Dartmouth Sommerforschungsprojekt zur Künstlichen Intelligenz, an Rockefeller Stiftung, August 1955
[Metzinger 2009]
Metzinger T. (Hrsg.): Grundkurs Philosophie des Geistes, Band 1 (Phänomenales Bewusstsein), Band 2 (Das Leib-Seele-Problem), Band 3 (Intentionalität und mentale Repräsentation), mentis Verlag, Paderborn, 2009
[Michels 2002]
Michels, K.: Fuzzy-Regelung: »Grundlagen, Entwurf, Analyse«, Springer Lehrbuch, 2002
[Müller 1990]
Müller, J.: Arbeitsmethoden der Technikwissenschaften - Systematik, Heuristik, Kreativität; Springer Verlag, 1990
[Nguyen 2015]
Nguyen A, Yosinski J, Clune J., Deep Neural Networks are Easily Fooled: High Confidence Predictionsfor Unrecognizable Images. In Computer Vision and Pattern Recognition (CVPR '15), IEEE, 2015
[Nguyen 2019]
Nguyen A. et. al., in arXiv.org, see arXiv: 1811.11553, Jan. 2019
[Otte 1970]
Otte, V.: Dissertation, TH Ilmenau, Kombinationsmethoden im konstruktiven Entwicklungsprozess: Voraussagen über den Wert von Komplexionen einer Kombinationsmatrix auf der Grundlage bewerteter Stichproben, Ilmenau, 1970
[Otte 2004]
Otte, R.: Data Mining für die industrielle Praxis, Hanser, 2004
[Otte 2016]
Otte, R.: Vorschlag einer Systemtheorie des Geistes: Nicht-energetische Wellenfunktionen und Vorschlag zur Lösung des Geist-Körper-Problems, Cuvillier Verlag, 2016
[Otte 2017]
Otte, R.: Postfaktisch war gestern - Die Einheit im Geiste oder Warum wir die Postintellektuellen lieben sollten, tredition, 2017
[Otte 2020]
Otte, R.: Wippermann, B., Schade, S., Otte, V.: Von Data Mining bis Big Data - Handbuch für die industrielle Praxis, Hanser Verlag, 2020
[Otte 2021a]
Otte, R.: Allgemeinbildung KI - Risiko und Chance, Wiley Verlag, 2021
[Otte 2021b]
Otte, R.: Maschinenbewusstsein, Campus Verlag, 2021
[Otte 2021c]
Otte, R.: In der heutigen KI ist kein Geist, KIT Press, https://publikationen.bibliothek.kit.edu/1000139795 bzw. DOI: 10.5445/IR/1000139795, veröffentlicht am 23.11.2021
[Penrose 2002]
Penrose, R.: Das Große, das Kleine und der menschliche Geist, Spektrum Verlag, 2002
[Roth 2009]
Roth G.: Aus Sicht des Gehirns, Suhrkamp Verlag, Frankfurt am Main, 2009
[Russell 2012] Russel, S.: Norvig, P.: Künstliche Intelligenz, Pearson, 2012 [Schurz 2020] Schurz, G.: Logik: Grund- und Aufbaukurs in Aussagen- und Prädikatenlogik, De Gruyter Studium, 2020 [Singer 2002] Singer W.: Der Beobachter im Gehirn, Suhrkamp Verlag, Frankfurt am Main, 2002 [Shannon 1948]
Shannon, C. E.: A Mathematical Theory of Communication, in: The Bell System Technical Journal (1948), Wiley Online Library 2018
[Steinwendner Steinwendner, J., Schwaiger, R.: Neuronale Netze programmieren mit Python: Der Einstieg in die 2020] Künstliche Intelligenz, Rheinwerk Computing, 2020 [Taleb 2007]
Taleb, N. N.: Der schwarze Schwan, Hanser, 2007
[Wörz 2018]
Wörz, M.: Künstliche Intelligenz und Ethik. In: Netzwerk Künstliche Intelligenz und Ethik, Karlsruhe 2018.
[Zell 1997]
Zell, A.: Simulation Neuronaler Netze, De Gruyter Oldenbourg, 1997
Online-Quellen und Internetlinks (bei Zeitungen: Erscheinungsdatum, bei Webseiten: Abrufdatum; alle Links letztmalig am 15.1.2023 geprüft) [Aerztezeitung.de/KI]
https://www.aerztezeitung.de/praxis_wirtschaft/medizintechnik/article/963930/kuenstlicheintelligenz-roboter-aerzte-zukunft.html (Mai 2018)
[AllFacebook.de/Face]
https://allfacebook.de/toll/state-of-facebook (April 2021)
[Altexsoft.com/ML]
https://www.altexsoft.com/blog/datascience/the-best-machine-learning-tools-experts-toppicks/ (Mai 2018)
[BITKOM.de/Gipfelpapier]
https://www.dfki.de/fileadmin/user_upload/import/9744_171012-KI-Gipfelpapier-online.pdf (Dezember 2018)
[Bremerhafen.de/Google]
https://stadt-bremerhaven.de/die-7-gebote-google-veroeffentlicht-ethische-grundsaetzezu-kuenstlicher-intelligenz/ (Juni 2018)
[Businessuser.de/Digitalisierung]
https://business-user.de/digitalisierung/wer-treibt-kuenstlicher-intelligenz-diediskriminierung-aus/ (Oktober 2018)
[ChatGPT.com]
https://openai.com/blog/chatgpt/ (Januar 2023)
[deepl.com]
www.deepl.com (Dezember 2022)
[Europarl.eu/Roboter]
http://www.europarl.europa.eu/sides/getDoc.do?pubRef=-//EP//TEXT+REPORT+A82017-0005+0+DOC+XML+V0//DE (Januar 2017)
[Europa.eu/AI]
https://ec.europa.eu/digital-single-market/en/news/draft-ethics-guidelines-trustworthy-ai (Dezember 2018)
[ETHZ.ch/CSS]
https://www.ethz.ch/content/dam/ethz/special-interest/gess/cis/center-for-securitiesstudies/pdfs/CSSAnalyse220-DE.pdf (Dezember 2018)
[FAZ.net/IOT]
https://www.faz.net/aktuell/wirtschaft/netzwirtschaft/digitalisierung-8-4-milliardenvernetzte-geraete-im-internet-der-dinge-14865654.html (Februar 2017)
[FAZ 2023]
FAZ, 21 . JANUAR 2023 · NR . 18 · SEITE 21
[Finaf.org/Info]
http://www.finaf.org/info.html (Dezember 2022)
[Focus.de/Gesundheit]
https://www.focus.de/gesundheit/werden-menschen-duemmer-umwelthormone-einegefahr-fuer-das-menschliche-gehirn_id_7847170.html (Februar 2018)
[Fraunhofer.de/Neuromorph] https://www.iis.fraunhofer.de/de/ff/kom/iot/neuromorphic.html (Dezember 2022) [Heise.de/LaMDA]
https://www.heise.de/news/Chatbot-LaMDA-Hat-diese-Google-Software-wirklich-einBewusstsein-entwickelt-7142599.html (Juli 2022)
[Heise.de/Putin]
https://www.heise.de/newsticker/meldung/Putin-Wer-bei-KI-in-Fuehrung-geht-wird-dieWelt-beherrschen-3821332.html (September 2017)
[HIGHTECH.de]
[https://www.hightech-forum.de/hightech-strategie-2025/ (Januar 2023)
[humanbrainproject.eu]
https://www.humanbrainproject.eu/en/science-development/focus-areas/neuromorphiccomputing/ (Januar 2023)
[IBM.com/Watson]
https://www.ibm.com/de-de/watson (Januar 2023)
[IBM.com/QC]
https://www.ibm.com/de-de/quantum-computing und https://quantum-computing.ibm.com/ (Januar 2023)
[IBM.com/RM]
https://www.ibm.com/quantum/roadmap (Januar 2023)
[IFR.org/news]
https://ifr.org/news (Dezember 2022)
[InternetLiveStats.com/Web] http://www.internetlivestats.com/watch/websites/ (Dezember 2022) [KNIME.com]
https://www.knime.com/ (Dezember 2022)
[LabelMe.edu]
http://labelme.csail.mit.edu/Release3.0 (Januar 2023)
[labsix.com]
https://www.labsix.org/ (Dezember 2018)
[MoralMachine.mit]
http://moralmachine.mit.edu/hl/de (Dezember 2018)
[Nasa.gov/giss]
https://data.giss.nasa.gov/gistemp/maps/ (Januar 2023)
[NEURArobotics.com]
https://neura-robotics.com (Dezember 2022)
[Spektrum.de/Paradox]
https://www.spektrum.de/magazin/simpson-paradox/1432733 (Januar 2017)
[Spiegel.de/Ethik]
http://www.spiegel.de/wissenschaft/technik/unfaelle-mit-selbstfahrenden-autos-wer-sollleben-wer-soll-sterben-a-1234901.html (Oktober 2018)
[Springerprof.de/IQ]
https://www.springerprofessional.de/echzeitsysteme/softwareentwicklung/wie-intelligentist-eigentlich-eine-ki-/15131566 (Oktober 2017)
[Statista.com]
https://de.statista.com/statistik/daten/studie/267974/umfrage/prognose-zum-weltweitgenerierten-datenvolumen (Mai 2022)
[Statista.com/Google]
https://de.statista.com/statistik/daten/studie/71769/umfrage/anzahl-der-googlesuchanfragen-pro-jahr/ (November 2021)
[Statista.com/SC]
https://de.statista.com/statistik/daten/studie/193104/umfrage/rechenleistung-derleistungsstaerksten-supercomputer-weltweit/ (November 2022)
[Statista.com/QC]
https://de.statista.com/statistik/daten/studie/1198694/umfrage/anzahl-der-erreichtenqubits-nach-unternehmen/ (Januar 2022)
[t3n.de/Facebook]
https://t3n.de/news/facebook-big-data-gigantische-410203/ (August 2012)
[tensorflow.org/Play]
https://playground.tensorflow.org (Januar 2023)
[TheStar.com/Taxi]
https://www.thestar.com.my/tech/tech-news/2018/10/22/london-taxi-firm-addison-leepromises-self-driving-cars-by-2021/ (Oktober 2018)
[Welt.de/KI]
https://www.welt.de/sport/article171541557/Kuenstliche-Intelligenz-beendet-menschlicheDominanz.html (Dezember 2017)
[Wikipedia.org/CNN]
https://de.wikipedia.org/wiki/Convolutional_Neural_Network (Dezember 2022)
[Wikipedia.org/DeepBlue]
https://de.wikipedia.org/wiki/Deep_Blue (Januar 2023)
[Wikipedia.org/Dreikörper]
https://de.wikipedia.org/wiki/Dreikörperproblem (Januar 2023)
[Wikipedia.org/Google]
https://de.wikipedia.org/wiki/Google (Dezember 2022)
[youtube.com/Atlas]
https://www.youtube.com/watch?v=rVlhMGQgDkY (Januar 2023)
[ZUM.de]
http://www.zum.de/Faecher/Materialien/beck/12/bs12-29.htm (Januar 2023)
Abbildungsverzeichnis Abbildung 3.1: Grundstruktur eines Regelkreises zur Toilettenspülung Abbildung 3.2: Wirkschaltbild einer Steuerung Abbildung 3.3: Wirkschaltbild eines Regelkreises der Intelligenzstufe I1 Abbildung 3.4: Erzeugung von neuem Wissen über die Welt Abbildung 3.5: Anwendung des deduktiven Wissenserwerbs an einem Beispiel Abbildung 3.6: Mögliche Kausalketten zur Erzeugung von Kopfschmerzen Abbildung 3.7: Legen Sie ein Streichholz so um, dass die mathematische Aussage wahr wird. Abbildung 3.8: Anwendung der KI zur Addition von Quadratzahlen Abbildung 3.9: Der Turing-Test auf Intelligenz Abbildung 3.10: Microsofts Chatbot Tay meldet sich im Netz ab. Abbildung 3.11: Das chinesische Zimmer Abbildung 4.1: Ein elementares Datum – ein schwarzer Punkt auf einem weißen Papier Abbildung 4.2: Eine chinesische Zeitung (© Paco Ayala stock.adobe.com) Abbildung 4.3: Die Übertragung von Bedeutung geht nur mittels materieller Zeichenketten. Abbildung 4.4: Nachbau eines der ersten Computer der Welt nach Konrad Zuse (© Udo Bojahr - stock.adobe.com) Abbildung 4.5: Wir speichern zwei Zustände 0 oder 1 mit einem Relais. Abbildung 4.6: Architektur einer Datenbank Abbildung 4.7: Aufbau eines Expertensystems
Abbildung 4.8: Das logische UND mit Relais gebaut Abbildung 4.9: Ein Agent bildet Eingangsdaten (Sensoren) auf Ausgangsdaten (Aktoren) ab. Abbildung 4.10: Verteilte Agenten in einem Multi-Agenten-System Abbildung 4.11: Agenten (Ai) in einem technischen Prozess Abbildung 4.12: Semantisches Netz Abbildung 4.13: Ausschnitt aus einem neuronalen Netz im Gehirn Abbildung 5.1: Elektrisches Schaltbild eines NOR-Gatters Abbildung 6.1: Eine mögliche Klassifikation der Künstlichen Intelligenz Abbildung 6.2: Methoden der Modellbildung Abbildung 6.3: Getriebe zur Übersetzung einer Drehzahl (Getriebe © Sashkin - stock.adobe.com) Abbildung 6.4: Visualisierung von Ausgangsdrehzahl (y in u/min) über Eingangsdrehzahl (x in u/min) Abbildung 6.5: Modell eines Getriebes mit geschätzter Übertragungsfunktion Abbildung 6.6: Zusammenhang zwischen persönlichen Merkmalen und Bonitäts-Score bei der Hausbank Abbildung 6.7: Welche Möglichkeiten bietet das maschinelle Lernen? Abbildung 6.8: Unterschied zwischen Median und Mittelwert an einem Beispiel Abbildung 6.9: Darstellung der Datentabelle in einem x-y-Scatterplot mithilfe des Tools Excel Abbildung 6.10: Lineare Schätzung (Regressionsgerade) für eine gegebene Punktwolke Abbildung 6.11: Nichtlineare Schätzung für eine gegebene Punktwolke Abbildung 6.12: Zwei Untergruppen in einer Punktwolke aus Daten
Abbildung 6.13: Erderwärmung von 1975 bis 2022, Quelle: [Nasa.gov/giss] Abbildung 6.14: Erderwärmung von 2016 bis 2022, Quelle: [Nasa.gov/giss] Abbildung 6.15: Zwei Sinuskurven im Zeitverlauf Abbildung 6.16: rxy = +1: lineare Abhängigkeit zwischen zwei Sinusfunktionen Abbildung 6.17: Die Korrelation zwischen den Variablen x und y ist rxy = 0, dennoch existiert ein funktionaler Zusammenhang. Abbildung 6.18: rxy = 0: Keine stochastische Abhängigkeit zwischen X und Y Abbildung 6.19: Verteilungshistogramm von verkauften ZahncremeTuben pro Monat Abbildung 6.20: Der Abverkauf der Zahncreme (y-Achse) hängt vom Preis (x-Achse) ab. Abbildung 6.21: Ein lineares Modell für den Zusammenhang Abverkauf und Preis Abbildung 6.22: Zwei Bestimmtheitsmaße für eine schlechte (links) und eine gute lineare Schätzung (rechts) Abbildung 6.23: Schätzung des Abverkaufs mit Polynom 4. Ordnung Abbildung 6.24: Ein Datensatz aus drei Merkmalen angeordnet in drei Clustern Abbildung 6.25: Zugehörigkeit eines Datensatzes beim Fuzzy-Clustern Abbildung 7.1: Berechnung des Informationsgewinns Igain auf der ersten Entscheidungsebene basierend auf den Häufigkeiten aus Tabelle 7.1 Abbildung 7.2: Entscheidungsbaum mit insgesamt sieben grauen Blättern auf Daten nach Tabelle 7.1 Abbildung 7.3: C5.0-Entscheidungsbaum auf Daten nach Tabelle 7.1
Abbildung 7.4: C4.5-Entscheidungsbaum auf Daten nach Tabelle 7.1 Abbildung 7.5: Anwendungsbeispiel eines Entscheidungsbaums in einer chemischen Fabrik Abbildung 7.6: Gerichtete Assoziationsregeln auf Datensatz nach Tabelle 7.2 Abbildung 7.7: Assoziationsregeln sortiert nach Konfidenz auf Viskositätsdaten nach Tabelle 7.1 Abbildung 7.8: Regelbaum zur Optimierung einer Marketingaktion Abbildung 8.1: Schematischer Aufbau eines künstlichen Neurons Abbildung 8.2: Aufbau eines binären Neurons als einfaches Perceptron Abbildung 8.3: Das Problem der linearen Separierbarkeit Abbildung 8.4: Gescheiterte Versuche der Darstellung einer logischen XOR-Verknüpfung mit einem binären Neuron Abbildung 8.5: Architektur eines Perceptron-Netzwerks mit zwei neuronalen Schichten Abbildung 8.6: Architektur von neuronalen Feed-Forward-Modellen Abbildung 8.7: Zwei aktive Neuronen i und j in einem Netzwerk Abbildung 8.8: Topologie eines neuronalen Netzes zum Lernen mit der Delta-Lernregel Abbildung 8.9: Adaption eines Gewichts wij für einen gegebenen Datensatz {x1 = 3, x2 = 4, y = 7} Abbildung 8.10: Aktivierungsfunktion (tanh) eines Neurons i der Ausgabeschicht Abbildung 8.11: Sechs Neuronen mit jeweils zwei Eingängen in einem Competitive Network Abbildung 8.12: Vektordarstellung eines Competitive Network in einem zwei-dimensionalen Datenraum
Abbildung 8.13: Aufbau einer 6 · 6-SOM-Karte mit jeweils drei Eingängen. Jedes Element der Eingabeschicht ist mit jedem Neuron der SOM-(Kohonen-)Karte verbunden. Im Bild ist nur die Verbindung zum Neuron r dargestellt Abbildung 8.14: Gegenüberstellung von Kohonen-Karte und Merkmalsraum Abbildung 8.15: Entfaltung einer SOM-Karte mit 6 · 7 Neuronen auf einer 3-dimensionalen Sattelverteilung nach 10, 100 und 1000 Lerniterationen in der Darstellungsform »Datenraum« bzw. »Merkmalsraum« Abbildung 8.16: Darstellung von drei Clustern C1, C2, C3 und Initialisierungspunkt der Karte (Mitte) in einem 3-dimensionalen Eingangsdatenraum mit den Achsen v1, v2 und v3 Abbildung 8.17: Visualisierung von Clustern auf einer SOM-Karte Abbildung 8.18: SOM-Karten zum optimalen Entwurf eines chemischen Prozesses Abbildung 8.19: Das Generalisierungsproblem anhand optimaler und nichtoptimaler Regressionen Abbildung 8.20: Overfitting eines neuronalen Netzes mit 300 HiddenNeuronen (helle Linie) beim Lernen einer Exponentialfunktion (dunkle Linie) Abbildung 8.21: Optimal gelerntes neuronales Netz mit sieben HiddenNeuronen (helle Linie) beim Lernen einer Exponentialfunktion (dunkle Linie) Abbildung 8.22: Aufteilung der Originaldaten in Lern- und Validierungsdaten Abbildung 9.1: Ein Bild mit verschiedenen Farb-/Grauwerten (Grauwerte sind um den Wert +2 normiert) Abbildung 9.2: Darstellung der Grauwerte und ihrer Ableitungen von einer Bildzeile aus Abbildung 9.1
Abbildung 9.3: Prinzip der Detektion waagerechter Kanten mit Faltungskernen der Größe 3x3 Abbildung 9.4: Anwendung eines modifizierten Sobel-Operators (Kanten-Operators) auf ein Originalbild A (links) und Ergebnis B (rechts). Mit freundlicher Genehmigung von Caroline Otte. Abbildung 9.5: Von einem CNN selbst gelernte Faltungskerne [Hinton 2012]. Mit freundlicher Genehmigung von Alex Krizhevsky. Abbildung 9.6: Faltungsoperation eines Bildes mit einem vorher angelernten Faltungskern Abbildung 9.7: Die KI von Google klassifiziert das Bild als Hund aus [labsix.com]. Mit freundlicher Genehmigung von Anish R. Athalye. Abbildung 9.8: Deep-Learning-Netze sind sich zu 99 Prozent sicher, in den Bildern die jeweils genannten Labels zu erkennen, aus [Nguyen 2015]. Mit freundlicher Genehmigung von Anh Nguyen. Abbildung 9.9: Der Google-Inception-v3-Classifier erkennt Bilder in einigen Positionen sehr gut, in anderen Positionen jedoch gar nicht, aus [Nguyen 2019]. Mit freundlicher Genehmigung von Anh Nguyen. Abbildung 10.1: Ein Algorithmus erzeugt aus Eingangsdaten Ausgangsdaten. Abbildung 10.2: Die Künstliche Intelligenz beherrscht die mathematische (algorithmische) Welt. Abbildung 11.1: Die Zerlegung eines Schachspiels in eine Baumstruktur Abbildung 11.2: MIN-MAX-Suche in einer Baumstruktur, modifiziert nach [Russell 2012] Abbildung 11.3: Go-Spiel mit 19 * 19 Feldern (© Peter Hermes Furian stock.adobe.com) Abbildung 12.1: Entwicklungsphasen und Einführungsphasen der KI in der Industrie, adaptiert aus [BITKOM.de/Gipfelpapier] Abbildung 12.2: Die Dichte der eingesetzten Industrieroboter weltweit [aus IFR.org/news]
Abbildung 12.3: Zwei kognitive Roboter der Firma NEURA Robotics. Mit freundlicher Genehmigung von NEURA Robotics. Abbildung 12.4: Die vierte Industrielle Revolution Abbildung 12.5: So sieht ein RFID-Chip mit Antenne aus (Onidji stock.adobe.com). Abbildung 12.6: Dezentrale Produktion im Rahmen von Industrie 4.0 Abbildung 12.7: Testung von autonomen Lkws und automatisierten Bussen (Dieter Holstein - stock.adobe.com) Abbildung 12.8: Autonomes Fahren (Level 5) gibt es frühestens ab 2050 oder auch gar nicht. Abbildung 12.9: Abstimmung: Wen soll das selbstfahrende Auto opfern [aus MoralMachine.mit.edu]? Mit freundlicher Genehmigung vom Massachusetts Institute of Technology (MIT), Mr. Sohan Dsouza. Abbildung 13.1: KI-Anwendungen des maschinellen Lernens sind Datenverarbeitungsverfahren Abbildung 13.2: Datenanalyse als wichtigste Teildisziplin der heutigen KI Abbildung 13.3: Der Data-Mining-Prozess Abbildung 13.4: Prinzipschaltbild zum Lernen eines neuronalen Scharniermodells Abbildung 13.5: What-if-Analysen an einem Neuro-Scharniermodell, basierend auf einem RBF-Netz mit sechs Eingangsneuronen (nur drei abgebildet), 45 Hidden-Neuronen und einem Ausgangsneuron für das Drehmoment EDAMOM Abbildung 13.6: Abhängigkeit zwischen Drehmoment und ausgewählter Einflussgröße DS (Durchmesser-Stift) Abbildung 13.7: Hardware-Architektur der neuronalen Scharniersteuerung Abbildung 13.8: Online-Steuerung eines Produktionsprozesses basierend auf nichtlinearen Optimierungsverfahren und neuronalen Netzen
Abbildung 13.10: Darstellung einer Funktion y = f(x1, x2) mit unterschiedlich sensitiven Gebieten Abbildung 13.9: Vorhersage einer Dispergierzeit mittels eines neuronalen Netzes Abbildung 13.11: Schätzung eines neuronalen Netzes und Originalverlauf einer Dispergierzeit Abbildung 13.12: Verteilung der Kornfeinheit in der Grundgesamtheit Abbildung 13.13: Prozessregel zur Produktion kleiner Körner Abbildung 13.14: Prozessregel zur Produktion großer Körner Abbildung 13.15: Bestimmung der Bestrafungsterme für drei Prozessgrößen mit MATLAB Abbildung 13.16: Polyoptimierung eines chemischen Prozesses mit neuronalen SOM-Karten Abbildung 13.17: SAP-Benutzerschnittstelle zur Online-Analyse und Korrektur des Materialcodes Abbildung 13.18: Big Data – Anzahl der Suchanfragen, die Google weltweit pro Jahr bearbeitet, in Milliarden. Grafik basiert auf Daten von Statista.com/Google. Abbildung 13.19: Bestellung eines Glasrundschneiders bei einem Online-Anbieter Abbildung 13.20: Die Online-Anbieter-KI hat sich verrechnet. Abbildung 14.1: Benutzeroberfläche der maschinellen Lernen-Plattform KNIME. Mit freundlicher Genehmigung der KNIME AG, Konstanz. Abbildung 14.2: Eine leicht bedienbare Demonstration von Googles TensorFlow Abbildung 14.3: Das Annotieren eines Helikopters mittels LabelMe Abbildung 14.4: Das automatische Erkennen von elektronischen Bauelementen auf Leiterplatten mittels des Deep-Learning-Netzes
YOLO, deren Bildklassen vorher annotiert wurden. Mit freundlicher Genehmigung von Renfu Fang. Abbildung 15.1: Elektrische Ableitungen vom Gehirn einer Probandin mittels EEG Abbildung 15.2: Auswertung von Hirnaktivitäten mittels fMRTMethoden Abbildung 15.3: Das MRT-Aktivitätsmuster eines Probanden Abbildung 16.1: Eine grüne Folie (im SW-Druck grau) Abbildung 16.2: Nervengeflecht in einem Gehirn (© Naeblys stock.adobe.com) Abbildung 16.3: Schematische Darstellung einer neuronalen Synapse Abbildung 16.4: Ableitung eines Aktionspotenzials mit EEG-Technik [eigene Grafik, adaptiert nach ZUM.de] Abbildung 16.5: Codierung der neuronalen Erregung in die Dichte der Aktionspotenziale auf dem Axon Abbildung 16.6: Die Synchronisation von Neuronen zu einem Ganzen Abbildung 16.7: Messung von neuronalen Zuständen mittels EEG Abbildung 16.8: Das Sehen einer grünen Folie und seine Weiterleitung ins Gehirn (rechts © bilderzwerg - stock.adobe.com) Abbildung 16.9: Eine Hypothese, Materie und Geist wechselwirken über quantenphysikalische Prozesse Abbildung 16.10: Ein Auto mit diversen Sensorsystemen (Blue Planet Studio - stock.adobe.com) Abbildung 17.1: Klassifikation und Evolution der KI Abbildung 17.2: Kommt die Singularität? – Eher nicht, diese Grafik ist falsch. Abbildung 17.3: Deep Learning muss wahrscheinlich durch das Tal der Tränen.
Abbildung 17.4: Die Evolution der Schwachen KI Abbildung 17.5: Eine optimistische Prognose des Autors Abbildung 17.6: Rückkopplungsschleifen zwischen dem System und seinen Teilen Abbildung 18.1: Ein moderner Bedienroboter in einem Steakhouse. Mit freundlicher Genehmigung vom Restaurant »Waid Lake« in Weinheim. Abbildung 18.2: Vermessung des Menschen und Bewegungsanalyse eines Roboters am MPI für Intelligente Systeme. Mit freundlicher Genehmigung vom MPI und Wolfram Scheible.
Stichwortverzeichnis A a1, a2, a3, …, an 130 activity 234 Aika 391 Aktivierungsfunktion 233 Algorithmus 295 Allquantor 137 AlphaGo 313, 316 AlphaZero 318 Anaconda Distribution 391 Angoss 391 Antivalenz 123 Anwendungsphase selbstorganisierende 258 Apache Software Foundation 391 Aphelion 391 Äquivalenz 123 Aristoteles 121 Artificial General Intelligence (AGI) 443 Artificial Narrow Intelligence (ANI) 443 Artificial Super Intelligence (ASI) 443 ASCII‐Code 99 Assoziationsregel 217, 219 Attraktoren 430
Aussagen 122 Aussagenlogik 122, 132, 135 Autos vollautonom 23, 338, 339, 342, 343, 344 Autonomes Fahren 63, 336–337 Autonomiestufe 336 Axiom 60 Axon 426
B Backpropagation‐Lernregel 247 Backpropagation‐Lernverfahren 252 Backpropagation‐Netz 250 Bard 72, 73 Basiskomponenten 102 Bedeutungslehre 86 Bekleidungs‐und Nahrungsmittelindustrie 357 Benutzerschnittstelle 102 Bestärkendes Lernverfahren 242 Bestimmtheitsmaß 195–197 Bewusstsein maschinelles 435, 436, 454 künstliches 438 Turing‐Test 441 Wellentheorie 435 Big‐Data 382 Binärcode 98
Blackbox‐Methode 164 Boole, George 38 Boole'sche Algebra 104 Bot 69 Brainstorming 61 Brain‐to‐Computer‐Forschung 411 Business Understanding 351
C Caffe 392 CART 392 Chatbot 69 Chatbot Tay 71 Chatbot Zo 71 ChatGPT 72, 73 Chemie‐ und Pharmaindustrie 356 Chinesisches Zimmer 73 Church, Alonzo 143 Cleverbot 72 Cluster 201 Clusteranalyse 263 CNN siehe Convolutional Neuronal Networks Cognitive Computing 116 Competitive Network 254, 256 Computer visuelle Neuromorphe 439 neuromorphe 450, 451
Controller 106 Convolutional Neuronal Networks 281–284 Cortex visueller 438 Cybenko‐Theorem 275, Cyber‐Physikalisches System 328
D Data Augmentation 285 Data Mining 180, 350, 352 Defintion 350 Data‐Mining Deployment 352 Evaluation 351 Modeling 351 Data‐Mining‐Prozess 351 Data Preparation 351 Data Understanding 351 Daten 78 Daten‐Anreicherung 283 da Vinci, Leonardo 37 Dedukative Methode Deduktionstheorem 130, 140 deduktive 52 Deduktive KI 447 Deep Blue 308 DeepL 447
Deep Learning 33, 448 Deep Thinking 33, 115 Definition 78 Delta‐Lernregel 245, 248 Dendrit 426 Deployment 351 Disjunktion 123 Diskretisieren 214 DL4J 392 DSSTNE 392 Dualcode 97 Dualismus 413 interaktionistischer 413 DuckDuckGo.com 387
E Edmond de Belamy 336 EEG 409, 428 Elektroindustrie 355 ELKI 392 e‐Log‐Modell 193 Emergenztheorie 415 Encog 392 Energie imaginäre 459, 460 immaterielle 438 Energiewirtschaft 356
Enigma (Maschine) 38 Entropie 83, 207 Entropieminderung 207 Entscheidbarkeitsproblem 135, 143 Entscheidungsbaum 206 Entscheidungsbaumalgorithmus 209 ENTWEDER‐ODER/XOR 123 Epiphänomenalismus 414 Erfüllbarkeitsproblem 132 Ergebnisdarstellung selbstorganisierende Merkmalskarte 258 Erklärungskomponente 102, 105 Ethik 461, 465 Evaluation 351 Existenzquantor 137 Expertensystem 102 Exponentialmodell 193 Extraflop 432, 433, 445
F Facebook 383 Fake Science 464 Faltung 278 Faltungskern 277 Feed‐Forward‐Netz 225 Feed‐Forward‐Netzwerk 245 Fertigungsindustrie 355
Fertigungssteuerung neuronale 365 fMRT 410 Formalisieren 120 Forschungsunion 327 Frontier 432, 433, 445 Funktion sigmoide 231, 233 Funktionalismus 415 Funkton Gaußfunktionen 232 Fuzzy 122 Fuzzy‐Clusterverfahren 200, 202 Fuzzy‐Logik 122
G Galton, Francis 190 Gaußfunktion 232 Geist‐Körper‐Problem 408 Generalisierungsfehler 266 General Problem Solver 158 Gesamtstreuung 196 Gesichtserkennung 332 Gewinnerneuron 255 Gödel, Kurt 38, 41, 143, 148–152 Google 385, 455 GoogleCruncher 468
Gütemaß 221, 224 für Klassifikatoren 267 Lift 221 Gütemaß Konfidenz 221
H H2O 392 HAL9000 479 Hebb'sche Lernregel 244 Hebb, Donald 244 Heuristik 114, 310 Hexadezimalsystem 98 Hex‐Code 97 Hidden‐Schicht 275 Hilbert, David 38 Hornklausel 144
I Identitätstheorie 414 Ilastik 392 Implikation 123–124, 126 Individualvariable 136 Induktion 146 Methode 56, 164 vollständige 146 Induktive Künstliche Intelligenz 157, 447 Induktive Methode 164
Inferenzkomponente 102–103 Information gain 207 Informationsgehalt 83–84 einer Zeichenkette 83 mittlerer 83 Informationsgewinn 207 Informationsmenge 88 semantische 89, 92 syntaktische 88 Intelligenz codierte 34 emotionale 30 Intelligenzstufe I1 45 Intelligenzstufe I2 49 Intelligenzstufe I3 60 Intelligenzstufe I4 66 Intelligenzstufe I5 68 Interessantheit 223 Internet of Things 328 Intervallskala 172 Inverses Modell 193 IQ 30, 405, 407
J Jubatus 392 Julia 392 Junktor 124
K Kalkül 132 Kempelen, Wolfgang von 37 KERAS 392 Kernel‐Funktion 282 Kettenregel logische 120 KNIME 392, 397–398 Kognitive KI 447 Kommunikationsschema 93 Konfidenz 213 Gütemaß 221 Konjunktion 123 Konklusion 120 Konstruktionssystematik 61 Korrelation nichtlokale 454, 455, 459, 460 stochastische 184, 187 Korrelationsanalyse 184, 189 Korrelationskoeffizient 185, 187 Korrelationsverfahren 171 Kreuzvalidierung 272 Kreuzvalidierung zehnfach 272 Kunst 336 Künstliche Intelligenz Ethik Netzwerk 467
Künstliche Neuronale Netze (KNN) 113, 159
L Lamda 72, 333 LabelImg 392 LabelMe 392, 399 LanguageWare 392 Leonardischer Eid 466 Lernverfahren bestärkendes 242 selbstorganisierende Merkmalskarte 258 überwachtes 242 unüberwachtes 242 LIBLINEAR 392 LIBSVM 392 Lift 221 Gütemaß 221 Lineares Modell 193 Linguamatik 392 Literal 141 Loebnerpreis 72 Logik 120, 122, 131–132, 136, 140 Kalkül 132 Prädikaten 136 sprachliche 121 Tautologie 128 Logistisches Modell 193
LSTM‐Netz 253, 254
M MALLET 392 Maschinelles Bewusstsein 454 Maschinencode 102 Mathematische Theorie der Kommunikation 81 MATLAB 392, 395–396 McCarthy, John 39 Medizin 334 Memristor 451, 452 Merkmalskarte 256 selbstorganisierende 256–257 MerlinOne 382 Methode 52, 55–56, 164 abduktive 55 Blackboxbox 164 deduktive 52, 115, 164 induktive 56, 115, 164 Whitebox 164 Microsoft Cognitive Toolkit 392 Mikrofunktionalismus 416 Missing values 206 mittlerer 84 ML.NET 392 MLPACK 393 MLPY 393
MOA 393 Modeling 351 Modellbildung mit neuronalen Netzen 360 statistische 359 Modelleringsmethode empirische 165 Modellierungsverfahren 163 Modus ponens 131, 140 Monismus 414 Multi‐Agenten‐System 106, 108 Multi‐Layer‐Perceptron 235
N Nachricht quantitative Bedeutung 90 NetOwl 393 Netz semantisches 110 Netzwerkarchitektur neuronaler Netze 235 Neuromorphe Computer visuelle 439 Neuromorphe KI 450, 452 Neuron binäres 228 drei (und vier) binäre Neuronen 236 zwei binäre Neuronen 235
Neuronale Aktivitätszustände 409 Neuronaler Designer 393 Neuronales Korrelat 67 Neuronales Netz Anatomie 424 Neuronen 237 Neuronenaktivität 227 Neuronenausgang 231 Neuronenmodell 226 Neuronenverband 431 Neurotransmitter 425 Nominaldaten 172 Nominalskala 172 NOR 134 NOR‐Gatter 134
O Objektsprache 149 ODER/OR 123 Online‐Steuerung des Prozesses 364 OpenNN 393 Oracle Data Mining 393 Orange 393 Ordinaldaten 172 Ordinalskala 172 out 234 Overfitting 224, 268, 270
P Paradoxon von Simpson 462 Parker, Sean 383 Pawlow'sches Experiment 244 Peano‐Arithmetik 147, 304 Penrose, Roger 297–299, 304, 419 Perceptron 228, 230 Perceptron‐Netzwerk 235 Physikalische Symbol System Hypothese 294 Piranha 393 PL1 137 PL2 144 Polynomlinie 197 Popper, Karl 57 Potenzmodell 193 Prädikatenlogik 137, 139, 144 Pragmatik 93 Prewitt‐Operator 279 Problem des Generalisierens 268 Produktmarketing 352 Prozessdiagnose 352 Prozessindustrie 355 Prozessoptimierung 353 Prozessplanung 353 Prozessprognose 353 Prozessüberwachung 353
Pruning 270 PyCharm 393 Python 396 PyTorch 393
Q Qualia 67, 433 Definition 409 Qualitätssicherung 353 Quantencomputer 436, 454–461 Quantenphysik 436 Quantendaten 457 Quantenverschränkung 454, 455 Quaternionen 435 Qubit Defintion 454 Qwant 387
R R 393, 396 Rampen‐Funktion lineare 231 Rapid Miner 393 Recyclingindustrie 357 Reduzierung von Freiheitsgraden 270 Regler adaptiver 49
Reglerentwurf 49 Reglerprogramm 48 Regressionsanalyse 189–190 Regressionsbaum 216 Regressionsfunktion 195 Regressionsschätzung 197 Reinforcement learning 242 Reiz‐Reaktion‐Verhalten 46 Relais 96 Resolutionskalkül 140 Rezeptor 425 RFID 328–329 RNN 393 Roth, Gerhard 420, 423
S SAS 393 Satzsemantik 86 Satz von Rice 67, 301, 302 Scharniermodell neuronales 361 Schätzer numerischer 267 Schließende Statistik 168 Schlussfolgern mit Resolutionskalkül 140 Schwache KI 34, 447
Scikit 393 Sehen maschinelles 288, 289, 441 neuromorph 441 Selbstorganisierende Merkmalskarte 256–257 Anwendungsphase 258 Clusteranalyse 263 Ergebnisdarstellungen 258 inverse Funktionen 265 Lernverfahren 258 Self‐Organizing‐Map 256 Semantic Web 112 Semantik 86, 122 Semantisches Netz 110 Sensitivitätsanalyse 363 Shannon, Claude 81, 84 Shogun 393 Singer, Wolf Joachim 112, 417 Sobel‐Operator 280 Social Media 464 SOM‐Karte siehe Selbstorganisierende Merkmalskarte 263 Spikerate 426 Spiking Neural Networks (SNN) 451 Sprache formale 121 Spracherkennung 333 Sprachsteuerung 333
Sprach‐Übersetzung 334 SPSS 393 Spyder 394 Starke KI 35, 454 Statistik 167 deskriptive 167–168 explorative 168 schließende 168–169 univariate 174 Statistische Modellbildung 359 Steuerung 47 Stratifikation 271 Streudiagramm 177 Streuung 196 Strukturanalyse 180 Substanzdualismus 413 Supervised learning 242 Support 213, 221 Syllogismus 120 Symbolmanipulation 303 mechanisierbare 299 Synapse 424, 425 Synchronizitäten 431 Syntaktische Menge 81
T Tanagra 394
Tautologie 128 Logik 128 Technische Singularität 431 TensorFlow 394, 398 Topografisches Produkt 266 Torch 394 Transhumanismus 460, 461, 475 Transorganismen 453 TRIZ 61 Turing, Alan 38, 143 Turing‐Maschine 296 Turing‐Test 70, 73 auf Bewusstsein 441
U Überanpassung 224, 268, 270 Überwachtes Lernverfahren 242 Übetragungsfunktion eines Neurons 227 UND/AND 123, 124 Unsupervised learning (Unüberwachtes Lernverfahren) 242 User Interface 105
V Vaucanson, Jacques de 37 Verbmobil 334 Verhältnisskala 172
Verknotungsmaß 266 Verschränkung von Quanten 454, 455 Versuchsplanung 359 Vertrauensgrenzen von Schätzungen 272 VIGRA 394 Viskosität 208, 211 Visual Studio Code mit Python‐Plugin 394 Vowpal 394
W Wahrheit als Kongruenzbegriff 52 als Konsensbegriff 52 Wahrscheinlichkeitstheorie 168 Watson 323 Weka 394 Weizsäcker, Carl Friedrich von 418 Wellenfunktion 419 WENN‐DANN 123–124, 126 What‐if‐Analyse 362 Whitebox‐Methode 164 Wissensbasiertes System (WBS) 106 Wissensbasis 102–103 Wissenschaft 336 Wissenserwerbskomponente 102, 104 Wissensrepräsentation 105 Wolfram Mathematica 394
World Wide Web 111
X x‐y‐Scatterplot 177
Y Yooreeka 394
Z Zahlen reelle 98 hyperkomplexe 435 komplexe 434 Z1 (Computer) 95 Z3 (Computer) 96 Zehnfach‐Kreuzvalidierung 272 Zeichenkette 83 Zentrale Produktionsplanung 329 Zeroth 394 Zustände mentale 407, 409, 414–417 neuronale 409, 414 Zusammenhangsanalyse 180 Zuse, Konrad 95
WILEY END USER LICENSE AGREEMENT Besuchen Sie www.wiley.com/go/eula, um Wiley's E-Book-EULA einzusehen.