449 128 1MB
German Pages X, 165 [170] Year 2020
Phil Wennker
Künstliche Intelligenz in der Praxis Anwendung in Unternehmen und Branchen: KI wettbewerbs- und zukunftsorientiert einsetzen
Künstliche Intelligenz in der Praxis
Phil Wennker
Künstliche Intelligenz in der Praxis Anwendung in Unternehmen und Branchen: KI wettbewerbs- und zukunftsorientiert einsetzen
Phil Wennker Bochum, Deutschland
ISBN 978-3-658-30479-9 ISBN 978-3-658-30480-5 (eBook) https://doi.org/10.1007/978-3-658-30480-5 Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung des Verlags. Das gilt insbesondere für Vervielfältigungen, Bearbeitungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Die Wiedergabe von allgemein beschreibenden Bezeichnungen, Marken, Unternehmensnamen etc. in diesem Werk bedeutet nicht, dass diese frei durch jedermann benutzt werden dürfen. Die Berechtigung zur Benutzung unterliegt, auch ohne gesonderten Hinweis hierzu, den Regeln des Markenrechts. Die Rechte des jeweiligen Zeicheninhabers sind zu beachten. Der Verlag, die Autoren und die Herausgeber gehen davon aus, dass die Angaben und Informationen in diesem Werk zum Zeitpunkt der Veröffentlichung vollständig und korrekt sind. Weder der Verlag, noch die Autoren oder die Herausgeber übernehmen, ausdrücklich oder implizit, Gewähr für den Inhalt des Werkes, etwaige Fehler oder Äußerungen. Der Verlag bleibt im Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und Institutionsadressen neutral. Planung/Lektorat: Imke Sander Springer Gabler ist ein Imprint der eingetragenen Gesellschaft Springer Fachmedien Wiesbaden GmbH und ist ein Teil von Springer Nature. Die Anschrift der Gesellschaft ist: Abraham-Lincoln-Str. 46, 65189 Wiesbaden, Germany
Vorwort
Künstliche Intelligenz ist eins der überstrapaziertesten Schlagwörter der jüngsten Vergangenheit. Unternehmen werden gezwungen, künstliche Intelligenz in ihre Abläufe zu implementieren, um nicht in kürzester Zeit vom Markt zu verschwinden. Gleichzeitig gilt künstliche Intelligenz zuweilen auch als reine Scharlatanerie, die nie zu etwas Produktivem führen wird. An diesen Widersprüchen sind Wissenschaftler und Entwickler rund um künstliche Intelligenz nicht ganz unschuldig, wie ein Blick in die bewegte Geschichte der KI zeigt, die in Kap. 1 kurz geschildert wird. In den letzten Jahren hat sich die Leistungsfähigkeit intelligenter Systeme dramatisch verbessert. So waren die ersten Versuche bei der Bilderkennung oder beim Verarbeiten natürlicher Sprache abseits der akademischen Erkenntnisse in der Praxis unbrauchbar. Die Entwicklung von dezidierter Hardware sowie von großen Serververbänden und der rasante Anstieg des Datenvolumens, das zu Trainingszwecken genutzt werden kann, haben zu einer immer schneller voranschreitenden Entwicklung von Machine und Deep Learning geführt – die Eckpunkte dessen, was wir gemeinhin meinen, wenn wir künstliche Intelligenz sagen. v
vi Vorwort
Gleichzeitig gibt es, besonders in Deutschland, eine große Unsicherheit in Unternehmen darüber, was mit künstlicher Intelligenz möglich ist und wie diese Geschäftsziele und Produktentwicklungen beeinflussen kann. Oft befeuert von Angeboten eher okkulter Art, die das Label künstliche Intelligenz auf ein Produkt oder eine Dienstleistung anwenden, die jedoch gänzlich unintelligent sind und oft in herben Enttäuschungen und einer weiteren Anekdote aus dem Bereich „KI ist Scharlatanerie“ enden. Dieses Buch ist keine Anleitung zur Implementierung von Machine-Learning-Modellen mit einem Framework der Wahl, ebenso wenig ist es eine esoterische Abhandlung, über die Gefahren von künstlicher Intelligenz für die Gesellschaft. Die Technologie hinter künstlicher Intelligenz und neue spannende Geschäftsmodelle entwickeln sich kontinuierlich weiter – kein Buch der Welt kann damit Schritt halten. Die in diesem Buch vorgestellten Unternehmen bzw. ihre Anwendungen sind ausgewählt worden, weil ihr Produkt künstliche Intelligenz für einen neuen, innovativen Ansatz nutzt oder bahnbrechend in seinen Auswirkungen war. Ich bin sicher, es gibt hunderte innovative Start-ups oder Unternehmen, die ebenso beachtenswerte Entwicklungen vorzeigen können und es verdient hätten, erwähnt zu werden. In dieser Gemengelage aus progressiven Ideen, anspruchsvoller Materie und Halbinformationen, hoffe ich mit diesem Buch eine Orientierung zu geben, was künstliche Intelligenz in verschiedenen Geschäftsfeldern leisten kann und was nicht. E-Mail: [email protected] Bochum Juni 2020
Phil Wennker
Inhaltsverzeichnis
1
Künstliche Intelligenz – Eine kurze Geschichte 1 1.1 Die Geburtsstunde der künstlichen Intelligenz 2 1.2 Erster KI-Winter 3 1.3 Expertensysteme 4 1.4 Zweiter KI-Winter 5 1.5 Intelligente Agenten 5 Literatur 8
2
Machine Learning 9 2.1 Wie Maschinen lernen 10 2.1.1 Prozess des Lernens 10 2.1.2 Machine Learning – Maschinelles Lernen 12 2.1.3 Supervised Learning – Überwachtes Lernen 12 2.1.4 Unsupervised Learning 15 2.1.5 Reinforcement Learning – Verstärkendes Lernen 16 2.1.6 Automated Machine Learning 17 2.2 Künstliches neuronales Netz 18 2.2.1 Wie neuronale Netze lernen 20 vii
viii Inhaltsverzeichnis
2.2.2
Over- und Underfitting in neuronalen Netzen 25 2.2.3 Rekurrente neuronale Netze 26 2.2.4 Convolutional Neural Networks (CNN) 27 2.2.5 Tiefe Convolutional Neural Networks 29 2.2.6 Generative Adversarial Networks (GAN) 30 2.2.7 Transformer 31 2.2.8 Transfer Learning 34 2.2.9 Relation Networks, Graph Networks 35 Literatur 37 3
Künstliche Intelligenz im Marketing 39 3.1 Targeting 40 3.2 Content Creation 44 3.3 Texterstellung 46 3.4 Content-Verbesserung 51 3.5 Customer Experience Management 52 Literatur 54
4
Künstliche Intelligenz in Human Ressources 57 4.1 Recruiting 58 4.2 Onboarding 59 4.3 Qualifizierung 59 4.4 Beförderungen 60 4.5 Mitarbeiter-Retention 61
5
Künstliche Intelligenz im Gesundheitssystem 63 5.1 Bildgebende Diagnostik 64 5.2 Diagnostik 65 5.3 Verlaufsvorhersagen 66 5.4 Wirkstoffentwicklung und Pharmaforschung 68 5.5 Aufklärung 75 5.6 Pflege 75 5.7 Covid-19 77 5.8 Roboter als Frontline Worker 78 Literatur 80
Inhaltsverzeichnis
ix
6
Künstliche Intelligenz im Einzelhandel 83 6.1 Recommendation Engines 84 6.2 Kassenlose Supermärkte 87 6.3 Customer-Service-Roboter 91 6.4 Chatbots 92 6.5 Pricing 94 6.6 Inventar 95 6.7 Visual Search 96 6.8 Voice Search 97 6.9 Diebstahlschutz 99 Literatur 101
7
Künstliche Intelligenz im Bereich Finanzen 103 7.1 Vertragswesen 104 7.2 Aktienmarkt 105 7.3 Inverse Reinforcement Learning 107 7.4 Fraud Detection 108 7.5 Robo Advisors 109 7.6 Versicherungen 111 7.6.1 Schadensregulierung 113 7.6.2 Lebensversicherungen 114 7.6.3 Beratung 115 7.6.4 Verhaltensbasierte Versicherungen 116 Literatur 116
8
Künstliche Intelligenz in Logistik, Lieferkette und Inventar Management 119 8.1 Vorhersage von Nachfrage 120 8.2 Fulfillment 121 8.3 Routenoptimierung Middle Mile 122 8.4 Prozessoptimierung 123 8.5 Retourenmanagement 123 8.6 Routenplanung 125 8.7 Autonome Vehikel 126 Literatur 129
x Inhaltsverzeichnis
9
Künstliche Intelligenz in der Industrie 131 9.1 Robotik 131 9.2 Predictive Maintenance 134 9.3 Produktentwicklung 136 9.4 Qualitätssicherung 137 9.5 Prozessoptimierung 138 Literatur 140
10 Künstliche Intelligenz in der Landwirtschaft 141 10.1 Getreideanbau und Pflanzenzucht 142 10.2 Autonome Roboter 145 10.3 Wettervorhersage 147 10.4 Saatvorhersage 147 Literatur 149 11 Künstliche Intelligenz in der Sicherheitstechnik 151 11.1 Predictive Policing 151 11.2 Überwachung 153 11.3 Drohnen 154 11.4 Erkennung von Vermissten 156 11.5 Ballistische Untersuchungen 157 11.6 Katastrophenschutz und Hilfe 157 11.7 Cyber Security 158 Literatur 162 Ausblick 163
1 Künstliche Intelligenz – Eine kurze Geschichte
Digitale Transformation, Industrie 4.0, künstliche Intelligenz – Schlagworte der vergangenen Jahre dominieren die Diskussion um die Richtung und Entwicklung von Unternehmen und ganzer Geschäftsfelder. Künstlicher Intelligenz (KI) wird hierbei sowohl die Rolle als Heilsbringer und Damoklesschwert zugesprochen. Die Interpretation von den Möglichkeiten künstlicher Intelligenz im gesellschaftlichen und Unternehmensalltag reicht von vollautonomen Robotern, die menschliche Arbeitskraft komplett ersetzen bis hin zu einer Blase, die bald platzen und keinen nennenswerten nachhaltigen wirtschaftlichen Effekt haben wird. In dieselbe Kerbe schlagen Studien, die zeigen, dass knapp 40 % der als KI-Start-ups gehandelten Unternehmen gar keine künstliche Intelligenz nutzen [1]. Laut einer Studie des Bundeswirtschaftsministeriums nutzen gerade einmal 6 % aller deutschen Unternehmen künstliche Intelligenz [2]. Daran sind Wissenschaft und Forschung rund um künstliche Intelligenz und autonome Agenten nicht ganz unschuldig. Allzu euphorisch waren die Prognosen in der Frühzeit der künstlichen Intelligenz. Gepaart mit popkulturellen Darstellungen von autonomen © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 P. Wennker, Künstliche Intelligenz in der Praxis, https://doi.org/10.1007/978-3-658-30480-5_1
1
2 P. Wennker
Tötungsmaschinen oder wahnsinnig gewordenen Computern, ergibt sich eine Gemengelage, die es Unternehmen zusehends schwieriger macht, realistische Erwartungen an den unternehmerischen Wert des Einsatzes künstlicher Intelligenz zu setzen. Hinzu kommen nicht klar definierte Begriffe wie Machine Learning, Deep Learning und schwacher und starker künstlicher Intelligenz, um nur einige zu nennen. Wie bei fast allen neuen Technologien durchlief die Entwicklung der künstlichen Intelligenz Zyklen von großer Begeisterung und Aufmerksamkeit, gefolgt von Jahren nur marginaler Entwicklung und Förderung. Künstliche Intelligenz ist es hier genauso ergangen wie Elektrizität, Eisenbahnen oder der Dotcom-Blase, gemeinhin im Englischen beschrieben als Hype Cycle. Auf überbordende Versprechen folgten Phasen tiefer Ernüchterung, gefolgt von wieder ansteigendem Interesse und zunehmend praktischeren Anwendungen.
1.1 Die Geburtsstunde der künstlichen Intelligenz Künstliche Lebewesen, die zu formellem Denken fähig sind, beschäftigen Philosophen und frühe Naturwissenschaftler in fast allen Kulturen und Gesellschaften. Gemeinhin wird die Dartmouth Conference – Dartmouth Summer Research Project on Artificial Intelligence im Sommer des Jahres 1956 als akademische Geburtsstunde der künstlichen Intelligenz betrachtet. Auszüge aus dem Förderantrag der Konferenz beschreiben die Forschungsziele als: „The study is to proceed on the basis of the conjecture that every aspect of learning or any other feature of intelligence can in principle be so precisely described that a machine can be made to simulate it.“ [3]. In den auf die Dartmouth Conference folgenden Jahren wurden bis dato für unmöglich gehaltene Fortschritte im Bereich der künstlichen Intelligenz gemacht (ELIZA, STRIPS), die dazu führten, dass Forscher sich optimistisch über zukünftige Entwicklungen äußerten, so zum Bei-
1 Künstliche Intelligenz – Eine kurze Geschichte 3
spiel H.A. Simon: „Machines will be capable, within twenty years, of doing any work a man can do.“ [4].
1.2 Erster KI-Winter Angetrieben von diesen Versprechen investierten Regierungsorganisationen Millionen in die Erforschung von künstlicher Intelligenz, nicht zuletzt um einen Vorteil im kalten Krieg zu erhalten. Stellvertretend soll die Erforschung von maschineller Übersetzung genannt werden, die Probleme und technische Entwicklungen in den folgenden Jahren verdeutlicht: Die US-amerikanische DARPA (Defense Advanced Research Projects Agency) investierte bis in die Sechzigerjahre 20 Mio. US$ in die Entwicklung von Systemen, die eine Übersetzung vom Russischen ins Englische ermöglichen sollten. Forschungen in diesem Bereich des Natural Language Processing erreichten schnell ihre Grenzen, zum einen durch fehlende Rechenleistung der damaligen Computer, zum anderen durch ein Problem, das heute noch viele Bereiche der künstlichen Intelligenz vor Herausforderungen stellt: fehlendes Hintergrundwissen. Um eine Sprache mit Umschreibungen, Idiomen, Disambiguationen usw. zu verstehen, muss ein System auf eine große Datenbank mit Informationen zur beschriebenen Welt zugreifen können. In den Sechzigerjahren unmöglich. Es folgte, was kommen musste: Die Geldgeber waren mit den langsamen Fortschritten unzufrieden und setzten eine Kommission zur Überprüfung der Ergebnisse ein. Der im Jahr 1966 veröffentlichte ALPAC (Automatic Language Processing Advisory Comitee) Report kam zu dem Schluss, dass maschinelle Übersetzungen langsamer, weniger genau und deutlich teurer waren als menschliche Übersetzer. In denselben Zeitraum fiel der Lighthil Report (1973) im Vereinigten Königreich, der zur fast vollständigen Beendigung von Forschungen im Bereich künstlicher Intelligenz in Großbritannien führte. Auch wenn damit die erste Epoche der Künstlichen-Intelligenz-Forschung mehr oder weniger abrupt zum
4 P. Wennker
Ende kam, wurden in den Anfangsjahren einige wichtige Entdeckungen gemacht, vom Perceptron, das Jahre später im Bereich der neuronalen Netze eine Renaissance erlebt bis hin zu Sprachassistenten (Speech Understanding Research an der Carnegie Mellon University).
1.3 Expertensysteme Die zweite Welle der künstlichen Intelligenz wurde von Expertensystemen begründet. Diese Systeme wurden entwickelt, um in einem sehr engen Themenfeld regelbasierte Antworten zu geben. Erste Aufmerksamkeit erlangte MYCIN, entwickelt um 1972 an der Stanford University. MYCIN zeigte bereits alle Attribute späterer Expertensysteme: Anhand von Fragen, die ein Arzt zu einem Patienten mit Ja oder Nein beantworten musste, schloss das System auf eine Bakterieninfektion und empfahl ein Antibiotikum nebst Dosierung. Aufgrund ethischer und rechtlicher Bedenken wurde MYCIN nie in der Praxis eingesetzt, lieferte aber die Schablone für folgende Expertensysteme. DEC, ein Hersteller von VAX-Computern führte mit dem R1/ XCON das erste produktive Expertensystem ein. Bestellungen von Computerhardware waren 1980 fehleranfällig und damit kostspielig. Falsche Treiber, Kabel oder Platinen sorgten für unzufriedene Kunden und Kosten für Nachlieferungen. Basierend auf 2500 Regeln gab der R1 den Verkäufern Fragen vor, anhand dessen eine sinnvolle Bestellung zusammengefügt werden konnte. Die geschätzten Einsparungen durch den Einsatz von R1 beliefen sich auf 25 Mio. US$ pro Jahr. Dem Beispiel folgend investierten Unternehmen 1985 eine Milliarde US-Dollar in die Entwicklung eigener Expertensysteme. Um diese Expertensysteme entwickelte sich schnell eine eigene Industrie, die Hard- und Software bereitstellte. 1982 widmete das japanische Ministerium für Handel und Industrie das Äquivalent von 850 Mio. US$ dem Ziel, einen Computer bzw. eine Software zu entwickeln, die Bilder erkennen, Übersetzungen liefern und argumentieren können sollte wie ein menschliches Wesen, das sog. Fifth Generation Computer Project.
1 Künstliche Intelligenz – Eine kurze Geschichte 5
Andere Nationen, allen voran die USA, sahen von der Fifth Generation Computer Project Initiative die eigene technologische Vormachtstellung bedroht und starteten eigene Initiativen. Die von der US-Regierung finanzierte Strategic Computing Initiative verschlang mehr als eine Milliarde US-Dollar, um innerhalb von zehn Jahren eine komplette Maschinenintelligenz zu schaffen. Ein ähnliches privatwirtschaftliches Engagement ging in den USA von der Microelectronics and Computer Technology Corporation aus. In Großbritannien wurde von der Regierung analog das Programm Alvey gefördert.
1.4 Zweiter KI-Winter Ende der Achtzigerjahre begann der Stern der Expertensysteme und der Industrie, die sich um sie herum gebildet hatten, zu sinken. IBM und Apple präsentierten erste Computer, deren Leistung die spezialisierten Systeme, wie z. B. die Lisp Maschine, auf der Expertensysteme beruhten, in den Schatten stellten. Für Unternehmen wurde es zusehends unwirtschaftlich, in dezidierte Hardware und schwer zu wartende und updatebare Systeme zu investieren. Gleichzeitig wurden die Resultate des Fifth Generation Computer Projects evaluiert und zeigten, dass viele der hochgesteckten Ziele nicht annähernd erreicht wurden. Ähnlich erging es der Strategic Computing Initiative und Alvey, die keine weitere Förderung mehr erhielten. Nichtsdestotrotz wurden in den Achtzigerjahren für die künstliche Intelligenz wichtige Errungenschaften entwickelt, die in folgenden Jahren die Entwicklung maßgeblich beeinflussen sollten, wie das Hopfield Netz und Backpropagation.
1.5 Intelligente Agenten In den Neunzigerjahren und frühen Zweitausenderjahren erhielt eine Gattung von intelligenten Agenten Aufmerksamkeit. Einem breiten Publikum wurden diese vor allem durch medienwirksame Auftritte, wie
6 P. Wennker
z. B. die Schachmatches zwischen Gary Kasparov und IBMs Deep Blue, bekannt. Unter dem Begriff intelligente Agenten wurden Systeme zusammengefasst, die ihre Umgebung wahrnehmen und Handlungen vornehmen, die ihre Chancen auf Erfolg erhöhen [5]. Nach dieser recht umfassenden Definition sind einfachste Computerprogramme bis hin zu hochkomplexen Lebewesen, wie Menschen intelligente Agenten. Davon abgeleitet ergibt sich die Definition von AI als „das Studium von intelligenten Agenten“ (ebd.). Judeas Pearl brachte mit seinem bahnbrechenden Werk „Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference“ [6] viele der heute etatmäßig angewendeten Werkzeuge in die Welt der künstlichen Intelligenz. Durch die Kombination von Theorien aus der Wirtschaft, Spieltheorie, Sozialwissenschaften und Informatik ergab sich Ende der Neunziger ein System, das es auf Basis einer einheitlichen mathematischen Notation ermöglichte, viele komplexe Probleme kleinteilig zu lösen. Die große, umfassende, allgemeine, generelle künstliche Intelligenz trat in den Hintergrund. Genauso wie der Begriff künstliche Intelligenz selbst, auch wenn zu diesem Zeitpunkt entscheidende Entwicklungen forciert wurden, die wir heute ganz selbstverständlich zum Themenfeld der künstlichen Intelligenz zuordnen, wie z. B. selbstfahrende Autos: Als die New York Times 2005 über eine DARPA (Defense Advanced Research Project Agency) Challenge berichtete, in der Fahrzeuge autonom 132 Meilen durch die Wüste fahren sollten, konsternierte die Times [7], „At its low point, some computer scientists and software engineers avoided the term artificial intelligence for fear of being viewed as wild-eyed dreamers.“ („An seinem Tiefpunkt vermieden einige Informatiker und Softwareingenieure den Begriff künstliche Intelligenz aus Angst, als wilde Träumer angesehen zu werden.“). Nachwirkungen der vorangegangenen AI-Winter. Dies änderte sich in den 2000er Jahren zusehends, als durch fortschreitende Digitalisierung der Arbeitswelt und des Privatlebens und nicht zuletzt durch das Internet und die zunehmende Vernetzung, immer größere Datenmengen anfielen, die mit hergebrachten
1 Künstliche Intelligenz – Eine kurze Geschichte 7
Methoden nicht mehr oder nur unzureichend sinnstiftend zu analysieren waren. Die Unternehmensberatung McKinsey kam 2011 in ihrem vielbeachteten Report „Big data: The next frontier for innovation, competition, and productivity“ [8] zu der Einschätzung, die Analyse großer Datenmengen „wird zu einer wichtigen Grundlage des Wettbewerbs werden, die neue Wellen des Produktivitätswachstums, der Innovation und der Konsumentenrente untermauert“ („will become a key basis of competition, underpinning new waves of productivity growth, innovation, and consumer surplus“) – und nur vier Jahre später lässt sich unsere Bundeskanzlerin mit dem Satz „Big Data ist keine Bedrohung, sondern die Wertschöpfungsmöglichkeit der Zukunft“ zitieren. Mittlerweile durchdringen viele Anwendungen der künstlichen Intelligenz unseren Alltag, oft ohne dass wir es noch bemerken und vorangetrieben von technikzentrierten US-Konzernen, allen voran Google, Apple, Facebook und Amazon. Diese, meist auf tiefen neuronalen Netzen basierenden Anwendungen, erledigen enggefasste Aufgaben auf einem Niveau, das dem des Menschen gleich kommt oder es sogar übertrifft. Man spricht von schwacher oder enger künstlicher Intelligenz. Die in den Medien dargestellte künstliche Intelligenz, die alle an sie gerichteten Aufgaben mit gleicher Effizienz erledigt und menschengleich jede Aufgabe erlernen kann, wird künstliche generelle Intelligenz (Artificial General Intelligence) genannt. Ob und wann wir künstliche generelle Intelligenz erlangen, ist strittig. Befragungen von Forschern, die sich mit dem Thema befassen, rangieren von 2030 bis zum Jahr 2060. Ähnlich zu den Intelligenten-Agenten-Systemen der Neunzigerjahre wachsen langsam Zweifel, ob mit der bisherigen Klasse von Algorithmen künstliche generelle Intelligenz überhaupt erreicht werden kann. Es ist zweifelhaft, ob genug Daten vorhanden sind, um ein System zu befähigen über mehrere Anwendungszwecke hinweg intelligente Entscheidungen zu treffen. Eine jüngst veröffentlichte Plattform, die es ermöglichen soll, neue Wege zur künstlichen generellen Intelligenz zu finden ist Brain Simulator II (https://futureai.
8 P. Wennker
guru/brainsim.aspx). Diese soll integrierte Module für Sicht, Gehör, Kontrolle eines Roboters, Lernen, Modellierung sowie Planung und Vorstellung als End-zu-End-Lösung etablieren. Nichtsdestotrotz entwickelt sich die Forschung und damit auch die Befähigung von neuronalen Netzen und künstlicher Intelligenz rasant und dringt in kognitive Bereiche vor, die bisher dem Menschen vorbehalten waren.
Literatur 1. Olson, P. (04.03.2019). Nearly half Of all ‘AI Startups’ are cashing in on hype. https://www.forbes.com/sites/parmyolson/2019/03/04/nearly-half-ofall-ai-startups-are-cashing-in-on-hype/#38a6b48fd022. Zugegriffen: 03. Juli 2020. 2. Manager Magazin (30.03.2020). Kaum 6 Prozent der Firmen nutzen Künstliche Intelligenz. https://www.manager-magazin.de/unternehmen/ industrie/kuenstliche-intelligenz-knapp-sechs-prozent-der-firmen-sindnutzer-a-1305836.html. Zugegriffen: 03. Juli 2020. 3. McCarthy, J., Minsky, M. L., Rochester, N., & Shannon, C. E. (31.8.1955). Proposal for the dartmouth summer research project on artificial intelligence. http://www-formal.stanford.edu/jmc/history/ dartmouth/dartmouth.html. Zugegriffen: 03. Juli 2020. 4. Simon, H. A. (1965). The shape of automation for men and management (S. 96). New York: Harper & Row. 5. Russel, S., & Norvig, P. (2003). Artificial intelligence: A modern approach (2. Aufl.). Prentice Hall. 6. Pearl, J. (1988). Probabilistic reasoning in intelligent systems: Networks of plausible inference San Mateo. California: Morgan Kaufmann. 7. Markoff, J. (13.10.2005). AI reemerges from a funding desert. https://www. nytimes.com/2005/10/13/business/worldbusiness/ai-reemerges-from-afunding-desert.html. Zugegriffen: 09. Juni 2020. 8. McKinsey Global Institute. (01.05.2011). Big data: The next frontier for innovation, competition, and productivity. https://www.mckinsey.com/ business-functions/mckinsey-digital/our-insights/big-data-the-next-frontierfor-innovation. Zugegriffen: 3. Juni 2020.
2 Machine Learning
Im Bereich der künstlichen Intelligenz werden unterschiedliche Begrifflichkeiten nicht immer trennscharf genutzt. Künstliche Intelligenz, Deep Learning, Expertensysteme, Machine Learning beschreiben alle artverwandten Technologien, sind aber nicht synonym. Während AI oder künstliche Intelligenz eine Art Mantelbegriff ist, der alle Anwendungen zusammenfasst, die in irgendeiner Form Intelligenz zeigen, ist Machine Learning der Prozess aus Daten zu lernen und Schlüsse zu ziehen. Deep Learning ist ein Teilbereich des Machine Learnings der auf tiefe künstliche neuronale Netze setzt, um kontinuierlich zu lernen und Erlerntes bei weiteren Interaktionen mit der Welt anzupassen und zu modifizieren. Allen eingesetzten Technologien liegt ein ähnlicher Prozess zugrunde, der für eine erfolgreiche Durchführung eines Machine-Learning-/ Künstliche-Intelligenz-Projekts notwendig ist. Je nach gewählter Technologie, Plattform, bzw. gewähltem Algorithmus oder Datensatz können sich graduelle Unterschiede ergeben.
© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 P. Wennker, Künstliche Intelligenz in der Praxis, https://doi.org/10.1007/978-3-658-30480-5_2
9
10 P. Wennker
2.1 Wie Maschinen lernen 2.1.1 Prozess des Lernens Grundsätzlich lässt sich der Prozess einer Machine-Learning-Initiative wie folgt darstellen. Je nach Aufgabenfeld und gewählten Algorithmen und Modellen kommt es zu graudellen Unterschieden, ein Natural-Language-Processing-Projekt benötigt andere Modelle und andere Daten als ein rein auf numerischen Daten basierendes Projekt. So gut wie jedes Projekt für Machine Learning oder künstliche Intelligenz oder generell Data Science beginnt mit dem Schritt des Data-Pre-Processing, d. h. dem Aufbereiten der Daten in eine Form, die für die weiteren Arbeiten unerlässlich ist. Das Pre-Processing ist der wichtigste Schritt in einem Machine-Learning-/KI-Projekt. Getreu dem Motto „Garbage in, Garbage out“ führen fehlerhafte, fehlende oder redundante Daten sonst zu unerwarteten und vor allem unerwünschten Ergebnissen. Nicht selten entfällt auf das Pre-Processing 80 % der gesamten Arbeit an einem Projekt. Dabei reicht die Vorbereitung der Daten von rein formalen Aspekten, wie z. B. Codierung der Daten, über Normalisierung bis hin zur Überprüfung, ob ein Datensatz in sich stimmig ist, z. B. negative Quadratmeterzahl eines Hauses. Feature Engineering bietet die Möglichkeit, Expertenwissen auf die Daten anzuwenden, um so aussagekräftigere Input Features für einen Algorithmus oder ein Modell zu definieren. Gleichzeitig kann Feature Engineering auch helfen, die Dimensionalität der Daten zu reduzieren. Ein einfaches Beispiel für Feature Engineering: Ein Machine-Learning-Modell soll vorhersagen, welche Kleider im nächsten Frühjahr gekauft werden. Dazu werden sämtliche Abverkaufsdaten der letzten zehn Jahre bereitgestellt. Das Attribut Farbe zeigt dabei Werte wie Rot, Magenta, Koralle, Ziegelrot, Feuerrot mit jeweils wenigen Verkäufen. Analog dazu verschiedenste Blau- und Grüntöne. In diesem Fall kann es helfen, alle Rottöne, alle Blautöne, alle Grüntöne als Grundfarbe Rot, Grün, Blau, …, zu zählen und nicht in den Einzelausprägungen, um die Vorhersagequalität zu erhöhen und die
2 Machine Learning 11
Dimensionen zu reduzieren. Im Praxiseinsatz stellt dies eine besondere Herausforderung dar, da für die KäuferInnen die Schattierung des Farbtons durchaus von Belang sein und den Einkaufsprozess beeinflussen kann. In die gleiche Richtung geht der Prozess der Feature Selection, also der Auswahl der Eingabefeatures in ein Modell. Im Idealfall werden nur die Features eines Datensatzes gewählt, die Einfluss auf die Güte des Vorhersagemodells haben. Der Prozess der Auswahl der Features ist eng mit dem Feature Engineering verbunden und nicht immer ganz trennscharf. Darüber hinaus gibt es je nach Anforderungen verschiedene statistische/mathematische Techniken, um die Features eines Datensatzes zu reduzieren, z. B. Kernel-Methoden oder Principal Component Analysis (PCA). In einigen Fällen kann in einem ersten Schritt „Unsupervised Learning“ genutzt werden, um die Dimensionen eines Datensatzes für eine Supervised-Learning-Methode zu reduzieren bzw. aufzubereiten. Nachdem die Daten entsprechend aufbereitet sind, muss ein passendes Modell oder eine Gruppe von infrage kommenden Modellen ausgewählt werden. Nicht jedes Modell oder jeder Algorithmus eignet sich für jedes Datenset oder jede Fragestellung gleich gut. Natürlich kann die Wahl des Modells auch Einfluss auf das Pre-Processing haben, da z. B. manche Modelle nur Binärwerte oder Intervalle zwischen -1 und 1 als Input akzeptieren. Absolut trennscharf sind diese Schritte daher nicht. Die Modellselektion kann zwischen verschiedenen Klassen von Algorithmen erfolgen (SVM, KNN, …) oder sich auf die verwendeten Hyperparameter ein und desselben Modells beziehen. Die Auswahl eines passenden Modells kann im ersten Schritt nach Business-Kriterien erfolgen, wie z. B. notwendige Ressourcen, Aufwändigkeit der Wartung des Modells, Erklärbarkeit der Ergebnisse, uvm. Die technische Auswahl bezieht sich je nach gewähltem Algorithmus bzw. Output auf den Vergleich einer Erfolgsmetrik. Es haben sich verschiedene Methoden etabliert, um die Güte eines Machine-Learning-Modells zu betrachten und gleichzeitig over- bzw. underfitting bewerten zu können, z. B. Cross-Validation, Bootstrapping oder die verschiedenen Informationskriterien (Akaike, Bayesian, …).
12 P. Wennker
Ähnlich verhält es sich mit dem Hyperparameter Tuning. Hyperparameter kann man als die Parameter eines Modells beschreiben, die den Lernprozess beeinflussen und im Regelfall nicht während des Trainings erlernt werden. Ein möglichst passendes Set an Hyperparametern für ein Machine-Learning-Modell zu finden, hat entscheidenden Einfluss auf die Güte des endgültigen Modells. Es gibt verschiedene Methoden, Hyperparameter zu finden. Von Grid Search, bei der verschiedene Parameter innerhalb eines sinnvollen Intervalls ausprobiert werden, bis hin zu auf Gradienten basierenden Ansätzen, bei der das Ergebnis einer Kalkulation genutzt wird, um in einem zusätzlichen Schritt die Hyperparameter selbst zu optimieren (Gradient Boosting).
2.1.2 Machine Learning – Maschinelles Lernen Machine Learning fungiert als eine Art Kategoriebezeichnung für alle Typen von Wissenserzeugung aus Daten, ohne dafür explizit programmiert worden zu sein. Vereinfacht dargestellt, lernt ein System aus vorhandenen Daten Zusammenhänge und Gesetzmäßigkeiten und kann diese auf neue, vorher nicht gesehene Daten anwenden. Ein einfaches, oft als Einstieg in Machine-Learning-Kurse genutztes Beispiel, ist die Vorhersage von Verkaufspreisen von Häusern basierend auf historischen Daten, die die Anzahl der Räume, Grundfläche, Schlafzimmer, Badezimmer, etc. als Vorhersagevariablen beinhalten [1]. Mittels Machine Learning kann aus dem historischen Datensatz ein statistisches Modell erstellt werden, das die Zusammenhänge zwischen Anzahl der Räume, Wohnfläche und weiterer Datenpunkte sowie dem erzielten Verkaufspreis lernt. Dieses erlernte Wissen kann dann auf Datensätze neuer, unbekannter Häuser angewendet werden.
2.1.3 Supervised Learning – Überwachtes Lernen Das erwähnte Beispiel der Vorhersage des Hauspreises auf Basis verschiedener Attribute gehört zur Klasse des supervised oder überwachten Lernens. Hierbei sind die Ergebnisse bekannt und Teil des Lernvor-
2 Machine Learning 13
gangs. Das Modell lernt, dass drei Badezimmer, zwei Schlafzimmer und eine Wohnfläche von 110 qm zu einem Verkaufspreis von 250.000 US$ geführt haben. Aus vielen solchen Beispielen versucht das System eine Funktion zu finden, die alle Datensätze möglichst genau beschreibt. In der Praxis ist eine der größten Herausforderungen im Bereich des Supervised Learning, ausreichend und qualitativ hochwertig annotierte Datensätze zur Verfügung zu haben. Wenig Daten stellen eine Herausforderung für den Einsatz komplexer Funktionen dar (s. Bias-Variance Tradeoff). Schlechte Datenqualität im Sinne von unvollständig oder fehlerhaft markierten Datensätzen sorgt für ein größeres Rauschen in den Daten, was wiederum die Generalisierung der Funktion beeinträchtigt. Zu den verbreitetsten Algorithmen im Supervised Learning gehören lineare und logistische Regressionen, Decision Trees, Support Vector Machines und K-Nearest Neighbour. Bias-Variance Tradeoff (Verzerrung-Varianz-Dilemma) Der Bias-Variance Tradeoff beschreibt ein Kernproblem des überwachten Lernens. In einer perfekten Welt findet man einen Algorithmus, der sowohl die Zusammenhänge in den Trainingsdaten sehr genau beschreibt und gleichzeitig unbekannte, neue Testdaten beschreibt (generalisiert). In der Praxis lassen sich diese beiden Extreme selten in Einklang bringen. Modelle mit hoher Varianz beschreiben die Zusammenhänge in Trainingsdaten meist sehr gut, oft durch hohe Komplexität des Modells bedingt. Diese hohe Komplexität bedingt gleichzeitig aber auch die Gefahr, dass Zusammenhänge in Daten erkannt werden, die gar nicht gegeben sind. Man spricht in diesem Zusammenhang von Overfitting. Das Modell beschreibt die Testdaten mit allen Störungen (Noise) und unrepräsentativen Datenpunkten sehr genau und kann nicht oder nur unzureichend auf neue, vorher nicht gesehene Daten generalisieren, z. B. weil andere unrepräsentative Datenpunkte oder andere Formen von Noise vorhanden sind. Im Gegensatz dazu beschreiben Modelle mit hohem Bias die Trainingsdaten nur unzureichend und es entgehen dem Modell wichtige Zusammenhänge und Repräsentationen in den Daten. Das Modell beschreibt die Zusammenhänge nur unzureichend (Underfitting). Dem Dilemma des Bias-Variance Tradeoffs kann man mit unterschiedlichen Herangehensweisen begegnen. So kann mittels Feature Selection die Anzahl der Eingabevariablen reduziert werden (Dimensionsreduktion), was die Variance ebenso reduziert wie das Hinzufügen neuer Trainings-
14 P. Wennker daten. Im Umkehrschluss senkt das Hinzufügen neuer Features den Bias, erhöht aber gleichzeitig die Varianz. Je nach gewähltem Algorithmus gibt es eine Vielzahl von Strategien, das Bias-Variance-Dilemma nicht komplett zu lösen, aber zu verringern.
So haben sich verschiedene Subarten des Supervised Learning entwickelt, die verschiedene Probleme mit Datenqualität, Volumen und Bias adressieren.
2.1.3.1 Semi-Supervised Learning In vielen Fällen sind viele Daten vorhanden, nur ohne entsprechendes Label, das als Ergebnis dienen kann, gegen das ein Supervised-Learning-Algorithmus generalisieren kann. In manchen Bereichen sind die Kosten, solche Daten mit einem Label zu versehen, sehr hoch, z. B. Pharmazeutik oder physikalische Ergebnisse. Hier hat es sich bewährt, einen kleinen Teil der Daten zu labeln, also mit der Ergebnisvariable zu versehen. Meist geschieht dies händisch durch menschliche Experten in dem jeweiligen Gebiet. Dieser verhältnismäßig kleine Anteil von gelabelten Daten wird zusammen mit ungelabelten Daten als Trainingsdatensatz genutzt. Dabei geht man davon aus, dass Datensätze die nah beieinander liegen, wahrscheinlich das identische Label besitzen. Mittlerweile haben sich regelrechte Marktplätze für fertig gelabelte Datensätze etabliert bzw. es gibt Plattformen, die den Prozess selbst auslagern, meist mittels Crowdsourcing. Datensätze, die ungenaue oder sogar falsche Labels aufweisen, können als Weak Supervision genutzt werden. Die Stanford University hat hierzu mit SNORKEL (https://www.snorkel.org/) ein System entwickelt, das es ermöglicht, schnell und einfach programmatisch Trainingsdatensätze zu erstellen.
2 Machine Learning 15
2.1.3.2 Active Learning Als Active Learning bezeichnet man eine Machine-Learning-Technologie, bei der der Lernende, also das System, selbstständig nach Labels für verschiedene Datensätze fragt. Da das lernende System selbstständig nur nach solchen Labeln fragt, bei denen der größte Erkenntnisgewinn zu vermuten ist, besteht die Hoffnung, dass deutlich weniger Datensätze annotiert werden müssen, als beim klassischen Supervised Learning. Dies trifft insbesondere dann zu, wenn verschiede Unsupervised-Learning-Techniken zuvor zum Tragen kommen, z. B. Clustering, sodass das lernende System nur noch ein Label pro Cluster erfragen muss.
2.1.4 Unsupervised Learning Unsupervised bzw. unüberwachtes Lernen ist das zweite große Feld innerhalb des Machine Learnings. Der entscheidende Unterschied zum Supervised Learning liegt darin, dass Unsupervised Learning nicht auf Labels in den Datensets angewiesen ist und keinen Input von außen benötigt, um Daten zu klassifizieren. Mittels Hauptkomponenten(principal component analysis, PCA) bzw. Cluster-Analysen ermöglicht Unsupervised Learning das Segmentieren, Einteilen und Bündeln von Daten anhand von algorithmisch detektierten Gemeinsamkeiten innerhalb der Daten. Ein einfaches Beispiel für Clustering stellt der k-Means-Algorithmus dar. Dieser sucht nach k unterschiedlichen Clustern in einem Datensatz. Ein Cluster ist eine Gruppe von Datenpunkten, die zusammengefasst werden, da sie Ähnlichkeiten aufweisen. Der Nutzer bestimmt die Anzahl k der Cluster, die der Algorithmus finden soll. Für jeden Cluster wird ein Zentroid wahllos gesetzt. Der Algorithmus sucht für jeden Datenpunkt den nächstgelegenen Zentroid und weist ihm diesen zu. Im nächsten Schritt wird der Durchschnitt aller Datenpunkte um einen Zentroid berechnet und dieser entsprechend auf den Durchschnittswert verschoben. Dieser Prozess wird
16 P. Wennker
abgeschlossen, wenn sich die Zentroiden stabilisiert haben, d. h. keine Verschiebung mehr stattfindet oder die gewünschte maximale Anzahl von Iterationen erreicht wurde. Die Anwendungsszenarien für Unsupervised Clustering reichen von Kunden- und Marktsegmentierungen, über Bildverarbeitung bis hin zu Vorbereitungsschritten für andere (Semi-)Supervised-LearningMethoden.
2.1.5 Reinforcement Learning – Verstärkendes Lernen Reinforcement Learning ist neben Supervised und Unsupervised Learning der dritte große Pfeiler des Machine Learnings. Der Begriff Reinforcement bzw. verstärkendes Lernen ist aus der Psychologie bzw. dem Behaviorismus entlehnt und funktioniert ähnlich wie die dort beschriebenen Prozesse. Dem System wird ein Ziel vorgegeben, dessen Erreichen zu einer Belohnung führt. Der Weg, um das Ziel zu erreichen, ist nicht vorgegeben. Versinnbildlicht wird in der Literatur oft ein Roboter skizziert, der selbstständig aus einem Labyrinth herausfinden soll. Im initialen Schritt weiß der Roboter nichts von seiner Umgebung. Er versucht jeden möglichen Schritt und kalkuliert die damit verbundene Belohnung. Trifft er auf eine Wand oder eine Sackgasse wird die bisher erreichte Belohnung subtrahiert. Erreicht er das Ziel, werden die Belohnungen, die auf dem Weg zum Ziel erreicht wurden, summiert. Gerade in Systemen mit einer Vielzahl an möglichen Handlungen, ist das Ziel, die höchstmögliche Belohnung zu erhalten, durch reines Ausprobieren nach Trial and Error nicht effektiv zu erreichen. Reinforcement-Learning-Systeme benötigen daher ein System, das zwischen Erkundung und Ausbeutung entscheidet (Exploration – Exploitation Trade Off). Das System hat die Wahl, die höchste Belohnung auf Basis des bisherigen Wissens zu wählen (Ausbeutung) oder sich für weitere Erkundung im Sinne von der Suche nach neuen Wegen zu entscheiden (Exploration). Unter Einbeziehung eines sog. Diskontierungsfaktors können dem System verschiedene Belohnungsvariationen geboten
2 Machine Learning 17
werden, die abhängig vom Einsatzzweck bzw. der Umwelt sind. Wird Reinforcement Learning z. B. zum Lösen eines Spiels wie Dame eingesetzt, ist die Anzahl der Züge endlich. Ein Roboter, der mit seiner Umwelt interagiert, hat zumindest theoretisch unbegrenzt Züge zum Erreichen der höchstmöglichen Belohnung. Zusätzlich gibt es weitere mathematische Methoden, die beste Handlung des Systems zu bestimmen, ohne alle theoretischen Möglichkeiten durchzuspielen, z. B. Monte-Carlo-Simulationen. Der große Unterschied zum Supervised Learning besteht darin, dass Reinforcement Learning sequentiell ist, d. h. die aktuelle Belohnung hängt vom aktuellen Status ab, die nächste Belohnung hängt vom vorherigen Status und der folgenden Aktion ab. Reinforcement Learning fand einige Beachtung, als AlphaGo Reinforcement Learning nutzte, um medienwirksam Meister in dem japanischen Spiel Go zu schlagen. Auch in der Robotik findet Reinforcement Learning Anwendung, um autonome Bewegungen und Interaktionen zu ermöglichen. Zudem finden sich Einsatzzwecke z. B. im Online Marketing, wo mittels Reinforcement Learning Marketingmittel, Botschaft und Rezipient ausgesteuert werden können.
2.1.6 Automated Machine Learning Keine eigene Klasse von Lösungsansätzen aber zukünftig wahrscheinlich von immer größerer Bedeutung ist Automated Machine Learning, abgekürzt AutoML. Automatisiertes Machine Learning verspricht eine komplette oder teilweise Automatisierung des gesamten Machine-Learning-Prozesses (s.o.) als End-to-End-Lösung. Das Versprechen von AutoML besteht darin, menschliche Intervention bei den einzelnen Schritten unnötig zu machen, sodass das AutoML-System auf Basis der Daten alle Schritte von Data Pre-Processing bis hin zu Hyperparameter Tuning selbst übernimmt. Der Vorteil der Automatisierung liegt in der Zugänglichkeit von Machine-Learning-Anwendungen auch für den nicht technisch versierten Nutzer. In Bezug auf Machine Learning und künstliche
18 P. Wennker
Intelligenz werden seit längerem sog. „Black-Box-Modelle“ kritisch diskutiert, die keinen Aufschluss mehr geben, wie sie zu einem Ergebnis gekommen sind. Beim Einsatz von AutoML wird nicht nur das Modell, sondern der gesamte Machine-Learning-Prozess zu einer Black Box. Bisherige AutoML-Lösungen erreichen oder übertreffen teilweise die Ergebnisse individuell erstellter Systeme und Metastudien über die Leistungsfähigkeit von AutoML sehen die Beschränkung auf einzelne Aufgaben bzw. sogar nur einzelne Datensätze als Herausforderung für den Transfer in die Wirtschaft [2]. Nichtsdestotrotz kann AutoML helfen, schnell verschiedene grundlegende Modelle auf einem Datensatz zu testen und davon ausgehend eigene Modelle zu entwickeln und zu optimieren.
2.2 Künstliches neuronales Netz Künstliche neuronale Netzwerke sind lose von biologischen Vernetzungen im Gehirn von Säugetieren inspiriert. So wie z. B. im menschlichen Gehirn Nervenzellen mittels Synapsen vernetzt sind, bilden verschiedene künstliche Neuronen und ihre Verbindungen ein Netzwerk, das zu Berechnungen genutzt werden kann. Jedes künstliche Neuron empfängt ein Signal, verarbeitet es und leitet es ggf. an das nächste künstliche Neuron weiter. Neuronale Netze lernen Aufgaben zu lösen, ohne explizit dafür programmiert worden zu sein. In der Bilderkennung kann ein neuronales Netz selbstständig lernen, ob auf einem Bild ein Auto zu sehen ist, sofern es vorher mit Beispielbildern gefüttert wurde, die mit Labels Auto/kein Auto versehen sind. Das neuronale Netz muss hierfür nicht wissen, dass ein Auto vier Räder hat und auf der Straße fährt. Es lernt selbstständig Attribute, die ein Auto in Bildern ausmacht. Schematisch dargestellt besteht ein künstliches neuronales Netz aus Schichten von künstlichen Neuronen, die in Schichten angeordnet sind (Abb. 2.1). Zwischen der Eingabeschicht (Input Layer) und der Ausgabeschicht (Output Layer) finden sich n verdeckte Schichten (Hidden Layers).
2 Machine Learning 19
Abb. 2.1 Schematische Darstellung eines neuronalen Netzes mit zwei Hidden Layers
Künstliche Neuronen machen mit den Verbindungen zwischen den Neuronen das eigentliche neuronale Netzwerk aus und sind an die biologischen Vorbilder angelehnt (Multi-Layer-Perceptron). Neuronen nehmen Signale entgegen, verarbeiten diese Signale in spezifischer Weise und geben das Ergebnis an das nächste Neuron weiter. Dieser Vorgang kann durch Schwellenwerte und die sog. Aktivierungsfunktion beeinflusst werden, z. B. nur Signale einer bestimmten Stärke weiter zu verarbeiten. Die Verbindung zwischen Neuronen, Kanten oder Edges genannt, weisen ein Gewicht (Weight) auf, das die Wichtigkeit der Verbindung widerspiegelt. Mittels dieser Gewichtung können Signale zwischen zwei Neuronen herauf oder herab gesetzt werden, was wiederum Einfluss auf die Aktivierung im nächsten Neuron haben kann. Ein einzelnes Neuron kann mehrere Verbindungen zu Neuronen in höher oder tiefer gelegenen Schichten haben. Sind alle Neuronen einer Schicht mit allen Neuronen der folgenden Schicht verbunden, spricht man von Fully Connected Layers. Im Kontrast dazu gibt es z. B. Pooling Layers, bei denen eine Gruppe von Neuronen in einem Layer zu einem Neuron im nächsten Layer verbunden ist, und so die Anzahl der Neuronen im Folge-Layer reduzieren können.
20 P. Wennker
2.2.1 Wie neuronale Netze lernen Unabhängig von der Struktur und Anzahl der Layer gibt es grundlegende Mechaniken, die in der einen oder anderen Form in so ziemlich jedem neuronalen Netz dafür sorgen, dass es lernt.
2.2.1.1 Forward Pass Jedes Neuron erhält für den Start der Berechnungen ein Gewicht (Weight) mit dem es initialisiert wird. Dieses initiale Gewicht wird zufällig aus einem vorherbestimmten Intervall ausgewählt, z. B. [-1,1], und mit dem Input des Neurons multipliziert. Zusätzlich wird Bias in das System eingeführt, z. B. durch ein Bias Neuron, das zu allen Neuronen eines Layers einen Wert hinzufügt. Diese Werte werden aufsummiert und durch eine sog. Aktivierungsfunktion in die gewünschte Form gebracht.
2.2.1.2 Bias Neuron Mithilfe des Bias Neuron lässt sich somit Einfluss auf die Ausgabe der Aktivierungsfunktion nehmen. Ein Input x mit dem Gewicht w0, sowie ein Bias von 1 mit dem Gewicht w1 soll durch eine Sigmoid-Aktivierungsfunktion den Output eines Neurons ergeben sig(w0 *x + w1 *1). Mit dem Gewicht w0 kann die Steilheit der Sigmoid-Funktion beeinflusst werden, durch das w1 des Bias Neurons kann die ganze Sigmoidkurve verschoben werden, je nachdem, welcher Outputbereich benötigt wird. Soll die Aktivierungsfunktion z. B. bei einem Wert von x=2+ bias den Wert 0 zurückliefern, kann w1 auf -5 gesetzt werden, um die Kurve nach rechts zu verschieben. Das Gesamtergebnis wird an den nächsten Layer übergeben, der Prozess wiederholt sich bis die Output-Schicht erreicht ist.
2 Machine Learning 21
Unterschiedliche Aktivierungsfunktionen haben maßgeblich Einfluss auf die Funktionalität eines Neural Networks und auf die Vorhersagegüte.
2.2.1.3 Aktivierungsfunktionen Es stehen verschiedenste Aktivierungsfunktionen zur Verfügung, z. B. Sigmoid, tanh, ReLU, Linear, usw. Die Sigmoid bzw. logistische Funktion ist traditionell sehr weit verbreitet und war lange Zeit der Quasistandard für Aktivierungsfunktionen. Im Vergleich zu linearen Aktivierungsfunktionen, bei denen der Inputwert unverändert weitergegeben wird, kann es die Sigmoid-Funktion als non-lineare Funktion Neuronen ermöglichen, komplexere Zusammenhänge zu lernen. Die Sigmoid-Funktion transformiert Eingaben auf einen Wert zwischen 0,0 und 1,0, wobei sehr große Werte zu 1,0 transformiert werden und sehr kleine Werte zu 0,0. Als Graph dargestellt, ergibt sich eine S-Form der Kurve von 0 ausgehend über 0,5 bis zu 1. Dies ist besonders in Wahrscheinlichkeitsberechnungen hilfreich, da hier der Output zwischen 0 und 1 liegen muss. Ähnlich verhält es sich mit der Aktivierungsfunktion Tangens Hyperbolicus, kurz tanh, die die Sigmoid-Funktion als Aktivierungsfunktion in den frühen 2000ern als Go-to-Funktion abgelöst hat. Tanh deckt den Bereich von -1,0 bis 1,0 ab. Dies ist hilfreich, da so stark negative Werte auch stark negativ repräsentiert werden und Inputs nahe 0 auch nahe 0 transformiert werde. Ein grundlegendes Problem der Sigmoid- und tanh-Funktionen ist die Sättigung bei positiven oder negativen Extremwerten und einer Sensitivität, die nur um Mittelwerte der Funktionen, also nahe 0 gegeben ist. Dies stellt für neuronale Netzwerke eine Herausforderung dar, da Inputs von vorherigen Schichten, die Wissen in großen oder kleinen Werten repräsentieren, verloren gehen. Für tiefe neuronale Netzwerke hat sich die ReL, Rectified Linear Activation, als Aktivierungsfunktion durchgesetzt. Ein Neuron, das die
22 P. Wennker
ReL nutzt, wird im Allgemeinen als ReLU, Rectified Linear Activation Unit, bezeichnet. Sigmoide Aktivierungsfunktionen durch ReL zu ersetzen, kann als Meilenstein für Deep-Learning-Anwendungen betrachtet werden. Die ReL wirkt auf den ersten Blick wie eine lineare Funktion, ist aber eine nicht-lineare und ermöglicht so, komplexere Zusammenhänge zu lernen, ohne das Vanishing-Gradient-Problem bei vielen Schichten in einem neuronalen Netzwerk zu zeigen. Vanishing Gradient Mit der Entwicklung dezidierter Hardware bzw. Adaptation von Grafikkarten für das Training von neuronalen Netzwerken nahm die Tiefe, d. h. die Anzahl der Schichten der neuronalen Netze dramatisch zu. Gradienten für neuronale Netzwerke werden durch Backpropagation gefunden, also durch das Ableiten der einzelnen Layer des neuronalen Netzwerks. Die Derivate der einzelnen Schichten werden dabei multipliziert. Bei einem neuronalen Netzwerk mit n Schichten, werden n sehr kleine Werte miteinander multipliziert, was dafür sorgt, dass der Gradient exponentiell abnimmt, je näher man dem initialen Input Layer kommt. Dies verhindert, dass effektiv gelernt werden kann, da Weights und Bias nicht mehr sinnvoll geupdated werden können. Man spricht von Vanishing Gradients. Da die ersten Layer eines neuronalen Netzwerks dafür verantwortlich sind Grundkonzepte der Daten zu lernen, beeinflusst dies die Leistung bzw. Genauigkeit des gesamten Netzwerks.
Die Rectified Linear Activation ist schnell erklärt: Für Werte kleiner oder gleich 0 wird 0 zurückgegeben, für Werte größer 0 wird der Wert selbst zurückgegeben. Nicht lineare Funktionen zeigen keine konstanten Steigungen. ReL zeigt für negative Werte eine Steigung von 0, für positive Werte eine Steigung von 1. Eine sehr limitierte Nicht-Linearität, die aber durch die Besonderheiten des Deep Learnings kompensiert werden. Bias-Werte, die ReLU hinzugefügt werden, ermöglichen es, den Ort der Steigungsänderung zu verschieben.
2 Machine Learning 23
Beispiel Gegeben ist ein Input X und ein Bias von 5, der Output des Neurons wäre also 5+X. Ist X nun kleiner – 5, sind der Output und die Steigung 0, ist X größer -5 ist der Output X+5 bei einer Steigung von 1. Mit sehr vielen Neuronen, die unterschiedliche Bias-Werte zeigen, ändert jedes Neuron für sich die Steigung für unterschiedliche Werte. Die kombinierte Funktion über diese Neurone ermöglicht eine Funktion, die für viele unterschiedliche Werte die Steigung ändert und so ein besseres Lernen ermöglicht. Es haben sich mit der Zeit Abwandlungen von ReLu herauskristallisiert, die negative Inputwerte nicht automatisch gleich Null setzen, wie z. B. Leaky ReLU, die für negative Werte eine Steigung kleiner 1 größer 0 setzen.
2.2.1.4 Fehlermessung Durch die zufällig gewählte Initialisierung der Gewichte, liefert der Forward Pass initial keine zufriedenstellenden Ergebnisse. Die Abweichung des finalen Outputs des neuronalen Netzes zu den korrekten, z. B. aus den Trainingsdaten ersichtlichen Werten, wird mittels einer Cost- oder Loss-Funktion errechnet.
2.2.1.5 Backpropagation Die Ergebnisse der Cost-Funktion, also die Abweichung der errechneten Werte von den Werten in den Trainingsdaten werden rückwärts durch das neuronale Netz gespeist, bis alle Neuronen in den Hidden Layers eine Fraktion des Fehlerwerts in Abhängigkeit von ihrem Beitrag zum Output erhalten haben. Dieser Vorgang nennt sich Backpropagation. Um nun mit diesen Informationen die Gewichte für den nächsten Forward Pass anzupassen und den Fehlerwert möglichst gegen 0 zu bewegen, können verschiedene Optimierungsalgorithmen genutzt werden, die grob in zwei Klassen fallen: gradientenbasierte und derivate-free Optimization. Aufgrund der Geschwindigkeit haben sich in Supervised-Learning-Szenarien gradientenbasierte Algorithmen
24 P. Wennker
wie (Stochastic) Gradient Descent (Abb. 2.2) durchgesetzt, die die Gewichte in kleinen Schritten anpassen, um das globale Minimum der Cost-Funktion zu finden, also den Punkt, an dem der Fehlerwert am kleinsten ist. Dieser Vorgang kann mittels der Learning-Rate beeinflusst werden, die vorgibt, wie groß die einzelnen Schritte sind, um das Minimum zu finden. Die Learning-Rate beeinflusst dabei sowohl die Fähigkeit, das globale Minimum zu finden, als auch die Dauer, die der Lernprozess benötigt. Mit Learning Rate Decay wird die Technik beschrieben, die Learning Rate mit Fortdauer des Trainings zu verringern, um eine bessere Konvergenz zu erreichen.
Abb. 2.2 Gradient Descent (rote Linie) versucht den tiefsten Punkt der Fläche zu finden, der dem Minimum der Funktion entspricht. Die Learningrate beeinflusst, wie groß jeder Schritt auf der Fläche ist
2 Machine Learning 25
Neben der Learning Rate kann mit der Batch Size, also der Angabe wie viele Input-Datensätze auf einmal durch das neuronale Netzwerk geschleust werden, Einfluss auf die Performanz des neuronalen Netzes genommen werden. Die Batch Size splittet das Trainingsset in kleinere Segmente, aus denen gelernt wird, um z. B. der unterliegenden Rechnerarchitektur Rechnung zu tragen. Haben alle Trainingsdaten das neuronale Netzwerk einmal komplett durchlaufen, spricht man von einer Epoche. Die Anzahl der Epochen nimmt Einfluss auf die Vorhersagegüte des neuronalen Netzwerks. Grundsätzlich lässt sich feststellen, je mehr Daten das neuronale Netzwerk zur Verfügung hat und je öfter es diese gesehen hat, umso kleiner wird der Fehlerwert.
2.2.2 Over- und Underfitting in neuronalen Netzen Wie bei allen Machine-Learning-Applikationen besteht auch bei neuronalen Netzen die Gefahr des Over- oder Underfitting. Underfitting beschreibt den Vorgang, dass das Netz weder die Trainings- noch die Validierungsdaten gut modelliert. Overfitting bedeutet analog, dass das neuronale Netzwerk die Trainingsdaten auswendig lernt, dann aber schlecht auf neue, zuvor ungesehene Beispiele generalisiert (siehe Bias-Variance Tradeoff). Die einfachste Lösung, Overfitting in neuronalen Netzwerken zu verhindern, ist die Komplexität des Netzes zu verringern. Problematisch ist hierbei, dass man nicht weiß, wie viele Neuronen entfernt werden müssen, um die Komplexität dergestalt zu reduzieren, dass Overfitting vermieden wird. Im Gegenzug kann Underfitting durch die Steigerung der Komplexität verhindert werden, also mehr Neuronen und Gewichte hinzufügen, die es ermöglichen, die Daten besser zu modellieren. Um dem Overfitting in neuronalen Netzwerken mathematisch zu begegnen, eignen sich verschiedene Methoden. Die prominentesten sind L1 (Lasso), L2 (Ridge) Regularisation und Drop Out. L1 Regularisation reduziert die Komplexität, indem Gewichte auf 0 gesetzt werden, L2 Regularisation setzt die Werte der Gewichte nahe
26 P. Wennker
0, um so den Einfluss zu verringern. Beide Techniken haben Vor- und Nachteile, L1 schafft einfache Modelle, die dafür nicht in der Lage sind, komplexe Muster zu erlernen, L2 ist dafür anfälliger für Ausreißer in den Datensätzen. Eine weitere oft genutzte Technik ist Drop Out Regularisation. Hierbei setzt man einen Wert P, der angibt, wie wahrscheinlich es ist, dass ein zufälliges Neuron während des Trainingsvorgangs abgeschaltet ist. Bei P = 0.5 wären so nur gut die Hälfte der Neuronen aktiv. Dropout zwingt das Netz, robuste Features zu erlernen und nicht auf Rauschen in den Daten zu generalisieren. Dafür steigt die Anzahl die Iterationen, die benötigt werden, bis ein neuronales Netz konvergiert, wenn Dropout genutzt wird. Die Dauer einer Epoche ist dafür im Vergleich reduziert. Dropout wird als Hyperparameter für jeden Layer einzeln festgelegt. Nach erfolgtem Training wird das gesamte Netzwerk inklusive aller Neuronen für Vorhersagen genutzt. Hierbei ist wichtig, dass die Gewichte im Hinblick auf die jeweils gewählte Dropout-Rate skaliert werden müssen. Moderne Deep Learning Frameworks wie z. B. Keras oder Pytorch skalieren die Gewichte nicht am Ende des gesamten Trainingsvorgangs, sondern nach jeder Iteration eines Mini-Batches.
2.2.3 Rekurrente neuronale Netze Werden Signale nur in eine Richtung, von der Eingabe- zur Ausgabeschicht weitergeleitet, spricht man von Feed Forward Neural Networks. Eine andere wichtige Klasse von neuronalen Netzwerken sind die rekurrenten neuronalen Netze (RNN). Bei diesen finden sich zusätzlich Verbindungen zwischen Neuronen desselben Layers und Neuronen vorangegangener Schichten. Salopp ausgedrückt erhält das rekurrente künstliche neuronale Netz ein Gedächtnis, das es rekurrenten neuronalen Netzen erlaubt, Sequenzen von Eingaben zu betrachten. RNN lernen nicht nur von Input und Weights, sondern von Hidden States, die das jeweils vorher gelernte repräsentieren.
2 Machine Learning 27
Ein identischer Input kann also unterschiedlichen Output generieren, in Abhängigkeit des vorherigen Inputs. Besonders die Weiterentwicklung dieses Konzepts, die LSTM-(Long-Short-Term-Memory)-Zellen, hat in jüngster Vergangenheit für Durchbrüche, z. B. in der Spracherkennung geführt. LSTM-Zellen können Informationen über Zeiträume behalten, in dem verschiedene Tore (engl. Gates) den Informationsfluss bzw. die Dauer der Erinnerung beeinflussen. Rekurrente neuronale Netze nutzen während des Lernens eine Technik namens Backpropagation, bei der der Ausgabewert des neuronalen Netzes mit dem eigentlichen Zielwert verglichen wird. Anhand der Abweichung der beiden Werte (Fehler) werden die Gewichte im neuronalen Netz angepasst, um den Fehlerwert möglichst klein zu halten. Hierbei können Effekte des Vanishing bzw. Exploding Gradients auftreten, wenn Werte gegen 0 bzw. unendlich gehen.
2.2.4 Convolutional Neural Networks (CNN) Klassische, fully-connected neural Networks, eignen sich aufgrund ihrer Architektur nicht für alle Aufgaben. Besonders deutlich wird dies am Beispiel der Bilderkennung. Bilderkennung ist eine Technologie, die durch den Einsatz neuronaler Netze in jüngster Vergangenheit einen großen Sprung nach vorn gemacht hat, deren Auswirkungen von Gesichtserkennung bis zu selbstfahrenden Autos reicht. Klassische neuronale Netze stehen im Bereich der Bilderkennung einer Flut von Input Features gegenüber. Ein Bild mit 32x32 Pixeln und drei Farbkanälen kommt auf 3072 Features, bei einer Bildgröße von 300x300 Pixeln sind es schon 270.000 (300x300x3) Features, die den Input für das neuronale Netz bilden würden. Die schiere Anzahl an Input Features stellt eine ganz eigene Herausforderung an das Trainieren eines fully-connected neural Networks (Overfitting). Zudem haben diese neuronalen Netze ein Problem mit der Erkennung von Objekten in unterschiedlicher Positionierung innerhalb des Bildes. Soll z. B. eine Katze im Bild detektiert werden, kann
28 P. Wennker
das feed-forward neuronale Netz diese vielleicht gut im unteren rechten Bildquadranten, aber deutlich schlechter im oberen linken detektieren. In einem Bild ist die Nähe der einzelnen Pixel zueinander wichtig, um Kontext zu transportieren, eben die dargestellten Objekte. Diese Information geht in einem multi-layer Perceptron verloren. Eine schematische Darstellung des sogenannten LeNet, eines der ersten Convolutional Neural Networks, finden Sie in Abb. 2.3. Ein Convolutional Neural Network nutzt sog. Filter (oder Kernels oder Neurons, leider nicht sehr trennscharf ), um die Eigenheiten eines Bildes zu erfassen. Die Funktionsweise eines Filters innerhalb eines CNN kann man sich am ehesten mit der eines Fernrohrs versinnbildlichen. Durch das Fernrohr erblickt man den obersten linken Ausschnitt des Bilds in der Größe von 5x5 Pixel (und eine Tiefe von 3, um die Kanäle des Bildes zu repräsentieren). Dieses Feld nennt man Receptive Field des Filters. Jedes Feld in diesem 5x5-Filter ist mit einem Zahlwert belegt, die Weights des Filters. Die Werte des Filters werden mit den Werten der Pixel elementweise multipliziert (Hadamard-Produkt) und aufsummiert, sodass am Ende die oberste linke Position von einer Zahl repräsentiert wird. Der Filter wird nun um einen Pixel weiter nach rechts verschoben (convolved) und der Vorgang wiederholt sich, bis das ganze Bild von oben links nach unten rechts erfasst wurde, sodass am Ende ein 28x28x1 Array übrigbleibt (784 Positionen eines 5x5-Filters auf einem 32x32-Bild). Dieser Array wird Activation oder Feature Map genannt.
Abb. 2.3 Bildunterschrift: Schematische Darstellung des sog. LeNet, eines der ersten Convolutional Neural Networks
2 Machine Learning 29
Nutzen wir auf demselben Bild einen zweiten Filter, erhalten wir ein 28x28x2-Array, usw. Jeder dieser Filter sucht in einem Bild nach bestimmten Gegebenheiten, z. B. nach Nasen in einem CNN für Gesichtserkennung, ein zweiter Filter sucht nach Augen usw. Durch verschiedene mathematische Operationen werden die Ergebnisse der Filter in einer letzten, fully connected Schicht zusammengeführt und entscheiden über das Ergebnis der Bildklassifizierung.
2.2.5 Tiefe Convolutional Neural Networks Man sollte erwarten, dass Convolutional Neural Networks genauer werden, je tiefer sie sind. Mehr Schichten bedeutet ein größerer Parameterraum, der für flexibleres Lernen genutzt werden kann. In der Realität stellt sich dies leider als nicht korrekt heraus. Ab einer gewissen Tiefe eines CNN stagniert die Genauigkeit bzw. bricht irgendwann ein, da die Fähigkeit zu Generalisieren verloren geht (siehe Vanishing Gradient) Eine erste Lösung für dieses Problem stellte VGG der Visual Geometry Group der Oxford Universität dar [3]. Basierend auf Erfahrungen mit Vorgängermodellen, wie z. B. AlexNet, setzt VGG auf deutlich kleinere rezeptive Felder, 3x3 die kleinste Größe, die noch oben, unten, links, rechts und die Mitte unterscheiden kann, im Gegensatz zu 11x11 in AlexNet. Gleichzeitig finden sich ReLU in VGG anstelle der bis dahin üblichen tanh-Aktivierungsfunktionen. Zusätzlich hat VGG 1x1 Convolutional Layers, was in Summe dazu führt, dass mehr Weights zur Verfügung stehen. Insgesamt wurden von der Visual Geometry Group sechs verschiedene Modelle vorgestellt, die Varianten mit 16 bzw. 19 Layern haben sich durchgesetzt. Der Nachteil von VGG war und ist die verhältnismäßig lange Trainingsdauer und besonders die Größe der Weights, die gut und gerne mehrere hundert Megabyte erreichen können. Ein anderer Ansatz, das Problem der Tiefe in Convolutional Neural Networks zu lösen ist das Residual Neural Network, kurz
30 P. Wennker
ResNet. ResNets begegnen dem Problem der Vanishing Gradients über sogenannte Skip Connections. Hierbei macht sich die Architektur eine Technik zunutze, die sich ähnlich in Säugetieren in den Pyramdienzellen der Großhirnrinde findet. In einem ResNet werden Layer übersprungen und die Aktivierung eines vorangegangenen Layers für später folgende genutzt. Im Regelfall werden ein oder mehrere Layer übersprungen, bis diese ihre Weights gelernt haben. Dies geschieht über einen Bypass, der die Aktivierung als Identitätsfunktion f(x) = x an dem Layer vorbeischleust. Aktuelle ResNet-Architekturen nutzen Funktionen ähnlich Dropout, um die Trainingszeit sehr tiefer Netzwerke zu verkürzen. ResNet finden sich in vielen heutigen Anwendungen für Computervision.
2.2.6 Generative Adversarial Networks (GAN) Generative Adversarial Networks, kurz GAN, gehören zu den einflussreichsten Erfindungen im Bereich des Deep Learning der letzten Jahre. Die Architektur des GAN basiert auf zwei Untermodellen, die gegeneinander antreten und versuchen, sich in einem spieltheoretischen Spiel zu schlagen. Einem Generator, der versucht, möglichst plausible neue Daten zu erstellen und einem Diskriminator, der versucht zu erkennen, ob es sich um einen echten Datensatz oder einen generierten handelt. Generative und diskriminative Modelle sind im Machine Learning bekannt, ein Supervised Classifier, der versucht, ein Label zuzuweisen, nutzt dafür eine diskriminative Funktion, weshalb Klassifizierung auch diskriminative Modellierung genannt werden kann, die entscheidet, welches Label zu einem Datensatz gehört. Generative Modelle können aus vorhandenen Daten, plausible neue Datensätze erstellen, z. B. einen normalverteilten Datensatz so zusammenfassen, dass es möglich ist, neue Daten zu synthetisieren, die in Bezug auf das ursprüngliche Datenset plausibel sind. Weitere Beispiele für generative Modelle sind z. B. Latent Dirichlet Allocation im Bereich der Textklassifikation oder die Restricted Boltzmann Machine im Bereich des Deep Learning.
2 Machine Learning 31
Generative Adversarial Networks kombinieren diskriminative und generative Modelle, meist in Form von Deep Learning, spezifischer in der einen oder anderen Form von tiefen Convolutional Neural Networks. Das generative Modell kann man sich als umgedrehten Deep Learning Classifier vorstellen, der aus Eingaben durch transponierte Convolusions neue Daten hochrechnet, z. B. neue Bilder von Gesichtern. Der Generator würde allerdings nur zufälliges Rauschen erzeugen, wenn der Diskriminator nicht einwirken und den Generator in die richtige Richtung lenken würde. Dafür lernt der Diskriminator, welche Features aus dem Trainingsdatensatz, also realen Bildern, die Echtheit ausmachen. Der Diskriminator funktioniert wie ein Classifier, der entscheidet, ob das Bild real ist oder nicht und hierfür die Wahrscheinlichkeit ausgibt. Die Ergebnisse des Diskriminators werden durch den Generator mittels Backpropagation rückgeleitet, sodass der Generator lernen kann, welches Bild realer erscheint. Generative Adversarial Networks haben ihre Stärken in vielen Bereichen der Bild- und Videoverarbeitung und haben seit ihrer Erstbeschreibung einen wahren Boom an Anwendungen ausgelöst, von Deep Fakes, bei denen Videos, z. B. von Prominenten sehr glaubwürdig gefälscht werden, bis hin zu Text-to-Image, bei der anhand eines komplexen Satzes natürlicher Sprache ein Bild erzeugt wird. Aufsehen erregten die Ergebnisse von OpenAI GTP-2, einem generativen Modell, das Absätze natürlicher Sprache verfassen kann, die nicht mehr von menschenverfassten Texten unterschieden werden können. Dabei setzt GPT-2 auf sog. Transformers, die alle sprachbasierten Anwendungen von künstlicher Intelligenz nachhaltig beeinflusst haben.
2.2.7 Transformer Der Einfluss von Transformer-Modellen auf den Bereich der künstlichen Intelligenz, der sich mit Sprache beschäftigt, Natural Language
32 P. Wennker
Processing (NLP) und Understanding (NLU), in jüngster Vergangenheit kann nicht hoch genug bewertet werden. In vielen Teilbereichen des NLP haben sich die Werte für State-of-the-Art-Performance nachhaltig durch den Einsatz von Transformers verschoben. Um zu verstehen wie Transformers funktionieren, muss man einen kurzen Blick in die Geschichte des Natural Language Processings werfen. Die systematische und computergestützte Verarbeitung von Sprache reicht bis in die 50er Jahre des neunzehnten Jahrhunderts zurück, wenn nicht noch länger. Die Anfänge beschäftigten sich mit dem Auszählen von Buchstaben, Silben, Wörtern und Sätzen. Lange Zeit war der sog. Bag-of-Words-Ansatz maßgeblich. Bei diesem wurde die Auftrittshäufigkeit von Wörtern in einem Dokument gezählt, um basierend auf dieser Termfrequenz Rückschlüsse zu ziehen. Mit der Entwicklung von neuronalen Netzen waren rekurrente neuronale Netze bzw. LSTM-Zellen prädestiniert für Aufgaben, die mit Sprache zu tun haben. Durch Ihre Struktur können RNN und LSTM Sequenzen verarbeiten und verändern. Ein LSTM-basiertes Modell kann zum Beispiel eine Sequenz in Sprache A entgegennehmen und in Sprache B als Sequenz anderer Wörter, übersetzt, wieder ausgeben. LSTM können dabei Teile der Sequenz erinnern, die für wertvoll erachtet werden und unwichtige Dinge vergessen. Der Vorgang des Übersetzens von einer Sprache in die andere erfolgt in Sequence-to-Sequence-Modellen nicht direkt, sondern durch einen Zwischenschritt. Sequence-to-Sequence-Modelle bestehen aus zwei Einheiten: einem Encoder, der die Ausgangssprache entgegen nimmt und in einen n-dimensionalen Vektor verwandelt. Dieser n-dimensionale Vektor dient als Lingua Franca zwischen Encoder und Decoder. Letzterer nimmt ihn entgegen und wandelt ihn in die Zielsprache um. Zu Beginn des Prozesses beherrscht weder der Encoder noch der Decoder die Umwandlung in den n-dimensionalen Vektor besonders gut. Hier setzt das Training des neuralen Netzes an und verbessert sukzessive die Qualität der Übersetzung.
2 Machine Learning 33
Die Güte von Natural-Language-Processing-Modellen hat mit der Einführung von vortrainierten Wortvektoren drastisch zugenommen. Wortvektoren funktionieren genauso, wie man normale Vektoren aus der linearen Algebra kennt. Die Besonderheit von Wordvektoren ist, dass Sie ermöglichen, semantische Zusammenhänge abzubilden und arithmetische Operationen zulassen. Das geläufigste Beispiel ist Kö nig − Mann + Frau = Kö nigin
Ergänzt werden Encoder-Decoder-Modelle durch einen sog. Attention-Mechanismus. Vereinfacht dargestellt erhält der Decoder nicht nur den n-dimensionalen Vektor, sondern zusätzlich Hinweise dazu, welche Teile der Sequenz der Encoder für wichtig erachtet. Mit Attention-Mechanismen kann verhindert werden, dass die Model Performance sinkt, wenn die Länge der Sequenz ansteigt. Wortvektoren wie oben vorgestellt unterliegen in rekurrenten neuronalen Netzen einer Limitierung. Mehrdeutigkeiten von Wörtern, die Polysemie, stellt diese Architekturen vor große Herausforderungen. In den Sätzen, „Ich sitze auf einer Bank“ und „Ich habe ein Konto bei einer Bank“ ist das Wort „Bank“ jeweils durch denselben Vektor repräsentiert, was in Aufgaben des Natural Language Processing, die auf semantische Bedeutung abzielen, zu schlechter Modellperformance führt. 2017 haben Mitarbeiter von Google mit dem Paper Attention is all you need [4] eine neue Architektur für NLP-Aufgaben vorgestellt, den Transformer. Ein Modell, das komplett auf tiefe Convolution und rekurrente Netze verzichtet und das Augenmerk auf den Attention-Mechanismus bzw. eine Vielzahl von Attention-Mechanismen legt. Der Vorteil gegenüber RNN-Strukturen liegt in sehr guter Performance in NLP-Tasks und der vergleichsweise ressourcenschonenden Berechnung, die gut parallelisierbar ist und keine Cluster an GPU für das Training benötigt. 2018 stellte Google mit den Bidirectional Encoder Representations from Transformers (BERT) [5] ein Model vor, dessen Herangehensweise bis heute den Stand der Technik im Bereich Natural Language Processing definiert.
34 P. Wennker
Sequence-to-Sequence-Modelle können Sequenzen von links nach rechts oder von rechts nach links einlesen. Im Training bedeutet dies, dass das Modell lernt, folgenden Satz zu vervollständigen: „Ich sitze im Park auf einer _____“. Das mit BERT vorgestellte Modell liest eine Sequenz komplett ein. Während des Trainings werden zwei Trainingsschritte absolviert: 1. Masked Language Modelling: Es wird eine bestimmte Anzahl von Wörtern maskiert. Vom Gesamtcorpus ausgehend, werden zufällig 15 % der Wörter ausgewählt, davon 80 % mit einem [Mask] Token ersetzt, 10 % durch ein anderes zufälliges Wort ersetzt und 10 % im Original belassen. 2. Next Sentence Prediction: Das Modell erhält zwei Sätze und muss entscheiden, ob der zweite Satz im Original dem ersten folgt. In 50 % der Fälle wird der zweite Satz zufällig aus dem Gesamtcorpus ausgewählt. Beide Trainingsschritte verlaufen zusammen und das neuronale Netz versucht, den kombinierten Fehlerwert beider Aufgaben zu minimieren. Ausgehend von dem Konzept von BERT wurden verschiedene Weiterentwicklungen präsentiert, die das Original in verschiedenen NLP-Aufgaben schlagen, wie z. B. das ebenfalls von Google entwickelte XLNet [6], Baidus ERNIE 2.0 [7] oder RoBERTa von Facebook [8].
2.2.8 Transfer Learning All diesen Modellen ist zu eigen, dass Sie Transfer Learning im Bereich des Natural Language Processing ermöglichen. Analog zum menschlichen Lernen beschreibt Transfer Learning im Kontext der künstlichen Intelligenz den Übertrag von bereits Erlerntem auf ein neues Problem. Transfer Learning erhielt besonders im Bereich der Bilderkennung erste Aufmerksamkeit als die ImageNet Bilddatenbank veröffentlich wurde. Diese Datenbank besteht aus mehr als 14 Mio. Bildern in
2 Machine Learning 35
20.000 Kategorien, die mit Labels versehen sind und das Trainieren von z. B. Objekterkennung ermöglichen. Ein neuronales Netz, das auf ImageNet trainiert wurde und Objekte grundsätzlich zuverlässig erkennt, kann dieses Wissen auf andere Objekte transferieren, um spezifischere Aufgaben zu erledigen. Ein so trainiertes Netzwerk, das Autos erkennt, könnte mittels Transfer Learning weiter trainiert werden, um Pkws eines bestimmten Herstellers zu erkennen. Die Vorteile von Transfer Learning liegen in deutlich geringerem Aufwand, da vortrainierte Modelle zur Verfügung stehen und nur die spezifische Aufgabe verfeinert werden muss. Das Release von BERT wird in diesem Kontext als ImageNet Moment des Natural Language Processing bezeichnet.
2.2.9 Relation Networks, Graph Networks Whodunnit? Am Anfang eines Krimis steht die Beschreibung des Verbrechens. Während sich die Geschichte entfaltet, sammeln sich Informationen und falsche Fährten an, die den Leser rätseln lassen, wer der Täter ist. Rationales Denken, die Abschätzung von Ursache und Wirkungsverknüpfungen machen einen Großteil unserer menschlichen Intelligenz aus. Für unser Gehirn ist es ein Leichtes, aus dem vielfältigen sensorischen Input, den wir alltäglich erhalten, Zusammenhänge und vor allem Beziehungen abzuleiten. Um künstliche generelle Intelligenz zu schaffen, müssen Systeme lernen, rational über Dinge und ihre Beziehung untereinander zu argumentieren, basierend auf unstrukturierten Daten, so wie es der Mensch auch tut. Wie viele neuere Erkenntnisse im Bereich Deep Learning, kamen die ersten Vorschläge zu Relation Networks aus dem Hause Deepmind/ Google. Das beschriebene Problem ist sehr anschaulich und soll hier wiedergegeben werden. Eine Szene zeigt verschiedene geometrische Objekte: Würfel, Zylinder und Kugeln in unterschiedlichen Farben und
36 P. Wennker
Materialien. Das Relation Network muss diese Szene selbstständig verarbeiten, also lernen, was sind Objekte, die von Bedeutung sind. Bis hierhin kein großer Unterschied zu Image Recognition Tasks. Das Relation Network lernt in einem zusätzlichen Schritt nun, die Objekte zueinander in Relation zu setzen, z. B. der Würfel ist größer als der Zylinder, die Kugel und der Quader sind beide rot usw. Ein weitverbreitetes Modell zum Testen der Fähigkeiten, Zusammenhänge in Bildern zu erkennen, ist CLEVR (A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning) [9] der Stanford University. Dieses Datenset besteht aus 100.000 Bildern von wie oben beschriebenen Kombinationen von Objekten und knapp 900.000 Fragen zu ihren Beziehungen untereinander. DeepMind nutzte eine Kombination von Convolutional Neural Network, LSTM und Relation Network um eine Vorhersagegenauigkeit (Accuracy) von 95,5 % zu erreichen. Bisherige technische Lösungen erreichten hier 68,5 %, selbst die menschliche Leistung liegt mit 92,5 % unter der des Relational Networks. Dasselbe System wurde auf Textverständnisfragen getestet. Das genutzte bAbl-System stellt eine variierende Anzahl von Sätzen, die eine Szene beschreiben, von der eine Antwort abgeleitet werden muss, z. B.: „Sandra hat den Ball aufgehoben. Sandra geht ins Büro. Wo ist der Ball?“ Hier erreichte das Relation Network einen Score von 95 %. Abseits von Text und Bildern sind wir Menschen Meister darin abzuschätzen, was als nächstes in der physischen Welt passieren wird. Im Regelfall erwarten wir, dass ein gegen eine Wand geworfener Tennisball abprallt und in Abhängigkeit der Wucht, mit der er geworfen wurde, zurückfliegt. Meistens erwarten wir nicht, dass die Mauer umstürzt oder von dem Tennisball durchdrungen wird. Neuronale Netzwerke müssen diese Abfolgen und Ursache-Wirk-Prinzipien erlernen, ebenso, wie wir es in der Kindheit tun. Hierzu wurde von Deepmind eine gesonderte Form des Relational Networks vorgestellt, das Visual Interaction Network. Basierend auf einigen wenigen Einzelbildern eines Videos kann dieses Netzwerk Objekte und ihren Status in der physikalischen Welt erkennen und eine Vorhersage darüber treffen, was als nächstes passiert, zum Beispiel, ob sich ein bestimmtes Objekt weiterbewegen wird.
2 Machine Learning 37
Basierend auf dieser Pionierarbeit von Deepmind im Jahre 2017 haben sich bereits einige vielversprechende neue Architekturen entwickelt, wie z. B. Recurrent Rational Networks, die im Bereich des Flugzeugdesigns und der Flugobjektsteuerung erste Erfolge erzielen können.
Literatur 1. Harrison, D., & Rubinfeld, D. L. (1978). Hedonic prices and the demand for clean air. J. Environ. Economics & Management, 5, 81–102. 2. He, X., Zhao, K., & Chu, X (02.08.2019). AutoML: A survey of the state-of-the-art. https://arxiv.org/abs/1908.00709. Zugegriffen: 08. Juni 2020. 3. Simonyan, K., & Zisserman, A. (10.04.2015). Very deep convolutional networks for large-scale image recognition. https://arxiv.org/abs/1409.1556. Zugegriffen: 08. Juni 2020. 4. Vashwani, A. et al. (12.06.2017). Attention is all you need. https://arxiv. org/abs/1706.03762. Zugegriffen: 08. Juni 2020. 5. Devlin, J. et al. (11.10.2018). BERT: Pre-training of deep bidirectional transformers for language understanding. https://arxiv.org/abs/1810.04805. Zugegriffen: 08. Juni 2020. 6. Yang, Z. et al. (19.06.2019). XLNet: Generalized autoregressive pretraining for language understanding. https://arxiv.org/abs/1906.08237. Zugegriffen: 08. Juni 2020. 7. Sun, Y. et al. (29.07.2019). ERNIE 2.0: A continual pre-training framework for language understanding. https://arxiv.org/abs/1907.12412. Zugegriffen: 08. Juni 2020. 8. Liu, Y. et al. (26.06.2019). RoBERTa: A robustly optimized BERT pretraining approach. https://arxiv.org/abs/1907.11692. Zugegriffen: 08. Juni 2020. 9. Johnson, J. et al. (20.12.2016). CLEVR: A diagnostic dataset for compositional language and elementary visual reasoning. https://arxiv.org/ abs/1612.06890. Zugegriffen: 08. Juni 2020.
3 Künstliche Intelligenz im Marketing
Marketing hat sich schon immer in zwei Disziplinen gespalten: Es gibt die Kreativen, die mit überragenden Slogans und Bildern, Menschen von Produkten oder Services überzeugen sowie die Datengetriebenen, die jede Interaktion mit einem Werbemittel messen und versuchen, rein datengetriebene Kampagnen zu mehr Erfolg zu verhelfen. Mit der steigenden Nutzung des Internets und in jüngerer Zeit durch Smartphones und Wearables steigt die Datenmenge, die zur Optimierung von Kampagnen und Werbezielen zur Verfügung steht immens an. 2023 soll das globale Datenvolumen erstmals 100 Zetabytes überschreiten. In dieser Menge an strukturierten und unstrukturierten Daten verstecken sich wertvolle Informationen über Präferenzen, Historie und Trigger von Millionen Kunden, die ein Mensch nicht mehr hoffen kann zu verstehen und in handlungsorientierte Aktionen umzusetzen. Hierfür benötigt es künstliche Intelligenz.
© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 P. Wennker, Künstliche Intelligenz in der Praxis, https://doi.org/10.1007/978-3-658-30480-5_3
39
40 P. Wennker
3.1 Targeting Targeting, die zielgerichtete Ansprache eines Nutzers mit werblichen Inhalten, innerhalb der vielzitierten Paramater, zur richtigen Zeit, mit dem richtigen Angebot, ist der heilige Gral des Marketings. Verschiedene statistische Methoden haben sich diesem in der Vergangenheit angenähert. Die Vielzahl an verhältnismäßig neuen Interaktionspunkten von Nutzern, die eine digitale Spur hinterlassen, öffnen hier neue Wege der gezielten Nutzeransprache durch Machine Learning und künstliche Intelligenz. Die Datenmenge, die selbst ein verhältnismäßig kleiner Onlineshop über verschiedene Marketingkanäle produziert, wächst rasant und erreicht schnell ein Volumen, dass von Menschen nicht mehr in endlicher Zeit analysiert werden kann. Zudem gibt es durch digitale Kommunikationswege oft ein Ziel, das gemessen werden kann, sei es ein Kauf in einem Onlineshop, ein Anruf, ein Download oder das Verfassen einer E-Mail. Im Kontext mit Machine Learning öffnet dies das gesamte Repertoire des Supervised Learnings, um Marketinganstrengungen zu optimieren und zu automatisieren. Das New Yorker Start-up Albert hat sich zum Ziel gesetzt, digitale Kampagnen nicht nur zu optimieren, sondern vollautomatisch auszusteuern. Dazu analysiert die künstliche Intelligenz vergangene Online-Marketing-Aktivitäten, wie z. B. Paid-Search-Kampagnen bei Google, Facebook oder Bing auf Ebene der individuellen Kampagnen, Anzeigengruppen und Creatives. Das gewonnene Wissen in Verbindung mit einem definierten Ziel, zum Beispiel die Costs per Aquisition zu senken, nutzt Albert, um eine Vielzahl von statistisch validen Tests durchzuführen, um die optimale Verteilung von Budgets über die Kanäle, aber auch Kampagnen und Anzeigengruppen hinweg zu finden. In einer Case Study in Zusammenarbeit mit dem Modelabel Natori zeigt Albert dramatische Verbesserungen der Performance. Natori ist ein US-amerikanisches Modelabel, das sich seit 1977 an Frauen richtet. Im Zuge der Digitalisierung bemerkte man, dass junge agile Unternehmen zusehends online mehr Aufmerksamkeit bekommen und Natori selbst Stammkunden abspenstig machten. Natori selbst hatte kein Online-Marketing-Know-how im Haus und beschränkte sich
3 Künstliche Intelligenz im Marketing 41
darauf, Pressemeldungen auf Social-Media-Profilen zu teilen. Klassische Werbung in Print stand zudem immer unter der Vorgabe, möglichst künstlerisch wertvoll zu sein. Albert wurde mit dem Ziel eingesetzt, neue Kunden auf Facebook und Instagram zu erreichen. Nachdem die KPI identifiziert waren und eine Reihe von Creatives erstellt worden waren, machte sich die künstliche Intelligenz daran, Nutzerverhalten zu testen und Kampagnen zu optimieren. Innerhalb von sechs Monaten konnte so der Umsatz über Social Media um 84 % und das Return-of-Advertising-Spending um 18 % gesteigert werden. Bedenkt man die Ausgangslage, sollte man diese Zahlen kritisch hinterfragen. Faszinierend ist aber, dass Albert berechnete, dass Natori auf sog. Carousel Ads setzen sollte, um die beste Performance zu erreichen. Ein Werbemittel, das das Unternehmen bis dato nicht nutzte. Nachdem diese erstellt wurden und von Albert mit verschiedenen Texten in Kombination getestet wurden, stiegen die Online Conversions des Modelabels innerhalb eines Monats um 24 % [1]. Wenig überraschend sind die großen Unternehmen der Onlinewerbung, allen voran Google und Facebook, auch die Unternehmen, die maßgeblich an der Evolution von künstlicher Intelligenz beteiligt sind und ihre eigenen Frameworks veröffentlicht haben: Google mit TensorFlow und Facebook mit Torch. Bei beiden Unternehmen kommen eine riesige Datenbasis, Rechenkapazität und Werbung als Haupteinnahmequelle zusammen. Beide Unternehmen bauen darauf, dass Werbekunden möglichst effektive Werbung schalten und so ihre Werbeausgaben im jeweiligen Netzwerk erhöhen. Kein Wunder also, dass sowohl Google als auch Facebook den Werbekunden möglichst einfache Machine Learning Tools an die Hand geben, um deren Kampagnen zu verbessern – auch, wenn das werbende Unternehmen selbst vielleicht nicht das Wissen oder die Kapazitäten besitzt, dies selbst zu tun. Oder, wie Google es 2018 bei der Vorstellung der Tools formuliert hat: Nutzer erwarten personalisierte, relevante Werbung in großem Maßstab. Die Responsive Search Ads basieren auf einem ähnlichen Prinzip wie Albert. Der Werbetreibende stellt 15 Überschriften und vier Anzeigen-
42 P. Wennker
texte bereit, das System testet automatisch die Kombinationen, die am vielversprechendsten sind unter Berücksichtigung externer Parameter, z. B. der spezifischen Suchanfrage eines Nutzers. Google zufolge führt dieses System zu einem Anstieg der Anzeigenklicks um 15 %. Ähnliche Systeme werden für Google-Shopping-Kampagnen genutzt, mit der Besonderheit, dass der Nutzer auswählen kann, ob die Produktanzeigen nur Abverkäufe fördern sollen, oder ob der Schwerpunkt der Kampagne auch auf das Erreichen neuer Nutzer oder den physischen Besuch eines Ladengeschäfts gelegt werden soll. „Google weiß, was wir suchen, Facebook weiß, was wir denken“ ist ein viel zitierter Aphorismus, wenn es um den Vergleich beider Unternehmen geht. Selbstverständlich nutzt Facebook ähnliche Machine-Learning-Techniken wie Google wenn es um das maßgeschneiderte Ausspielen von Werbung oder das Kuratieren des individuellen Newsfeeds geht. Durch die Natur von Facebook inklusive hinzugekaufter Assets, wie WhatsApp, Instagram und Oculus, hat Facebook ganz andere Möglichkeiten, künstliche Intelligenz zu nutzen. Auch wenn nicht von Facebook selbst initialisiert, hat der Skandal um Cambridge Analytica vielen Menschen erst bewusst gemacht, wie weitreichend die Analysemöglichkeiten von in Social Media geteilten Inhalten reichen, bis hin zur Erstellung von Persönlichkeitsprofilen und der Vorhersage von Wahlpräferenzen. An einem Beispiel aus dem nichtkommerziellen Angebot von Facebook wird deutlich, welche Vorhersagegüte anhand von Facebook-Daten möglich ist. Facebook selbst nutzt die Möglichkeiten von künstlicher Intelligenz mit der Fülle an Daten unter anderem für die Vorhersage, ob ein Nutzer suizidale Absichten hegt. Global gesehen ist Selbstmord die häufigste Todesursache von 15–29-Jährigen. Statistisch gesehen passiert alle 40 s ein Selbstmord, in den US jährlich 45.000. Bis 2016 war es Nutzern möglich, Posts von anderen als potenziellen Hinweis auf Selbstverletzung oder Suizid zu markieren, sodass das Posting von einem Facebook-Mitarbeiter reviewed wurde, der ggf. weitere Schritte einleiten konnte.
3 Künstliche Intelligenz im Marketing 43
Seitdem hat Facebook die automatischen analytischen Fähigkeiten stark ausgebaut. Beginnend mit Bag-of-Words- bzw. n-gram-Ansätzen in logistischer Regression, über Random Forest Algorithmen bis zur aktuellen Iterationsstufe, basierend auf Facebooks eigener Natural Language Engine Deeptext werden von diesem neuronalen Netzwerk jedes Posting und alle dazugehörigen Kommentare automatisch überprüft und bei Hinweisen auf Selbstmord entsprechend zur Begutachtung durch einen menschlichen Moderator markiert. Im Zuge der Entwicklung von DeepText, das auf Word Embeddings setzt, hat Facebook die Entwicklung von bidirektionalen rekurrenten neuronalen Netzwerken vorangetrieben, um Text in Verbindung mit Bildern oder Videos besser verarbeiten zu können. Dabei können BRNN auf die Zustände in Layern zurückgreifen, die in der Zeit vor oder hinter dem aktuellen Layer liegen. Wird von diesem System ein Posting als Hinweis auf Selbstmord klassifiziert und der Moderator stimmt dieser Einschätzung zu, wird der Vorgang an ein speziell geschultes Team von Experten mit Hintergrund in psychologischer Betreuung, Polizei und Medizin weitergeleitet. Je nachdem, wie dieses Expertenteam die Nachricht einschätzt, können Sie dem Nutzer Hilfsangebote in der Facebook App oder Website einblenden oder in schwerwiegenden Fällen Polizei und Feuerwehr auf den Nutzer hinweisen und persönliche Informationen an Ersthelfer übermitteln. In einem Blogpost von Ende 2018 gibt Facebook-Gründer Mark Zuckerberg an, dass diese letzte Eskalationsstufe des direkten Eingriffs weltweit 3500-mal pro Jahr genutzt wird [2]. Bereits das Einblenden von Hilfsressourcen für Selbstmordgefährdete soll signifikant helfen. In Deutschland und der Europäischen Union ist das Screening von Nachrichten auf Selbstmordabsichten seit in Kraft treten der Datenschutzgrundverordnung DSGVO nicht mehr möglich. Die Fähigkeit, Verhalten anhand von Social-Media-Daten vorherzusagen, kumuliert in einem Dokument, dass dem Onlinemagazin The Intercept zugespielt wurde. The Intercept [3] hat sich seit den Leaks von Edward Snowden zur Aufgabe gemacht, politische, gesellschaftliche und technische Nachrichten in Tiefe aufzubereiten.
44 P. Wennker
Das Magazin berichtet von einem internen Facebook Tool namens FBLearner Flow, welches Facebook selbst bereits 2016 eher in einer Randnotiz vorgestellt hat. 2016 wurde FBLearner flow beschrieben als Werkzeug um relevantere Werbung auszuspielen. Wie The Intercept berichtet, geht FBLearner Flow aber weiter als nur anhand von bekannten demographischen Daten oder geklickten Likes Werbung auszusteuern. Die kompletten Nutzerprofile von Facebook basieren auf 29.000 unterschiedlichen Datenpunkten, die mittels FBLearner Flow genutzt werden können, um zukünftiges Verhalten der Nutzer vorherzusagen. So kann der Werbetreibende definieren, dass er Nutzer erreichen möchte, die kurz davor stehen, die Marke eines Produkts zu wechseln. Nicht darauf basierend, dass der Nutzer Veröffentlichungen eines Wettbewerbers gelesen hat, sondern auf Basis von Veränderungen in den Lebensumständen des einzelnen Nutzers wird ein Loyalitätsindex berechnet, der Rückschlüsse auf die Wechselwilligkeit erlaubt. FBLearner Flow, das als Rückgrat von Facebook beschrieben wird, ist kein eigenständiger Algorithmus, sondern ein Framework, das ähnlich anderen AutoML-Produkten, viel Handarbeit in der Erstellung von Vorhersagen mittels Machine Learning automatisiert, wie z. B. Finetuning und Feature Selection. Darüber hinaus ermöglicht das Tool es, Algorithmen wiederzuverwenden, die eigentlich für andere Zwecke entwickelt wurden. Zum Zeitpunkt der ersten Erwähnung von FBLearner Flow seitens Facebook nutzten bereits 25 % der Facebook-Entwickler das Tool, ohne einen Hintergrund in Machine Learning zu haben. In den zwei Jahren vor Veröffentlichung wurden mehr als eine Million Modelle trainiert, was es Facebook ermöglicht, mehr als 6 Mio. Vorhersagen pro Sekunde durchzuführen.
3.2 Content Creation Zahlen analysieren, Profile erstellen und datengetriebene Vorhersagen treffen gehören zu den Aufgaben, die künstliche Intelligenz im Marketingumfeld übernehmen kann. Deep-Learning-Netzwerke und Machine-Learning-Anwendungen sind die treibende Kraft hinter Empfehlungssystemen, dynamischem Pricing und
3 Künstliche Intelligenz im Marketing 45
Targetinganwendungen. Die Arbeit der Kreativen, das Verfassen einer passenden Werbebotschaft oder die Erstellung von Visuals für eine Werbekampagne gehören wahrscheinlich nicht zu den Punkten, die man im Kopf hat, wenn es um den Einsatz von Machine Learning im Marketing geht. Onlineshopbetreiber, besonders mit variantenreichen Produkten, stehen vor der Herausforderung eine Vielzahl von Produktvarianten, teilweise in Kombination, bebildern zu müssen, damit sich der Kunde ein umfassendes Bild machen kann. Besonders einleuchtend ist dies im Bereich Mode. Oberteile können mit Hosen, Schuhen und Accessoires kombiniert werden, Nutzer wollen die verschiedenen Kombinationen an Models mit unterschiedlichen Körperformen und Größen sehen – es wäre eine Mammutaufgabe, jede mögliche Kombination im Bild festzuhalten. Der Online-Modehändler Zalando hat sich dieser Problematik angenommen und ein System auf Basis von StyleGAN entwickelt. Generative Adversarial Networks erzeugen im Wettstreit zweier Netzwerke immer bessere Bilder. Das eine Netzwerk versucht Bilder zu erschaffen, die möglichst original wirken, das zweite Netzwerk versucht, generierte Bilder von Originalen zu unterscheiden. Zalando Research trainierte zwei Netzwerke auf einem Datensatz, der aus 380.000 Fotos von Modellen in einer bestimmten Körperpose und sechs Kleidungsstücken/Accessoires besteht. Das erste Netzwerk wurde trainiert, um den Transfer der Farbe von Kleidungsstücken und die Körperpose von einem Model auf ein anderes zu übertragen. Das zweite Netzwerk dient der Generierung der finalen Bilder. Als Input dienen die Kleidungsstücke und eine Körperpose, das Netzwerk kreiert die gewünschten Bilder [4]. StyleGAN lassen sich auf eine Vielzahl von Produkten anwenden, die kombinatorische Herausforderungen durch eine hohe Anzahl Varianten zeigen, aber auch in anderen Bereichen des Marketings, in denen verschiedene Bildkompositionen getestet werden sollen. Zalando nutzt Generative Adversarial Networks in weiteren Bereichen, zum Beispiel beim Rapid Prototyping neuer Modeentwürfe [5].
46 P. Wennker
Die vorgestellte Architektur macht es möglich, Farbe, Stoffbeschaffenheit und Form als Input-Features zu nutzen, um Bilder des fertigen Kleidungsstücks zu generieren, um es dann Designern zu ermöglichen, schnell zu sehen, wie verschiedene Kombinationen aussehen könnten.
3.3 Texterstellung Content Marketing ist seit einigen Jahren die Werbeform der Wahl in vielen Unternehmen. Inhalte die informieren, beraten oder einfach nur unterhalten sollen. Im Gegensatz zu klassischen werblichen Inhalten enthält Content Marketing keine direkte Werbebotschaft. Content Marketing soll durch entkommerzialisierte Inhalte Bekanntheit und Wahrnehmung einer Marke steigern und damit erst sekundär zu Umsatzsteigerung und Wertschöpfung beitragen. Content Marketing ebenso wie andere Formen des Marketings und der Werbemittel benötigen eine Vielzahl von Texten und Inhalten, die bisher von menschlichen Autoren verfasst werden. Neuronalen Netzwerken die Erstellung von Texten beizubringen beschäftigt Forscher und Entwickler schon länger, mit teilweise kuriosen Stilblüten. So wurde bereits vor fünf Jahren ein rekurrentes neuronales Netzwerk vorgestellt, das kurze Geschichten zu Bildern erfand. Das „Neural Storyteller“ genannte Netzwerk wurde auf 14 Mio. Absätzen aus Liebesromanen und Songtexten von Taylor Swift trainiert, um entsprechende Beschreibungen zu generieren. Zu einem Foto zweier Sumo-Ringer mitten im Kampf generierte das neuronale Netzwerk zum Beispiel folgende Passage: He was a shirtless man in the back of his mind, and I let out a curse as he leaned over to kiss me on the shoulder. He wanted to strangle me, considering the beautiful boy I’d become wearing his boxers. Unterhaltsam – aber in seriösen Applikationen nicht zu gebrauchen. 2019 hat Facebook Research ein neues Modell zur Generierung von Geschichten vorgestellt [6]. Basierend auf dem Forum WritingPrompts auf Reddit. Hier posten Nutzer einen sog. Prompt der aus einem oder mehreren Wörtern bestehen kann, andere Nutzer versuchen basierend
3 Künstliche Intelligenz im Marketing 47
auf diesem Prompt eine Geschichte zu verfassen und posten diese als Kommentar. Verschiedene Netzwerkarchitekturen wie CNN oder RNN haben gezeigt, dass sie kurze Textsequenzen erstellen können, aber bei längeren Passagen den Fokus verlieren. Facebook stellt hierzu eine „Fusion Models“ genannte Architektur vor, bei der, vereinfacht dargestellt, ein neuronales Netzwerk lernt, was ein zweites nicht lernen konnte. Die Ergebnisse lesen sich im direkten Vergleich mit dem Neural Storyteller deutlich flüssiger und menschenähnlicher. Aus dem Prompt „Aliens start abducting humans“ machte das Netzwerk folgende kurze Geschichte: „It has been two weeks, and the last of my kind has gone. It is only a matter of time until there will be nothing left. I’m not sure what the hell is going on… I can’t think. I can hear a distant scream. I think of a strange, alien sound. I try to speak, but am interrupted by something, something that feels like a drum, I cannot tell. I mean I’m just a little bit older than an average human. But I can, and I can feel the vibrations. I hear the sound of a ship approaching. The ground quakes at the force of the impact, and a loud explosion shatters the silence.“
International, auch außerhalb der Fachwelt, erregte OpenAI mit dem GPT-2 Modell (https://github.com/openai/gpt-2) Aufsehen. OpenAI ist irgendwo zwischen Start-up und NGO angesiedelt und hat es sich zum Ziel gesetzt, künstliche Intelligenz zu demokratisieren und gleichzeitig auf Gefahren des unregulierten Einsatzes hinzuweisen. Mit dem OpenAI Gym stellte OpenAI eine Plattform zur Verfügung, auf der Nutzer eigene Anwendungen auf Basis von Machine Learning mittels Videospielen trainieren konnten. 2019 gelang Entwicklern von OpenAI mehr als ein Achtungserfolg als die künstliche Intelligenz OpenAI five das Weltmeisterteam in dem kooperativen Multiplayer Spiel Dota-2 geschlagen hat. OpenAI ist alles andere als unumstritten nachdem es ein Millioneninvestment von unter anderem Microsoft entgegengenommen hat. Ursprünglicher Mitgründer Elon Musk, ebenso wie anerkannte Institutionen wie das MIT Technology Review sparen nicht mit Kritik
48 P. Wennker
an OpenAI und vermuten entweder eine politische Agenda hinter der Veröffentlichung bestimmter Forschungsergebnisse oder vermuten, dass das Unternehmen unter dem Mantel der Transparenz und durch den Austausch von Forschungsergebnissen ein wirtschaftlichen Vorsprung erreichen will. Entsprechend vorsichtig muss man mit den Verlautbarungen von OpenAI bezüglich ihres Transformer Modells GPT-2 umgehen. GPT-2 wurde seitens OpenAI als das effektivste System für eine Vielzahl von Natural Language Processing Tasks präsentiert. Genau genommen ist es so gut, dass es zu gefährlich wäre, das Modell zu releasen. Stattdessen entschied man sich für eine gestufte Veröffentlichung: zuerst kleine Modelle mit wenigen Parametern, über mittlere bis hin zum finalen Modell, welches dann von einem System zur Erkennung von mittels GPT-2 erstellten Texten begleitet wurde. OpenAI ist ähnlich wie ein BERT ein Transformer Modell, welches auf 40GB-Text aus dem Internet trainiert wurde. Die Daten, die Open AI nutzte, wurden indirekt kuratiert. Texte mussten auf der Plattform Reddit mindestens 3 Karma erhalten haben (analog Facebook-Likes), um in den Datensatz aufgenommen zu werden. Die initiale Ankündigung besagte, dass die Texte, die von GPT-2 erstellt würden, so gut wären, dass sie nicht mehr von von Menschen geschriebenen Texten zu unterscheiden wären und lieferte auch einige Beispiele mit, bei dem das Modell aus einem Zweizeiler als Input einen seitenlangen, kohärenten Text erstellt hat. Die zugrunde liegende Methodologie basiert darauf, das Modell während des Trainings das nächste Wort einer Sequenz unsupervised vorherzusagen zu lassen, unter Berücksichtigung aller vorherigen Wörter. Die Qualität des Modells ist grundsätzlich nicht zu bestreiten. Die Cornell University hat die generierten Texte verglichen und misst für das 1.5 Mrd. Parameter Modell einen Credibility Score von 6,91 von 10 maximal möglichen Punkten. Der Credibility Score beschreibt für wie glaubwürdig Menschen die generierten Texte halten. Das mittlere Modell mit 774 Mio. Parametern erreicht einen Score von 6,72 auf derselben Skala, was Kritik der Veröffentlichungsstrategie als PR Stunt nochmals verstärkte. Das kleinste Modell mit 355 Mio. Parametern kommt auf einen Score von 6,07.
3 Künstliche Intelligenz im Marketing 49
Our partners at the Middlebury Institute of International Studies’ Center on Terrorism, Extremism, and Counterterrorism (CTEC) untersuchte die Modelle auf mögliche Nutzung von Terroristen für die automatische Erstellung von Propaganda. Dafür nutzte das CTEC GTP-2 als Grundlage und trainierte es Texte aus den Spektren Überlegenheit der weißen Rasse, Marxismus, radikal jihadistischer Islam und Anarchismus zu erstellen. Laut CTEC war diese synthetische Propaganda glaubhaft und im Regelfall von Menschen als glaubhaft eingestuft. Entsprechend gut zu wissen, dass das Detection Tool, das OpenAI veröffentlicht hat, mit GPT-2 erstellte Texte mit einer Genauigkeit von bis zu 95 % erkennen kann. Um zu zeigen, wie glaubwürdig Texte sein können, die mit GPT-2 erstellt wurden, im Folgenden ein Vergleich der Beschreibung des aktuellen US-Präsidenten von whitehouse.gov mit einer automatisch erstellten. Die Einleitung ist bei beiden Texten identisch bzw. diente als Input für GPT-2, um den weiteren Text zu erstellen. • Einleitung: Donald J. Trump is the 45th President of the United States. He believes the United States has incredible potential and will go on to exceed even its remarkable achievements of the past. • Variante 1 (von Menschen verfasst): His campaign slogan for President was, “Make America Great Again,” and that is exactly what he is doing. Donald J. Trump defines the American success story. Throughout his life he has continually set the standards of business and entrepreneurial excellence, especially in real estate, sports, and entertainment. Mr. Trump built on his success in private life when he entered into politics and public service. • Variante 2 (GPT-2 generiert): In order to achieve America’s renewed greatness, we must reverse the course of our history. To achieve that goal, Donald J. Trump intends to carry forward and to move forward the historic agenda for American renewal, one that will make America great again. President Trump will
50 P. Wennker
make this country greater than ever before and accomplish great things that will be a true legacy for our nation. Beiden Texten sind bestimmte Charakteristika zu eigen, z. B. die Erwähnung des Kampagnenslogans in der einen oder anderen Form, was in sich selbst interessante Vermutungen über das Trainingsset zulässt, das Mitte bis Ende 2018 erstellt wurde. Bei der mit GPT-2 generierten Variante handelt es sich um die zweite, die ohne weiteren Input abseits des eingangs erwähnten Satzes erstellt wurde. Bei dem genutzten Modell handelt es sich um das 774 Mio. Parameter GPT-2 Modell, das nicht weiter trainiert oder einem Finetuning unterzogen wurde. An dem Beispiel kann man sich leicht vorstellen, welche Ergebnisse möglich sind, wenn man auf Basis des Grundmodells domainspezifisch, z. B. mittels bereits veröffentlichtem Wahlkampfmaterial von Herrn Trump, weiter trainiert. Auch wenn Wahlkampf eine Form von Werbung ist, ist gleiches natürlich auch noch genauer möglich, indem Finetuning mit produkt-, marken- oder industriespezifischen Inputs betrieben wird, um GPT-2 auf die individuelle Branche anzupassen. Ein leicht zu etablierender Feedback Loop kann zum Beispiel anhand von Nutzerreaktionen auf synthetisch generierte Texte in Social Networks eingerichtet werden. Ende Mai 2020 hat Open AI mit GPT-3 [7] das bisher größte Sprachmodell vorgestellt. Bis dato unglaubliche 175 Mrd. Parameter machen GPT-3 mit Abstand zum größten Modell. Zum Vergleich: Das von Microsoft im Februar 2020 vorgestellte [8], und bis dahin größte Modell, Turing-NLG, kommt „nur“ auf 17 Mrd. Parameter. In dem korrespondierenden Paper zeigen die Autoren, dass große Sprachmodelle-Aufgaben agnostisch State-of-the-Art-Resultate erreichen können, ohne ausdrücklich darauf trainiert worden zu sein. Ist das Ausgangsmodell nur groß genug, kann das Finetuning für viele Aufgaben entfallen. Die Forscher etablieren hierfür die Begriffe Few-Shot, One-Shot bzw. Zero-Shot, um die Fähigkeiten von GPT-3 im Vergleich zu anderen Architekturen bzw. Modellgrößen zu testen.
3 Künstliche Intelligenz im Marketing 51
Few-Shot bezeichnet eine Methodik bei der das Modell eine Aufgabenbeschreibung in Textform und K Beispiele für die zu lösende Aufgabe gezeigt bekommt. Das Team von Open AI nutzte Werte von K zwischen 10 und 100. Die im o.g. Paper gegebenen Beispiele für Few-Shot Learning sehen wie folgt aus: • Aufgabenbeschreibung: Translate English to French • Beispiele: sea otter => loutre de mer peppermint => menthe poivrée plush girafe => girafe peluche • Aufgabe: cheese => Analog dazu bekommt das Modell im One-Shot nur ein Beispiel gezeigt und im Zero-Shot kein einziges, sondern ausschließlich die Aufgabenbeschreibung und die Aufgabe. Neben Übersetzungsaufgaben kann GPT-3 einfache mathematische Operationen lösen, wie zum Beispiel die Antwort auf die als Texteingabe gegebene Frage: „What is 48 plus 76?“. GPT-3 zeichnet sich besonders im Bereich der Texterstellung aus. Zur Überprüfung der Fertigkeiten wurden 25 Artikelüberschriften und Untertitel wahllos von dem Nachrichten-Aggregator newser.com ausgewählt und von GPT-3 zu Artikeln vervollständigt. Die so entstandenen Artikel wurden 80 Probanden vorgelegt, die entscheiden sollten, ob der jeweilige Artikel von einem Menschen oder einer Maschine geschrieben wurde. Nur noch 52 % der Artikel wurden hierbei richtig klassifiziert, also 2 % besser als beim Raten. Im Kontext der geäußerten Bedenken im Hause Open AI zum Release von GPT-2 eine bemerkenswerte Leistung.
3.4 Content-Verbesserung Nicht nur das reine Erstellen von neuem Content kann eine Herausforderung sein, auch das Verbessern und Verfeinern initial von Menschen erstellten Inhalten ist ein Ziel von künstlicher Intelligenz.
52 P. Wennker
Das Start-up Grammarly mit Sitz in San Francisco hat Deep Learning und Natural-Language-Processing-Systeme unter einer Anwendung gleichen Namens gebündelt. Grammarly kombiniert Rechtschreib- und Grammatikprüfung mit weiteren höheren Sprachfeatures, wie zum Beispiel der Umwandlung von Umgangs- in Hochsprache, Plagiarismuschecker oder der Echtzeitmessung von Tonalität. Die App verbindet sich nahtlos mit allen gängigen Textanwendungen, sei es Word, Slack oder Browser. Grammarly kombiniert hierfür verschiedene Architekturen, die sich in anderen Bereichen etabliert haben. StyleTransfer ist im Bereich der Bildverarbeitung gut beschrieben. Als Input dienen zwei Bilder, z. B. ein Urlaubsschnappschuss und eine Abbildung von Edvard Munchs „Der Schrei“. Die stilistischen Eigenheiten mit denen Der Schrei gemalt wurde, können auf das eigene Foto übertragen werden und ihm den Anschein geben, von Munch gemalt worden zu sein. Etwas ähnliches versucht Grammarly nur mit den stilistischen Eigenheiten von Sprache. Das vorgestellte System behandelt das Problem als ein Übersetzungsproblem. Anstelle von Englisch zu Deutsch wird aus Umgangssprache zu Hochsprache übersetzt. Grammarly nutzt hierfür eine Kombination aus phrase-based Übersetzungen mit einem Encoder-Decoder basierten neuronalen Netzwerk. Das originäre Datenset bestand aus 100.000 Paaren von zusammengehörenden Sätzen in Umgangs- bzw. Hochsprache. Durch Datensynthese mittels Hin-und-her-Übersetzungen durch das Phrase-based Modell steht ein Datensatz von über einer Million Paaren zur Verfügung [9].
3.5 Customer Experience Management Ob Customer Experience Management direkt zum Marketing gehört ist streitbar. Dem Nutzer eine möglichst angenehme Erfahrung zu bescheren und ihn zu einem loyalen Kunden zu machen, ist zumindest auch ein Ziel des Marketings. Analog dazu werden oft dieselben Werkzeuge genutzt, z. B. Webanalyse und personalisierte Ansprachen.
3 Künstliche Intelligenz im Marketing 53
Unstrittig ist hingegen, dass sich ein gutes Customer Experience Management in positiven Geschäftszahlen ausdrückt. Besonders im Onlinebereich kann die Kundenerfahrung mittels Maschine Learning direkt gemessen und verbessert werden. Allerdings tragen auch indirekte Effekte wie z. B. eine verbesserte Fraud Detection zu einer besseren Kundenerfahrung bei. Wenn ein Kreditkartenunternehmen besser darin wird, fraudulente Transaktionen zu erkennen, schützt es nicht nur den Geschäftsbetrieb, sondern macht die Erfahrung für die ehrlichen Kunden schneller, besser und störungsfreier. Ein Unternehmen, das sehr stark auf personalisierte und eine rundum gelungene Kundenerfahrung setzt ist Airbnb. Airbnb ist ein Marktplatz, auf dem Privatpersonen ihr Haus, ihre Wohnung oder ihr Feriendomizil an andere Privatpersonen vermieten können. Airbnb behält von jeder Transaktion einen gewissen Prozentsatz ein und ist somit an möglichst vielen teuren Vermietungen interessiert. Ein Spannungsfeld erzeugt dabei, dass Nutzer Unterkünfte finden und buchen sollen, die ihnen gefallen und sie so Airbnb regelmäßig nutzen. Während die inneren Zusammenhänge einer guten Suchmaschine nicht so trivial sind, wie die Allgegenwärtigkeit von Google und Co. vermuten lässt, stand Airbnb nicht nur vor der Herausforderung, eine der größten Suchmaschinen auf einer Nicht-Suchmaschinenseite zu verändern, sondern auch ein passendes Ergebnisranking mit einer Reihenfolge auszugeben, die sowohl wirtschaftliche Interessen als auch Nutzerzufriedenheit vereint. Gleichzeitig wirken in die Airbnb-Suchergebnisseite viele weitere prädiktive Modelle, z. B. die Wahrscheinlichkeit, dass der Gastgeber eine Buchung des Kunden annimmt, die Wahrscheinlichkeit, dass dem Kunden der Aufenthalt gefällt, usw. Das dominante System bei Airbnb ist hier das Modell, das die Wahrscheinlichkeit berechnet, dass ein Nutzer eine Buchung ausführt. Die Suche bei Airbnb bzw. das zurückgelieferte Ranking hat eine steile Evolution hinter sich. Zu Beginn der Plattform wurde jedes Suchergebnis noch händisch mit einem Relevanzwert versehen. Diese menschlich annotierten Daten dienten dann dazu, Gradient Boosting Decision Trees zu trainieren. Hierbei dient Gradient Boosting als Optimierungsalgorithmus der Entscheidungsbäume und bedeutet,
54 P. Wennker
dass die Entscheidungsbäume in Serie geschaltet sind und jeder neue Baum versucht, den Fehlerwert des vorherigen zu verringern. Fügt man weitere neue Bäume hinzu, sorgt dies nicht für ein Overfitting. Die Genauigkeit der Vorhersage stagniert irgendwann. Genau dies passierte auch bei Airbnb, die Vorhersagegüte erreichte ein Plateau, das sich nicht mehr verbesserte. Das finale Modell basiert auf einem neuronalen Netzwerk mit zwei Hidden Layers, das 192 Input Features entgegennimmt, darunter Preis, Ausstattung und Buchungshistorie. Auch wenn die Verbesserungen im Geschäftsergebnis nur relativ angegeben werden, bezeichnet Airbnb die Umstellung auf Suchergebnisse, die von einem neuronalen Netzwerk berechnet werden, als die wirkungsvollste Maßnahme, die Airbnb [10] vorgenommen hat.
Literatur 1. Busines Wire. (19.04.2018). Natori uses AI to transform social media into sales; sees jump in revenue and return on ad spend with albert. https:// www.businesswire.com/news/home/20180419005546/en. Zugegriffen: 08. Juni 2020. 2. Zuckerberg, M. (15.11.2018). A blueprint for content governance and enforcement. https://www.facebook.com/notes/markzuckerberg/a-blueprint-for-content-governance-and-enforcem ent/10156443129621634/. Zugegriffen: 08. Juni 2020. 3. Biddle, S. (13.04.2018). Facebook uses artificial intelligence to predict your future actions for advertisers, says confidential document. https:// theintercept.com/2018/04/13/facebook-advertising-data-artificialintelligence-ai/. Zugegriffen: 08. Juni 2020. 4. Yildrim, G. et al. (23.08.2019). Generating high-resolution fashion model images wearing custom outfits. https://arxiv.org/abs/1908.08847. Zugegriffen: 08. Juni 2020. 5. Yildrim, G., Seward, C., & Bergmann, U. (20.06.2018). Disentangling multiple conditional inputs in GANs. https://arxiv.org/abs/1806.07819. Zugegriffen: 08. Juni 2020. 6. Fan, A., Lewis, M., & Dauphin, Y. (2018). Hierarchical neural story generation, conference: Proceedings of the 56th annual meeting of the
3 Künstliche Intelligenz im Marketing 55
Association for Computational Linguistics (Volume 1: Long Papers), S. 889–898. 7. Rosset, C. (13.02.2020). Turing-NLG: A 17-billion-parameter language model by Microsoft. https://www.microsoft.com/en-us/research/blog/ turing-nlg-a-17-billion-parameter-language-model-by-microsoft/. Zugegriffen: 08. Juni 2020. 8. Brown, T. et al. (28.05.2020). Language models are few-shot learners. https://arxiv.org/abs/2005.14165. Zugegriffen: 08. Juni 2020. 9. Rao, S., & Tetreault, J. (17.03.2019). Dear sir or madam, may I introduce the GYAFC dataset: Corpus, benchmarks and metrics for formality style transfer. https://arxiv.org/abs/1803.06535. Zugegriffen: 08. Juni 2020. 10. Haldar, M. et al. (22.10.2018). Applying deep learning to Airbnb search. https://arxiv.org/abs/1810.09591. Zugegriffen: 08. Juni 2020.
4 Künstliche Intelligenz in Human Ressources
Der Kampf um Fachkräfte beschäftigt Unternehmen weltweit. Bewerber wählen ihre Arbeitgeber mittlerweile sehr gezielt aus, Firmenpolitik und Kultur oder Work-Life-Balance sind nur zwei Felder, die Absolventen in Erwägung ziehen, bevor sie sich bewerben. Gleichzeitig gehört die Karriere in einem einzelnen Unternehmen, von der Ausbildung bis zur Rente, mittlerweile der Vergangenheit an. Künstliche Intelligenz kann auf jeder Ebene des Personalmanagements helfen, HR-Spezialisten zu entlasten und Personal gezielter für Aufgaben auszuwählen, zu finden und langfristig an das Unternehmen zu binden. Gleichzeitig stellt die HR-Landschaft eine besondere Herausforderung dar, denn die Erklärbarkeit von Vorhersagen oder Entscheidungen auf Basis von künstlicher Intelligenz kann für Mitarbeiter mitunter nicht einfach nachzuvollziehen sein. Entscheider stehen vor ähnlichen Herausforderungen, wenn eine Zielvorgabe für das maschinelle System gemacht werden muss: Wie drückt man einen guten Mitarbeiter in Zahlen aus, die das System versteht und gegen die es optimieren kann? Reine Produktivitätswerte können als Input dienen, aber was ist mit den im Arbeitsalltag so wichtigen Softskills, die eine Firmenkultur nachhaltig prägen können? © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 P. Wennker, Künstliche Intelligenz in der Praxis, https://doi.org/10.1007/978-3-658-30480-5_4
57
58 P. Wennker
Gleichzeitig müssen hohe Standards an den Datenschutz mit durchaus sensiblen Bewerberdaten gewahrt werden und unbeabsichtigter algorithmischer Rassismus oder Benachteiligung ausgeschlossen werden.
4.1 Recruiting Der britisch-niederländische Konzern Unilever ist neben Henkel und Proctor & Gamble einer der größten Produzenten von Konsumgütern, wie Nahrungsmittel, Kosmetika und Körperpflegeprodukten. Unilever stellt pro Jahr mehr als 30.000 Mitarbeiter für Stellen in 190 Ländern ein und wertet dafür 1,8 Mio. Bewerbungen aus. Dies geschieht im ersten Schritt nicht mehr durch einen Menschen, sondern komplett automatisiert mittels Machine Learning. Unilever spart so jedes Jahr 100.000 Arbeitsstunden im HR-Bereich ein. Um dies zu schaffen, setzt Unilever auf die Software von pymetrics. Im Gegensatz zu klassischen Bewerbungsverfahren, beginnen Bewerber den Prozess zu Hause vor dem eigenen Bildschirm. Hierbei spielen die Bewerber eine Reihe von Spielen, die das logische Verständnis, Risikobereitschaft und andere Fähigkeiten testet. Machine-Learning-Algorithmen gleichen die Ergebnisse der Spiele mit denen von erfolgreichen Bewerbern für ähnliche Stellen im Unternehmen in der Vergangenheit ab. In einer zweiten Runde müssen die Bewerber ein circa halbstündiges Interview per Smartphone oder Laptopkamera aufzeichnen, indem sie vorgefertigte Fragen beantworten. Dieses wiederum wertet eine künstliche Intelligenz aus, die von dem Start-up HireVue entwickelt wurde, die Sprache, Wortwahl und Körpersprache analysiert. Welche Attribute hier entscheidend sind, wird von Unilever nicht veröffentlicht, nur so viel, dass jedes Einzelbild aus dem Video mehrere hundert Datenpunkte enthält, die analysiert werden. Erst in der dritten Stufe werden menschliche Recruiter und HR-Experten in den Rekrutierungsprozess eingebunden. Durch die Automatisierung der ersten beiden Stufen des Bewerbungsprozess erhält jeder Bewerber bei Unilever Feedback über seine Stärken und Schwächen.
4 Künstliche Intelligenz in Human Ressources 59
4.2 Onboarding Nachdem ein geeigneter Kandidat gefunden ist, soll der Einstieg in den neuen Job möglichst reibungslos verlaufen. Eine Studie von Glassdoor hat gezeigt, dass ein starker Onboarding-Prozess nicht nur dafür sorgt, dass Neueinstellungen länger im Unternehmen bleiben, sondern auch vom Start weg produktiver sind. Auch wenn eine menschliche Note und Mentoringprogramme, wie sie viele Unternehmen bieten, das Onboarding vereinfachen und auf eine persönliche Ebene heben, gibt es viele Fragen, die Neueinstellungen immer wieder stellen, wie z. B. wo gibt es Mitarbeiterparkplätze oder Informationen zu Sozialleistungen und Mitarbeiterangeboten. HR-Chatbots, wie z. B. von bash.ai oder Microsoft angeboten, setzen dabei auf dieselben Methodiken des Natural Language Processing, die Chatbots in anderen Umfeldern nutzen. Basierend auf Transformern und Word Embeddings, können Chatbots auf wiederkehrende unternehmensspezifische Fragen trainiert werden, um neue Mitarbeiter über die Kleinigkeiten zu informieren, die den Jobeinstieg so nervenaufreibend machen können.
4.3 Qualifizierung Lebenslanges Lernen ist nicht nur ein politisches Schlagwort, sondern wird von Mitarbeitern zunehmend eingefordert. Allgemeine Fortbildungsangebote treffen meist nicht die individuellen Interessen oder Veranlagungen der Mitarbeiter oder passen nicht zur individuellen Weiterentwicklung, die ein Mitarbeiter im Sinne des Unternehmens durchlaufen sollte. Talententwicklungsplattformen wollen diese Lücke automatisiert schließen und jedem Mitarbeiter ein persönliches Coaching an die Seite stellen. Dazu verbinden die Plattformen Tests für die Mitarbeiter, die die aktuelle Befähigung messen und – mittels Machine Learning
60 P. Wennker
– Anforderungen für Karriereziele gegenüberstellen. Gleichzeitig beinhalten diese Plattformen Recommendation Engines, ganz ähnlich denen von E-Commerce-Angeboten, die die Wissenslücken des Mitarbeiters als Input nehmen und Bücher, Lehrgänge und Fortbildungen passend empfehlen. Zusätzlich kann bei unternehmensweitem Einsatz nach internen Mentoren gesucht werden, die ähnliche Karriereschritte vollzogen haben.
4.4 Beförderungen Die Chance auf persönliche Entwicklung im Unternehmen bzw. die fehlende Perspektive ist einer Studie der kanadischen Human Resources Professionals Association zufolge der Hauptgrund für Mitarbeiter, das Unternehmen zu verlassen, noch vor schlechtem Management und Gehalt. Die interne Mobilität von Mitarbeitern, also der Wechsel auf einen anderen Job im selben Unternehmen ist für das Unternehmen eine gewinnbringende Maßnahme. Interne Bewerbungsprozesse sind kürzer und beide Seiten wissen, worauf sie sich einlassen. Gerade in großen Unternehmen ist das Matching zwischen Job und Kandidat eine fast ebenso große Herausforderung, wie die Suche nach externen Kandidaten. Mit der zusätzlichen Schwierigkeit, dass intransparente Prozesse die Mitarbeiterzufriedenheit nachhaltig beeinträchtigen können. General Electric ist einer der größten Konzerne der Welt und beschäftigt über 200.000 Menschen. Um interne Wechsel zu vereinfachen bzw. für offene Positionen den besten internen Kandidaten zu finden, setzt GE auf kollaboratives Filtern, bei dem die Profile von Mitarbeitern und deren Karrierehistorie mit Mitarbeitern auf ähnlichen Positionen verglichen wird, um den möglichst besten internen Kandidaten für die Position zu finden. In einer zweiten Stufe sollen Natural-Language-Processing-Fähigkeiten hinzugefügt werden, die Fähigkeiten und Interessen auch dann bewerten können, wenn sich diese nicht in den historischen Karrieredaten finden.
4 Künstliche Intelligenz in Human Ressources 61
Salesforce ist hier schon einen Schritt weiter. Aus den jährlichen Mitarbeiterbewertungen werden Informationen über ungenutzte Fähigkeiten oder Ziele extrahiert und mit Vakanzen abgeglichen, um so proaktiv passende Positionen innerhalb des Unternehmens zu finden, die besser zu dem Mitarbeiter passen. Google als Pionier im Bereich Machine Learning und künstliche Intelligenz setzt bei seinem Matchmaking ganz auf algorithmische Unterstützung. Das Projekt Chameleon genannte Tool ist ein Marktplatz interner offener Positionen auf der einen Seite und den Profilen und Vorlieben der Mitarbeiter auf der anderen Seite. Mittels des Gale-Shapley-Algorithmus werden Jobs und Präferenzen abgeglichen und über ein Farbsystem werden die Übereinstimmungen kodiert. Bedenkt man Googles Hintergrund fand die Lösung etwas überraschend in der ersten Iteration wenig Anklang bei den Beschäftigten. Nur 11 % der Mitarbeiter bewarben sich auf einen neuen Job und nur 25 % erhielten dabei eine ihrer Wunschpositionen. In den folgenden Jahren stieg die Akzeptanz des Tools in der Belegschaft, was nicht zuletzt an der besseren Performance gelegen haben dürfte: Nach sechs Durchläufen erhielten 90 % der Beschäftigten und Manager eine ihrer Top-drei-Auswahlen.
4.5 Mitarbeiter-Retention IBM setzt im gesamten Human-Ressources-Bereich verstärkt auf künstliche Intelligenz rund um das eigene Watson-Ökosystem. Analog zu weiter oben genannten Lösungen im Bereich HR setzt IBM auf automatisierte Mitarbeiterfeedbacks anstelle von Jahresgesprächen mittels des MYCA, My Career Advsior, genannten virtuellen Assistenten, die Stärken und Schwächen sowie Möglichkeiten zur Verbesserung hervorheben. Internes Job Matching wird von Blue Match erledigt, einer AI, die offene Positionen gegen die Fähigkeitenprofile der Mitarbeiter matcht. 2018 waren 27 % aller Beförderungen bzw. Jobwechsel innerhalb von IBM von Blue Match unterstützt.
62 P. Wennker
All diese Initiativen haben dafür gesorgt, dass IBM die Anzahl seine Mitarbeiter im HR-Bereich global um 30 % reduzieren konnte. Aufsehen erregte aber eine Applikation von künstlicher Intelligenz, die in der Lage ist, Mitarbeiter im Unternehmen halten. Das zugehörige Patent hört auf den unscheinbaren Namen Predictive Attrition Program und beschreibt nichts anderes als ein System, das mit 95 % Genauigkeit vorhersagt, wenn ein Mitarbeiter kurz davor ist zu kündigen und sich einen neuen Job zu suchen. Laut IBM hat dieses System dem Konzern bisher 300 Mio. US$ an Retentionskosten durch frühzeitige Intervention eingespart.
5 Künstliche Intelligenz im Gesundheitssystem
Gesundheitssysteme rund um den Globus stehen vor ähnlichen Herausforderungen: Explodierende Kosten, zu wenig qualifiziertes Potenzial, ausufernde Bürokratie und zunehmend alternde Gesellschaften. Einerseits werden Patientenakten auch heute noch großteils auf Papier geführt – andererseits bilden aber diagnostische Daten aus Laboren, bildgebende Verfahren und persönliche Fitness und Healthcare Apps sowie Wearables einen großen digitalen Datenbestand, die künstliche Intelligenz analysieren kann. Applikationen von Machine und Deep Learning im Gesundheitswesen sind vielfältig, beginnend mit persönlichen und individuellen Gesundheitsplänen, die gerade in Industrienationen der Schadensreduzierung dienen. Bis hin zu Diagnose, Behandlung und Erforschung von Krankheiten stößt künstliche Intelligenz in die Medizin und das Gesundheitswesen vor.
© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 P. Wennker, Künstliche Intelligenz in der Praxis, https://doi.org/10.1007/978-3-658-30480-5_5
63
64 P. Wennker
5.1 Bildgebende Diagnostik Ob Hautveränderungen, Brust- oder Darmkrebs – eine frühe Erkennung der Erkrankung steigert die Überlebensrate und die Chance auf Heilung signifikant. Aus der modernen Medizin sind das trainierte Auge und die Erfahrung eines Radiologen zur Befundung von Röntgenbildern, MRTund CT-Scans nicht mehr wegzudenken. Ähnlich verhält es sich mit Pathologen, die Gewebe auf maligne Veränderungen untersuchen und oft noch während der OP Rückmeldung geben, ob es sich z. B. um einen Tumor handelt. Gleichzeitig ist die Radiologie eine der lukrativsten respektive teuersten Fachbereiche der Medizin. In den USA beträgt das jährliche Durchschnittsgehalt eines Radiologen über 500.000 Dollar. Genug Anreiz für Start-ups, Investoren und Hersteller von Medizintechnik in künstliche Intelligenz in der bildgebenden Diagnostik zu investieren. Mit einigem Erfolg: 1. Mit CheXNet wurde 2017 ein 121 Layer tiefes Convolutional Neural Network vorgestellt, das Lungenentzündungen und andere Erkrankungen der Lunge zuverlässiger erkennt als ein geschulter Radiologe [1]. 2. 2018 hat ein ungarisches Forscherteam ein CNN vorgestellt, das Brustkrebs in Mammographien mit 90 % Wahrscheinlichkeit erkennen und klassifizieren kann [2]. 3. Wissenschaftler der Universität Adelaide entwickelten ein tiefes CNN mit 172 Layern und über 1,4 Mio. Parametern, um auf Röntgenbildern Hüftfrakturen mit gleicher Genauigkeit wie menschliche Radiologen zu erkennen [3] 4. DeepRadiologyNet, ein System der University of California, Los Angeles, erkennt Pathologien in Kopf-CT-Scans mit einer Fehlerquote, die signifikant niedriger liegt, als die von menschlichen Pathologen, die auf Kopf-CT spezialisiert sind.
5 Künstliche Intelligenz im Gesundheitssystem 65
Die Aufzählung ließe sich nahezu unbegrenzt weiterführen, Studien der Universitäten Wien, Heidelberg oder Stanford zeigen im direkten Mensch-Maschine-Vergleich eine Überlegenheit der künstlichen Intelligenz in bildgebender Diagnostik. Aktuell zielen die Systeme auf die Unterstützung von Ärzten und Technikern in der Radiologie, um so schnellere Diagnosen zu ermöglichen und wertvolle Zeit zur Behandlung von aufwendigen Fällen zu schaffen.
5.2 Diagnostik Das Stethoskop ist seit dem frühen 19. Jahrhundert das Mittel der Wahl, um schnell und minimalinvasiv Organe im Brustkorb abzuhören. Die Auskultation des Herzens kann erste Indikatoren für weitergehende Untersuchung des wichtigen Muskels sein. Dabei macht man sich die Eigenschaft von hauptsächlich laminaren Flüssigkeiten zunutze, die in Turbulenzen Geräusche verursachen. Diese Geräusche können genutzt werden, um Krankheiten oder Veränderungen zu diagnostizieren. Wie vieles in der Medizin basieren die Genauigkeit und der Erfolg dabei auf der Erfahrung des Arztes, pathologische Geräusche zu erkennen, auch wenn Pulsschlag, Atmung und Umgebung Störgeräusche verursachen. Eine Untersuchung der Texas Tech University, die 2014 in Medical Devices: Evidence and Research [4] veröffentlicht wurde, zeigte, dass nur 69 % der Ärzte und Krankenschwestern, die an der Studie teilgenommen haben, Geräusche richtig identifizieren konnten. In einer zweiten Studie von 2018, veröffentlicht in PLOS ONE [5], sollten Medizinstudenten und Pulmologen 24 Geräusche identifizieren, die mit Atemwegserkrankungen von Kindern zusammenhängen. Von den Studenten konnten nur 24,1 %, von den Lungenfachärzten nur 36,5 % alle Geräusche der korrekten Ursache zuordnen. Zwei Studenten der UC Berkeley versuchen diese Probleme mithilfe von künstlicher Intelligenz zu lösen. Dazu entwickelten sie das Stethoskop weiter und implementierten ein bzw. zwei Elektroden-EKG und verschiedene Deep-Learning-Systeme, die Ärzte und Pfleger unter-
66 P. Wennker
stützen sollen, auch wenn kein erfahrener Kardiologe zur Diagnostik zur Verfügung steht. Die Stethoskope des Start-ups zeichnen die Herzgeräusche auf bzw. können über die verbauten Elektroden EKG aufzeichnen und diese Daten an einen Cloudservice senden, wo die Daten durch die neuronalen Netze analysiert und diagnostiziert werden. Die Resultate werden umgehend an den Arzt zurückgeschickt, der weitere diagnostische oder therapeutische Maßnahmen einleiten kann. Die auditiven Daten werden von zwei neuralen Netzwerken analysiert, zum einen um Vorhofflimmern zu detektieren, zum anderen, um generell pathologische Herzgeräusche zu identifizieren. Darunter auch diskrete Geräusche, die auf eine beginnende Aortenstenose hinweisen können, und die von dem System mit einer Empfindlichkeit von 97,2 % und einer Spezifität von 86,4 % erkannt werden kann. Ein drittes System kann sowohl Geräusche als auch EKG-Daten entgegennehmen, um auf unnormale Herzrhythmen, die noch nicht sehr ausgeprägt sind, wie z. B. Bradykardie oder Tachykardie, also das zu langsame oder zu schnelle Schlagen des Herzens zu testen. Den Durchbruch und die Zulassung der US-amerikanischen Food and Drug Administration brachte dem Start-up ein Algorithmus, der das QSR-Intervall in einem EKG, unabhängig von der Anzahl der Ableitungen auf asymptomatische linksventrikuläre Dysfunktionen, hin untersucht und diese mit einer Genauigkeit von 85,7 % und einer Empfindlichkeit von 86,3 % erkennen kann.
5.3 Verlaufsvorhersagen Im Vorfeld zu wissen, wie sich eine Krankheit entwickelt ist von unschlagbarer Wichtigkeit für Ärzte und Pfleger. Je früher interveniert werden kann, umso besser sind die Prognosen für die meisten Erkrankungen und umso besser können Therapien an individuelle Anforderungen angepasst werden. Vorherzusagen was als nächstes passiert, ist eine natürliche Anwendung von Machine Learning, im Bereich von Patientendaten aber eine große Herausforderung. Auswirkungen von verschiedenen
5 Künstliche Intelligenz im Gesundheitssystem 67
Messwerten sind stark kontextsensitiv. Ob eine Temperatur oral oder axillar gemessen wurde, beeinflusst die Aussagekraft. Oft sind Patientenakten zwischen verschiedenen Krankenhäusern nicht kompatibel, da Systeme unterschiedlicher Anbieter genutzt werden. Diese Punkte haben bisher verhindert, prädiktive Systeme oder statistische Modelle zu entwickeln, die robust vorhersagen können, wie sich der Verlauf eines Patienten verändert, wann eine Intervention sinnvoll ist und wann nicht. FHIR, Fast Healthcare Interoperability Resources, ist ein Standard, der diese Probleme zukünftig beseitigen soll. FHIR setzt auf Webtechnologien, um Daten sicher und schnell, zum Beispiel in JSON oder XML-Format zu übertragen. Google Health, die Medizinsparte der Suchmaschine, hat hierzu Schnittstellenbeschreibungen in allen gängigen Programmiersprachen entwickelt und ermöglicht z. B. die Übernahme von Daten in Googles Cloud Dienst Big Query. Darauf aufbauend wurde in Zusammenarbeit mit UC San Francisco, Stanford Medicine und der University of Chicago Medicine ein System von rekurrenten und feed forward neuronalen Netzen entwickelt, die auf Basis der rohen und nicht aufbereiteten Patientendaten Vorhersagen über den weiteren Verlauf treffen können [6]. Das System zielt auf drei verschiedene Vorhersagen, die Länge des Krankenhausaufenthalts, die Sterblichkeit des Patienten während des Aufenthalts und ob es nach Entlassung aus dem Krankenhaus zu einer ungeplanten Neuaufnahme des Patienten kommen wird. Laut veröffentlichter Daten zeigen die entwickelten neuronalen Netze eine statistisch signifikante, bessere Vorhersagegüte als traditionelle Modelle, wie z. B. logistic regression. Gerade wenn es um Entscheidungen geht, die Menschenleben betreffen, sind reine Black-Box-Modelle eine Herausforderung, um Vertrauen in die Vorhersagen zu schaffen. Das vorgestellte System begegnet dem, indem es die wichtigsten Parameter und Daten, die zu einer Vorhersage geführt haben, prominent hervorhebt und so medizinischem Personal die Möglichkeit der Nachvollziehbarkeit gibt. ConsumerMedical will mithilfe von AI intervenieren bevor es zu einer Behandlung gekommen ist. In den USA entstehen durch nicht notwendige medizinische Behandlungen Kosten von 200 Mrd. US$
68 P. Wennker
jährlich [7] und die Patienten werden Risiken durch Narkosen und Operationen ausgesetzt. ConsumerMedical hat fünf Operationen identifiziert, die für einen Großteil der im Nachhinein als unnötig angesehenen Prozeduren verantwortlich sind: Hüft- und Knieersatz, Hysterektomien, bariatrische Operationen für Gewichtsverlust und Operationen am unteren Rücken bei Schmerzsymptomen. Besonders bei diesen Operationen tendieren Patienten zur Durchführung, auch wenn es keinen klaren medizinischen Indikator gibt. ConsumerMedical hat ein Machine Learning Framework entwickelt, das es ermöglicht, Patienten zu erreichen, die keine medizinische Indikation für Operationen aufweisen, und sie über Alternativen zu invasiven Techniken zu informieren. Informationen, die den Patienten nicht immer zugänglich sind. ConsumerMedical berichtet von bis zu 37 % Patienten, die sich nach Zugang von Informationen gegen eine Operation entschieden haben. Das Unternehmen will den weiteren Verlauf der Gesundheit der Patienten weiterverfolgen, um die prädiktiven Modelle zunehmend zu verbessern. In eine ähnliche Richtung geht eine zweite Applikation, die Krebspatienten den erfahrensten Arzt und die beste klinische Einrichtung für ihre individuelle Erkrankung aufzeigen soll. Dazu analysiert das System Befunde, Diagnosen und Testergebnisse und gleicht diese mit Datenbanken über erfolgreiche Operationen in diesem bestimmten Krankheitsbild ab, um eine Empfehlung auszusprechen, wo der passende Experte gefunden werden kann.
5.4 Wirkstoffentwicklung und Pharmaforschung Die Entwicklung neuer pharmazeutischer Wirkstoffe ist ein langwieriger und kostenintensiver Prozess, der von vielen Rückschlägen geprägt ist, um ein wirksames neues Präparat auf den Markt zu bringen.
5 Künstliche Intelligenz im Gesundheitssystem 69
Aktuell schafft es von 10.000 erforschten Substanzen eine bis zur Zulassung als Medikament. Wurden in der Frühphase der Pharmazeutik neue Wirkstoffe oft durch Zufall entdeckt, durchlaufen neue Wirkstoffe einen mehr oder weniger festgelegten Weg von der Erforschung über klinische Tests bis zur Zulassung: 1. Identifikation der Zielkrankheit Zu Beginn des Forschungsvorhabens muss eine Zielkrankheit identifiziert werden, bei der eine gewisse Aussicht auf Erfolg und wirtschaftliche Interessen des Pharmakonzerns in Einklang gebracht sind. 2. Identifikation des Targets Damit ein Medikament wirken kann, muss es einen Vektor geben, an dem es ansetzen kann, und eine Bindungsstelle, an der es ansetzen kann. 3. Finden von Wirkstoffkandidaten Die aktive Forschung beginnt. Es wird nach Kandidaten gesucht, die an die identifizierten Targets ansetzen und so Krankheitsgeschehen beeinflussen können. 4. Test auf Wirkung Erste Tests mit potenziellen Wirkstoffen im Labor an Zellkulturen. Ist der Wirkstoff effektiv und nicht schädlich? 5. Phase I: Verabreichung Wirkstoff Ein erster Test am Menschen. Gesunden Probanden wird der Wirkstoff verabreicht und erste Erkenntnisse werden gewonnen, was Verstoffwechselung im Körper und Nebenwirkungen betrifft. 6. Phase II: Studien Studien mit wenigen Probanden, die die Zielerkrankung zeigen, werden durchgeführt. Hält der Wirkstoff in der Realität, was er verspricht? Und zeigt er keine zu schwerwiegenden Nebenwirkungen? 7. Phase III: Studien Der neue Wirkstoff wird mit mehreren tausend Probanden in unterschiedlichen Ländern erprobt. Durch die größere Fallzahl werden weniger häufig auftretende Nebenwirkungen sichtbar. 8. Zulassung
70 P. Wennker
Alle Tests, Studien und Erprobungsdaten werden von den Zulassungsbehörden überprüft und bewertet. Ein Zulassungsantrag für einen neuen Wirkstoff umfasst gut und gerne 500.000 Seiten. Nach positiver Prüfung darf das Medikament verordnet werden. 9. Phase IV: Studien Nach erfolgter Zulassung wird das Medikament weiter erforscht, um zum Beispiel Wechselwirkungen mit anderen Wirkstoffen zu erkennen. Bis zur Zulassung eines Medikaments mit einem neuen Wirkstoff entstehen durchschnittliche Kosten in Höhe von 1–2,6 Mrd. US$, und der Prozess dauert durchschnittlich zehn bis zwölf Jahre [8]. Künstliche Intelligenz kann in vielen Schritten der Pharmaforschung unterstützend bzw. teilautonom eingreifen. Besonders die aufwendige Phase einen Wirkstoffkandidaten bzw. eine sog. Leitstruktur, die überhaupt erst Ausgangspunkt für das Finden eines Wirkstoff sein könnte, kann von künstlicher Intelligenz deutlich beschleunigt werden. Ob ein Wirkstoff dabei wirklich an das Zielmolekül bindet, dabei wirksam und sicher ist, sind die Fragen, die in der vorklinischen Phase oft langwierig erforscht werden müssen. In der Vergangenheit wurden einige Erfolge mit Support Vector Machines und Random Forest erzielt, die versuchten, anhand von bekannten Molekülen vorherzusagen, welche Struktur ein neues Molekül haben muss, um an die gewünschte Bindungsstelle zu binden. Das Problem bei diesen algorithmischen Lösungen liegt in dem Vorhandensein von Daten: Je mehr Daten vorliegen, die ein Molekül und seine Bindungseigenschaften beschreiben, umso besser sind die Vorhersagen von SVM und Random Forest. Allerdings bedarf es bei Molekülen, die sehr gut beschrieben sind und deren Eigenschaften bekannt sind, im Regelfall keine statistischen Vorhersagen mehr, ob sie binden könnten. Bei gänzlich neuen Substanzen, zu denen keine oder kaum Daten vorliegen, sinkt die Vorhersagegüte von SVM und Random Forest drastisch. Ein Doktorand der University of Toronto hat seine Forschungen auf diese Problemstellung konzentriert und zur Marktreife geführt.
5 Künstliche Intelligenz im Gesundheitssystem 71
Die grundlegende Überlegung hinter AtomNet [9] sind Convolutional Neural Networks und ihre Fähigkeit, einzelne Features in Bildern zu erkennen, zum Beispiel Kanten von Objekten, unabhängig von der Lage im Ausgangsbild. Atomnet setzt auf ein ähnliches Prinzip, bei dem vereinfacht dargestellt nicht erlernt wird, Nasen in Gesichtern zu erlernen, sondern verschiedene Eigenschaften von Molekülen. Im Vergleich zu einem zweidimensionalen Pixelbild mit den drei Farbkanälen, nutzt AtomNet die dreidimensionale Struktur des Moleküls als Input und analog zu den Farbkanälen die einzelnen Atome. So lernt AtomNet selbstständig, welche Atome miteinander binden und kann auch auf bisher nicht gesehene Beispiele abstrahieren. Künstliche Lernverfahren werden auch dringend benötigt, Schätzungen der Molekülanzahl, die pharmakologische Wirkung haben, reichen von 10^24 bis 10^60 Molekülen [10]. Das System ist so erfolgreich, dass es von vielen großen Pharmafirmen eingesetzt wird und laut eigener Aussage seit 2012 zur Entdeckung von 50 neuen therapeutischen Ansätzen geführt hat. Ein ebenfalls aus Toronto stammendes Start-up, Deep Genomics, verfolgt einen anderen Ansatz, um Therapien zu finden. Oft wird zur Therapie von Krankheiten auf Proteine Einfluss genommen, die spezifische Funktionen im Körper erfüllen. Durch die Entschlüsselung des menschlichen Genoms und dem immer besseren Verständnis von genetischen Hintergründen, rückt eine Therapieform, die schon in den 70er Jahren beschrieben wurde, in den Fokus der pharmazeutischen Forschung: Antisense-Oligonukleotide. Oligonukleotide sind kurze, aus wenigen Nukleotiden aufgebaute Nukleinsäure. Diese Oligonukleotide können an andere Nukleinsäuren über Basenpaarung binden. Dabei binden immer die Basen Adenin und Thymidin sowie Cytidin und Guanidin und bilden so einen N ukleinsäure-Doppelstrang. Bei Antisense-Oligonukleotiden ist die Sequenz der Basen umgekehrt (Antisense = entgegen dem Sinn). Dadurch wird die Biosynthese als die Bildung des Zielproteins verhindert. In den letzten Jahren wurden einige auf Antisense-Oligonukleotid-Basis entwickelte Medikamente zugelassen,
72 P. Wennker
die sich gegen Krankheiten wie Duchenne-Muskeldystrophie, spinale Muskelatrophie oder Zytomegalie-Retinitis richten. Auch individualisierte Therapien, 1-of-n, die auf hochindividuellen genetischen Mutationen basieren, sind mit A ntisense-Oligonukleotiden therapierbar, wie die Beschreibung von Milasen [11] als Mittel der Wahl gegen die neurodegenerative Erkrankung Batten-Syndrom/SpielmeyerVogt-Krankheit in der Literatur zeigt. Hier setzt nun das eingangs erwähnte Start-up Deep Genomics an. Mittels künstlicher Intelligenz werden 69 Mrd. Oligonukleotide und eine Million Ziele in mRNA abgeglichen und auf mögliche therapeutische Ansatzzwecke hin untersucht. Das erste Ziel des Unternehmens ist es, eine Bibliothek mit 1000 Oligonukleotiden zu schaffen, deren Einsatzmöglichkeiten bewiesen sind. Aktuell befinden sich acht gefundene Antisense-Oligonukleotide in vorklinischen Studien. Deep Genomics setzt bei der Analyse der Genome auf ein Convolutional Neural Network, das DNA-Sequenzen als Input Features nutzt. Anhand bekannter Sequenzen für unterschiedliche Krankheiten, lernt das neuronale Netzwerk, welche Kombinationen und Varianzen in Basenpaaren für eine Erkrankung relevant sind. Einen Schritt früher setzt das britische Start-up BenevolentAI an. Zwar steht am Ende des Prozesses ebenso das Auffinden neuer Wirkstoffe und individuelle Therapie, BenevolentAI setzt allerdings einen Schritt vor der Erforschung von Molekülen und Wirkstoffen an: Bei Primärliteratur, Papers und Veröffentlichungen aus dem biologischen Sektor. Mit Interpret hat das Start-up eine auf Natural Language Processing basierende Plattform geschaffen, die selbstständig Wissen aus verschiedenen Publikationen zusammenführt und Querverbindungen schafft, die ein Mensch aufgrund der Menge an medizinischen Publikationen unmöglich zur Lebenszeit bewältigen kann. BenevolentAI setzt dabei auf Natural Entity Recognition, trainiert auf biologische Begriffe und Formulierungen, die bedeutungstragende Paare extrahiert und in Verbindung setzt. Muster, nach denen die KI sucht, sind zum Beispiel „Rolle von GEN bei KRANKHEIT“, „GEN Ziel für KRANKHEIT“ oder „KRANKHEIT verursacht von GEN Mutation“.
5 Künstliche Intelligenz im Gesundheitssystem 73
Sind Zusammenhänge für das System nicht klar, kann es im ctive-Learning-Verfahren einen Biologen um Input bitten. GleichA zeitig werden Negierungen und Spekulationen von dem System erkannt und aus den Ergebnissen ausgeschlossen, sodass nur in der Literatur beschriebene Wirkzusammenhänge zurückgeliefert werden. Auf Basis dieses zusammengeführten Wissens sucht ein Relational Network nach nicht offensichtlichen Zusammenhängen in Krankheiten und Gendefekten und sortiert diese für Wissenschaftler nach chemischen Möglichkeiten, Sicherheit und potenzieller Behandlungsfähigkeit mittels Medikamenten. Auf Basis dieser Entscheidung kann ein weiteres künstliches neuronales Netzwerk genutzt werden, das bekannte Eigenschaften von Molekülen kombiniert, um Verbindungen zu finden, die den Zielparametern möglichst nahekommen. Diese Verbindungen werden dann im Labor synthetisiert und getestet und die Ergebnisse als Feedback in das neuronale Netz zurückgegeben, um die Modelle zu verfeinern. Benevolent.ai gibt an, dass mit diesem System die Zeit für das Auffinden eines finalen Wirkstoffkandidaten von durchschnittlich 4,5 Jahren auf 14 Monate reduziert werden kann. Die Leistungsfähigkeit von BenevolentAI im Besonderen und Deep Learning im Allgemeinen zeigte sich während der Covid-19-Pandemie. Innerhalb von zwei Tagen wurde BenevolentAIs Plattform dahin gehend verändert, dass es zum einen Fachliteratur zum Thema Viren zuverlässig entdecken und verknüpfen kann und gleichzeitig dabei nach Beschreibungen dafür sucht, welche Gene ein Virus wie beeinflussen, um in eine Zelle zu gelangen. Im zweiten Schritt wurden dann von BenevolentAIs Plattform bereits bekannte Wirkstoffe und Präparate gesucht, die in diese Mechanismen einwirken. Innerhalb weniger Wochen konnte so nicht nur ein Wirkstoff, Baricitinib, entdeckt werden, der vielversprechende Eigenschaften in Bezug auf das Coronavirus zeigte, sondern auch ein Paper in The Lancet zum Peer Review veröffentlicht werden. Als Resultat wurde Mitte März eine klinische Studie zu den positiven Eigenschaften von Baricitinib auf den Covid-19-Verlauf gestartet. Eine bahnbrechende Entwicklung machte das MIT Anfang 2020 öffentlich [12]. Das an die KI aus 2001: A Space Odysee angelehnte
74 P. Wennker
Molekül namens Halicin ist ein neues Antibiotikum, das von einer künstlichen Intelligenz entwickelt wurde. Mittels eines Graph (Relational) Neural Networks, das auf einer Moleküldatenbank trainiert wurde, sollte die künstliche Intelligenz lernen, Wirkungen anhand von Molekülstrukturen vorherzusagen ohne Wissen darüber, wie Medikamente funktionieren und ohne gelabelte Trainingssets. So wollten die Forscher sicherstellen, dass das Neural Network fähig ist, Muster zu erkennen, die der Mensch bisher nicht entdeckt hat. Ziel war es, einen Wirkstoff zu finden, der gegen das Bakterium Escherichia coli wirksam ist und sich von der Struktur bisheriger Antibiotika unterscheidet. Das System schlug am Ende 100 Moleküle vor, die in Labortests näher untersucht wurden. Eins davon, das ursprünglich als potenzieller Wirkstoff gegen Diabetes entwickelt wurde, zeigte sich als superpotent gegen verschiedenste Bakterien, auch solche gegen die Reserveantibiotika nicht (mehr) wirksam sind, wie z. B. Clostridioides difficile und Acinetobacter baumannii. Zudem zeigte sich in vitro, dass sich Bakterien bisher sehr schwer tun, gegen Halicin Resistenzen zu entwickeln. Die Forscher hoffen in 2020 mit ersten klinischen Studien beginnen zu können. Neue Antibiotika werden dringend benötigt. Die Anzahl und Verbreitung von pan-resistenten Keimen steigt rapide an, nicht zuletzt durch den Einsatz von Antibiotika in der Tierhaltung. Die UN’s Interagency Coordination Group on Antimicrobial Resistance hat berechnet, dass im Jahre 2050 jährlich 10 Mio. Menschen an den Folgen antibiotikaresistenter Bakterien sterben werden, wenn nicht neue Wirkstoffe entwickelt werden und der Einsatz von Antibiotika in der Tierhaltung drastisch reduziert wird. Halicin ist daher ein wichtiger Schritt, da die Antibiotikaforschung in den letzten Jahren global stark zurückgegangen ist. Die Forschung ist kostspielig und einem Paradoxon ausgesetzt: Gesellschaften wollen neue Antibiotika, diese aber nicht einsetzen, um die Bildung von Resistenzen zu vermeiden. Gleichzeitig sind viele neue Antibiotika Wirkstoffe der dritten oder vierten Generation, zeigen also keinen komplett neuen Wirkmechanismus, sondern erweitern oder verfeinern bekannte Mechanismen.
5 Künstliche Intelligenz im Gesundheitssystem 75
5.5 Aufklärung In Ländern oder Landesteilen, die eher konservativen Strömungen zugeneigt sind, ist es für Kinder und Jugendliche schwer bis unmöglich, an Informationen über Pubertät, Sexualität oder Krankheiten zu kommen. Die NGO Planned Parenthood begegnet dieser Aufklärungslücke in den USA mit dem Chatbot Roo. Oft filtern Eingabesysteme, besonders in den USA, anzügliche oder mit Sexualität zusammenhängende Suchanfragen oder Eingaben heraus. Selbst bei Google wird die Autocomplete Funktion bei solchen Suchanfragen deaktiviert. In einem Tutorial führt Roo Teenager behutsam an die Thematiken heran und hilft bei der Suche nach passenden, altersgerechten Erklärungen, selbst, wenn dem Nutzer die Begrifflichkeiten nicht geläufig oder nur umgangssprachlich bekannt sind. Wenn der Chatbot keine passende Antwort findet, kann der Nutzer auf Wunsch zu einem menschlichen Chatpartner der Organisation weitergeleitet werden, der dann weiterhelfen kann. Untersuchungen haben gezeigt, dass Chatbots helfen können, Scham und Schwellenangst zu überwinden [13]. Im Falle von Roo scheint dies geglückt zu sein. Anstelle von einer Million Konversationen pro Jahr, wie ursprünglich geschätzt, wickelte Roo in den ersten 12 Monaten 3,5 Mio. Gespräche ab. Dabei waren 78 % der Nutzer im Alter zwischen 13 und 19 Jahren und 64 % identifizierten sich als People of Color. Der Chatbot basiert auf dem Grundgerüst Bold360 und wurde für 6 Monate auf die speziellen Themenfelder trainiert.
5.6 Pflege In der Pflege von Krankenhauspatienten gibt es verschiedene Ansätze, Prozesse oder die Pflege selbst zu verbessern. Dekubiti, die Schädigung der Haut und tieferliegender Gewebeschichten durch anhaltenden Druck und die damit vergesellschaftete
76 P. Wennker
Minderdurchblutung sind bei Patienten, die über längere Zeiträume bewegungseingeschränkt sind, ein Problem der Pflege. Medizinisch betrachtet ist der Dekubitus für den Patienten nicht nur sehr schmerzhaft, sondern bietet Bakterien ein Einfallstor in den Körper. Die Schädigungen, die der Dekubitus verursacht, werden in vier Grade eingeteilt. Zur Einschätzung des Risikos eines Patienten haben sich verschiedene Skalen entwickelt, die die Mobilität, das sensorische Empfinden und weitere Faktoren des Patienten in ein Punktemodell übertragen. Anhand der Gesamtzahl der Punkte kann dann das Risiko eines Patienten abgeschätzt werden. Während in den USA die sog. Braden-Skala eingesetzt wird, gibt es in Deutschland verschiedene modifizierte Einteilungen, aber keinen allgemeingültigen Standard, da je nach Pflegesituation unterschiedliche Parameter an Bedeutung gewinnen. Wissenschaftler der Universitäten Boise, Utah State, University of Washington und Colleges of Nursing haben sich zusammengetan, um ein automatisiertes Vorhersagemodell mittels Machine Learning zu entwickeln, das bereits vor der Aufnahme eines Patienten Vorhersagen zum Dekubitus-Risiko erlaubt. Dazu wird nicht auf die Erhebung Dekubitus-spezifischer Variablen wie im Skalenmodell zurückgegriffen, sondern auf die reguläre Patientenakte. Das Modell basiert auf dem Random-Forest-Algorithmus und wurde im American Journal of Ciritical Care veröffentlicht. Random Forest ist ein Algorithmus zur Klassifizierung, der auf Entscheidungsbäumen aufbaut. Random Forest erstellt während des Trainings eine Vielzahl von Entscheidungsbäumen und das Ergebnis, das am häufigsten für einen Datensatz als Klasse zugeordnet wurde, bekommt den Zuschlag (Modalwert). Der Random-Forest-Algorithmus zeichnet sich dabei dadurch aus, dass er gegen Korrelationen in Datensätzen robust ist, wie sie in medizinischen Daten häufig auftreten. Die Wissenschaftler trainierten den Algorithmus auf zwei Klassen, Dekubitus Grad 1 oder größer bzw. Dekubitus Grad 2 oder größer und erreichten einen Wert von 0.79 Area under the Receiver Operating Characteristics (AUROC).
5 Künstliche Intelligenz im Gesundheitssystem 77
AUROC Nicht nur im klinischen Umfeld, sondern generell für Klassifizierungsaufgaben, gehört die Area under the Receiver Operating Characteristics zu einer der wichtigsten Evaluationsmetriken. AUROC setzt sich aus zwei Einheiten zusammen, Receiver Operating Charateristics und Area under the Curve. Um AUROC zu verstehen, muss man beide Teile zuerst einzeln betrachten. Die ROC-Kurve wird gezeichnet, in dem man in einem kartesischen Koordinatensystem die True Positive Rate auf der y-Achse gegen die False Positive Rate auf der x-Achse aufträgt. True Positive Rate oder Recall bzw. Sensitivität errechnet sich aus der Anzahl der True Positives dividiert durch die Summe aus True Positives und False Negatives: TPR = TP/TP + FN). False Positive Rate errechnet sich durch die Division der False Positives durch die Summe der True Negatives und False Positives. True Positives sind Werte, die das Modell korrekt als positiv klassifiziert hat. False Positives sind Werte, die das Modell als positiv klassifiziert hat, obwohl sie eigentlich negativ sind. (Type 1 Error). False Negatives sind Werte, die das Modell als negativ klassifiziert hat, obwohl sie eigentlich positiv sind. (Type 2 Error). True Negatives sind Werte, die das Modell korrekt als negativ klassifiziert hat. Je näher der Wert für AUROC gegen eins geht, umso besser ist das Modell geeignet, um verschiedene Klassen voneinander zu unterscheiden, wobei eine AUROC von 0,5 dem Zufall entspricht.
Das System soll weiterentwickelt werden, um den besonders gefährdeten Patienten zukünftig dekubitusspezifische Hilfsmittel, wie z. B. spezielle Matratzen, zukommen zu lassen.
5.7 Covid-19 Die jüngst aufgetretene globale Pandemie SARS-Covid-19 hat zu schneller Adaptation von AI-basierten Systemen geführt, nachdem bekannt wurde, dass Covid-19-Erkrankungen sehr gut und manchmal früher anhand von Röntgen und CT-Aufnahmen der Lunge zu erkennen sind.
78 P. Wennker
Deep Insights und LifeTec aus Wien haben in Rekordzeit einen Deep Learning Classifier entwickelt, der zwischen Aufnahmen gesunder, allgemein pathologischer und an Covid-19 erkrankter Lungen unterscheiden kann. Da die Zulassung medizinischer diagnostischer Werkzeuge lange dauert, der Nutzen des Systems mit einer berichteten Genauigkeit von 94,5 % und einer wahren Positivrate von 92 % nicht zu vernachlässigen ist, wurden das neuronale Netzwerk und die Testdaten unter Open-Source-Lizenz gestellt und veröffentlicht (https:// labs.deep-insights.ai/). Die größte Herausforderung im Bereich der bildgebenden Diagnostik ist aktuell die Beschaffung von Trainingsdaten. Es gibt verhältnismäßig wenige gelabelte Datensätze, die genutzt werden können, um Systeme zu trainieren. Hinzu kommen teilweise deutliche Unterschiede in den Bilddaten selbst, sodass Systeme, die auf Bilddaten eines Herstellers trainiert wurden, nur unzureichend auf Bilddaten anderer Systeme generalisieren.
5.8 Roboter als Frontline Worker Boston Dynamics ist eine der bekanntesten Robotikfirmen. Durch Roboter wie Spot, Atlas oder Cheetah und YouTube-Videos über Ihre Fähigkeiten wurde die Firma aus dem US-Bundesstaat Massachusetts schnell weltbekannt. Im Bereich der künstlichen Intelligenz hat Boston Dynamics eine interessante Trennung vorgenommen, Athletic AI und Scholary AI. Letztere ist im Boston Dynamics Sprachgebrauch eine Abstraktion der realen Welt in einer Annäherung. Athletic AI bezeichnet die Fähigkeit, einen Körper und physische Tätigkeiten in Echtzeit in einem Raum zu steuern, sprich mit der Welt zu interagieren, nicht mit einer Abstraktion. Im Zuge der Covid-19-Pandemie wandte sich das Bringham and Women’s Hospital in Massachusetts an Boston Dynamics mit der Bitte um Hilfe, da in kurzer Zeit sehr viele Mitglieder des medizinischen Personals erkrankt waren und dies die Versorgung der Patienten gefährdete.
5 Künstliche Intelligenz im Gesundheitssystem 79
Boston Dynamics hat daraufhin den Roboter-Hund Spot zur Verfügung gestellt, der als mobile Telemedizinplattform genutzt wird. Patienten mit Verdacht auf eine Covid-19-Erkrankung werden gebeten, in Zelten vor dem eigentlichen Krankenhausgebäude auf eine Untersuchung zu warten, um das Einschleppen der Krankheit in das Krankenhaus und damit eine zusätzliche Gefährdung von Patienten und Personal zu verhindern. Spot kann mit jedem Tablet, das über eine Mobilfunkverbindung verfügt, ausgestattet werden. Durch die Kamera ist es dem medizinischen Personal möglich, erste Fragen zur Abklärung der Erkrankung aus sicherer Distanz zu stellen. In einer weiteren Ausbaustufe sollen verschiedene diagnostische Verfahren eingeführt werden, wie z. B. das Messen der Körpertemperatur, Atemfrequenz, Pulsrate und Sauerstoffsättigung. Während die Temperaturmessung mit speziellen temperatursensiblen Kameras bewerkstelligt werden kann, ist die Messung des Puls ohne das Anlegen spezieller Geräte, was in Zeiten unsicherer Übertragungswege des Virus sicherer ist, eine komplexe Aufgabe, die mithilfe künstlicher Intelligenz gelöst werden soll. Die Pulsmessung auf Distanz basiert auf Photoplethysmogramen, einer Technik, mit der das Volumen eines Gefäßes oder allgemein eines biologischen Körpers mittels Bildern gemessen werden kann. Die Technik macht sich unterschiedliche Lichtbrechungen der Haut in Abhängigkeit des Volumens tieferliegender Gefäße zunutze. Für Spot beschreibt Boston Dynamics die abstrahierte Vorgehensweise wie folgt: 1. Gesicht detektieren 2. Die Stirn im Gesicht finden 3. RGB-Werte jedes Kamerapixels der Stirn über die Zeit erfassen 4. Störungen, z. B. durch Kopfbewegungen entfernen 5. Spitzen in den RGB-Werten erfassen und daraus den Puls berechnen Als letzte Stufe soll Spot befähigt werden, Flächen selbstständig und ohne Gefährdung von Menschen zu desinfizieren, entweder mit entsprechenden Chemikalien oder UV-Licht.
80 P. Wennker
Boston Dynamics hat im Zuge der Pandemie sämtliche Baupläne und Software zur Steuerung unter Open Source gestellt, in der Hoffnung, dass andere Robotikunternehmen diese für ihre Hardware anpassen und weiterentwickeln.
Literatur 1. Raspurkar, P. et al. (14.11.2017). CheXNet: Radiologist-level Pneumonia detection on chest X-Rays with deep learning. https://arxiv.org/ abs/1711.05225. Zugegriffen: 09. Juni 2020. 2. Ribli, D. et al. (15.03.2018). Detecting and classifying lesions in mammograms with deep learning. https://www.nature.com/articles/ s41598-018-22437-z. Zugegriffen: 09. Juni 2020. 3. Gale, W. et al. (17.11.2017). Detecting hip fractures with radiologist-level performance using deep neural networks. https://arxiv.org/ abs/1711.06504. Zugegriffen: 09. Juni 2020. 4. Mehmood, M., Abu Grara H. L., Stewart, J. S., & Khasawneh, F. A. (14.08.2014). Comparing the auscultatory accuracy of health care professionals using three different brands of stethoscopes on a simulator. https://pubmed.ncbi.nlm.nih.gov/25152636/. Zugegriffen: 09. Juni 2020. 5. Hafke-Dys, H., Bręborowicz, A., Kleka, P., Kociński, J., & Biniakowski, A. (12.08.2019). The accuracy of lung auscultation in the practice of physicians and medical students. https://doi.org/10.1371/journal. pone.0220606. Zugegriffen: 09. Juni 2020. 6. Rajkomar, A. et al. (24.01.2018). Scalable and accurate deep learning for electronic health records. https://arxiv.org/abs/1801.07860. Zugegriffen: 09. Juni 2020. 7. Kaiser Health News. (24.05.2017). Unnecessary medical tests, treatments cost $200 billion annually, cause harm. https://www. healthcarefinancenews.com/news/unnecessary-medical-tests-treatmentscost-200-billion-annually-cause-harm. Zugegriffen: 09. Juni 2020. 8. DiMasi, J., Grabowski, H., & Ronald, H., (2016). Innovation in the pharmaceutical industry: New estimates of R&D costs. Journal of Health Economics, 20–33, ScienceDirect 9. Wallach, I., Dzamba, M., & Heifets, A. (10.10.2015). AtomNet: A deep convolutional neural network for bioactivity prediction in structure-based
5 Künstliche Intelligenz im Gesundheitssystem 81
drug discovery. https://arxiv.org/abs/1510.02855. Zugegriffen: 09. Juni 2020. 10. Walters, W. (2019). Virtual chemical libraries. J. Med. Chem, 1116–1124. 11. Kim, J. et al. (24.10.2019). Patient-customized Oligonucleotide therapy for a rare genetic disease. N Engl J Med 381, 1644–1652. 12. Stokes, J. et al. (20.02.2020). A deep learning approach to antibiotic discovery, Cell volume 180(4), 688–702. 13. Lucas, G., et al. (2014). It’s only a computer: Virtual humans increase willingness to disclose. Computer in Human Behavior, 37, 94–100.
6 Künstliche Intelligenz im Einzelhandel
Der klassische Einzelhandel ist bisher wenig technisiert. Umso größer sind die Potenziale, die der Einsatz künstlicher Intelligenz in den verschiedenen Prozessen bieten kann. Verschiedene Studien nennen den Einzelhandel immer wieder als eine Branche, die am meisten vom Einsatz künstlicher Intelligenz profitieren wird [1]. Sieht man von Einkäufen als Erlebnis ab, kann künstliche Intelligenz helfen, die größten Störfaktoren für Kunden (und Händler) zu beseitigen oder zumindest signifikant zu verkleinern. Von der Produktberatung, über den Verkauf bis hin zu den vielfältigen Prozessen hinter den Kulissen, die erst für das reibungslose Einkaufserlebnis sorgen, finden sich Ansatzpunkte für künstliche Intelligenz. Die zukünftige Bedeutung von intelligenten automatisierten Systemen zeigt sich unter anderem darin, dass immer mehr (inter) nationale Retailer eigene Forschungseinheiten vorhalten oder mit innovativen Start-ups zusammenarbeiten. Wenig verwunderlich, dass gerade die großen Konzerne und Ketten auf künstliche Intelligenz setzen, um sich einen Marktvorteil zu verschaffen.
© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 P. Wennker, Künstliche Intelligenz in der Praxis, https://doi.org/10.1007/978-3-658-30480-5_6
83
84 P. Wennker
6.1 Recommendation Engines Kaum ein Feature ist in modernen Webanwendungen so präsent wie Recommendation Engines, also eine Vorschlagsfunktion, was wir uns als nächstes ansehen, anhören oder kaufen sollen. Die Vorschlagsfunktion ist so omnipräsent, dass sie uns meist erst auffällt, wenn wir Produkte oder Dienstleistungen vorgeschlagen bekommen, die wir gerade erst erworben haben. Im schlimmsten Fall sehen wir wenige Tage später ein Angebot von dem Händler, wo wir das Produkt gekauft haben, zu einem deutlich geringeren Preis. Trotz solcher Fehler, die gern im Internet verbreitet werden, sind Vorschlagsfunktionen für Händler nicht mehr wegzudenken. Wie bei vielen heute alltäglichen Features im E-Commerce-Bereich hat Amazon hier Standards gesetzt. McKinsey zufolge ist die Vorschlagsfunktion mittlerweile direkt für 35 % der Transaktionen von Amazon verantwortlich. Für den Video-Streaming-Anbieter Netflix berichtet das Beratungsunternehmen sogar unglaubliche 75 % Einfluss auf das, was ein Nutzer als nächstes ansieht [2]. Viele Empfehlungssysteme setzen dabei auf einen Prozess namens Collaborative Filtering. Das kollaborative Filtern setzt auf eine einfache Annahme: Nutzer, die in der Vergangenheit ähnliche Verhaltensmuster gezeigt haben, zeigen diese auch in der Zukunft. Haben zwei Nutzer bisher ähnliche Produkte erworben, und Nutzer A kauft nun Produkt X, ist die Wahrscheinlichkeit höher, das Nutzer B, der die selbe Einkaufshistorie hat wie Nutzer A, Produkt X auch erwerben wird, im Vergleich zu einem Nutzer C, der eine andere Einkaufshistorie hat. Das kollaborative Filtern auf Nutzerebene hat einen großen Nachteil: Mit anwachsender Nutzerbasis sind zwar theoretisch bessere Vorhersagen möglich, da nicht von einem Nutzer auf einen anderen geschlossen werden muss, sondern von einer Gruppe von n Nutzern auf einen. Demgegenüber steht aber ein hoher Rechenaufwand, da im Falle von Amazon, Millionen von Kundendaten und Einkaufshistorien analysiert werden müssen, jedes Mal, wenn sich die Einkaufshistorie ändert. Besonders bei neuen Nutzern, die noch keine Einkaufshistorie
6 Künstliche Intelligenz im Einzelhandel 85
haben, stößt diese Mechanik an ihre Grenzen, auch wenn in Realität andere Faktoren, wie z. B. demographische Daten hinzugezogen werden können. Amazon hat dieses System umgedreht und bereits 2003 ein Item-to-Item genanntes kollaboratives Filtern in einem Paper vorgestellt [3]. Hierbei macht sich Amazon zunutze, dass die angebotenen Produkte zwar in die Tausende oder Millionen gehen, aber endlich und nicht so volatil sind, wie Nutzer, deren Einkaufsverhalten sich laut Amazon innerhalb eines Tages dramatisch ändern kann. Daher sind auch Offline-Techniken, wie z. B. das Erstellen eines Look-Alike-Indexes nicht effizient genug, da dieser Index mehrmals am Tag komplett neu erstellt werden müsste. Ein Look-Alike-Index zerlegt und klassifiziert die Nutzerschaft nach bekannten Attributen. Kommt ein neuer Nutzer hinzu, wird mit der bestehenden Datenbasis abgeglichen, welcher ursprüngliche, bekannte Nutzer, dem neuhinzugekommenen am ähnlichsten ist. Das Item-to-Item kollaborative Filtern erstellt für jedes gekaufte Produkt in einem Warenkorb Vergleichslisten, welche Produkte noch mit diesem Produkt zusammen erworben wurden. Über alle Bestellungen, die Produkt A enthalten, werden die gleichzeitig gekauften Produkte bestimmt und die Produkte, die am häufigsten mit Produkt A erworben wurden, werden als Vorschlag angezeigt. Dabei werden diese potenziellen Vorschlagsprodukte anhand der Einkaufshistorie des jeweiligen Nutzers gewichtet, also ergänzt um Ansätze des klassischen, nutzerbasierten kollaborativen Filterns. Bei einem solchen System verschieben sich Vorschläge automatisch zu Bestsellern, die in einer hohen Anzahl an Warenkörben zu finden ist, wie z. B. ein Harry-Potter-Buch zum Erscheinungstermin. Dies löst das Item-to-Item kollaborative Filtern dadurch, dass bei dem Vergleich der Nutzer untereinander, die Wahrscheinlichkeit berechnet wird, ob ein Nutzer ein Produkt B in Abhängigkeit zu Produkt A kauft, im Vergleich zu einem Nutzer, der Produkt A nicht erworben hat. Je höher diese Wahrscheinlichkeit ist, umso stärker ist das Gewicht für den Vorschlag.
86 P. Wennker
Die zweite Herausforderung bei diesem Ansatz bestand darin, spezifische Nutzergruppen zu segmentieren und zu berücksichtigen. Ein Nutzer, der sehr bis extrem viel bei Amazon kauft, hat eine grundlegend höhere Wahrscheinlichkeit Produkt A zu kaufen, ohne dass sich davon auf Produkt B schließen lässt. Amazon hat dieses Problem gelöst, indem es die Wahrscheinlichkeit nicht in Abhängigkeit zu anderen Verkäufen berechnet, sondern die Wahrscheinlichkeit dafür, dass ein Produkt in jeder theoretisch möglichen Bestellung vorhanden ist und danach die Empfehlungen ausspricht. 2016 ist Amazon noch einen Schritt weiter gegangen und hat DSSTNE (Deep Scalable Sparse Tensor Network Engine) – ausgesprochen Destiny– unter Open Source Lizenz veröffentlicht (https:// github.com/amzn/amazon-dsstne). DSSTNE ist das Deep Learning Framework, also das Grundgerüst auf dem Amazons Vorschlagfunktion basiert und viele Probleme der Recommendation Engines löst. Vorschlagssysteme können als Matritzenvervollständigungsproblem gesehen werden – eine Tabelle mit Nutzern als Reihen und Produkten als Spalten. Hat ein Nutzer ein Produkt erworben, wird die entsprechende Zelle mit einer 1 gefüllt, die übrigen bleiben leer. Ziel ist es die anderen Zellen mit einer Wahrscheinlichkeit zu füllen, dass ein Nutzer das Produkt erwerben wird. Matritzenvervollständigung kann gut mit neuronalen Netzen namens Autoencoder gelöst werden. Das Ziel des Netzwerks ist es, einen Output zu generieren, der dem Input möglichst ähnlich ist. Dabei kann der Input nicht 1:1 durch das Netzwerk geschleift werden, z. B. mittels der Identitätsfunktion, da sich in der Mitte des Netzwerks ein Flaschenhals befindet. Wenn der Input respektive Output Layer beispielsweise 1000 Neuronen hat, hat der Flaschenhals nur wenige hundert und das Netzwerk muss lernen zu generalisieren. Gerade die Fehler, die das Netzwerk mit hoher Konfidenz vorhersagt, z. B. dass ein Nutzer ein Produkt bereits gekauft hat, obwohl dies nicht der Fall ist, sind eine Maßgabe dafür, dass der Nutzer in Realität das Produkt kaufen wird. Im Falle von Amazon bedeutet dies, dass ein einfaches Autoencoder-Netzwerk mit drei Schichten mehrere hundert Millionen Input-Neuronen benötigen würde, für jedes Produkt eins, einige tausend Neuronen im Hidden Layer und nochmals mehrere hundert
6 Künstliche Intelligenz im Einzelhandel 87
Millionen Output Neuronen benötigen würde, was in Billionen von Parametern resultieren würde, die das Netzwerk lernen müsste. Um das Problem herunterzubrechen, limitierte Amazon den Input in einem Test auf eine einzelne Produktkategorie und Nutzer, die aus den Vereinigten Staaten stammen. Dies resultierte in einem Drei-Schichten-Autoencoder-Netzwerk mit jeweils 8 Mio. Input- und Output-Neuronen und 256 Neuronen im Hidden Layer. Selbst bei diesem reduzierten Netzwerk nahm die Matrix der Weights 8GB RAM der Grafikkarte ein, würde Wochen des Trainings bedürfen und war somit für den Einsatzzweck nicht geeignet. DSSTNE setzt auf massive Parallelisierung der Rechenprozesse und Komprimierung, um den Eigenheiten der Produktvorhersage gerecht zu werden. Selbst bei einem Unternehmen wie Amazon mit Millionen von Kunden, werden einzelne Produkte relativ selten gekauft. Dies sorgt dafür, dass das Empfehlungssystem häufig Werte von Null multipliziert, was eine Verschwendung von Bandbreite und Rechenkapazität darstellt. DSSTNE nimmt sich dieser Null-Faktorisierung genauso an, wie der automatischen Verteilung von Arbeitslasten auf CPU und mehrere GPU. Amazon spricht von einem Geschwindigkeitsvorteil gegenüber Tensorflow von 2,1 bei der Lösung von Problemen mit wenig Daten. Amazons eigene Algorithmen zur Item-to-Item-Personalisierung und Vorschlagsfunktion sind in DSSTNE nicht enthalten und werden im zugehörigen Patent nur grob umrissen [4]. DSSTNE enthält aber bereits eine Vielzahl an Aktivierungsfunktionen, Optimierungsalgorithmen und bietet mit dem JSON-Format eine sehr einfache Möglichkeit, mit wenigen Zeilen Code ein neuronales Netzwerk zu definieren.
6.2 Kassenlose Supermärkte Verkäufe auf Amazon sind durchorchestriert. Von der Kundenansprache durch maßgeschneidertes Targeting über Produktpräsentation bis hin zu Versand, können es wenig Unternehmen mit dem E -Commerce-Riesen aus Seattle aufnehmen, dessen Erfolg nicht zu unerheblichen
88 P. Wennker
Teilen auf der Analyse von Daten mithilfe von Machine- oder Deep-Learning-Technologien zurückzuführen ist. Wenig verwunderlich, dass Amazon aus dieser konsolidierten Position heraus anfängt, in den klassischen Ladenverkauf vorzudringen. Dies geschieht zum Beispiel über Pop-up-Stores, in denen kurzfristig Amazon eigene Technikprodukte wie zum Beispiel die Echos ausprobiert und haptisch erlebbar macht. Größere Aufmerksamkeit erhielten allerdings die sog. Amazon-Go-Stores, von denen es Stand April 2020 weltweit 16 Stück gibt. Bis es soweit kommen konnte, bedurfte es drei Jahre bis ein Proof-of-Concept umgesetzt war und weitere drei Jahre zur Marktreife der Einkaufstechnologie. Um in einem Amazon-Go-Store einkaufen zu können, muss der Kunde eine entsprechende App herunterladen. Sie dient als Brücke zwischen dem Online-Amazon-Konto und der physischen Einkaufswelt. Am Eingang des Stores identifiziert sich der Kunde mittels eines QR-Codes innerhalb der Amazon-Go-App. Danach werden die Einkäufe automatisch erfasst und das Amazon-Konto bei Verlassen des Stores automatisch belastet. Amazon beschreibt die Just-walk-out-Technologie im zugehörigen Patentantrag [5] relativ nebulös als ein System, das auf mehrere unterschiedliche Sensoren baut. In der praktischen Umsetzung zweigen die Amazon-Go-Stores eine beeindruckende Phalanx von Machine-Learning-Technologie, die den Einkauf so reibungslos macht. Nach Vorstellung der Go-Stores wurde über eine Vielzahl unterschiedlicher Sensoren spekuliert, die das Einkaufserlebnis möglich machen. Nach und nach hat Amazon einen Blick in den Maschinenraum der Go-Stores ermöglicht, der überraschenderweise komplett auf Computervision in verschiedensten Ausprägungen setzt. Dabei ist die grundlegende Frage, die künstliche Intelligenz in den Amazon-Go-Stores beantworten muss: Wer hat was genommen? Dieses Grundproblem wurde von Amazon in sechs Teilprobleme zerlegt, die es einzeln zu lösen und dann wieder zusammenzuführen galt. 1. Sensordatenfusion: Signale aus mehreren Sensoren, in diesem Fall Kameras zusammenzuführen
6 Künstliche Intelligenz im Einzelhandel 89
2. Kalibrierung: Jede Kamera muss ihre eigene Position sehr exakt kennen 3. Erkennen von individuellen Personen 4. Erkennung von individuellen Produkten 5. Einschätzung der Körperhaltung von Personen 6. Aktivitätsanalyse: Was tut eine Person? Die Teilprobleme an sich sind nicht trivial zu lösen und erklären die lange Entwicklungszeit, die trotz der beträchtlichen Ressourcen von Amazon von Nöten war, um ein marktreifes System zu entwickeln. Amazon entwickelte rein für die Go-Stores eigene Kamerahardware, die neben dem normalen Kamerabild einige -Preprocessing-Routinen beinhalten, die die aufgezeichneten Bilder schon auf der Kamerahardware bearbeiten, um nachfolgende Prozesse zu vereinfachen und zu beschleunigen. Zudem besitzt jede Kamera einen Entfernungsmesser. Damit das System reibungslos funktioniert, muss der Store einen Kunden von dem Moment an, wo er das Geschäft betritt, bis zum Verlassen des selbigen lückenlos verfolgen, um Einkäufe korrekt buchen zu können. Probleme entstehen hierbei, wenn die Sicht der Kameras blockiert ist oder verschiedene Kunden sehr nah beieinanderstehen. Um diesem Problem zu begegnen segmentieren die Amazonsysteme jedes Bild der Kameras in einzelne Pixel, gruppiert die Pixel in größere Flecken, Blobs genannt, und weist jedem Flecken ein Label zu, Person oder keine Person. Ein Linker genannter Programmteil verfolgt jeden Fleck über die Frames, also Einzelbilder der Videos hinweg, um den Aufenthaltsort kontinuierlich zu bestimmen. Kommen sich zwei Personen bzw. Blobs zu nahe, sinkt das Vertrauen, welcher Blob welche Person ist und der entsprechende Blob wird zur Neuerkennung markiert, sobald sich die Personen voneinander entfernen oder die Kamerasicht nicht mehr verdeckt ist. Gleichzeitig erkennt das System Personen, die sich im Geschäft aufhalten, aber keine Kunden sind, z. B. Mitarbeiter, die Regale wieder auffüllen. Die Produkterkennung läuft ebenfalls über Computer Vision. Amazon ist hier in Veröffentlichungen mehr ins Detail gegangen. Ein Convolutional Neural Network Layer erkennt die Produktklasse, um
90 P. Wennker
die es sich handelt, z. B. ein Softdrink, ein nachgelagertes ResNet wird für die eindeutige, kleinteilige Erkennung des Produkts genutzt, z. B. den ausgewählten Geschmack des Getränks. Verdeckung, unterschiedliche Beleuchtungen und Deformationen begegnet Amazon mit großen Mengen Trainingsdaten, gezielt für diese Herausforderung. Als größtes Problem beschreibt Amazon die Zusammenführung der einzelnen Prozesse, um die Fragen nach dem Wer und dem Was letztendlich zu klären. Die Amazon-Kameras sind in der Decke verbaut und schauen nach unten, haben also keine isometrische Perspektive, um abzuschätzen, wer ein Produkt genommen hat. Hierfür entwickelte Amazon drei ineinandergreifende Modelle, beginnend mit einem Convolutional Neural Network, das aus der Vogelperspektive Arme als Punktwolke darstellen kann, einen zweiten, Teil der hieraus einzelne Vektoren errechnet, und einen letzten Teil, der die Vektoren zusammensetzt um eine Art Strichmännchenfigur der Kunden bzw. der Gliedmaßen zusammenzusetzen. Kunden können dabei Produkte nicht nur aus dem Regal nehmen, sondern auch wieder zurückstellen. In Situationen wo mehrere Kunden dichtgedrängt an einem Regal stehen und Waren entnehmen, kann dies zu Schwierigkeiten in der Erfassung führen. Dem begegnet man, indem ein System die Regale analysiert und Produkte zählt, auch solche, die weit nach hinten geschoben wurden oder umgefallen sind. Damit das neuronale Netz die unterschiedlichen Posen von Menschen sicher erkennen kann ist ein riesiges Volumen an gelabelten Daten notwendig. Eine Menge, die selbst Amazons Ressourcen vor ein Problem stellt. Entsprechend wurden synthetische Daten genutzt, die in einer extra entwickelten Simulation entstanden sind, sodass sichergestellt ist, das jede erdenkliche Kombination aus Frisur, Geschlecht, Körpergröße und Umfang sowie Kleidung und Bewegungen abgedeckt und entsprechend annotiert vorhanden ist. Dadurch konnten die Kosten für die Erstellung des Datensets nicht nur um die Größenordnung 3 reduziert werden, sie konnten auch viel schneller erstellt werden, immerhin stand die Rechenleistung von AWS zur Verfügung. Die Amazon Cloud spielt auch in der praktischen Umsetzung der Go-Stores eine Schlüsselrolle. Die von den Videokameras auf-
6 Künstliche Intelligenz im Einzelhandel 91
genommenen und vorbehandelten Videos müssen an die Amazonserver gestreamt werden, um dort verarbeitet zu werden. Entsprechende Breitbandanbindung und Redundanzen müssen also vorhanden sein. Eher in die Kategorie einfaches Problem fiel der Check-in der Kunden. In der Amazon-Go-App wird ein entsprechender QR-Code generiert, der von den Nutzern am Eingang gescannt wird. Amazon machte eine Vielzahl von Usabilitytests im Hintergrund, z. B. in welcher Orientierung das Smartphone gehalten werden muss, um das Einlesen des Codes möglichst einfach zu machen. Wollen Gruppen von Menschen zusammen einkaufen, aber nur einer der Kunden zahlt, verknüpft das System die einzelnen Nutzer zu einer Gruppe, deren Einkäufe zusammengezählt und dann einem Amazonkonto in Rechnung gestellt werden. Verlassen der oder die Kunden das Geschäft, erfolgt die Rechnungsstellung und Kontobelastung automatisch an das verknüpfte Amazonkonto, das der Nutzer auch für Onlineshopping nutzt. Was auf den ersten Blick klingt, wie die drastische Reduzierung der Mitarbeiter durch den Wegfall der Kassen, wird zumindest aktuell in AmazonGo-Stores enttäuscht. Im Vergleich zu ähnlich großen Geschäften, die eher Convenience Store als Supermarkt sind, liegt der Personaleinsatz bei Amazon deutlich höher als in vergleichbaren Geschäften. Dies hat allerdings wenig mit der Automatisierung, sondern mit Verlagerung zu tun. In Amazon-Go-Läden werden hauptsächlich Snacks und kleine Mahlzeiten zum Mitnehmen vertrieben. Diese werden von einer Vielzahl an Mitarbeitern frisch vor Ort zubereitet, verpackt und in die Regale geräumt. Der rein operative Personalbedarf für einen voll automatisierten Supermarkt wird noch auf 6–20 Mitarbeiter geschätzt.
6.3 Customer-Service-Roboter Einen etwas anderen Weg als Amazon schlägt der US-amerikanische Baumarkt Lowe’s ein. Nachdem bereits 2014 ein erster Pilot mit dem Kundenserviceroboter namens OSHbot gestartet wurde, präsentierte das Lowe’s Innovation Lab Ende 2016 den LoweBot, der in Filialen in der Bay Area zum Einsatz kommt.
92 P. Wennker
Von dem Einsatz robotischer Helfer verspricht sich Lowe mehr Zeit für die Mitarbeiter, unternehmensrelevante Dinge zu tun, wie zum Beispiel komplexe Verkaufsgespräche mit Kunden zu führen. Der LoweBot dient als erste Anlaufstelle für Kunden, die wissen, welches Produkt sie suchen. Nur nicht, wo sie es finden. In diesem Fall navigiert der LoweBot die Kunden an die entsprechenden Regalplätze. Zudem versteht der LoweBot mehrere Sprachen, was ihm ermöglicht, auch nicht-englischsprechende Kunden zu bedienen. Gleichzeitig kommt dem LoweBot die Erfassung von Inventar in Echtzeit zu, die es ermöglicht, Muster in Produktkäufen zu erkennen und zu bedienen. Ein ähnliches Bild finden Nutzer in Deutschland in einigen Filialen der Sparkassen, z. B. in Köln, Bochum oder München. Besucher der Bank werden von einem ca. 1,20 m großen, entfernt an einen Menschen erinnernden Roboter begrüßt. Auf Basis des weitverbreiteten Roboter-Chassis „Pepper“ erproben die Banken Einsatzmöglichkeiten, Akzeptanz und Herausforderung von künstlichen und zukünftig auch intelligenten Assistenzsystemen. Einen Schritt weiter ist hier die deutsche Bahn: Mit „SEMMI“ ist ein deutlich menschlich aussehender Roboter im Einsatz, zumindest von den Schultern aufwärts, erinnert das System doch sonst an einen von innen beleuchteten Kopf einer Schaufensterpuppe. SEMMI soll es Mitarbeitern der Bahn ermöglichen, komplexe Kundenanfragen zu beantworten, während die künstliche Intelligenz einfachere Fahrplananfragen beantwortet. Darüber hinaus soll das System, das mit der East Japan Railway Company erprobt wird, fähig sein, Small Talk zu führen oder Restaurantempfehlungen auszusprechen. SEMMI durchläuft dazu verschiedene Teststationen am Frankfurter Flughafen, dem Berliner bzw. Tokyoter Hauptbahnhof.
6.4 Chatbots Auch hier bietet Amazon wieder eine Lösung: Automatisierung des Kundenservice mittels künstlicher Intelligenz. Im Februar 2020 hat Amazon zwei Systeme vorgestellt, die die Kundenzufriedenheit und
6 Künstliche Intelligenz im Einzelhandel 93
die Geschwindigkeit der Bearbeitung der Support-Anfragen deutlich erhöhen soll. Ein System soll direkt mit den Kunden interagieren und Support liefern, wo notwendig, das zweite System soll Support-Mitarbeitern Handreichungen geben, wie mit einem spezi fischen, komplexen Problem umzugehen ist. Basierend auf dem Amazon Research Paper „Goal-Oriented End-to-End Conversational Models with Profile Featuresin a Real World Setting“ [6] von Mitte 2019 wurden zwei Chatbotsysteme entwickelt, die einen neuartigen Ansatz verfolgen. Bisherige Systeme setzen meist auf einen regelbasierten Ansatz. Wenn ein Nutzer nach X fragt, Antworte mit Y. Wenn es zu keiner Lösung kommt, leite die Anfrage an einen menschlichen Supportmitarbeiter weiter. Technisch hat Amazon zwei Systeme trainiert, die Kundenanfragen direkt beantworten sollen, und ihre Antworten auf unterschiedlichen Wegen generieren. Ein System soll die Antworten komplett selbstständig verfassen, ein System soll ähnlich regelbasierten Systemen aus einer Vorauswahl aus Formulierungen (Templates) wählen und relevante Variablen wie Lieferzeit, Produktnamen etc. dynamisch ersetzen. Das zweite System dient eher als Sicherheitsnetz für die Antworten des Chatbots, da durch die Kuratierung Ausdrucksweise und Vokabular definiert werden können. Trotz allem kann auch das zweite System bei neuen, unbekannten Anfragen auf Basis der vorhandenen Templates selbstständig neue Templates entwickeln. Amazon plant weiterhin das neuronale Netz, das selbstständig Antworten verfassen kann, auszurollen. Beide Systeme wurden auf 5 Mio. Konversationspaaren aus 350.000 Chats trainiert. Zusätzlich erhielten die Systeme eingeschränkten Zugriff auf Nutzerprofildaten, wie z. B. die Bestellhistorie, die zusätzlichen Kontext für das System bieten. Den Erfolg des Systems bewertet Amazon mit einer eigens entwickelten Metrik Automation Rate. Hierbei werden zwei Kenngrößen in Bezug gesetzt: Konnte der Bot eine Konversation lösen, ohne auf menschliche Hilfe zurückzugreifen und hat der Nutzer in den nächsten 24 h nochmals den Support kontaktiert. Hier sollen die neuen, auf
94 P. Wennker
neuronalen Netzen beruhenden Lösungen, alte, regelbasierte Systeme signifikant schlagen. In einer randomisierten Studie bekamen menschliche Customer-Support-Mitarbeiter die Top-4-Antwortmöglichkeiten der Systeme angezeigt und konnten auswählen, welche Antwort für den Gesprächsverlauf am treffendsten ist oder ggf. die Antworten anpassen. Hier erreichten die Systeme eine Zustimmung zwischen 63%–80%. Auch wenn das System, das Antworten komplett selbstständig synthetisiert, in den meisten Fällen dem Template System überlegen war, setzt Amazon zuerst auf das Template System. Den Amazon-Wissenschaftlern dürfte das Fiasko um Microsofts Tay AI noch zu präsent gewesen sein, um das generative Modell direkt produktiv einzusetzen. Microsofts Researchabteilung veröffentlichte Tay 2016 über Twitter, mit dem Ziel, die Sprachmuster einer 19-jährigen US-Amerikanerin zu simulieren und von der Interaktion mit anderen Menschen zu lernen. Bereits nach 16 h sah sich Microsoft gezwungen, Tay vom Netz zu nehmen, nachdem Nutzer eine Schwachstelle ausgenutzt hatten und in einer koordinierten Aktion dafür sorgten, dass der Chatbot den Holocaust leugnet und rassistische Meinungen äußerte. Ein Problem, das auch IBM mit Watson erlebte, nachdem das System die Website Urban Dictionary für sich entdeckte und in sein Vokabular einfließen ließ.
6.5 Pricing Das Finden des richtigen Preises zur richtigen Zeit für den richtigen Kunden stellt Retailer seit jeher vor große Herausforderungen. Durch die Verschränkung von Online- und Offline-Vertriebskanälen steigt die Anzahl der Daten, die für eine optimale Preisstrategie in Betracht gezogen werden müssen, rasant an. Regelbasierte Systeme stoßen schnell an ihre Grenzen. Machine Learning bzw. neuronalen Netzen sind keine Grenzen gesetzt, was die Anzahl der unterschiedlichen Features angeht, die in eine Pricingstrategie einfließen können. Jenseits von Preiselastizität und Nachfrage, können Muster in Verkäufen erkannt werden, die nicht
6 Künstliche Intelligenz im Einzelhandel 95
mehr offensichtlicher Natur sind, über Kanäle und Produktgruppen hinweg. Mit entsprechenden Anbindungen an Onlineverkaufssysteme oder digitale Preisschilder können die Preise mehrmals am Tag angepasst und optimiert werden. Case Studies, die im Bereich des Dynamic Pricings auf Basis von Machine-Learning-Systemen veröffentlich wurden, zeigen signifikante Verbesserungen der Unternehmensziele. So stand ein Elektronikhändler vor dem Problem, dass Mitarbeiter nicht mehr in der Lage waren, alle einströmenden Daten zu verarbeiten und zu einer für das Unternehmen gesunden Preisstrategie zu finden. Im Vergleich zu einer Kontrollgruppe von Produkten, die nicht automatisiert optimiert wurden, erzielten die Machine-Learning-Systeme eine Umsatzsteigerung von 16 % (Kontrollgruppe 2,4 %) und einen Anstieg der Verkäufe um 2,7 %, während die Verkäufe in der Kontrollgruppe um 5,1 % sanken [7]. Einen Schritt weiter geht US-Supermarkt-Gigant Kroger. Aus der Initiative „Restock Kroger“, die das Ziel hat, das Unternehmen stark zu digitalisieren, sind bisher zwei Supermärkte der Zukunft hervorgegangen, die in Zusammenarbeit mit Microsoft Azure eine durchgehende Technisierung aufzeigen. Ein Hauptaspekt ist eine verknüpfte Shopping App, die Nutzern bereits beim Erstellen des Einkaufszettel ermöglicht zu sehen, ob alle Produkte vorrätig sind, und die den Kunden dann im Supermarkt zum richtigen Regal führt. Gleichzeitig ermöglicht es die App, dem individuellen Kunden gesonderte Preise anzuzeigen, z. B. für ein Loyalitätsprogramm oder beim Kauf von größeren Mengen, oder Cross- und Upselling direkt am Regal, wenn auf den Einkauf des Nutzers zugeschnittene Rezepte angezeigt werden.
6.6 Inventar Ein Mythos der in Marketing- und Verkaufsabteilungen immer wieder zitiert wird, ist Wal Marts Erkenntnis zu Windeln und Bier. Durch Analyse der Verkaufsdaten soll Wal Mart herausgefunden haben, dass Männer freitagsabends Windeln und Bier kaufen. Durch eine
96 P. Wennker
entsprechende Positionierung der Produkte nah beieinander sollen die Abverkäufe deutlich gesteigert worden sein. Leider scheint diese Geschichte eine urbane Legende zu sein, aber eine, die den oben genannten Retailer Kroger dazu verleitet hat, die Daten seiner Geschäfte mittels ausgefeilter Analysen auszuwerten und das Sortiment und Layout der einzelnen Geschäfte an die Einkaufsgewohnheiten und Präferenzen der Nutzer im Einzugsgebiet individuell anzupassen. Zudem nutzt Kroger eine ähnliche Technologie wie Amazon, um die Regale und Gänge zu überwachen. Ergeben sich Lücken in den Regalen oder läuft irgendwo etwas aus, alarmiert das System selbstständig Mitarbeiter, die die Regale auffüllen bzw. die Gänge reinigen. Kroger erwartete durch diese Initiativen für 2020 eine Steigerung der Umsatzrentabilität um 400 Mio. US$.
6.7 Visual Search Einzelhändler versuchen, es ihren Kunden möglichst einfach und bequem zu machen, Artikel ohne große Suche zu finden und zu kaufen. Neben sprachgestützten Systemen konnte die visuelle Suche von Verbesserungen im Bereich der Bilderkennung deutlich profitieren und wachsen rasant über verschiedene Branchen. Bisherige Systeme zum Auffinden von Artikeln laden die Hauptarbeit beim Nutzer ab. Er muss seine Antwort genau schriftlich fixieren und in eine Suchmaske eingeben. Bei komplexen Produktbeschreibungen, wie z. B. Mode, eine ermüdende Aufgabe, die von vielen Nutzern als Hindernis wahrgenommen wird. Die US-Modeketten Urban Outfitters und American Eagle nehmen den Nutzern diese Aufgabe mithilfe von Deep Learning mittlerweile verlässlich ab. Sieht man ein Kleidungsstück, das einem gefällt, reicht ein einfaches mit dem Mobilgerät aufgenommenes Foto aus, damit das System ein möglichst passendes Kleidungsstück aus dem Inventar vorschlägt. Einen ähnlichen Weg geht der Unterhaltungselektronik-Retailer BestBuy: Ein Printkatalog oder Werbung kann mit der BestBuy-App
6 Künstliche Intelligenz im Einzelhandel 97
genutzt werden, die ein Foto eines Produkts in eine visuelle Suchanfrage übersetzt und so den reibungslosen Kauf ermöglicht. Forscher des MIT Computer Science and Artificial Intelligence Laboratory haben die Technologie der visuellen Suche soweit verfeinert, dass ein Foto einer Speise ausreicht, damit das neuronale Netzwerk Recipe 1M sowohl die Zutaten als auch die einzelnen Zubereitungsschritte aufzeigt.
6.8 Voice Search Analog zur visuellen Suche sind die Hürden für den Nutzer bei einer gesprochenen Suchanfrage deutlich geringer als bei einer verschriftlichten. Waren Apples Siri und Co. zu Beginn noch Ziel von Spott über missverstandene Sprachbefehle, haben die zugrunde liegenden Technologien in den letzten Jahren einen rasanten Schritt nach vorne gemacht, der in Googles A.I. Assistent Duplex kumuliert – einem sprachgesteuerten Assistenten, dem es möglich ist, Termine per Anruf zu vereinbaren oder einen Tisch in einem Restaurant zu reservieren (https://www. youtube.com/watch?v=D5VN56jQMWM) inklusive Füllwörter und realistischer Pausen ohne, dass der Nutzer mehr tun muss als den Assistenten verbal aufzufordern. Die Performance von Duplex war so realistisch, dass verschiedene Stimmen laut wurden, die einen Warnhinweis am Anfang eines Gesprächs forderten, der menschliche Teilnehmer darauf hinweist, mit einem A.I.-Assistenten zu sprechen. Die zugrundeliegende Technologie ist eine Verbindung mehrerer Systeme, die auf massiver Forschung seitens Google basieren. Auch wenn sich die Suchmaschine nicht komplett in die technischen Karten schauen lässt, ist bekannt, dass das User Interface auf Googles Speech-to-Text Machine-Learning-Technologie basiert (die jedem per API an Google Cloud Services für eigene Anwendungen zur Verfügung steht). Die Ausgabe basiert auf WaveNet, einem Convolutional Neural Network, das von Deepmind, der Firma hinter AlphaGo, entwickelt wurde und sehr natürliche, sprich menschenähnliche Sprachsynthetisierung erlaubt.
98 P. Wennker
Der Kern von Duplex ist ein rekurrentes neuronales Netz, das auf hochspezifische Aufgaben trainiert wurde, wie eben einen Termin vereinbaren. Google selbst weist darauf hin, dass die Technologie noch nicht so weit ist, dass sie ein normales Gespräch oder Small Talk führen kann. Welcher Einfluss der Voice Search bzw. sprachgesteuerten Assistenten zugerechnet wird, zeigt sich nicht zuletzt daran, dass alle großen Technologieunternehmen an eigenen Assistenten Arbeiten, Google Duplex/Assistant, Apple Siri, Microsoft Cortana und natürlich Amazon Alexa, die direkt in das Einzelhandelssystem und verbundene Premiumdienste eingebunden ist. Nicht nur Google, auch die übrigen Anbieter setzen darauf, ihre sprachgesteuerten Assistenten menschlicher und besser zu machen. Amazon hat für Alexa bisher ein System genutzt, das verschiedene Wörter, Satzteile oder Phrasen möglichst natürlich zusammengefügt hat, wenn Alexa geantwortet hat. Neue neuronale Netze hinter Alexa besitzen nun die Fähigkeit, ganze Sätze in einem zu synthetisieren und das in Echtzeit. Dieselbe Technologie, Natural Language Modelling genannt, wird in Zukunft verstärkt zum Einsatz kommen, um Alexa neue Stimmen zu verleihen. Den Anfang macht dabei Schauspieler Samuel L. Jackson. Der Schauspieler hat einige Sätze und Phrasen in einem Tonstudio aufgenommen, die dem neuronalen Netzwerk als Trainingsmaterial dienen, um die Betonung, Phrasierung und Aussprache von Samuel L. Jackson zu erlernen und möglichst gut zu imitieren. Nicht für den Produktiveinsatz gedacht, aber als Zeichen für den Stand der Forschung hat Google 2019 einen Google Assistent vorgestellt, der mit der Stimme von John Legend spricht. Amazon möchte mit Alexa aber noch einen Schritt weiter gehen und aus der Stimme der Nutzer die Emotionen herauslesen. In einem ersten Schritt möchte Amazon Alexa trainieren, um Frustrationen der Nutzer aus der Stimme herauszuhören. Diese Frustration könnte dann als Feedback für das System dienen, dass die vorangegangene Antwort für den Nutzer nicht zufriedenstellend war. Comscore geht davon aus, dass am Ende des Jahres 2020 alle Web-Suchen sprachaktiviert ausgeführt werden [8]. Eine Studie von
6 Künstliche Intelligenz im Einzelhandel 99
2017 zeigte, dass 29 % aller Nutzer bereits aktiv per Voice einkaufen, 41 % planten dies in Zukunft zu tun [9]. OC&C Strategy Consultants sind zu dem Schluss gekommen, dass Voice Commerce 2020 einen Umsatz von 40 Mrd. US$ machen wird [10]. Für Einzelhändler bedeutet dies zunächst einen weiteren Vertriebskanal einbinden zu müssen. Aktuell basieren viele Shopping-Ergebnisse auf regulären Suchergebnissen, sodass der Suchmaschinenoptimierung in Bezug auf Voice Search stärkere Bedeutung zukommen wird. Durch die Entwicklung vom reinen Spracheingabemedium hin zum persönlichen Assistenten können und werden mehr Informationen über den Nutzer und seine Historie zur Verfügung stehen, z. B. könnte der Assistent bei der Bestellung von Lebensmitteln automatisch auf Inhaltstoffe in der Bestellung achten, gegen die der Nutzer allergisch ist. Für Einzelhändler von größter Bedeutung dürften die unterschiedlichen Ökosysteme sein, die sich etablieren. Im Bereich der Smart Home Speaker ist Amazon mit den Echo-Produkten Marktführer, auf Smartphones dominieren Google und Apple mit ihren Betriebssystemen. Dadurch kommen neue Gatekeeper hinzu, die die Retailer von den Nutzern abschirmen bzw. nur gegen Bezahlung Informationen und Zugang zum Kunden erlauben. Neben dem reinen Vertriebskanal Voice Search ermöglicht die Technologie auch die Identifizierung von Nutzern anstelle der Eingabe eines Passworts. So nutzt die Deutsche Telekom in der Privatkundenhotline eine Sprach-ID, die auf Basis individueller Muster in der gesprochenen Sprache des Nutzers eine eindeutige Identifikation ermöglicht. Ein System, das auch im Bereich der Banken als Sicherheitsfeature genutzt wird, da die Sprache in Abhängigkeit von Lokalität, anatomischen Gegebenheiten und anderen Faktoren als fälschungssicher gilt.
6.9 Diebstahlschutz Laut des Kölner Handelsforschungsinstituts EHI verschwinden jedes Jahr Waren in einem Wert von 3,75 Mrd. EUR aus deutschen Geschäften. Darunter fallen diebische Kunden, Mitarbeiter und
100 P. Wennker
Lieferanten, die sich an der Ware bedienen. Statistisch gesehen entsteht dem Einzelhandel mit jedem Verkaufstag in Deutschland ein Schaden von fast 7,7 Mio. EUR durch Kundendiebstahl. Mitarbeiter sind in Jahresfrist für Diebstähle im Wert von einer Milliarde verantwortlich. Ein Viertel aller Delikte geht dabei in Deutschland auf das Konto organisierter Banden, die professionell zu Werke gehen. Gleichzeitig schätzt das EHI eine Dunkelziffer von 98 %. In den USA sind die Zahlen noch größer, Waren im Wert von 50 Mrd. verschwinden jedes Jahr spurlos aus dem Einzelhandel. Auch hier nimmt die Bedeutung von organisierter Kriminalität deutlich zu. Dazu kommen hohe Verluste durch sog. Sweethearting. Mitarbeiter an der Kasse scannen Produkte nicht oder nicht vollständig, um Freunden und Familie so ein Geschenk zu machen. Besonders in den kundenfreundlichen USA mit sehr großzügigen Umtauschregelungen, z. B. ohne Beleg, kommt es zusehends zu Return Fraud. Kunden tauschen Gegenstände gegen eine Barerstattung um. Allerdings wurden die Produkte nicht gekauft, sondern einfach aus dem Regal genommen und zur Servicetheke gebracht. Künstliche Intelligenz bietet Retailern hier eine Möglichkeit, systematisch gegen Ladendiebstahl vorzugehen und Täter zu ermitteln. Mehrere Start-ups haben Lösungen auf Basis von Convolutional Neural Networks entwickelt, die sich gezielt an Einzelhändler richten. FaceFirst präsentiert mit Sentinel IQ ein System, das sich besonders an große Ketten richtet, die mit organisierten Diebstahlbanden zu kämpfen haben. Betritt ein Kunde ein Ladengeschäft wird sein Gesicht in einer Zehntelsekunde mit einer Datenbank von 75 Mio. Bildern von bekannten Ladendieben und Räubern abgeglichen. Dabei wählt die KI selbstständig das bestmögliche Bild aus dem Kamerafeed aus, um den Abgleich zu starten. Wird ein Treffer festgestellt, alarmiert die KI das Sicherheitspersonal und weist auf eine mögliche Bedrohung hin. Dabei können die unterschiedlichen Lokalitäten großer Ketten miteinander verbunden werden, damit das System von Zwischenfällen in anderen Niederlassungen lernen kann. Noch einen Schritt weiter geht StopLift bei der Bekämpfung von Sweethearting. Eine Kamera, die über dem Kassenbereich angebracht
6 Künstliche Intelligenz im Einzelhandel 101
ist, filmt den Tisch der Kasse auf dem gescannt wird. Eine künstliche Intelligenz gleicht das Video mit dem Kassensystem ab und testet, ob das physische Objekt, das gerade über die Kasse gewandert ist auch entsprechend ausgebucht wurde oder ob, z. B. der Barcode verdeckt wurde oder Gegenstände übereinander gestapelt wurden und nur das unterste, billigste berechnet wird.
Literatur 1. PricewaterhouseCoopers. (2017). Sizing the prize. https://www.pwc.com/ gx/en/issues/analytics/assets/pwc-ai-analysis-sizing-the-prize-report.pdf. Zugegriffen: 09. Juli 2020. 2. MacKenzie, I., Meyer, C., & Noble, S. (01.10.2013). How retailers can keep up with consumers. https://www.mckinsey.com/industries/retail/ourinsights/how-retailers-can-keep-up-with-consumers. Zugegriffen: 09. Juli 2020. 3. Linden, G., Smith, B., & York, J. (2003). Amazon.com recommendations item-to-item collaborative filtering. https://www.cs.umd.edu/~samir/498/ Amazon-Recommendations.pdf. Zugegriffen: 09. Juli 2020. 4. Jacobi et al. (26.09.2006). Personalized recommendations of items represented within a database. https://patentimages.storage.googleapis.com/ d6/7e/8a/bcf04f468be95b/US7113917.pdf. Zugegriffen: 09. Juli 2020. 5. Puerini, G., Kumar, D., & Kessel, S. (28.12.2018). Transitioning Items from a materials handling facility. http://appft.uspto.gov/netacgi/nphParser?Sect1=PTO2&Sect2=HITOFF&u=%2Fnetahtml%2FPTO% 2Fsearch-adv.html&r=1&p=1&f=G&l=50&d=PG01&S1=(Steven. IN.+AND+Kessel.IN.)&OS=IN/Steven+and+IN/Kessel&RS=(IN/ Steven+AND+IN/Kessel. Zugegriffen: 09. Juli 2020. 6. Lu, Y., & Srivastava et al. (2019). Goal-oriented end-to-end conversational models with profile features in a real-world setting, Proceedings of the 2019 Conference of the North American chapter of the association for computational linguistics, S. 48–55. 7. Competera. How a leading European retailer maximized revenue without losing margin. https://competera.net/pdf/case-study-po.pdf. Zugegriffen: 09. Juli 2020. 8. Olson, C. (25.04.2016). Just say it: The future of search is voice and personal digital assistants. https://www.campaignlive.co.uk/article/just-say-
102 P. Wennker
it-future-search-voice-personal-digital-assistants/1392459. Zugegriffen: 09. Juli 2020. 9. Navar (2017). Narvar consumer report: Bots, texts and voice: What cuts through the clutter, S. 18. http://see.narvar.com/rs/249-TEC-877/images/ Narvar_Consumer_Report-Bots-Texts-Voice.pdf. Zugegriffen: 09. Juli 2020. 10. OC&C Strategy Consultants. (28.02.2018). Voice shopping set to jump to $40 billion by 2022, rising from $2 billion today. https://www.prnewswire. com/news-releases/voice-shopping-set-to-jump-to-40-billion-by-2022rising-from-2-billion-today-300605596.html. Zugegriffen: 09. Juli 2020.
7 Künstliche Intelligenz im Bereich Finanzen
Die Finanzindustrie gehört zu den Branchen, die am stärksten von künstlicher Intelligenz betroffen sind und sein werden. Daten des Kerngeschäfts liegen in strukturierter Form vor, mathematische Modellierung gehört zum Tagesgeschäft. Wenig verwunderlich hat eine Befragung des Weltwirtschaftsforums in Zusammenarbeit mit dem Cambridge Centre for Alternative Finance (CCAF) [1] unter Entscheidern der Finanzindustrie ergeben, dass 77 % erwarten, dass künstliche Intelligenz einen hohen bzw. sehr hohen strategischen Wert für ihre Geschäftsfelder haben wird. Wie in vielen Geschäftsfeldern sehen auch in der Finanzindustrie fast 50 % der Entscheider große Techfirmen als ernsthafte Bedrohung an, die mit Kompetenz in künstlicher Intelligenz weiter in die Finanzindustrie vordringen können. Erste zaghafte Versuche in Richtung steigende Technisierung lassen sich mittlerweile sogar bei Sparkassen in Kleinstädten beobachten: Immer mehr Filialen lassen Besucher von Pepper, einem Social Robot, begrüßen. Pepper gibt Kunden Hilfestellungen, wo was zu finden ist und wer bei einem Problem weiterhelfen kann. Während sich AI-gestützte Chatbots und autonome Systeme im Kundenkontakt © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 P. Wennker, Künstliche Intelligenz in der Praxis, https://doi.org/10.1007/978-3-658-30480-5_7
103
104 P. Wennker
branchenunspezifisch bald auch verstärkt im Finanz- und Bankensektor finden werden, gibt es bereits anspruchsvolle und hochentwickeltere Systeme, die alle Bereiche des Finanzsystems durchdringen und im Hintergrund wichtige Arbeiten erledigen. Immerhin beschäftigte die Wall Street Investment Bank Goldman Sachs bereits 2015 mehr Programmierer und Entwickler als Facebook [2].
7.1 Vertragswesen JP Morgan Chase ist eine der größten Banken in den USA mit über 240.000 Angestellten, darunter viele Rechtsanwälte. Eine interne Analyse der Bank hat ergeben, dass diese meist sehr gut ausgebildeten Anwälte 360.000 h damit verbringen, gewerbliche Kreditverträge zu lesen, zu interpretieren und auf Fehler zu überprüfen. Bei einer internen Überprüfung ist aufgefallen, dass 12.000 Verträge Fehler enthielten. JP Morgan Chase ist einer der wenigen konsequenten First Mover im Bereich neuer Technologien im Bankenwesen. Laut Forbes investiert JPMC bis zu 10 Mrd. US$ pro Jahr in die Entwicklung eigener Systeme oder die Zusammenarbeit mit innovativen Start-ups und Fintechs. So war JPMC eins der ersten Geldhäuser, das nicht nur Bitcoin bedacht hatte, sondern eine eigene Kryptowährung auf Blockchain-Basis auf den Markt gebracht hat. Der Bereich künstliche Intelligenz steht dem in nichts nach und hat in kürzester Zeit mehrere KI Systeme zur Marktreife geführt, unter anderem, um den Prozess der Vertragsüberprüfung zu automatisieren. Basierend auf OCR kann das COin (Cognitive Intelligence) getaufte System Text digitalisieren und in einem zweiten Schritt auf Muster in Formulierungen, von denen bekannt ist, dass sie problematisch sind, bis hin zu unlogischen Zusammenhängen oder Rechtschreib- und Grammatikfehlern kontrollieren. Die zugrundeliegende Technologie wird von JPMC nicht veröffentlicht, soll aber mittlerweile so fehlerfrei arbeiten, dass 360.000 Rechtsanwaltsstunden pro Jahr für anspruchsvollere Tätigkeiten freigemacht werden können.
7 Künstliche Intelligenz im Bereich Finanzen 105
7.2 Aktienmarkt Die Meinung von Twitter-Nutzern über ein Unternehmen ist 25 Mio. Pfund Sterling wert. 2010 entwickelten Studenten der Rotterdam School of Management einen Algorithmus, der den Aktienindex Standard & Poor‘s 100 vorhersagte. Rein auf Basis der Emotionen, die Twitter-User gegenüber den entsprechenden Unternehmen ausdrückten [3]. Die Tweets werden dabei nach Ihrer sog. Polarität klassifiziert – drücken sie negative, neurale oder positive Emotionen aus? – und ein Algorithmus übersetzte dies in Empfehlungen zu halten, zu kaufen oder zu verkaufen. Aus dieser Idee entstand ein Hedge Fund mit 25 Mio. Pfund Sterling Kapital. Heute ist die Idee des Social Listenings aus dem Börsenhandel nicht mehr wegzudenken, so ziemlich jede Plattform, ob Bloomberg oder Reuters, selbst die Deutsche Börse, bietet Sentimentanalysen wie selbstverständlich an. Andere Start-ups und Unternehmen liefern hochspezifische Daten für Investoren, z. B. die Auszählung von Fahrzeugen auf den Parkplätzen großer Einzelhandelsketten, um eine Aussage über die Gesundheit des Unternehmens zu treffen. Unmengen an Daten, aus so ziemlich jedem Bereich. Exorbitante Gewinnmöglichkeiten in Rekordzeit und eine Branche, die schnell technische Neuerungen adaptiert, wie algorithmisches oder High Frequency Trading, zeigt. Der Aktienmarkt klingt wie die Blaupause für den Einsatz künstlicher Intelligenz, trotzdem finden sich bisher kaum Applikationen, die kurzfristiges Trading komplett ohne menschliche Inputs, verspricht. Wenn man die Mechaniken des Aktienmarkts näher beobachtet, stellt man fest, dass das Spielfeld ganz eigene Probleme für den Einsatz maschinellen Lernens bereithält. Grundlegend ist der Aktienmarkt nicht stationär, d. h. die statistischen Merkmale des Aktienmarkts verändern sich, teilweise drastisch und ohne kausale in den Daten begründete Ursachen. Gleichzeitig entspricht der Versuch, den Aktienmarkt vorherzusagen und danach zu handeln einem Levels 2 Chaotic System. Im Vergleich
106 P. Wennker
zu Level 1 Chaotic Systems, bei denen die Vorhersage das Ergebnis nicht beeinflusst, z. B. die Vorhersage über die Größe einer Pflanze hat keinen Einfluss auf das reale Größenwachstum, beeinflusst die Vorhersage das Ergebnis eines Level 2 Chaotic Systems dergestalt, dass das vorhergesagte Ergebnis nicht eintreffen kann. Ein gutes Beispiel für L2CS ist die Corona-Pandemie. Die Wissenschaft veröffentlicht eine Vorhersage, wie schlimm die Bunderepublik von der Pandemie getroffen wird. Darauf reagiert die Regierung mit verschiedenen Maßnahmen wie Absage von Großveranstaltungen und Kontaktverboten. Die Pandemie verläuft dadurch in Deutschland glimpflich und Menschen beschweren sich, dass die Vorhersage der Wissenschaftler falsch war. In Analogie für den Aktienmarkt sagt ein Algorithmus für übermorgen einen Preissturz einer Aktie um 20 US$ voraus und initiiert einen sofortigen Verkauf sämtlicher betroffener Assets. Andere Trader sehen den Kurs der Aktie durch ein Überangebot am Markt fallen und verkaufen ebenfalls, vielleicht sogar algorithmisch gesteuert ihre Anteile, um den Verlust möglichst gering zu halten. In Folge dessen tritt der Preissturz nicht erst übermorgen, sondern sofort ein und beträgt nicht 20 US$ sondern 40 US$. Die Vorhersage hat das Ergebnis nachhaltig verändert. Verschiedene Start-ups versuchen, dieses Dilemma zu lösen, indem sie sich auf bestimmte Arten von Handel konzentrieren, meist mit einem deutlich längeren Zeithorizont als Day-to-Day-Trading. EquBot, gegründet an der Haas School of Business der UC Berkley, ist so ein Start-up. Wie so oft in der Finanzindustrie sind die genauen technischen Lösungen geheim und gut behütet. Publikationen kann man nur entnehmen, dass die Grundlage der Lösung auf IBM Watson, der -I Plattform IBMs basiert und mit eigenentwickelten Lösungen kombiniert wird. Anhand der Datenbeschreibung scheint hier Natural Language Processing eine nicht zu unterschätzende Rolle zu spielen. Der Bot wird genutzt, um aus verschiedensten Datenpunkten, News, Social Media, Quartalsberichten und sogar Managementteams von Unternehmen, Muster zu erkennen, die Aussagen über die zukünftige Performance ermöglichen. Bisher scheint der Erfolg dem Ansatz Recht zu geben, die von EquBot gemanagten ETFs performen besser als
7 Künstliche Intelligenz im Bereich Finanzen 107
solche, die noch hauptsächlich von Menschen orchestriert werden und schlossen 2019 mit einem Gewinn von gut 31 % ab. J.P. Morgan Chase nutzt ein System basierend auf Natural Language Processing, das auf Basis von 250.000 Analystenberichten trainiert wurde, um eine Klassifizierung in overweight, neutral oder underweight vorzunehmen. Das Modell wurde dann genutzt, um 100.000 Nachrichtenartikel zu klassifizieren und darauf eine Investmentstrategie aufzubauen, die laut Case Study Indexbasierte Portfolios in Jahresfrist übertroffen hat. In eine ähnliche Richtung geht eine Analyse der Harvard Business School bezüglich der genutzten Sprache in Reportings, die von Unternehmen ausgesandt werden. Ändert sich die Sprache oder der Aufbau der Reportings, ist dies ein starker Indikator dafür, dass es innerhalb eines Unternehmens Probleme gibt, die den Aktienkurs im nächsten Jahr negativ beeinflussen werden, auch wenn dies durch den eigentlichen Inhalt des Reportings nicht belegbar wäre [4]. Aktuell sind verschiedene RNN LSTM Architekturen in der Entwicklung, die auf Basis von z. B. SEC Fillings hiervon Gebrauch machen wollen, um eine Portfoliostrategie automatisiert erstellen zu lassen.
7.3 Inverse Reinforcement Learning Einen anderen spannenden Ansatz stellt das Inverse Reinforcement Learning (IRL) dar. Hierbei lernt das System durch Nachahmung menschlichen Verhaltens, z. B. von erfolgreichen Wall Street Brokern. Eine der großen Herausforderungen im Reinforcement Learning ist die Definition einer Reward Funktion, die der Realität möglichst nahekommt. Reinforcement-Learning-Systeme versuchen dann Verhalten zu erlernen, das die Belohnung maximiert. IRL versucht die Reward-Funktion, also die Belohnung, von menschlichem Verhalten abzuleiten. IRL ist eine interessante Theorie, komplexe Probleme zu lösen, steht aber vor vielen Herausforderungen. Zum einen sind Daten nur schwer zu erheben oder hochspezifisch in Bezug auf die reale Welt. Ein guter
108 P. Wennker
Mechanismus, um menschliches Verhalten zu beobachten, wäre zum Beispiel die Nutzung einer Website. Klicks, Mausbewegungen, Scrolltiefe etc. lassen sich einfach erfassen und algorithmisch verarbeiten, lassen aber nur beschränkte Rückschlüsse auf eine mögliche Gesamtstrategie oder Lösung zu. Nehmen wir an, ein System beobachtet einen Menschen, der bei jedem Aufruf der Website sein Passwort vergessen hat und es per Mail zurücksetzt. IRL stehen unter der Prämisse, dass der menschliche Agent, von dem gelernt werden soll, vollumfängliche Informationen über die zu lösende Aufgabe hat und den optimalen Lösungsweg sucht. Ein vergesslicher Nutzer, der sein Passwort regelmäßig zurücksetzt, könnte bei dem IRL-System den Eindruck gewinnen, das Zurücksetzen des Passworts ist das Ziel, nicht der Besuch einer geschützten Website hinter dem LogIn-Formular.
7.4 Fraud Detection Im Bereich der Fraud Detection hat künstliche Intelligenz in jeder technischen Ausprägung sehr schnell Fuß gefasst. Supervised Learning, also das Lernen aus großen, annotierten Datensätzen ist ein probates Mittel, grundlegend zu lernen, welche Parameter eine Transaktion betrügerisch machen und welche nicht. Problematisch ist hier die Reaktion der Gegenseite, also der Betrüger, die ihre Maßnahmen schnell weiterentwickeln und neue Methoden entwickeln, die nicht so schnell detektiert werden können. Hier kann Unsupervised Learning Hilfestellung geben. Pattern Recognition, die Erkennung von Mustern, kann helfen, vom globalen Muster abweichende Transaktionen schneller aufzuspüren. Seit November 2019 setzt die US-amerikanische NASDAQ auf Deep Learning, um betrügerische Transaktionen im Markt schneller zu erkennen und zu unterbinden. Technisch lässt sich die Börse nicht in die Karten schauen, anders als das Kreditkartenunternehmen American Express. Für 2020 wird erwartet, dass der weltweite Betrug mit Kreditkarten zum ersten Mal die Summe von 30 Mrd. US$ überschreiten wird. Der
7 Künstliche Intelligenz im Bereich Finanzen 109
Schaden durch „False Positives“, also das Ablehnen von Transaktionen, die legitim wären, bewegt sich vermutlich in derselben Größenordnung. Die Hauptursache hierfür ist laut Marktkennern der starke Anstieg von Transaktionen bei denen die Karte nicht physisch präsent ist, wie z. B. Onlineshopping. Aus diesem Grund beschäftigt American Express laut eigenen Bekundungen mehr als 1500 Entwickler, die sich mit der Erforschung und Entwicklung von Machine-Learning-Technologien beschäftigen. Durch eine Kooperation des Kreditkartenunternehmens mit dem Grafikkarten-Hersteller Nvidia wurden einige Einblicke in die genutzten Technologien möglich. Systeme, die sequentielle Daten verarbeiten können, LSTM und CNN, zeigen bei American Express die besten Resultate in der schnellen Erkennung von fraudulenten Transaktionen. Um schnell auf neue Marktgegebenheiten oder Produkte reagieren zu können, die neue Transaktionsmuster verursachen und normalerweise Zeit benötigen würden, um neu erlernt zu werden, sobald ausreichend Daten aufgelaufen sind, setzt man bei AE auf Generative Adversarial Networks, um schnell große Mengen von plausiblen Daten zu produzieren, um die bestehenden Systeme nachtrainieren zu können.
7.5 Robo Advisors Deloitte spricht in einigen Veröffentlichungen bereits von der Übernahme des Markts für Kapital- und Vermögensverwaltung durch Robo Advisor und erwartet für 2025 16 Billionen US$ verwaltetes Vermögen bei Robo Advisors. Dabei muss unterschieden werden zwischen Robo Advisors, die einzelne Schritte der Vermögensverwaltung digitalisieren und automatisieren, und vollständig autonomen Lösungen auf Basis von künstlicher Intelligenz. Am Markt werden aktuell einfache Fragesysteme, die einen menschlichen Berater vorinformieren als auch DeepLearning gestützte Systeme unter dem Term zusammengefasst. Technisch irgendwo dazwischen sind Systeme angesiedelt, die auf algorithmische Empfehlungen setzen, z. B. genetische Algorithmen.
110 P. Wennker
Das Nutzerversprechen ist bei Robo Advisors klar geregelt: Schneller, effizienter und oft zu deutlich geringeren Kosten als menschliche Broker oder Berater soll das Vermögen durch Investments vermehrt werden. Die oft in Smartphone Apps organisierten Applikationen benötigen einige wenige Eingaben, zum Beispiel eine Verbindung zu Portfolios, Konten und Sparplänen, Informationen zu den Zielen der Investmentstrategie (500.000 € bis zum Renteneintritt oder 100.000 € für die Anzahlung eines Hauses) und der persönlichen Risikofreude. Besonders in Deutschland ist die mögliche Funktion des Robo Advisors stark reguliert. Im Regelfall werden nur Vorschläge unterbreitet, wie die Investitionsstrategie angepasst werden sollte, die eigentliche Durchführung muss dann mit wenigen Klicks durch den Nutzer selbst erfolgen. In weniger regulierten Ländern, wie teilweise in den USA oder Asien, sind komplett autonome Systeme am Markt, bei der Entscheidungen über Investments direkt ausgeführt werden. Der kompetitive Vorteil, den auf künstlicher Intelligenz basierende Robo Advisor versprechen, liegt in der Menge der Daten, die verarbeitet und zur Vorhersage genutzt werden können. Das Inbetrachtziehen von Social Media und Sentiment gegenüber eines Unternehmens ist nur ein Beispiel, das in der Vergangenheit im Investmentbereich für Aufsehen gesorgt hat. Die Stärke von neuronalen Netzen, nicht triviale Muster in Daten zu erkennen, kommt hier voll zum Tragen. Die Technologien und Modelle, die bei den einzelnen Anbietern von automatisierten Anlagediensten zum Einsatz kommen, gehören zu den bestgeschützten Geheimnissen der Unternehmen, sodass über die verwendeten Technologien wenig bekannt ist. Man kann aufgrund der Natur der Vorhersagen jedoch davon ausgehen, dass rekurrente bzw. convolutional Networks zum Einsatz kommen. Keine direkte Empfehlungsfunktion, aber eine Unterstützung bei der Verwaltung von Vermögen oder um Ausgaben im Blick zu halten sind Chatbots, die mittels natürlicher Sprache bedient werden können. Erica, der Chatbot der Bank of America setzt auf ein Natural Language Processing Interface, indem Kunden im Stil von Textnachrichten Aktionen ausführen können. Der Funktionsumfang reicht von einfachen Aufgaben, wie z. B. „Für wie viel Geld habe ich in den letzten drei Monaten bei Händler xy eingekauft?“. Der Bot sucht in diesem Fall
7 Künstliche Intelligenz im Bereich Finanzen 111
nach allen Transaktionen mit der entsprechenden Gegenseite und listet diese auf. Zudem kann er den Nutzer an fällige Zahlungen, besondere Rabatte oder Rewards erinnern, aber auch auf Anomalien hinweisen, wenn sich der Wert einer wiederkehrenden Zahlung auf einmal ändert. Über das Textinterface lassen sich ebenso Zahlungen ausführen oder Kontoinformationen abrufen. Die Einfachheit der Bedienung scheint die Nutzer überzeugt zu haben. In den ersten drei Monaten nach Veröffentlichungen nutzten über 1 Million Kunden der Bank of America Erica.
7.6 Versicherungen Die Versicherungsbranche hat mit Finanzdienstleistungen einiges gemeinsam. Hohe Zahlenaffinität, kleine prozentuale Verbesserungen können einen sehr hohen Gewinn bedeuten und beide Branchen, wie wir sie heute kennen, dürften in zehn Jahren so nicht mehr existieren. Anscheinend werden Versicherungen mit ihren komplexen Produkten und teilweise fragwürdiger Auszahlungspolitik als notwendiges Übel wahrgenommen. Laut jährlichen Umfragen des Forschungsinstituts Gallup aus dem Jahr 2013 werden Versicherungsmakler als weniger vertrauenswürdig angesehen als Prostituierte, nur Politiker und Verkäufer an der Haustür genießen ein schlechteres Image. Diese Wahrnehmung hat sich seitdem in den jährlichen Befragungen nicht geändert. Das Insurtech Start-up Lemonade verwandelt diesen Nachteil in einen Vorteil, indem es menschliche Berater fast komplett abschafft und die Entscheidungsfindung möglichst transparent macht. Lemonade ist einer der Stars der Insurtech-Branche, die bei Markteintritt in der Versicherungsbranche mit viel Skepsis und mittlerweile mit Bedenken gesehen werden. Lemonade wurde von Grund auf geplant und entwickelt, um möglichst alle Prozesse in einer Versicherung zu technisieren. Die Basis für Versicherungen ist der erwartete Verlust (expected loss), den sie mit einem Versicherungskunden machen. Wenn ein Beispielkunde projiziert in zehn Jahren 5000 € an Versicherungsschaden
112 P. Wennker
geltend macht, liegt sein erwarteter Verlust pro Monat bei 41,70 €. Der Versicherer wird zusätzlich eine gewisse Fehlertoleranz mit in die Prämienberechnung einbeziehen, sowie Gewinne, Rücklagen und Akquirierungs- und Marketingkosten. Klassische Versicherer generieren diese erwarteten Verluste über gewisse Populationen von Kunden, sei es Alter, Demographie, Wohnort, Bildungsstand oder eine Schnittmenge aus diesen Daten. Lemonade vergleicht seinen Weg mit dem der Tech Firmen aus dem Silicon Valley, sie wollen nicht den erwarteten Verlust eines Segments der Nutzer wissen, sondern von dem Individuum, das eine Versicherung anfragt. Laut Angaben auf der Unternehmenswebsite hat Lemonade innerhalb von drei Jahren so viele Daten über Nutzer gesammelt, wie die etablierten Versicherungsunternehmen besitzen. Faszinierend ist, neben dem ausbleibenden Aufschrei von Datenschützern, wie Lemonade diese Daten nutzt „eine andere Art von Organisation“ zu werden. AI und Chatbots durchziehen die gesamte Struktur, selbst die Entwicklung neuer Features wird von einem Chatbot gesteuert, der Aufgaben per Slack an Entwickler verteilt. Der Cooper genannte Bot soll in näherer Zukunft auch juristische Vorarbeiten, wie das Entwerfen von legalen Dokumenten übernehmen. Diese eher im Hintergrund verorteten Vorgänge sind dem Versicherungskunden recht egal, zwar wirken sie sich auf den erwarteten Verlust und damit auf die Prämien aus, der wirkliche Test für eine Versicherung und damit die Kundenzufriedenheit kommen zu einem denkbar schlechten Zeitpunkt. Eine Versicherung wird in Anspruch genommen, wenn etwas Negatives passiert ist, eine Krankheit, ein Unfall, eine Naturkatastrophe, Zeitpunkte im Leben von Kunden, die nicht dafür sorgen, dass sie entspannt mit organisatorischen Unzulänglichkeiten umgehen. Die Abhandlung von Versicherungsschäden landet nicht selten vor Gericht und wahrgenommene Spitzfindigkeiten in den Formulierungen der Policen sorgen bei Nutzern für den Eindruck, dass die Auszahlung bewusst verlangsamt wird. Mittels eines Chatbots und der kompletten Automatisierung der Regulierung des Schadenanspruchs, beansprucht Lemonade die
7 Künstliche Intelligenz im Bereich Finanzen 113
schnellste Prozessierung eines Versicherungsschaden: Von Meldung bis Auszahlung vergingen 3 s. Möglich wird diese Geschwindigkeit durch komplett digitale Prozesse und automatisierte Entscheidungen. In diesem vielzitierten Fall wurde einem Versicherten ein knapp 1000 US$ teurer Mantel entwendet. Über die App der Versicherung füllte er die Rahmendaten, Preis, Verkäufer und Vorfall aus. Diese Daten werden laut Lemonade routinemäßig von 18 Antibetrugsalgorithmen gecheckt. Finden diese nichts und der Schadensfall ist von der Versicherung des Kunden gedeckt, wird automatisch eine Banküberweisung ausgeführt. Kann ein Anspruch nicht automatisiert abgehandelt werden, schaltet die AI automatisch einen menschlichen Mitarbeiter ein. Lemonade selbst gibt an, dass aktuell über 30% aller Vorfälle automatisiert abgehandelt werden.
7.6.1 Schadensregulierung Ähnlich des komplett automatisierten Prozesses bei Lemonade gehen andere Versicherer einen Schritt in die Teilautomatisierung. Das Start-up Tractable hat sich auf die Identifizierung von Schäden an Kraftfahrzeugen spezialisiert. Anhand weniger Fotos des Unfallwagens sind die Convolutional Neural Networks von Tractable in der Lage, den Schaden zu begutachten und eine Schätzung der Reparaturkosten abzugeben. Dabei soll das System so gut sein, dass es anhand von Fotos entscheiden kann, ob ein einzelnes Teil repariert oder ausgetauscht werden muss, über alle Hersteller und Modelle hinweg. Gleichzeitig kann das System genutzt werden, um Kostenvoranschläge und Reparaturrechnungen auf Plausibilität zu prüfen. Entsprechen die Rechnungspositionen, dem Schaden auf den Bildern oder wurde überrepariert? Dieselbe Technologie soll es Versicherern zukünftig erlauben, Versicherungsansprüche schnell und korrekt anhand von Luftaufnahmen zu regulieren, z. B. nach Naturkatastrophen.
114 P. Wennker
7.6.2 Lebensversicherungen Lebensversicherungen sind ein heikles Feld für Versicherer und Versicherte. Versicherer müssen sicherstellen, dass das individuelle Versicherungsrisiko exakt abgeschätzt bzw. berechnet wird, um über alle Versicherten hinweg nicht zu viel auszuzahlen als durch Policen eingenommen wird. Dies resultiert für den Versicherungssuchenden oft in langwierigen Fragebögen und zusätzlichen Informationen, die beigebracht werden müssen, kurz gesagt: kein sehr angenehmer Prozess, immer mit dem Risiko bei Gesundheitsangaben etwas vergessen zu haben, das die ganze Versicherung nichtig macht oder die ausgezahlte Summe zumindest drastisch reduziert. Das Start-up Lapetus aus North Carolina, USA, will hier einen anderen Weg gehen und anhand zweier Fotos und Antworten zu neun Fragen mittels mehrerer neuronaler Netze entscheiden, ob jemand eine Lebensversicherung bekommt und zu welchen Konditionen. Lapetus hat sich darauf spezialisiert, die Lebenserwartung bzw. die gesunde Lebenserwartung von Individuen mittels Image Recognition vorherzusagen. Im Beispiel des Lebensversicherers muss ein Nutzer ein Foto aus seinem Führerschein und ein aktuelles Selfie per App hochladen und neun Fragen beantworten, die sich z. B. auf Lebensgewohnheiten, Größe und Gewicht beziehen. Da die beiden Bilder einen unterschiedlichen Aufnahmezeitpunkt haben und dieser Zeitraum bekannt ist, kann das neuronale Netz erkennen, welche Alterungsprozesse im Gesicht des Nutzers passiert sind und von diesen darauf schließen, wie es um seine Gesundheit bestellt ist. Lapetus ist es dabei gelungen, nicht nur normale Alterungsprozesse zu erkennen, sondern auch Features zu lernen, die z. B. für Raucher üblich sind. Zudem rühmt sich das Start-up auch damit, tabellarisch zu hohe Body-Mass-Indexes zu erkennen, die z. B. bei Leistungssportlern häufig nicht auf traditionelles Übergewicht hindeuten, sondern auf eine höhere Muskelmasse.
7 Künstliche Intelligenz im Bereich Finanzen 115
7.6.3 Beratung In den Vereinigten Staaten von Amerika sinkt die Zahl der abgeschlossenen privaten Versicherungen kontinuierlich. Aus diesem Grund wenden sich immer mehr Versicherungen dem Geschäftskundenbereich zu. Die Einführung von neuen Tarifen, Versicherungsoptionen und dem damit verbundenen Aufwand an Dokumentation stellte die Mitarbeiter des US-Versicherungskonzerns AllState vor ungeahnte Herausforderungen. Die Versicherungsmakler, die vor Ort bei möglichen Geschäftskunden Beratung und Verkauf vornehmen wollten, waren von dem hauseigenen Paragraphendschungel, den Dokumenten und Anforderungen überfordert. Die Mitarbeiter der Versicherung taten also, was jeder normale Kunde auch tun würde und riefen bei der zentralen AllState-Hotline an, um offene Fragen für ihre Kunden zu klären. Dieses zusätzliche Anrufaufkommen sorgte für einen kompletten Zusammenbruch der Hotline mit mehrstündigen Wartezeiten für alle Anrufe. AllState reagierte auf die Situation durch eine Kooperation mit dem Unternehmen Earley Information Science (EIS), das sich mit der Strukturierung von Dokumenten und dem technischen Erkenntnisgewinn beschäftigt. Die Kooperation trug Früchte in Form von ABIe, eines virtuellen Assistenten, maßgeschneidert für die Bedürfnisse der Versicherungsmakler vor Ort beim Kunden. Der AllState Business Insurance Expert basiert auf Natural Language Processing und ist fähig, den Versicherungsagenten Schritt für Schritt durch den Prozess des Versicherungsabschlusses zu führen und das in natürlicher Sprache. Makler bewerten die Antworten in Bezug auf Qualität und Treffsicherheit und schaffen so einen Feedback Loop, um ABIe kontinuierlich zu verbessern. Laut AllState ist die Akzeptanz von ABIe sehr hoch. Die monatliche Nutzung liegt bei 25000 Anfragen mit 10 % Wachstum. Anekdotisch berichtet AllState, der größte Erfolg wäre, dass verschiedene Makler ABIe für eine reale Person halten würden und Small Talk mit ihr zu führen versuchen.
116 P. Wennker
7.6.4 Verhaltensbasierte Versicherungen Während einige Versicherer Incentives schaffen, indem sie Versicherten die Nutzung von Fitnessarmbändern nahelegen, geht die US-Versicherung Progressive im Bereich der Automobilversicherungen einen Schritt weiter. Versicherte können sich die Smartphone App Snapshot herunterladen und mit ihrer Versicherungspolice verknüpfen (oder wahlweise einen Dongle direkt an die Elektronik des Fahrzeuges anschließen). Die App sammelt in der ersten Vertragsperiode, im Regelfall sechs Monate, Daten zu der Fahrweise des Nutzers, der Frequenz der Kfz-Nutzung und dazu, wann welche Strecken gefahren werden. Auch ob das Smartphone während der Fahrt für Nachrichten oder Anrufe genutzt wird, wird erfasst und an die Versicherung gemeldet. Aus all diesen Daten berechnen nicht näher spezifizierte Machine-Learning-Algorithmen ein individuelles Risikoprofil und passen die geleisteten Versicherungszahlungen entsprechend an. Progressive selber gibt die Menge der gesammelten und ausgewerteten Daten mit 14 Mrd. gefahrener Meilen an, die durchschnittliche Erstattung für Nutzer von Snapshot liegt bei 145 US$ [5]. Die eingangs erwähnten Fitnesswearables und die Quantified-Self-Bewegung könnte hier für Krankenkassen eine ganz neue Art der Policenberechnung ermöglichen, wenig Sensibilität für Datenschutz bei den Versicherten vorausgesetzt. Im Vergleich zu Jahre alten medizinischen Aufzeichnungen würden Daten aus Fitnesstrackern ein Echtzeitbild mit sensiblen Informationen zu Bewegung, Herzgesundheit und Ernährung ergeben. Auf Basis dieser Daten individuelle Risikoeinstufungen vorzunehmen und kontinuierlich anzupassen wäre für neuronale Netze ein Leichtes.
Literatur 1. Ryll, L. et al. (2020). Transforming paradigms A global AI in financial services survey. http://www3.weforum.org/docs/WEF_AI_in_Financial_ Services_Survey.pdf. Zugegriffen: 09. Juni 2020.
7 Künstliche Intelligenz im Bereich Finanzen 117
2. Marino, J. (12.04.2020). Goldman Sachs is a tech company. https:// www.businessinsider.com/goldman-sachs-has-more-engineers-thanfacebook-2015-4. Zugegriffen: 09. Juni 2020. 3. Bollen, J., Mao, H., & Zeng, X. (14.10.2010). Twitter mood predicts the stock market. https://arxiv.org/abs/1010.3003. Zugegriffen: 09. Juni 2020. 4. Cohen, L., Malloy, C., & Nguyen, Q. (07.03.2019). Lazy prices, 2019 academic research colloquium for financial planning and related disciplines. https://ssrn.com/abstract=1658471. Zugegriffen: 09. Juni 2020. 5. Progressive Website: https://www.progressive.com/auto/discounts/ snapshot/.
8 Künstliche Intelligenz in Logistik, Lieferkette und Inventar Management
Auch wenn in vielen Industrien und Organisationen das Marketing nach außen im Vordergrund steht: Wenn es um den Erfolg oder Misserfolg geht, besonders im Einzelhandel, können die Strukturen hinter den Kulissen – Logistik, Supply Chains sowie Verwaltung und Management des Lagers – ein Unternehmen in die Knie zwingen oder zum strahlenden Sieger machen. Berühmt geworden ist die Anekdote, wie ein USB-Kabel im Wert von 3 US$ die gesamte Tesla-Produktion zum Stillstand gebracht hat. Die Logistikkette aus China war abgebrochen, was dazu führte, dass Tesla-Mitarbeiter sämtliche verfügbaren USB-Kabel in der Bay Area aufkauften, damit die Produktion fortgesetzt werden konnte. Was eine amüsante Anekdote seitens Elon Musks in einem Interview [1] war, stellt Unternehmen schnell vor existenzbedrohende Probleme.
© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 P. Wennker, Künstliche Intelligenz in der Praxis, https://doi.org/10.1007/978-3-658-30480-5_8
119
120 P. Wennker
8.1 Vorhersage von Nachfrage Eng thematisch verwandt mit Inventar und Pricing auf der einen Seite und Supply Chain Management auf der anderen, ist die Vorhersage von Nachfrage nach spezifischen Produkten, Kategorien von Produkten in bestimmten Regionen oder zu bestimmten Zeitpunkten. Die exakte Vorhersage von Nachfrage und Bedarf hat direkte Auswirkungen auf Umsatz, Rentabilität und Gewinn einer Organisation. In Zeiten, in denen der Wettbewerb nur den einen vielzitierten Klick entfernt ist, gibt es für Retailer in umkämpften Märkten nichts Schlimmeres als einen Nutzer nicht nur nicht bedienen zu können, obwohl er vorqualifiziert ist und in die Akquise Geld geflossen ist, sondern ihn dann auch noch an den direkten Wettbewerb zu verlieren. Etablierte Modelle zur Vorhersage von Nachfragen im Retailbereich basieren auf Zeitreihenvorhersagen, Spieltheorien oder Machine-Learning-Technologien, wie Decision Trees oder Support Vector Machines, um nur einige zu nennen. Mit stetig steigender Vernetzung (IoT) im Logistikbereich sowie einer hohen digitalen Verfügbarkeit von Kunden-, Kauf-, und Werbedaten steigt die Bedeutung von neuronalen Netzwerken in der Nachfragevorhersage, da neuronale Netze fähig sind, viele unterschiedliche Daten in die Vorhersage einzubinden – von Kundenloyalität, Verkehrsprognosen bis hin zu Wetterdaten und dem Werbeaufkommen des Wettbewerbs. Besonders rekurrente Netze (mit LSTM) haben sich in der Praxis bewährt, zeitliche Zusammenhänge gut abbilden zu können. Die Lebensmittelkette Morrisons konnte Out-of-Stock-Situationen mithilfe von künstlicher Intelligenz um 30 % senken. Das Beratungsunternehmen McKinsey [2] kommt zu dem Ergebnis, dass Nachfragevorhersagen auf Basis von künstlicher Intelligenz Fehler in Lieferketten um 30–50 % reduzieren können. Dies führt laut McKinsey zu einer Reduzierung der nichterfolgten Verkäufe durch Out-of-Stock-Situationen um bis zu 65 % und verringert die Kosten der Lagerhaltung um 10–40 %. Verschiedene in Case Studies veröffentlichte Modelle erreichen eine Vorhersagegenauigkeit von über 95 %.
8 Künstliche Intelligenz in Logistik, Lieferkette … 121
8.2 Fulfillment In Lagerhäusern arbeiten aktuell noch deutlich mehr Menschen als Roboter oder Maschinen. Wie in vielen Bereichen der künstlichen Intelligenz so auch im Fulfillment ist Amazon einer der Vorreiter, wenn es um zunehmende Technisierung geht. Scott Anderson, Direktor Amazon Robotics, geht sogar davon aus, dass Amazon noch zehn Jahre benötigen wird, bis ein komplett End-to-End automatisiertes Warenzentrum Realität wird. Trotzdem arbeiten schon heute 100.000 Roboter in den knapp 200 Logistikzentren des Online-Versandhändlers. Die Drives genannten Roboter, die entfernt an Haushaltssaugroboter erinnern, können bis zu 750 kg an Waren transportieren. Auf ihrer flachen Oberfläche ruhen die Regale, die in einem Gittermuster angeordnet sind. Menschliche Mitarbeiter, die Pakete für den Endkunden packen, müssen nicht mehr zu den Produkten laufen, die Roboter bringen, KI gesteuert, die passenden Regale mit den Produkten, zu den mit Menschen besetzten Packstationen. Im Hintergrund müssen Machine-Learning-Systeme nicht nur permanent den kürzesten Weg der einzelnen Roboter berechnen, es finden zeitgleich Vorhersagen statt, wann ein Regal in den nächsten Minuten oder Stunden wieder benötigt wird, um die Parkposition im Gitter zu bestimmen [3]. Während des gesamten Wegs eines Pakets bis zum Verlassen des Fulfillment Centers, wird jedes einzelne Paket mit Sensoren und Image-Recognition-Systemen verfolgt, um dauerhaft den genauen Aufenthaltsort zu kennen und nach Möglichkeit die Dauer bis zum Verlassen des Warenhauses zu verkürzen. Ähnliche Technologie wie in den Amazon-Go-Geschäften wird genutzt, um Arbeitern das einzelne Scannen von Artikeln, die gepackt werden, zu ersparen. Mittels Kameras und Image-Recognition-Technologien werden die Produkte, die ein Packer in der Hand hält, automatisch erkannt und ausgebucht. Ein 2013 erteiltes Patent an Amazon zeigt, wie weit die Nutzung von künstlicher Intelligenz bei Amazon in den gesamten Logistikprozess eingebunden ist. Das Method and System for Anticipatory Shipping [4]
122 P. Wennker
genannte Patent beschreibt nicht weniger als die Vorhersage, wo ein Produkt wahrscheinlich erworben werden wird und die entsprechenden Logistikprozesse in Gang setzt, bevor der Nutzer das Produkt bestellt hat. Auf der letzten Meile der Auslieferung setzt Amazon neben den etablierten Logistikpartnern auf eine App, die denen der Ride Sharing Dienste Uber, Lift und Co. nicht unähnlich ist. Privatpersonen können sich bei Amazon Flex (https://flex.amazon.de/) mit Verfügbarkeit und eigenem Fahrzeug anmelden und bekommen dringende und zeitkritische Paketlieferungen von Amazon vermittelt. Über die Flexapp werden nicht nur Aufträge verteilt, sondern Amazons künstliche Intelligenz berechnet auch die Zustellungszeit anhand von Verkehrsbedingungen, Wetter und Ort der Zustellung. Fahrer bekommen sogar Hinweise angezeigt, wie sie die zuzustellenden Pakete am besten in ihr Auto packen, um die Zustellung zu beschleunigen. Laut der finnischen Beratungsfirma Sambla hat Amazon in den Jahren 2017 und 2018 allein 52 Mrd. US$ für Research & Development in den Bereichen Automatisierung und intelligente Systeme ausgegeben. Das US-amerikanische Start-up Intelligent Flying Machines verfolgt mit seinen AI gesteuerten Drohnen einen anderen Ansatz, Warenhäuser und Lagerhallen effizienter zu gestalten. Oft kommt es zu Falschsortierungen in den Regalen oder zu Falschzählungen, der im Lager befindlichen Produkte. IFM nutzt eine künstliche Intelligenz, die es der Drohne ermöglicht, ohne GPS in geschlossenen Räumen zu navigieren und nicht nur Produkte optisch zu finden, sondern auch zu zählen.
8.3 Routenoptimierung Middle Mile Im Vergleich zu Amazon, wo die Regale zum Mitarbeiter kommen, müssen Lagermitarbeiter bei dem Mode-Onlineshop Zalando noch selbst zu den Regalen gehen. In mehreren hundertquadratmetergroßen Hallen ein Vorgang, der sehr zeitaufwändig sein kann. Um die Laufwege zu beschleunigen und zu verkürzen entwickelte Zalando einen OCaPi getauften Algorithmus. Der Optimal Cart Pick
8 Künstliche Intelligenz in Logistik, Lieferkette … 123
berechnet hierbei die effizienteste Laufroute zu den einzelnen Produkten einer Bestellung. Aufgrund der schieren Anzahl der Bestellungen und bestellten Produkte in einer einzelnen Bestellung sorgt eine kleine Verbesserung der Laufwege für eine signifikante Kostenersparnis und Effizienzsteigerung für den Modehändler. Zalando löste die Herausforderung unter Einsatz eines Convolutional Neural Networks mit ReLU und trainierte es auf Basis von einer Million Bestelldaten. Die optimierten Laufwege sollten im Idealfall eine Verkürzung der Laufzeiten zwischen zwei Produkten um 11 % ergeben, sind jedoch zusätzlich von anderen externen Faktoren abhängig, wie z. B. dem Bestellaufkommen [5].
8.4 Prozessoptimierung Einen anderen Weg geht der japanische Konzern Hitachi mit seiner künstlichen Intelligenz H. H beobachtet Mitarbeiter in den Warenhäusern und Logistikzentren und analysiert die unterschiedlichen Herangehensweisen der Mitarbeiter an Problemlösungen, z. B. dem möglichst schnellen Packen von Paketen. Aus diesen Beobachtungen erlernt H optimierte Herangehensweisen und gibt diese an alle Arbeiter mit der betreffenden Aufgabe weiter. Hitachi selbst erklärt, so die Produktivität in den KI gestützten Warenhäusern um 8 % im Vergleich zu normalen Warenhäusern gesteigert zu haben. Interessant ist hierbei, dass kein Mensch mehr als Kontrollinstanz eingebunden sein soll und die KI komplett selbstständig entscheidet und Anweisungen formuliert.
8.5 Retourenmanagement Retouren sind ein immenser Kostenfaktor im Versandhandel. Nutzer können bestellte Produkte je nach Kulanz des Versenders, 30, 90 oder sogar 180 Tage nach Erhalt der Waren zurücksenden. Für den deutschen Versandhändler Otto bedeutete dies Kosten von mehreren
124 P. Wennker
Millionen Euro im Jahr. Um das Problem zu verstehen befragte Otto Kunden mittels klassischer Befragung, warum Waren zurückgeschickt werden. Ergebnis: Lieferungen, die länger als zwei Tage benötigen oder Lieferungen, die in Teillieferungen aufgesplittet werden, haben eine höhere Wahrscheinlichkeit retourniert zu werden. Um diesem Problem zu begegnen, nutzt Otto ein Deep-Learning-System, das ursprünglich am CERN für die Partikelphysik entwickelt wurde, um Bestellungen für die nächsten 30 Tage vorherzusagen. Als Inputdaten werden nicht nur interne Daten, wie zum Beispiel das Suchverhalten auf der Website, genutzt, sondern auch externe Daten, z. B. Wetter, die Einfluss auf die Geschwindigkeit einer Lieferung haben könnten. Das System erreicht laut Otto eine Genauigkeit von 90 %, die genutzt wird, um monatlich 200.000 Produkte zu bevorraten und den Versandprozess zu beschleunigen. Laut Otto führte die Einführung dieses Systems zu einem Rückgang der Retouren um über zwei Millionen Artikel pro Jahr. Zalando könnte man vorwerfen, die einfache und problemlose Rücksendung von online bestellten Artikeln in Deutschland überhaupt erst salonfähig gemacht zu haben. Trotzdem oder gerade deswegen setzt der Modehändler alles daran, Retouren möglichst zu verringern. Um Nutzern Produkte vorzuschlagen, die ihnen mit hoher Wahrscheinlichkeit gefallen und nicht zurückgesendet werden, setzt Zalando auf den sog. Algorithmic Fashion Companion (AFC). Auf Basis der bisherigen Bestellungen von Kunden, errechnet der AFC dazu passende Kleidungsstücke, die dem Nutzer sehr wahrscheinlich gefallen und zu bereits gekauften Kleidungsstücken stilistisch passen. Auf Basis von 200.000 Outfits und mit direktem Feedback von Kunden und professionellen Stylisten lernt das System, was gefällt. Abseits von Geschmack und Style sind unpassende Größen im Modebereich ein Hauptgrund für Rücksendungen. Zalando sucht auch hier nach einer technischen Lösung, in dem Feedback von Menschen mit exakt bekannten Körpermaßen und Angaben von Kunden zu falschen Größen bei Retouren genutzt werden. Das Machine-Learning-System soll fähig sein, Nutzer zur Größenwahl zu beraten. Hat ein Nutzer in seiner Einkaufshistorie bisher Schuhe der
8 Künstliche Intelligenz in Logistik, Lieferkette … 125
Größe 40 bestellt und wählt ein Paar aus, das laut Feedback eher klein ausfällt, soll die Maschine intervenieren und die Größe 41 empfehlen.
8.6 Routenplanung Die Planung einer Route ist nicht trivial. Besonders nicht, wenn mehrere Faktoren einwirken, wie möglichst kurze Gesamtstrecke und nur ein Halt pro Wegpunkt. Die mathematische Beschreibung dieser Routenplanung ist als das Problem des Handlungsreisenden in die Geschichte eingegangen und beschäftigt seitdem Mathematiker, um eine möglichst effiziente Route zu finden. Dabei kann das Problem der Route und besuchten Wegpunkte auf andere Aufgabenfelder abstrahiert werden. Das grundlegende Problem ist die Vielzahl an möglichen Lösungen, die oft weit vom Optimum entfernt sind. Allein für das Problem, die 15 größten Städte in Deutschland anzufahren gibt es 43.589.145.600 mögliche Routen. In der Logistik kommen neben der Fahrstrecke weitere variable Faktoren hinzu wie Wetter, Routenbeschaffenheit, ob ein Ziellager auf dem Weg zur geschätzten Ankunftszeit operabel ist, Rast und Ruhezeiten der Fahrer, etc. Kommen Waren unterschiedlicher Größe und mehrere unterschiedliche Fahrzeuge mit sich unterscheidender Kapazität hinzu, steigt die Komplexität einer effizienten Route um das Vielfache an. Das American Truckdriver Research Institute hat für 2016 berechnet, dass allein die Kosten für Lkw, die im Stau feststecken 74,5 Mrd. US$ betragen hat. Addiert man in einer globalisierten Welt internationale Logistik per Schiff und Flugzeug hinzu, ergibt sich ein Optimierungsproblem, dass menschliche Vorhersagen sehr schwierig machen. Besonders die kostspieligen erste und letzte Meile Logistics sind in der Planung aufwendig. Die reine Optimierung der Route kann annähernd mit verschiedenen Algorithmen in endlicher Zeit gelöst werden. Start-ups wie Loginext versprechen mittels künstlicher Intelligenz aber noch mehr: eine Optimierung aller anfallenden Punkte auf der letzten Meile.
126 P. Wennker
Neben den klassischen Input-Variablen, wie kürzeste oder schnellste Wegstrecke, Wetter und Verkehr übernimmt Loginext Systeme auch die Auswahl der Fahrer, Fahrzeuge und Helfer. Wird zum Beispiel eine Küche geliefert, wählt die KI Fahrer aus, die Erfahrung mit dem Transport von Küchen haben, stellt ein Fahrzeug mit ausreichend Ladefläche zur Verfügung und allokiert Helfer, die fähig sind, eine Küche fehlerfrei aufzubauen. Während der Auslieferung updated das System die Ankunftszeit automatisch in Echtzeit, falls es zu unvorhersehbaren Verzögerungen kommt und benachrichtigt den Kunden, der auf die Lieferung wartet. Auf diesem Weg verringert Loginext die Versandkosten für Unternehmen im Durchschnitt um 18 % und verhindert den Austausch von 57 Mio. Pfund CO2 im Jahr.
8.7 Autonome Vehikel Wenn es um selbstfahrende Fahrzeuge geht, denken die meisten Menschen an Tesla. Auch wenn die Fahrzeuge des US-amerikanischen Elektroautobauers einige Intelligenz auf die Straße bringen, ist der mögliche Einfluss von autonomen Fahrzeugen in Bereichen der Logistik größer. In so ziemlich jeder Industrienation sind qualifizierte Lkw-Fahrer Mangelware, besonders wenn es um spezifische Qualifikationen wie besonders schwere oder lange Lkw geht. Der Bundesverband Spedition und Logistik (DSLV) und der Bundesverband Güterverkehr Logistik und Entsorgung schätzen, dass aktuell 45.000–60.000 Lkw in Deutschland fehlen. Ähnlich hohe Zahlen werden aus anderen Ländern, wie den USA und Kanada gemeldet. Aber selbst, wenn es genug Fahrer gäbe sind autonome Systeme in einigen Bereichen unschlagbar: Sie nehmen keinen Urlaub und werden auch nach 24 h nicht müde. Das Beratungsunternehmen McKinsey geht davon aus, dass vollautonome Lkw die Kosten für Logistik um 45 % sinken würden. Gleichzeitig sind noch viele Fragen um autonome Fahrzeuge ungeklärt: Wann sind sie sicher genug, um auf die Straße zu kommen? Wie viele Testkilometer müssen unfallfrei gefahren werden, um sicherer
8 Künstliche Intelligenz in Logistik, Lieferkette … 127
als menschliche Fahrer zu gelten? Wie rechnet man von Menschen verursachte Unfälle auf, die unter dem Einfluss von Alkohol, Drogen oder Übermüdung entstanden sind? Fragen, die keine technischen sind, von den Gesellschaften aber verhandelt werden müssen. Technische Fragen, die geklärt werden können, sind zum Beispiel: Wie weit sind wir mit autonomen Fahrzeugen überhaupt und welchen Einfluss hat künstliche Intelligenz auf die Entwicklung der selbstfahrenden Fahrzeuge? Die letzte Frage ist die am einfachsten zu beantwortende Frage: ohne künstliche Intelligenz und moderne Sensortechnik keine selbstfahrenden Fahrzeuge. Der Grad der Automation eines Fahrzeugs wird im Regelfall in sechs verschiedenen Leveln gemessen. • Level 0: Keine Automation. Alle Funktionen werden von einem Menschen gesteuert. • Level 1: Fahrerassistenz: Es gibt automatische Funktionen, das System greift aber nicht dauerhaft in den Ablauf der Steuerung ein, zum Beispiel Parksensoren oder Notbremsassistent. • Level 2: Der Computer kann mindestens zwei Funktionen übernehmen, z. B. lenken und bremsen, der Mensch wird aber noch für die übrigen Manöver benötigt. • Level 3: Das System kann alle relevanten Aktionen, wie lenken, beschleunigen, bremsen, navigieren und parken unter den meisten äußeren Bedingungen selbst ausführen. Der menschliche Fahrer wird für außergewöhnliche Situationen bzw. Notfälle benötigt. • Level 4: Das Auto kann komplett autonom in den meisten Bedingungen funktionieren, selbst wenn der Mensch nicht auf eine Notfallsituation reagiert. In manchen Szenarien funktioniert die Automation nicht, z. B. geschlossene Schneedecke. • Level 5: Das Fahrzeug kann jede erdenkliche Situation selbstständig bewältigen. Damit diese Level der Automation überhaupt erreicht werden können, sind die Fahrzeuge auf eine Vielzahl von Sensoren angewiesen, die
128 P. Wennker
kombiniert ein Bild der Umwelt zeichnen, auf das reagiert und mit dem interagiert werden kann. Weit verbreitet sind neben Radarsensoren, wie sie sich heute schon in vielen Assistenzsystemen finden, Stereokameras, Ultraschall und vor allem LiDAR-Sensoren, die für das typische Aussehen der Prototypen von selbstfahrenden Fahrzeugen sorgen. LiDAR ist die Abkürzung für Light Detection and Ranging und funktioniert ähnlich Radar, indem es die Reflektion misst, allerdings von Licht. LiDAR-Sensoren feuern mehrere tausendmal pro Sekunde und bilden so die Umwelt in einer Punktwolke ab, die für das System die Umwelt zeichnet. Tesla rühmt sich, dass seine selbstfahrenden Systeme ohne LiDAR-Sensoren auskommen und der Tesla Autopilot nur auf Basis von acht normalen Kameras mit einem Convolutional Neural Network mit Attention-Mechanismen funktioniert. Teslas großer Vorteil zu Wettbewerbern ist, dass verhältnismäßig viele Teslas unterwegs sind und kontinuierlich Daten sammeln, die helfen, die Systeme zu verbessern. Google-Tochter Waymo hingegen hat eigene LiDAR-Sensoren entwickelt, die deutlich günstiger in der Herstellung sind als die am Markt erhältlichen und darüber hinaus noch eine Sichtweite von 300 m aufweisen sollen. Die Ingenieure von Waymo haben in Zusammenarbeit mit DeepMind einige Modelle für selbstfahrende Fahrzeuge veröffentlicht, im Falle des RNN ChauffeurNet inklusive einiger Trainings und Testdaten [6]. Auf diesen sensorischen Abbildern der Umwelt laufen verschiedene Prozesse wie Bild- und Objekterkennung, semantische Segmentierung und fahrzeugspezifische Aufgaben wie Fahrspurerkennung. Anhand dieser Daten muss das System einen optimalen Pfad innerhalb der Regelgrenzen finden. Optimal kann hier heißen, den schnellsten Weg zum im GPS markierten Ziel zu finden, kann aber auch bedeuten, einen Unfall zu vermeiden. Eine besondere Herausforderung liegt in der Geschwindigkeit, die auf begrenzten Hardwareressourcen erreicht werden muss. So lange nicht alle Fahrzeuge autonom sind und sich untereinander austauschen
8 Künstliche Intelligenz in Logistik, Lieferkette … 129
können, müssen autonome Fahrzeuge in der Lage sein, in Bruchteilen von Sekunden menschlichen Fahrern auszuweichen, die unvorhergesehene Manöver vollführen. Wie weit wir auf der Level-Skala sind, wenn es um die Fähigkeiten von selbstfahrenden Fahrzeugen geht, ist schwierig zu definieren. Tesla-CEO Elon Musk sagte für 2020 mehr als eine Million selbstfahrende Autos voraus. Honda hat angekündigt, ein Fahrzeug mit Level-3-Technologie im Jahre 2020 vorzustellen. Problematisch für Hersteller sind die teilweise sehr unterschiedlichen rechtlichen Regulierungen zu Testmöglichkeiten auf der offenen Straße, die benötigt werden, um die Systeme weiter zu trainieren.
Literatur 1. Khan Academy. (2013). https://www.khanacademy.org/college-careersmore/entrepreneurship2/interviews-entrepreneurs/copy-of-khan-academyliving-room-chats/v/elon-musk. Zugegriffen:09. Juni 2020. 2. McKinsey & Company, Inc. Smartening up with Artificial Intelligence (AI) -What’s in it for Germany and its industrial sector? https://www.mckinsey. com/~/media/McKinsey/Industries/Semiconductors/Our%20Insights/ Smartening%20up%20with%20artificial%20intelligence/Smartening-upwith-artificial-intelligence.ashx%20str%209. Zugegriffen: 09. Juni 2020. 3. Karlinsky, N. (05.06.2019). How artificial intelligence helps Amazon deliver. https://blog.aboutamazon.com/innovation/how-artificialintelligence-helps-amazon-deliver. Zugegriffen: 09. Juni 2020. 4. Spiegel, J. et al. (24.08.2012). Method and system for anticipatory package shipping. https://pdfpiw.uspto.gov/.piw?Docid=08615473&homeurl=htt p%3A%2F%2Fpatft.uspto.gov%2Fnetacgi%2Fnph-Parser%3FSect1%3D PTO2%2526Sect2%3DHITOFF%2526p%3D1%2526u%3D%25252F netahtml%25252FPTO%25252Fsearch-bool.html. Zugegriffen: 09. Juni 2020. 5. Seward, C. (13.12.2015). Optimizing warehouse operations with machine learning on GPUs. https://devblogs.nvidia.com/optimizing-warehouseoperations-machine-learning-gpus/. Zugegriffen: 09. Juni 2020.
130 P. Wennker
6. Bansal, M., Krizhevsky, A., & Ogale, A. (07.12.2018). ChauffeurNet: Learning to drive by imitating the best and synthesizing the worst, https:// arxiv.org/abs/1812.03079. Zugegriffen: 09. Juni 2020.
9 Künstliche Intelligenz in der Industrie
Der Maschinenbau und die Fertigungsindustrie sind von vielen an anderer Stelle im Buch genannten Prozessen und der Anwendung von künstlicher Intelligenz betroffen. Sei es das Management von Talenten, um die besten Ingenieure und Entwickler in die Unternehmen zu holen, über Bedarfsvorhersagen zu benötigten Materialien aber auch eigenen Produkten, bis hin zur Optimierung von Materialfluss in die Werke. Einige Ansatzpunkte für künstliche Intelligenz liegen allerdings in der produzierenden Industrie selbst begründet. Diese können helfen, Prozesse schneller, kostengünstiger und passgenauer zu gestalten und Ausfallzeiten drastisch zu reduzieren.
9.1 Robotik Roboter dringen in immer mehr Domänen vor, die bisher menschlichen Arbeitern vorbehalten waren. In komplexen Umgebungen erhalten Roboter immer mehr Freiheiten, die neue Anforderungen stellen, wie Roboter ihre Umwelt wahrnehmen und mit dieser interagieren. © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 P. Wennker, Künstliche Intelligenz in der Praxis, https://doi.org/10.1007/978-3-658-30480-5_9
131
132 P. Wennker
Wurden bisher Regelsätze einprogrammiert, die dem Muster „wenn a, dann b“ folgten, ist dieses System in komplizierten Umgebungen sehr aufwendig zu programmieren, um alle Unwägbarkeiten abzudecken, in hochkomplexen Umgebungen mit mehreren autonomen Robotern und Menschen gleichzeitig fast unmöglich. Der Einsatz von künstlicher Intelligenz verspricht hier Abhilfe zu schaffen, indem neuronale Netze auf ihre Umwelt reagieren, auf Basis dessen, was vorher erlernt wurde. Neben Computervision zur Navigation analog zu selbstfahrenden Fahrzeugen, gewinnt in der Fertigungsindustrie die Kollaboration zwischen Mensch und Maschine zunehmend an Bedeutung. Autonome Systeme müssen hierbei antizipieren, was der menschliche Mitarbeiter als nächstes tun wird und innerhalb von sicheren Grenzen entsprechend reagieren. Vielversprechend erscheint in diesem Szenario der Einsatz von rekurrenten neuronalen Netzen mit LSTM-Zellen, die die menschliche Bewegung erlernen. In einem experimentellen Set-up haben Wissenschaftler verschiedener Universitäten, u. a. Kyoto, Hongkong und North Carolina, eine Übergabe eines Werkstücks von einem Menschen an einen Roboterarm getestet. Menschliche Bewegungen, selbst bei repetitiven monotonen Aufgaben, sind nie komplett identisch. Der Roboter muss erkennen, wo die menschliche Bewegung enden wird, um dort das Werkstück entgegenzunehmen. Ohne dabei zu lange zu benötigen oder den Menschen durch ausufernde Bewegungen in Gefahr zu bringen, verletzt zu werden. Dazu trainierten die Wissenschaftler ein RNN mit LSTM-Zellen, das anhand der Bewegung und Relation von Handgelenk und Ellenbogen des Menschen die Bahnbewegung des Arms vorhersagen konnten. Kameraaufnahmen der Armbewegungen wurden durch einen kommerziell erhältlichen Joint Detektor in einen Inputvektor umgewandelt. LSTM-Zellen erlernten die Bewegung des Menschen über die Zeit und generierten über einen Fully Connected Layer letztendlich die Bewegungsvariablen für die Steuerung des Roboters. Um passende Trainingsdaten zu sammeln, wurde der Roboterarm von einem menschlichen Lehrer in die korrekten Positionen gebracht, um ihn passend zu den Bewegungen eines zweiten menschlichen Agenten auszurichten [1].
9 Künstliche Intelligenz in der Industrie 133
Komplexere Bewegungsplanung und vor allem die Gefahr von Kollisionen mit der Umwelt gilt es für Fertigungsroboter zu vermeiden. Unabhängig von Kosten durch beschädigtes Inventar in Reichweite des Roboters, kann es schnell zu fatalen Unfällen kommen, wenn Menschen von autonomen Robotern getroffen werden, z. B. von Roboterarmen. Vor der Bewegung kommt die Bewegungsplanung. In Abhängigkeit zur unbewegten Umwelt, der Bewegungsmöglichkeiten des Roboters und dynamischen Akteuren, wie anderen Robotern und Menschen, muss ein autonomer Roboter einen durchgehenden Weg finden, der an keiner Stelle zu einer Kollision führt. Mit dem ClearanceNet wurde ein neuronales Netzwerk vorgestellt, das die Bewegungsplanung anhand vermiedener Kollisionen mit Objekten oder Agenten durchführt. Als Input dienen dem Netzwerk die Pose des Roboters und die aktuelle Position aller Objekte in der Umgebung und dadurch lernt es, die Distanz zu allen Objekten vorherzusagen. Durch massive Parallelisierung können tausende von Vorhersagen zu Distanzen gleichzeitig durchgeführt werden. Fehler in der Bewegungsplanung, also in der Vorhersage, werden mit einem gesonderten Algorithmus aufgefangen, der über die letzten korrekten Bewegungspunkte generalisiert. Das neuronale Netzwerk wurde in einer Physiksimulationsumgebung trainiert und in fünf verschiedenen Umgebungen mit zwei verschiedenen Roboterarmen mit unterschiedlichen Freiheitsgraden erprobt. Dabei erreichte das neuronale Netz eine Genauigkeit, gemessen an den vermiedenen Kollisionen, zwischen 91,36 und 96,25 %. Für den Einsatz in einer Umgebung, in der sich gleichzeitig Menschen aufhalten, ist diese Genauigkeit noch zu gering, jeder Fehler könnte einen Unfall nach sich ziehen. Einschränkend kommt hinzu, dass das neuronale Netz alle Akteure kennen muss. Ein Mensch der nach dem Training die Arbeitsfläche durchquert wird nicht wahrgenommen, da das System komplett ohne Sensorik auskommt. Ein entsprechendes Update ist für die nahe Zukunft geplant. Für das Netzwerk spricht die hohe Geschwindigkeit, mit der es einsatzbereit ist. Die Entwickler gehen von 90 min aus, die das Netzwerk zur Erfassung und zum Finetuning in neuen Umgebungen benötigt.
134 P. Wennker
9.2 Predictive Maintenance Total Predictive Maintenance ist ein System zur kontinuierlichen Verbesserungen von Abläufen in Unternehmen mit dem Ziel, Defekte, Ausfälle, Unfälle und Qualitätsverluste zu vermeiden, das von Seiichi Nakajima in den 1970er Jahren entwickelt wurde. Das System beschreibt sechs große Verluste in der Produktion. Angefangen bei ungeplanten Stopps der Maschinen, durch den unvorhergesehen Ausfall von Werkzeugen, über geplante Stopps zur Instandhaltung, Werkzeugwechsel oder Pausen, bis hin zu kleinen Stopps, verursacht durch Fehler, die vom Maschinenführer behoben werden können und nur ein oder zwei Minuten andauern, aber sich über die Laufzeit zu großen Ausfällen kumulieren, z. B. ausgefallene Sensoren oder Werkstücke, die sich verkanten. Unauffälliger sind Verluste, die z. B. durch verringerte Geschwindigkeit der Produktion verursacht werden und die Produktivität senken, ohne für einen großen Ausfall zu sorgen. Der Verlust durch defekte oder unpassend erstellte Werkstücke wird in der Qualitätssicherung regelmäßig erkannt, muss aber auf seine Ursachen zurückverfolgt werden. Als sechsten Verlust beschreibt Nakajima Verluste zum Start einer Maschine oder eines Produktionsgangs, durch falsch oder unzureichend konfigurierte Maschinen, die mehrere Testläufe benötigen, bis regulär produziert werden kann. Predictive Maintenance mithilfe von künstlicher Intelligenz kann an allen Stellen im Produktionszyklus ansetzen, um Verluste zu vermeiden. In modernen Anlagen sind eine Vielzahl von Sensoren verbaut, die einen kontinuierlichen Datenstrom zum Zustand der Maschinen selbst, aber auch zu den gefertigten Stücken liefern. Um Ausfallzeiten zu reduzieren, können grundlegend zwei Arten von Machine Learning genutzt werden, Supervised und Unsupervised Learning. Ziel ist bei beiden, die Ausfallzeiten der Maschinen zu reduzieren, z. B. der Vorhersage und Detektion von defekten Teilen, bevor diese komplett ausfallen, um so Stillstandzeiten zu reduzieren oder weitere Beschädigungen an der Fertigungsmaschine zu vermeiden.
9 Künstliche Intelligenz in der Industrie 135
Ein Unsupervised Ansatz ist hierzu die Überwachung der Sensordaten auf Outlier, also Muster in den Daten, die signifikant von den zu erwartenden Daten abweichen. Ein oft zitiertes Beispiel ist die Überwachung von Maschinen mittels Vibrationssensoren. Nehmen Vibrationen zu, kann dies ein Hinweis auf einen bevorstehenden Defekt der Maschine sein. K-Means Clustering hat sich bei solchen Sensordaten als einfach zu implementierendes Modell bewiesen, das Anomalien in Form von neuen Clustern erkennt. Supervised Learning setzt annotierte Daten voraus, aus denen ein System lernen kann. Die Öl- und Gasindustrie setzt auf künstliche neuronale Netze, um anhand von Druckmessungen Fehler bzw. Undichtigkeiten im System zu erkennen und das neuronale Netz dahin gehend zu trainieren, frühzeitig anhand von Druckunterschieden Fehler zu erkennen. Bei Produktionsstätten, die eine Vielzahl von Sensordaten liefern, die alle nur einen kleinen Aspekt einer Maschine betrachten, kommen schnell einige hundert Features zusammen, die für eine Vorhersage in Betracht kommen. Neuronale Netze, besonders rekurrente neuronale Netze mit LSTM-Zellen haben sich hier für die Vorhersage von Defekten bewiesen, da sie Sequenzen modellieren bzw. zeitliche Abhängigkeiten berücksichtigen können. Bei genauer Betrachtung sind Serverfarmen nicht so unterschiedlich zu klassischen Produktionsstätten. Elektronische und mechanische Teile müssen reibungslos zusammenarbeiten, es herrschen teilweise extrem hohe Temperaturen vor und ein Ausfall kann weitreichende Folgen haben. IBM hat gezeigt, dass mit LSTM-Zellen und Attention Mechanismus die Ausfälle von Festplatten in großen Serververbünden in einem Fenster von drei Tagen vorhergesagt werden können. Dabei nutzte das neuronale Netzwerk insgesamt 15 Indikatoren für die Vorhersage, wie z. B. Informationen über Datendurchsatz, und Schreib- und Lesegeschwindigkeit.
136 P. Wennker
9.3 Produktentwicklung Die Entwicklung neuer komplexer Systeme ist zeitaufwändig. Von ersten Planungen bis hin zu einem Prototyp vergehen nicht selten Jahre und manchmal stoßen die Entwickler auf ein Problem, für das sie keine Lösung finden. Hier schickt sich Generative Design an, mittels künstlicher Intelligenz Lösungen zu entwickeln, die Menschen verborgen geblieben sind. Der Grundgedanke hinter Generative Design ist, dass man eine künstliche Intelligenz mit Daten zu gewünschten Eigenschaften, Parametern wie Größe und Gewicht und präferierten Materialien füttert, und das System den Rest erledigt. Ein beeindruckendes Design, das die Leistungsfähigkeit dieses Ansatzes zeigt, hat Autodesk in Zusammenarbeit mit den Jet Propulsion Labs der NASA geschaffen. Einen Entwurf für ein Fahrzeug zur Erforschung fremder Planeten. Die Liste der Restriktionen, die der Lander erfüllen muss, ist immens. Leicht, extrem robust, um Temperaturschwankungen und Strahlung zu widerstehen, sicherer Transport und Operation von verschiedensten wissenschaftlichen Ausrüstungen – und gleichzeitig klein genug, um mit einer Rakete in den Weltraum befördert zu werden. Das Ergebnis, das die Project DreamCatcher genannte künstliche Intelligenz erdacht hat, erinnert grob an eine Spinne, die aus organischen Strukturen besteht. Auch wenn Autodesk sich nicht in die Karten schauen lässt, auf welchen Modellen DreamCatcher aufbaut, ist aus der Beschreibung zumindest ersichtlich, dass für den Input eine Natural-Language-Processing-Komponente vorhanden ist, die die beschriebenen Anforderungen in der Eingabe übersetzt und mit bestehendem Wissen abgleicht. In wissenschaftlichen Veröffentlichungen über Generative Design wird stark auf Generative Adversarial Networks (GAN) zurückgegriffen. Besonders in der Architektur finden diese Anwendung, um die optimale Nutzung von Wohnraum in vorher definierten Paramatern möglich zu machen.
9 Künstliche Intelligenz in der Industrie 137
Das Start-up Spacemaker geht einen Schritt weiter und nutzt ein Generative Adversarial Network zur Planung ganzer Komplexe, Stadtteile und Städte und nimmt dabei Bezug auf Vorlieben der Menschen, erzielte Preise im Verkauf und gesetzliche Reglementierungen.
9.4 Qualitätssicherung Die Qualitätssicherung in der Industrie arbeitet oft mit kleinsten Fertigungstoleranzen, in denen ein produziertes Werkstück liegen muss, um seine angedachte Funktion erfüllen zu können. Gerade in Hochpräzisionsbereichen kommt neben dem eigentlichen Modell zur Bewertung der Fertigungsqualität schon der Datensammlung besondere Bedeutung zu. Zu große Messtoleranzen in den Sensoren können die Güte der Vorhersage nachhaltig beeinflussen. Analog zu Predictive Maintenance können hier Machine-Learning-Algorithmen die Leistung von Sensoren überwachen und bei Abfall der Genauigkeit oder grundsätzlich verschobenen Messdaten, einen Alarm zu Rekalibrierung oder Ersatz auslösen. Für die optische Untersuchung von Werkstücken setzen die meisten Applikationen auf Convolutional Neural Networks, so etwa das Fraunhofer Institut, das mittels CNN-Laser geschnittene Metallwerkstücke auf Passgenauigkeit überprüft. Bei der Fertigungskontrolle muss nicht zwingend auf sichtbares Licht zurückgegriffen werden, auch Infrarotbilder finden Anwendung, um z. B. die korrekte Temperatur von Werkstücken vor der Weiterverarbeitung zu überprüfen. Allen CNN-Modellen ist gemein, dass die optischen Features, die auf einen Defekt im Werkstück hinweisen, nicht aufwendig extrahiert werden müssen. Genug Trainingsdaten vorausgesetzt erlernt das System die Features, die auf Fehlproduktionen hinweisen automatisch, ähnlich der Gesichtserkennung über Beispiele. Der Chiphersteller Intel nutzt Systeme zur optischen Erkennung von Fehlern auf produzierten Computerchips nicht nur, um defekte Chips auszusortieren, sondern auch, um auf Basis der Defekte auf Probleme mit der Fertigungsanlage zu schließen.
138 P. Wennker
Um einen Menschen zu trainieren, kleinste Fehler auf den Platinen der Chips zu erkennen, benötigt es sechs bis neun Monate intensiven Trainings, um 70–85 % der defekten Chips zu erkennen. Intel nutzt für die automatische Erkennung und Klassifizierung ein eigenes Framework, das darauf spezialisiert ist, auf Intel Hardware performant zu laufen, auch wenn keine GPU vorhanden ist. Auf Basis von Convolutional Neural Networks und mikroskopischen Fotos der Chipoberfläche werden Fehler in den Chips erkannt und gleichzeitig klassifiziert, sodass bei gehäuftem Auftreten ein und desselben Fehlers die Fertigungsstraße kontrolliert werden kann. Intel nennt als Beispiel Verunreinigungen auf dem Chip durch Epoxidharze. Abseits der fertigenden Industrie wird künstliche Intelligenz ebenso zur Qualitätssicherung eingesetzt. Ebay nutzt Deep Learning, um die Benutzeroberfläche kontinuierlich zu monitoren, ob z. B. Bilder nicht geladen werden oder das Design auf bestimmten Endgeräten oder Browsern nicht funktioniert. Facebook nutzt Machine Learning, um die Wahrscheinlichkeit vorherzusagen, dass ein neugeschriebener Code der Plattform zu einer Verschlechterung der Code-basis führt, indem durch Nebeneffekte Funktionen an anderer Stelle auftreten. Noch bevor der Code von dem Entwickler in das Versionierungssystem eingecheckt werden kann, soll so verhindert werden, dass andere Entwickler auf Basis schlechter Codes eigene Projekte beginnen. Laut Facebook fängt das System 99,9 % der Fehler ab, die zu einer Verschlechterung der Funktionalität führen könnten. Ebenso können NLP-Systeme, die Bewertungen von Dienstleistern, E-Commerce-Anbietern oder Unternehmen automatisch auf Sentimente analysieren, zu den Qualitätssicherungsmaßnehmen gezählt werden.
9.5 Prozessoptimierung Das vollständig autonome Werk, das selbstständig optimale Ergebnisse liefert, ist das Versprechen, dass das Internet of Things und künstliche Intelligenz einlösen sollen. Teilschritte, wie die automatische Erkennung
9 Künstliche Intelligenz in der Industrie 139
von Fehlern in Maschinen und Fertigungsstücken sind wichtige Zwischenergebnisse auf diesem Weg. Doch was ist mit dem großen Ganzen? Eine komplette Industrieanlage zu steuern, sodass immer optimale Ergebnisse geliefert werden? Das Grundproblem bei der Steuerung ganzer Anlagen, sind die Tausende von Parameter, die Einfluss auf die Funktionsweise einer Industrieanlage nehmen. Auch wenn tiefe neuronale Netzwerke grundsätzlich mit massiven Inputfeatures umgehen können, ist die praktische Anwendung irgendwann limitiert. Der Dimensionsreduzierung kommt deshalb eine große Bedeutung zu, um in endlicher Zeit Messwerte nicht nur zu analysieren, sondern auch Optimierungen vorzuschlagen. Ein interessanter Ansatz hierfür ist, die Tausende von Variablen, die die Steuerung einer Industrieanlage beeinflussen, mittels Autoencoder-Netzwerken zu reduzieren. Autoencoders versuchen, die Inputs eins zu eins in der Output-Schicht nachzubilden, können aber durch eine Verengung, den Flaschenhals, in den Hidden Layers nicht einfach durchgeschleift werden, sondern müssen generalisiert werden. Der Ansatz für Autoencoders in der Prozessoptimierung baut darauf, dass die repräsentativen generalisierten Variablen im Flaschenhals die wichtigen Informationen repräsentieren, die notwendig sind, um ein Werk zu steuern. Diese reduzierten Inputfeatures können dann in einem zweiten neuronalen Netzwerk genutzt werden, um Einstellungen zu lernen, die einen Prozess z. B. Geschwindigkeit der Fertigung, Fördermenge oder Synthetisierung eines Stoffes, optimal aussteuert. Zur Überprüfung der gelernten Steuermechaniken und optimalen Einstellungen, kann man die künstliche Intelligenz nicht einfach auf ein Werk loslassen und messen was passiert. In komplexen Simulationsumgebungen, die meist auch nur einen Aspekt eines Werks abdecken, werden die neuronalen Netze auf ihre Leistungsfähigkeit getestet. Hier zeigen sich leider oft, trotz Dimensionsreduzierung, Probleme, die aus sehr tiefen neuronalen Netzwerken in anderen Anwendungen bekannt sind, z. B. Vanishing Gradients, die effektives Lernen verhindern.
140 P. Wennker
Vielversprechende Ansätze bieten Surrogat Modells, die auf einer Vereinfachung des zu optimierenden Prozesses basieren, aber Parameter lernen, die auch im realen Modell eingesetzt werden können.
Literatur 1. Pierson, H. A., & Gashler, M. A. (o. J.). Deep learning in robotics: A review of recent research. https://arxiv.org/ftp/arxiv/ papers/1707/1707.07217.pdf. Zugegriffen: 15. Juni 2020.
10 Künstliche Intelligenz in der Landwirtschaft
Wer bei den Begriffen Landwirtschaft und Bauernhof an idyllische Arbeit mit der Mistgabel im Stall denkt, täuscht sich. Moderne Landwirtschaftsbetriebe sind Hightechbetriebe, in denen so gut wie nichts mehr dem Zufall oder Mutter Natur überlassen wird. Global gesehen ist die Landwirtschaft eine Drei-Billionen-Dollar-Industrie, die 1,5 Mrd. Menschen beschäftigt. In den letzten einhundert Jahren ist der Ertrag der Landwirtschaft um 600 % gestiegen und hat mit dem Bevölkerungswachstum Schritt gehalten. Dies wurde durch zunehmende Technisierung ermöglicht, wie der Einsatz von Maschinen anstelle manueller Arbeit und der Entwicklung von chemischen Düngemittel und der Verbesserung des Saatmaterials. In Zeiten wachsender globaler Bevölkerung, Klimaextremen und daraus resultierenden drohenden Hungersnöten, sind Landwirte, aber auch die Gesellschaft, auf effiziente Landwirtschaft angewiesen, die den Ertrag unter erschwerten Bedingungen maximiert. Mit anhaltendem Bevölkerungswachstum, der Verschlechterung von Bodenqualität und zunehmender Wasserknappheit, muss die Landwirt-
© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 P. Wennker, Künstliche Intelligenz in der Praxis, https://doi.org/10.1007/978-3-658-30480-5_10
141
142 P. Wennker
schaft den Balanceakt zwischen steigender Produktivität bei geringerem Wasserverbrauch und der Nutzung von weniger Chemikalien gelingen. Die Nutzung von künstlicher Intelligenz in der Landwirtschaft ist hier nur das letzte Zahnrad, das auf bestehenden oder sich verstärkenden Trends aufbaut. Damit künstliche Intelligenz etwas zur Wertschöpfung beitragen kann, müssen genügend Daten vorhanden sein. Zusehend billiger werdende Sensoren, Drohnentechnologie und weitergehende Verbreitung von IoT-Applikationen und mobilen Datenübertragungsmöglichkeiten bestellen den Boden für den weitläufigen Einsatz künstlicher Intelligenz in der Landwirtschaft.
10.1 Getreideanbau und Pflanzenzucht Im Lebenszyklus einer Getreidepflanze kann eine Menge schief gehen. Von Über- oder Unterwässerung, Wetterauswirkungen oder Schädlingsbefall sind Futter und Getreidepflanzen großen Unwägbarkeiten ausgesetzt, bis sie den Weg in die Nahrungskette finden. Das Kalifornische Start-up Taranis will den kompletten Lebenszyklus von Getreidepflanzen und Feldern mittels künstlicher Intelligenz überwachen und optimieren. Mittels Satelliten, Ultraleichtflugzeugen und Drohnen liefert das Start-up Bilder in allen erdenklichen Auflösungen und sogar Wellenlängen, inklusive Infrarot. Herzstück ist die Drohnentechnologie, die es ermöglicht, automatisierte Fluggeräte mit bis zu 200 km/h über die Felder rasen zu lassen und gleichzeitig Bilder in einer Auflösung von 0,3 mm pro Pixel zu erzeugen. So können bis zu 7000 Hektar pro Tag in Augenschein genommen werden. Ultraleichtflugzeuge und Satelliten ergänzen Aufnahmen von 8 cm respektive 1,2 m pro Pixel. Aktuell überwacht das Start-up so über 80.000 Quadratkilometer Ackerland rund um den Globus. Bei dieser Menge an Daten braucht es ein mächtiges System, das schnell und zuverlässig große Mengen an Bilddaten analysiert. Taranis setzt hierfür auf das Google Framework TensorFlow. Die Computervision-Modelle decken dabei den gesamten Zyklus der Pflanzenwirtschaft ab. Sobald Pflanzen aus dem Boden wachsen,
10 Künstliche Intelligenz in der Landwirtschaft 143
werden sie ständig kontrolliert und überwacht. Wachsen Pflanzen unregelmäßig oder keimen an manchen Stellen nicht, wird dies erkannt und dem Landwirt die Möglichkeit zur Nachsaat gegeben, bevor es schon früh im Prozess zu ersten Ausfällen in der Ernte kommt. Während des Wachstums werden die Pflanzen automatisch diagnostiziert. Deutet die Farbe der Pflanzen oder ein veränderter Blütenstand auf das Fehlen von Nährstoffen im Boden oder Wassermangel hin, wird ein Alarm ausgelöst. Ähnlich verhält es sich, wenn die künstliche Intelligenz Anzeichen von Schadpflanzen und Unkraut entdeckt, die den Nutzpflanzen das Leben schwer machen oder auf eine potenzielle Erkrankung hinweisen könnte. Die ultrahochauflösenden Bilder der Drohnenkamera gepaart mit der speziell trainierten künstlichen Intelligenz kann einzelne Insekten oder z. B. Pilzbefall an einzelnen Stengeln in Hunderten von Hektar Land erkennen. So kann ein Landwirt reagieren, bevor sich ein Befall überhaupt ausbreitet, was die Ernte schützt und den Einsatz von Pestiziden drastisch reduziert. Abschließend ist es der künstlichen Intelligenz möglich, kontinuierlich Vorhersagen über den Ertrag eines Feldes zu liefern, sodass Ernte und Verkauf frühzeitig geplant werden können. Um dies zu ermöglichen, setzt Taranis auf eine große Datenbank mit Schädlingen, Unkraut und gesunden Pflanzen und gibt Landwirten ein einfaches Interface an die Hand, um Bilder nachzulabeln, wenn es einen regional beschränkten Schädling gibt, der nicht in der globalen Datenbank vorhanden ist und den das System noch nicht selbstständig erkennen kann. Zudem beschäftigt das Start-up 30 Biologen und Pflanzenbauwissenschaftler, die das Erkennungsspektrum stetig erweitern. Aktuell umfasst die Datenbank 100 Mio. eindeutiger Pflanzenfeatures. Diese Art der Überwachung von Nutzpflanzen wird laut UN in Zukunft bitter nötig sein. Zwischen 20 und 40 % der weltweit angebauten Pflanzen geht laut der Food and Agriculture Organization of the United Nations durch fehlende Nährstoffe oder Unkraut und Schädlingsbefall jedes Jahr zugrunde [1]. Ein Problem, das die Robert Bosch GmbH, die die meisten zu Unrecht eher als Hersteller von Haushaltsgeräten und Autozulieferer
144 P. Wennker
und nicht als Deeptech-Konzern verorten würden, ebenfalls lösen will. Dabei setzt Bosch auf Gewächshäuser, die von vielen Experten als die Zukunft der Landwirtschaft gesehen werden. Die „Greenhouse Guardian“ genannte künstliche Intelligenz überwacht mehr als 100 Parameter in einem Gewächshaus und kann so z. B. Umweltbedingungen im Mikroklima-Gewächshaus frühzeitig erkennen, die das Wachstum bestimmter Schädlinge begünstigen. Bosch selbst gibt den Ertragszuwachs in einer Case Study für Tomaten mit 15 % an [2]. Schädlingsbekämpfung ist nicht nur an Land ein wichtiges Thema. Seeläuse verursachen jedes Jahr einen Schaden in Höhe von über einer halben Milliarde US-Dollar in den Lachskulturen vor Norwegens Küsten. Die Lachsfarmen haben mit allen Nebenwirkungen der Massentierhaltung zu kämpfen und nutzen traditionell nicht ganz unumstrittene Methoden um dem Schädlingsbefall Herr zu werden – von Arzneimittelgabe bis hin zu Chemikalien werden eine Vielzahl von Wirkstoffen in den Kreislauf eingebracht. Aquabyte nimmt sich dieser Herausforderung mit stereoskopischer Computervision an. Die neuronalen Netze entdecken bereits leichten Befall weniger Fische mit Schädlingen und können so frühzeitig Gegenmaßnahmen auslösen, bevor eine gesamte Farmpopulation infiziert ist. Gleichzeitig überwacht das System das Verhalten und die Fische selber in Hinblick auf Aktivität und Körpergröße. Dies erlaubt eine zielgerichtete Fütterung der Tiere und vermeidet damit eine Überdüngung des Wassers, Eutrophierung genannt, die für rasantes Algenwachstum in Gewässern sorgt. Auch die Viehhaltung wird in unregelmäßigen Abständen von pandemieähnlichen Seuchen heimgesucht. China, das Land mit der größten Schweinezucht weltweit, geschätzte 400 Mio. Schweine werden jedes Jahr in dem Land gezüchtet, will den drohenden Seuchen mit künstlicher Intelligenz und Blockchain-Technologie begegnen. An vorderster Front Alibaba, Chinas Gegenstück zu Amazon und Facebook. Die New York Times berichtete 2019 [3] über einen Fünfjahresplan, der die Technisierung in der Schweinezucht durchsetzen soll. Dabei setzt die chinesische Regierung auf technologische Ansätze, die vom
10 Künstliche Intelligenz in der Landwirtschaft 145
Menschen bekannt sind. So gleicht nicht ein Schwein dem anderen, Schweinegesichter sind genauso individuell wie die von Menschen. Gesichtserkennungssysteme werden so genutzt, um ein Schwein immer wieder zu erkennen. Angeblich ist es sogar möglich, anhand des Gesichtsausdrucks zu diagnostizieren, ob es einem Schwein körperlich gut geht. Das zugehörige Werbevideo zeigt Schweine, denen anhand der Gesichtsanalyse ein Fitnessprogramm verordnet wurde und die im Wald joggen gehen. Ernsthafter muten die Versuche von JD.com an, ebenfalls ein Tech-Player in der Volksrepublik. Mittels Spracherkennung sollen Ställe auf verdächtige Hustengeräusche hin abgehört werden, die ein Hinweis auf die gefürchtete Schweinepest sein können. Allen Systemen, besonders in Bezug auf Pflanzen, ist eine starke Klassifizierungsleistung von Bildern und Computervision zu eigen. Es ist verständlich, dass viele Unternehmen, gerade im Start-up-Bereich, ihre zugrundeliegende Technologie nicht veröffentlichen. Forschungsergebnisse sind hingegen meist einsehbar und geben zumindest die Richtung vor, in die die Entwicklungen gehen. Im Bereich des Reisanbaus, wo man für die Diagnose von Schädlingen der Pflanzen bisher auf erfahrene menschliche Experten angewiesen ist, die Veränderungen der Pflanzen frühzeitig erkennen, sind Forschungsarbeiten veröffentlich worden. Diese verlassen sich meist auf vortrainierte VGG16 Convolutional Neural Network Architekturen, die mit Bildern der Reisschädlinge nachtrainiert werden. In der Wissenschaft beschriebene Systeme erreichen hierbei eine Genauigkeit von 92 % bei der Klassifizierung von 12 Schädlingen.
10.2 Autonome Roboter Autonome Vehikel und Roboter machen vor der Landwirtschaft nicht halt. Maßgeschneidert für landwirtschaftsspezifische Aufgaben übernehmen Roboter mühsame Arbeiten oder ermöglichen Präzisionslandwirtschaft. Das Schweizer Start-up ecorobotix will die Ausbringung von Herbiziden in der Landwirtschaft maßgeblich reduzieren. Eigens dafür
146 P. Wennker
entwickelte das Unternehmen den autonomen Roboter AVO. Dieser navigiert angetrieben von Solarenergie mittels GPS und Computer Vision über Felder und detektiert mittels Machine Learning Unkraut. Hat der Roboter eine schädliche Pflanze detektiert versprüht er zentimetergenau Herbizide, ohne dass die Nutzpflanze hiervon betroffen ist. Der Roboter kann so bis zu 10 Hektar am Tag abdecken. In eine ähnliche Richtung gehen die Roboter der französischen Firma Naio. Drei Roboter speziell für den Einsatz in Feld, Gemüsebeeten oder Weinbergen entwickelt, entfernen Unkraut vollautomatisch. Dabei setzen die Roboter ebenfalls stark auf Computervision, um Nutz- von Schadpflanzen zu unterscheiden. Auch Naio bietet eine Softwarelösung, mit der Landwirte Bilder selbstständig labeln und der Datenbank hinzufügen können – was verdeutlicht, wie wichtig annotierte Daten für diese Art von Aufgaben sind. Die Ernte von manchen Obst- und Gemüsesorten ist stark abhängig von manueller Arbeit, die meist von Saisonarbeitern erledigt wird. Jedes Jahr aufs Neue berichtet die Presse über Probleme von Bauern, genügend Arbeiter zu finden, die die mühsame Ernte von Erdbeeren und Spargel übernehmen. Beide Pflanzen sind empfindlich und nicht ohne Weiteres maschinell abzuernten. Für Erdbeeren haben sich mittlerweile mehrere Firmen mit autonomen Lösungen in Position gebracht, meist unterscheiden sie sich in der Art, wie Erdbeeren von der Pflanze getrennt werden. Die Herausforderungen an Computervision sind bei den beliebten roten Früchten groß. Die Frucht muss unter den Blättern der Pflanze entdeckt und der Reifegrad anhand der Farbe bestimmt werden. Die größte Schwierigkeit liegt in dem Handling der Früchte, die auf zu starken Druck empfindlich reagieren. Mit 3D-Sicht ausgestattete Roboterarme ergreifen die Frucht und schneiden oder zupfen sie vom Stängel, ohne sie zu beschädigen. Oft direkt angeschlossen ist die Reinigung und das automatisierte Verpacken. Harvest CROO, ein Robotik-Start-up aus den USA, gibt die Leistungsfähigkeit des traktorähnlichen autonomen Roboters mit 8 s pro Pflanze an, was der Leistung von 30 menschlichen Pflückern entspricht. Damit autonome Roboter in der Landwirtschaft genutzt werden können, muss eine verlässliche Klassifizierung von gewünschten
10 Künstliche Intelligenz in der Landwirtschaft 147
und unerwünschten Pflanzen gegeben sein. In verschiedenen experimentellen Set-ups und verschiedenen Architekturen scheint es je nach Trainingsart, mit oder ohne vortrainierte Gewichte und in Abhängigkeit der Bildqualität, auf eine Faster R-CNN bzw. VGG-Architektur als System der Wahl hinauszulaufen [4].
10.3 Wettervorhersage Der Bauernkalender ist nicht mehr das Mittel der Wahl, wenn es um die Vorhersage von lokalem Wetter geht. Mittlerweile steht eine Phalanx von Satelliten bereit, die regelmäßige Updates über Wolken, Wind und Regen liefern können, gepaart mit unzähligen kleinen Wetterstationen ergibt sich ein nicht zu überschauender Datensatz an Wetterdaten. Besonders Hagel in extremen Ausprägungen führt nicht nur zu Beschädigungen an Gebäuden und Fahrzeugen, auch die Ernte kann signifikant unter Hagelstürmen leiden. Das US National Oceanic and Atmospheric Administration hat ein auf Machine Learning, genauer gesagt auf Random Forest, Gradient Boosting Trees und Linear Regression basierendes Modell entwickelt. Anhand von Wetterdaten sagt das Modell die Wahrscheinlichkeit von Hagelstürmen in einer Region mit einem Tag Vorlauf vorher und schlägt dabei etablierte Methoden [5].
10.4 Saatvorhersage Einen Schritt weiter als die Wettervorhersage gehen Anwendungen, die den Landwirten helfen, wichtige Entscheidungen zu treffen, wie z. B. wann die Saat ausgebracht werden soll oder wann die Ernte eingefahren werden kann. Während vollautomatisierte Betriebe die Vorteile von künstlicher Intelligenz und Skaleneffekte zur Gewinnsteigerung nutzen können, sind kleine Landwirte von diesen Systemen ausgeschlossen. Dies ist global problematisch, da 70 % der weltweiten Nahrungsmittel in Landwirtschaftsbetrieben produziert wird, die kleiner als 2,5 Hektar sind.
148 P. Wennker
Microsoft hat sich aus diesem Grund mit der NGO International Crop Research Institute for Semi-Arid Tropics (ICRISAT) zusammengetan, um künstliche Intelligenzanwendungen zu entwickeln, die gerade kleinen Landwirten helfen, ihre Erträge ohne große technische oder monetären Aufwendungen zu steigern. Die AI Sowing App läuft auf Microsofts eigener Cloud-Anwendung Azure und berechnet anhand von 30 Jahren historischen Klimadaten, Echtzeitwetterinformationen mittels Machine Learning den idealen Zeitpunkt zur Aussaat, die Tiefe in der die Saat in den Boden eingebracht werden und die Menge an Dünger, die der Landwirt verwenden soll. All diese Informationen bekommt der Landwirt niederschwellig per Textnachricht auf sein Mobiltelefon geschickt. Im ersten Jahr nahmen 175 Erdnuss-Farmer an einem Versuch teil. Die meisten Farmer säten Anfang Juni aus, wie es seit Generationen tradiert ist. Die Farmer, die den Anweisungen der KI folgten, säten drei Wochen später aus. Mit dem Resultat, dass letztere durchschnittlich 30 % mehr Ertrag pro Hektar bestelltes Land einfuhren. Im Folgejahr wurde der Versuch auf über 3000 Landwirte und eine Vielzahl von Feldfrüchten ausgeweitet. Die Zuwächse lagen in Abhängigkeit von Pflanze und Ort des Anbaugebiets zwischen 10 und 30 %. Einen Schritt weiter geht das Unternehmen Ag-Analytics, das in Zusammenarbeit mit Regierungsinstitutionen wie der NASA oder Universitäten wie der Louisiana State University versucht, alle verfügbaren öffentlichen Daten über Land- und Bodenbeschaffenheit mit Daten der einzelnen Landwirte zusammenzuführen und mittels Machine Learning zu analysieren, um nicht nur Saatzeitpunkt und Ernte zu berechnen, sondern auch Vorhersagen über die Bodenqualität, Bewässerung und andere relevante Parameter zu treffen, um dem Landwirt eine Vorhersage zu ermöglichen, welche Pflanze welchen optimalen Ertrag wie erreichen kann.
10 Künstliche Intelligenz in der Landwirtschaft 149
Literatur 1. Food and Agriculture Organization of the United Nations. (03.04.2019). New standards to curb the global spread of plant pests and diseases. http:// www.fao.org/news/story/en/item/1187738/icode/. Zugegriffen: 09. Juni 2020. 2. Robert Bosch GmbH. Greenhouse guardian: AI in Agriculture. https:// www.bosch.com/stories/greenhouse-guardian-ai-in-agriculture/. Zugegriffen: 09. Juni 2020. 3. Wee, S., & Chen, E. (24.02.2019). China’s tech firms are mapping pig faces. https://www.nytimes.com/2019/02/24/business/china-pigtechnology-facial-recognition.html. Zugegriffen: 09. Juni 2020. 4. Bargoti, S., & Underwood, J. (12.10.2016). Deep fruit detection in orchards. https://arxiv.org/abs/1610.03677. Zugegriffen: 09. Juni 2020. 5. Cagne II, D. et al. (2015). Day-ahead hail prediction integrating machine learning with storm-scale numerical weather models. https://www.aaai.org/ ocs/index.php/IAAI/IAAI15/paper/view/9724. Zugegriffen: 09. Juni 2020.
11 Künstliche Intelligenz in der Sicherheitstechnik
Wenn das Thema künstliche Intelligenz in den Fokus rückt werden schnell martialische popkulturelle Referenzen bemüht. Seien es Killerroboter, die von einer übermächtigen künstlichen Intelligenz gesteuert werden oder Weltuntergangsszenarien, die durch amoklaufende Computer ausgelöst werden. In der Realität bietet künstliche Intelligenz viele weniger letale Anwendungen in der Sicherheitstechnik, die hilft Menschen zu schützen und Gefahr abwendet.
11.1 Predictive Policing Wenn es um künstliche Intelligenz im Bereich Sicherheit geht, ist das Predictive Policing der Elefant im Raum. Bereits 1956 beschrieb Philip K. Dick in Minority Report „Precrime“, Orwell folgte in 1984 mit den Gedankenverbrechen. Im vielzitierten Zeitalter von Big Data und künstlicher Intelligenz haben sich einige Unternehmen auf die Fahne geschrieben, Verbrechensbekämpfung mittels künstlicher Intelligenz zu unterstützen oder Verbrechen sogar zu verhindern, indem Polizeiressourcen zu © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 P. Wennker, Künstliche Intelligenz in der Praxis, https://doi.org/10.1007/978-3-658-30480-5_11
151
152 P. Wennker
Stätten geschickt werden, bevor dort ein Verbrechen passieren kann und dies somit rein durch die Präsenz verhindert. Die grundlegende Problematik von Machine Learning und künstlicher Intelligenz ist nicht, dass ein Algorithmus per se Vorurteile hat, wie gerne in der Presse kolportiert, sondern, dass ein Algorithmus, sei es eine logistische Regression oder ein tiefes neurales Netzwerk, nur so gut ist wie die Daten, aus denen er lernt. Nicht umsonst hat sich der Leitsatz „Garbage in – Garbage out“ im Machine Learning etabliert. Das AI Now Institut hat im Jahr 2019 eine umfassende Studie veröffentlicht [1], die zeigt, dass Predictive-PolicingSysteme, die auf historischen Daten beruhen (besonders solchem Daten, die in Gegenden und Zeiten gesammelt wurden, die von Rassismus geprägt waren und sind), dazu führen, dass auch Predicitive-Policing-Algorithmen diese Vorurteile aus den Daten lernen und in das Heute übertragen. Ein Vorwurf der vom britischen Alan Turing Institute wiederholt wird [2]. Um diesen Vorwürfen zu begegnen ist das Predictive-Policing-Start-up Civicscape den radikalen Schritt gegangen und hat seine Algorithmen sowie Trainingsdaten auf Github zur Verfügung gestellt, um zu beweisen, dass keine Informationen über Rasse oder die Zugehörigkeit zu ethnischen Minderheiten in die Berechnung miteinfließt. Während in den USA eine Vielzahl von Polizeidienststellen nach teilweise jahrelangen Tests zukünftig auf den Einsatz von Predictive Policing verzichten, da die Ergebnisse nicht schlüssig genug waren, wird in Großbritannien weiter an dem Aufbau eines entsprechenden Systems namens National Data Analytics Solution (NDAS) gearbeitet. Das System nutzt Machine Learning, um auf Daten von fünf Millionen Menschen basierend, die auf Aufzeichnungen verschiedener Sicherheitsbehörden zusammengeführt wurden, vorherzusagen, wer mit welcher Wahrscheinlichkeit in Zukunft ein Verbrechen begehen wird. Das mit 4,5 Mio. Pfund finanzierte Projekt wird in den West Midlands erprobt. Einen anderen, weniger personenbezogenen Ansatz verfolgt PredPol, ein Programm, das an der UCLA entwickelt wurde. Um der Frage nach Vorurteilen gegenüber Minderheiten aus dem Weg zu gehen, nutzt
11 Künstliche Intelligenz in der Sicherheitstechnik 153
das Programm nur Daten über Ort, Art des Verbrechens und Zeit und Datum, um Vorhersagen über ein mögliches Verbrechen zu machen. Vorwürfe gegen das Unternehmen lauten, dass Minderheiten in bestimmten Vierteln einer Stadt oder Metropole leben und entsprechend über die Lokalität Vorurteile in das System eingeführt werden. PredPol veröffentlicht die Liste der Kunden nicht. Recherchen verschiedener Zeitungen kommen zu dem Schluss, dass über 50 US-amerikanische Bezirke die Software im Einsatz haben, darunter auch die Campus-Polizei verschiedener Universitäten [3].
11.2 Überwachung Die Überwachung von privaten oder gewerblichen Immobilien, Fertigungsanlagen und Produktionsstandorten kommt der künstlichen Intelligenz aus der Dystopie am nächsten. Gerade aus dem asiatischen Bereich wird immer wieder vom Einsatz künstlicher Intelligenz berichtet, der zumindest in unserem westlichen Verständnis von Freiheitsrechten fragwürdig erscheint. Besonders China setzt massiv auf automatische Gesichtserkennung, wie sie von vielen Applikationen z. B. mittels Convolutional Neural Networks genutzt wird. WeChat des chinesischen Konzerns Tencent bildet gebündelt Funktionen ab, die wir von verschiedenen Anbietern kennen: Chat, Social Network, Ridesharing Dienst oder mobiles Bezahlen. Vieles davon läuft über die Authentifizierung mittels Gesichtserkennung. Seit Dezember 2019 ist der Erwerb einer Mobilfunknummer an einen Gesichtsscan gebunden, ebenso wie das Bezahlen in verschiedenen U-Bahn-Linien. Für weltweites Aufsehen hat ein Bericht der New York Times darüber gesorgt, dass die chinesische Regierung DNA-Proben mit Fotos von Gesichtern der uigurischen Minderheit abgleiche, um so eine künstliche Intelligenz zu trainieren, die Mitglieder dieser Bevölkerungsgruppe zuverlässig erkennt.
154 P. Wennker
11.3 Drohnen Ähnliche Anwendungen aus dem Spektrum der Bildverarbeitung, Objekterkennung und Anomaliedetektion kommen in Drohnen zum Einsatz. Eine ganze Reihe von Start-ups bieten AI-gestützte Systeme zur Überwachung von Eigenheimen oder gewerblichen Immobilien an. Die Anforderungen an autonome Drohnen ähneln denen an autonome Fahrzeuge, zeigen aber einige Unterschiede auf. Im Vergleich zu einem Auto müssen Drohnen die Recheneinheiten mit sich tragen und von der meist schon begrenzten Akkukapazität auch noch betreiben. Für diese Problemstellung haben sich verschiedene Lösungsszenarien entwickelt: kleine neuronale Netze, die trainiert sind und auf einem speziellen Chip laufen. Platzsparend und meist auch energieeffizient haben diese Systeme den Nachteil, dass die Hardware getauscht werden muss, wenn das neuronale Netz dazulernen soll bzw. neue Entwicklungsstufen genutzt werden sollen. Alternativen sind eine Übertragung von entscheidungsrelevanten Daten an einen Cloudservice, der die Berechnungen durchführt und die Ergebnisse zurückliefert. Gleichzeitig wird Ressourcenmanagement in neuronalen Netzwerken für Drohnen immer wichtiger. Entwicklungen gehen hier in Richtung höhere Effektivität anhand weniger Bilddaten oder veränderte Architekturen, die weniger Durchläufe der Daten benötigen, um eine Erkennung oder Klassifizierung vorzunehmen. Mit steigender Effizienz von Energiespeichertechnologien sinkt die Notwendigkeit für solche Wege und die neuronalen Netze laufen direkt auf der Hardware der Drohne. Drohnen können keinen Straßen zur Wegfindung folgen, sondern müssen in der dritten Dimension selbstständig navigieren und einen entsprechenden Pfad finden. Einfache Drohnen nutzen hierfür Sensoren, die sie vor Hindernissen warnen, die auf dem im GPS markierten Flugweg liegen, um diesen auszuweichen. Drohnen, die komplexere Aufgaben verfolgen sollen, setzen hierbei auf trainierte neuronale Netze.
11 Künstliche Intelligenz in der Sicherheitstechnik 155
Drohnen im Sicherheitsbereich werden vor allem zum Objektschutz genutzt. Soll ein Eigenheim oder ein Industriekomplex geschützt werden, kann dieser z. B. mit Sensoren der klassischen Perimeterüberwachung ausgerüstet werden, wie z. B. Erschütterungssensoren oder Lichtschranken. Löst einer dieser Sensoren aus, werden automatisch eine oder mehrere Drohnen von Plattformen gestartet, die zum Schutz und zum Aufladen der Drohnen dienen. Die Drohne navigiert selbstständig in den Bereich, wo ein initialer Alarm ausgelöst wurde und sucht mittels verschiedener Sensoren und Kameras nach der Ursache, zum Beispiel einem Eindringling. Je nach Reifegrad der Drohne stehen dabei neben normalen Kameras auch Sensoren wie Wärmebild oder Restlichtverstärkung zur Verfügung. Zur Erkennung von Eindringlingen wird z. B. ein neurales Netzwerk genutzt, das auf die Erkennung von Menschen spezialisiert ist. Einige CNN-Architekturen sind beschrieben, die zusätzlich erkennen können, ob ein Mensch sein Gesicht verhüllt hat. Wird ein Eindringling entdeckt, kann die Drohne diesem selbstständig folgen, Sicherheitsmitarbeiter mit einem Livebild versorgen und Sicherheitskräfte zu dem Eindringling führen. Neben dieser reaktiven Form der Überwachung kann die Drohne selbstständig und AI-geleitet Patrouillen abfliegen und nach Unregelmäßigkeiten Ausschau halten. Besonders in den USA setzen neben Firmen auch zunehmend Sicherheitsbehörden auf Drohnen zur Aufklärung. So nutzen zum Beispiel einige SWAT-Teams autonome Drohnen, um sich ein Bild von einem Einsatzort zu verschaffen, bevor ein Einsatz beginnt, um so die Beamten zu schützen. Die Lindbergh Foundation nutzt größere flugzeugähnliche Drohnen zum Schutz bedrohter Arten in Nationalparks in Südafrika. Die Drohnen verfolgen Herden von Tieren selbstständig und übermitteln die Aufenthaltsorte an Ranger, die mit dem Schutz der Tiere beauftragt sind. Bei besonders von Wilderern bedrohten Tieren, wie z. B. Elefanten, werden die Drohnen zur Überwachung der Herden benutzt, um Eindringlinge und Wilderer frühzeitig aufzuspüren, bevor sie die Tiere erreichen.
156 P. Wennker
In sehr großen Industrieanlagen oder schwer zugänglichen Bauwerken werden Drohnen genutzt, um Bilder von kritischer Infrastruktur zu sammeln. Entweder per Fernsteuerung oder vorher festgelegten Navigationspunkten können kritische Punkte genau unter die Lupe genommen werden. Neurala, ein Bostoner Unternehmen, hat eine ursprünglich für den Mars Rover entwickelte Technologie weiterentwickelt, um diese in vielfältigen Umgebungen einsetzen zu können. Das Unternehmen spricht von Lifelong-DNN und spielt damit darauf an, dass ihre tiefen neuronalen Netze dauerhaft und kontinuierlich lernen. Durch sehr einfach zu bedienende Software können z. B. Ingenieure im Live-Videobild einer Drohne Strukturänderungen an einem Staudamm markieren und annotieren, sodass die Drohne bzw. das zugrundeliegende neuronale Netzwerk diese Struktur erkennen kann.
11.4 Erkennung von Vermissten Verschiedene Bild- und Videoerkennungsfirmen widmen sich der Erkennung von Vermissten. Gibt es ausreichendes Fotomaterial der gesuchten Person, ist es möglich, Fotos oder Videos mittels neuronalen Netzen nach den Personen zu durchsuchen. Die Technologie für Bild und Videoerkennung basiert meistens auf Convolutional Neural Networks, die spezifisch darauf trainiert sind, einzelne Gesichter unabhängig von Belichtung, Beleuchtung und Winkel zu erkennen. Wird eine vermeintlich vermisste Person aufgefunden, kann ein mit dem Smartphone aufgenommenes Foto ausreichen, um große Bilddatenbanken von Vermissten zu durchsuchen und auf mögliche Treffer hin zu untersuchen.
11 Künstliche Intelligenz in der Sicherheitstechnik 157
11.5 Ballistische Untersuchungen Ähnliche Technologie wird von Vigilant genutzt, um Ermittlern an Tatorten schnell Aufschluss über genutzte Schusswaffen zu geben. Jede Schusswaffe hinterlässt auf Patronenhülsen ein Muster, das hochindividuell ist. Fotos von Tatorten, die in das neuronale Netz von Vigilant eingespeist werden, werden nicht nur automatisch im Hinblick auf Typ und Anzahl unterschiedlicher Waffen klassifiziert, sondern das neuronale Netz sucht selbstständig in einer Datenbank nach passenden Mustern, die in anderen Fällen und Untersuchungen aufgetaucht sind, um so in Minutenschnelle erste Zusammenhänge für die Sicherheitsbehörden sichtbar zu machen und den Prozess der Strafverfolgung zu beschleunigen.
11.6 Katastrophenschutz und Hilfe Klimawandel erhöht die Gefahr für Naturkatastrophen und ihre Schwere. Schnelle Erfassung von Schäden während und nach einem Katastrophenfall ist maßgeblich um Hilfe dahin zu schicken, wo sie benötigt wird. Oft wird hierzu auf Satellitenbilder zurückgegriffen, um die Schäden in einem Vorher-Nachher-Vergleich zu identifizieren. Aktuell werden hierfür menschliche Experten benötigt, die Satellitenbilder aus unterschiedlichsten Quellen, im wahrsten Sinne des Wortes, zu einem ganzheitlichen Bild zusammensetzen müssen, um die Auswirkungen einer Katastrophe zu erfassen. Erschwerend kommt hinzu, dass Satellitenbilder oft unvollständig sind, weil Wolken die Sicht beeinträchtigen oder der Winkel des Satellits zum Boden für die aktuelle Aufgabe nicht korrekt ist. Um die Schäden zu erfassen und Hilfstruppen am Boden die richtigen Informationen zu geben, müssen hochauflösende Bilder genutzt werden, auf denen strukturelle Schwächen, z. B. einsturzgefährdete Gebiete, deutlich zu erkennen sind.
158 P. Wennker
Um diese Aufgabe zu lösen, hat die Defense Innovation Unit, eine Abteilung des US-Verteidigungsministeriums, in Zusammenarbeit mit anderen staatlichen Katastrophenschutzorganisationen und der NASA, einen Datensatz veröffentlicht, der 15 Länder, acht unterschiedliche Katastrophenfälle, von Sturm bis zu Überflutungen und Erdbeben, und 45.000 km^2 umspannt. Für die Entwicklung von passenden Machine-Learning-Modellen wurde ein Preisgeld in Höhe von 150.000 US$ ausgelobt. Zum Zeitpunkt des Schreibens war ein endgültiger Sieger noch nicht gekürt, die oberen Plätze des Leaderboards setzen auf die Kombination von vortrainierten Systemen, wie z. B. dem U-Net. Das U-Net basiert auf dem Prinzip des Convolutional Neural Networks und wurde ursprünglich für die biomedizinische semantische Bildsegmentierung an der Universität Freiburg entwickelt. Semantische Segmentierung bedeutet in diesem Kontext, dass jedem Pixel eine Klasse zugesprochen wird, die beschreibt, was dieses Pixel repräsentiert. Ursprünglich gedacht, um Zellen in Mikroskopbildern zu beschreiben, hat sich die Decoder-Encoder-Architektur bei Luftaufnahmen bewiesen, um z. B., Gebäude zu umreißen. Dies kombiniert mit einem VGG16-Netzwerk zur Objektklassifizierung scheint aktuell ein vielversprechender Ansatz zu sein, um strukturelle Schäden in Gebäuden nach einer Naturkatastrophe zu erfassen. Die finalen Gewinner der Challenge sollen Mitte des Jahres 2020 veröffentlicht werden.
11.7 Cyber Security In einer vernetzten Welt geht von Cyberkriminalität eine nicht zu unterschätzende Gefahr für Unternehmen und Wirtschaft auf. Einer Untersuchung des Versicherers Allianz zufolge sehen Entscheider in deutschen Unternehmen Cyberkriminalität, Hackerangriffe und Ransom- und Malware als größte wirtschaftliche Gefahren an. Ein unbedachter Klick eines Mitarbeiters kann ganze Unternehmen tage- und wochenlang lahmlegen, bis Experten die Systeme wieder gereinigt oder neu aufgesetzt haben.
11 Künstliche Intelligenz in der Sicherheitstechnik 159
In den letzten Jahren stieg nicht nur die Anzahl der Angriffe auf Unternehmen, auch die Angriffsvektoren werden durch die zunehmende Vernetzung vielfältiger. Waren es früher oft die Rechner von Büromitarbeitern, sind es heute Industrieanlagen, die am Netz hängen oder IoT-Devices, die als Einfallstor dienen. Gerade im Hinblick auf Wirtschaftsspionage verlängert sich zudem die Dwell Time – die Zeit, die ein Angreifer im System verbringen kann, bevor er entdeckt wird. Je länger dieser Zeitraum ist, umso mehr potenziell sensible Daten können kopiert werden und abfließen. Gerade exponierte Unternehmen erhalten eine Vielzahl von Angriffen, von einfachen Hobby-Hack-Versuchen bis hin zu ausgeklügelten und strategischen Angriffen. Für Sicherheitsexperten im Unternehmen stellt dies die Herausforderung dar, die wirklich bedrohlichen Angriffe zu erkennen und abzuwehren. Zudem müssen Sicherheitsexperten sich ständig fortbilden, um auf dem neuesten Stand der Bedrohung zu sein, nicht nur zu Abwehrzwecken sondern auch, um das eigene Netzwerk auf potenzielle Schwachstellen hin zu untersuchen. Bei all diesen Aufgaben kann künstliche Intelligenz eingreifen und menschliche Sicherheitsexperten unterstützen. IBM bietet mit Watson zum Beispiel eine solche Plattform an. Basierend auf Natural Language Processing, können aktuelle Forschungsergebnisse und Berichte, sogar Blog- und Forenbeiträge im Hinblick auf verschiedene Bedrohungsszenarien bzw. Angriffsvektoren analysiert werden. Relational Networks werden in einem zweiten Schritt genutzt, um zum einen Informationen aus verschiedenen Publikationen miteinander in Bezug zu setzen und das Erlernte auf Netzwerkverkehr, Dateizugriffe und Nutzerverhalten anzuwenden, um Bedrohungen möglichst schnell zu erkennen. Ähnlich verhält es sich mit Machine-Learning-Modellen zur Outlier-Erkennung. Das neuronale Netzwerk lernt, wie sich ver schiedene Akteure im System verhalten, welcher Traffic erzeugt wird und welche Dateien regelmäßig angesprochen werden. Weicht ein Verhalten signifikant von dem erlernten ab, kann das System einen Alarm
160 P. Wennker
auslösen und so helfen, noch nicht beschriebene und unbekannte Angriffsvektoren zu identifizieren. Nicht unerwähnt bleiben soll die Gefahr, dass mit KI-Abwehrmechanismen neue Angriffsvektoren in das System gebracht werden können, die KI immanent sind. Durch Data Poisoning, also dem Einbringen von absichtlich falschen Daten, kann das Erkennungsziel von Algorithmen verschoben werden. Diese Adversarial Attacks machen sich Schwachstellen und Unschärfen von Algorithmen zunutze bzw. den Umstand, dass Systeme regelmäßig neu trainiert werden, um auf aktuelle Veränderungen in den Daten reagieren zu können. MalGAN ist ein Beispiel aus der Forschung, das Generative Adversarial Networks nutzt, um iterativ Malware zu schaffen, die nicht mehr von Machine-Learning-Systemen detektiert werden kann. Ebenso eignet sich künstliche Intelligenz für maßgeschneiderte Attacken auf lohnende Ziele. Der Forschungszweig von IBM hat 2018 ein Angriffssystem basierend auf einer Deep-Learning-Technologie namens DeepLocker vorgestellt. Mit DeepLocker wollten die Wissenschaftler erforschen, wie verschiedene Technologien aus dem Bereich Maschinellen Lernens bzw. Künstlicher Intelligenz genutzt werden können, um gängige Erkennungssysteme von Malware zu umgehen und Schaden im Wirtsystem zu verursachen und gleichzeitig die Aufklärung des Zwischenfalls zu verzögern oder zu verhindern. Der Kampf Malware gegen Schutzsysteme ähnelt seit den späten Achtzigerjahren einer Evolution. Nachdem sich Malware begann zu verbreiten, suchten Schutzsysteme nach Mustern von schädlichen Programmcodes in Dateien. Daraufhin begannen Malwareentwickler den Schadcode zu verschlüsseln und erst im Arbeitsspeicher des Ziels zu dechiffrieren, kurz bevor er zum Einsatz kam. Sicherheitssoftware machte den nächsten Schritt hin zu einem Sandbox Model, in dem der fragwürdige Code ausgeführt und beobachtet werden konnte, ohne dass er das System außerhalb der Sandbox attackieren konnte. Die Schadsoftware wiederum entwickelt sich ebenso weiter und versucht nun herauszufinden, ob sie in einer Sandbox ausgeführt wird, bevor sie versucht, ihre schädliche Wirkung zu entfalten. Laut
11 Künstliche Intelligenz in der Sicherheitstechnik 161
SecurityWeek waren 2018 98 % der gefundenen Malware fähig, verschiedene Techniken zu nutzen, um einer Erkennung zu entgehen. Mit dem Fortschreiten der Sandbox-Technik hat Schadsoftware einen entscheidenden Schritt getan und die Infektion des Wirtssystems in verschiedene Schritte aufgeteilt. Ein initialer Teil des Schadcodes führt selber keine schädlichen Aktionen aus, sondern sammelt Informationen über das Wirtssystem, wie z. B. Schutzvorkehrungen aber auch Hardwarespezifikationen. Erst wenn dieser Prozess ein passendes und ungeschütztes Ziel identifiziert hat, wird der schadhafte Teil des Programmcodes nachgeladen. Ein Schädling, der globale Aufmerksamkeit erzielte und nach dem beschriebenen Muster funktioniert, ist Stuxnet, der selektiv bestimmte Kontrolleinheiten von Industrieeinheiten eines Herstellers und in bestimmter Konfiguration attackierte. All dieser elaborierten Schadsoftware ist gemeinsam, dass es im Programm selber definierte Auslöser geben muss, die von erfahrenen Forschern identifiziert werden kann. Um diese Mechanismen außer Kraft zu setzen, haben sich die Forscher von IBM verschiedene Eigenschaften von Neural Networks zu eigen gemacht. In ihrem Proof of Concept versahen sie eine Videochatplattform mit der bekannten Ransomware WannaCry, die nach Aktivierung Daten verschlüsselt und ein Lösegeld fordert. In Theorie könnte eine so manipulierte Software millionenfach auf Rechner heruntergeladen und ausgeführt werden, ohne dass die Schadsoftware ihre schädliche Wirkung entfaltet. Während die Videochat-Software genutzt wird, nimmt DeepLocker einzelne Bilder der Kamera entgegen und nutzt sein neuronales Netzwerk, um diese mittels Image Recognition bzw. Face Detection mit einer Zielperson abzugleichen. Solange das neuronale Netz die Zielperson nicht vor der Kamera entdeckt, bleibt der Schädling inaktiv. Registriert das Netzwerk die Zielperson vor der Kamera, wird die Malware ausgelöst. Da die Erkennung im inneren des neuronalen Netzwerks stattfindet und dieses ein BlackBox-Modell ist, kann der Auslöser nicht durch Abgleich mit bekannten Auslösern entdeckt werden. Sicherheitsspezialisten ist es also nicht möglich zu identifizieren was ein
162 P. Wennker
Auslöser sein könnte, z. B. Gesichter. Genauso wenig, welches Gesicht der Auslöser ist und wie die Schadsoftware verschlüsselt ist. Dem Auslöser sind dabei keine Grenzen gesetzt. Gesichter, Orte, Uhrzeiten, bestimmte Aktivitäten, Sensormessdaten oder Kombinationen hiervon können als Auslöser fungieren.
Literatur 1. Richardson, R., Schultz, J., & Crawford, K. (13.02.2019). Dirty data, bad predictions: How civil rights violations impact police data, predictive policing systems, and Justice, 94 N.Y.U. L. REV. ONLINE 192. https:// ssrn.com/abstract=3333423. Zugegriffen: 09. Juni 2020. 2. Raab, C. et al. (2018). Ethics advisory report for West Midlands police. https://www.turing.ac.uk/research/publications/ethics-advisory-report-westmidlands-police. Zugegriffen: 09. Juni 2020. 3. Haskins, C. (06.02.2019). Dozens of cities have secretly experimented with predictive policing software. https://www.vice.com/en_us/article/d3m7jq/ dozens-of-cities-have-secretly-experimented-with-predictive-policingsoftware. Zugegriffen: 09. Juni 2020.
Ausblick
Wie die Beispiele im Buch zeigen, ist künstliche generelle Intelligenz noch ein gutes Stück entfernt, vielleicht wird sie auch komplett außerhalb unserer Reichweite bleiben. Sicher ist, dass künstliche Intelligenz in all ihren Facetten in spezifischen Aufgabenfeldern bereits heute Ergebnisse erreicht, die über dem Leistungsvermögen von Menschen liegen. Ein Prozess, der in Zukunft nicht nur zunehmen, sondern sich auch auf immer neue Bereiche menschlicher Leistungsfähigkeit ausbreiten wird. Beim Verfassen dieses Buchs sind mir dabei zwei Punkte anschaulich vor Augen geführt worden: 1. Die Geschwindigkeit mit der die Entwicklung der künstlichen Intelligenz sowie der zugrundeliegenden Modelle und Theorien voranschreitet. Kapitel oder Beispiele mussten laufend aktualisiert werden, da neue Veröffentlichungen bisherige State-of-the-Art-Ergebnisse übertroffen haben oder neue Modelle ganz andere Anwendungsfälle ermöglichen. Die Wahrscheinlichkeit ist hoch, dass zum Zeitpunkt, an dem dieses Buch erscheint, einzelne
© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 P. Wennker, Künstliche Intelligenz in der Praxis, https://doi.org/10.1007/978-3-658-30480-5
163
164 Ausblick
technische Beispiele oder Anwendungen übertroffen oder obsolet gemacht wurden. 2. Bei der Recherche zu einzelnen Aspekten des Buchs wurde leider sehr deutlich, dass deutsche Unternehmen im Bereich der praktischen Anwendung von künstlicher Intelligenz ein komplettes Nischendasein führen. Als Einzelne nutzen wir künstliche Intelligenz täglich, oft ohne es uns explizit bewusst zu machen, freuen uns vielleicht nur über die reibungslose Funktion eines Services, ohne hinter die Kulissen zu schauen. Im öffentlichen Diskurs dominieren trotzdem zwei Faktoren, wenn es um künstliche Intelligenz geht. Der schadhafte Einsatz von KI oder die diebische Freude, wenn irgendwo ein KI-System nicht richtig funktioniert hat, sei es, weil eine Schildkröte als Waffe erkannt wurde, ein selbstfahrendes Auto ein beklebtes Geschwindigkeitsschild nicht richtig erkannte oder eine KI zwei Musikerinnen verwechselte. Die unzähligen Male, die KI reibungslos funktioniert hat und hervorragende Ergebnisse liefert, finden kaum Betrachtung. Unternehmen und ganze Industrien müssen entscheiden, ob und in welchem Umfang künstliche Intelligenz adaptiert werden soll, wo es Anwendungsmöglichkeiten gibt und wo nicht. Aus uninformierter und unspezifischer Angst heraus, wird künstliche Intelligenz nicht genutzt, was weder die Lücke zu datengetriebenen, KI-fokussierten Unternehmen schließen wird, noch wird man mit der schieren Geschwindigkeit teilautomatisierter Organisationen mithalten können. Ich hoffe, es ist mir mit diesem Buch gelungen, einen Einblick in die heutigen Möglichkeiten von künstlicher Intelligenz in einem breiten Spektrum von Industrien abzubilden, ohne allumfassende Heilsversprechen oder dämonisierende Anwürfe gegen die Technologie als solche zu vermitteln. Ich hoffe zudem, dass die bereits heute möglichen Anwendungen von künstlicher Intelligenz Ideen schaffen, wo KI heute in Organisationen eingesetzt werden kann, um Abläufe effizienter zu machen oder gänzlich neue Geschäftsfelder zu erschließen.
Ausblick 165
Die Zeit dazu war nie besser, der Einstieg nie leichter. Große vortrainierte Modelle können mit verhältnismäßig geringem Aufwand für eigene Zwecke trainiert werden. Frameworks machen den Entwicklungsprozess einfacher und schneller und Daten stehen in Unternehmen in vorher nie gekanntem Ausmaß zur Verfügung.