209 99 14MB
German Pages 392 Year 2018
Christoph Engemann, Andreas Sudmann (Hg.) Machine Learning – Medien, Infrastrukturen und Technologien der Künstlichen Intelligenz
Digitale Gesellschaft | Band 14
Christoph Engemann, Andreas Sudmann (Hg.)
Machine Learning – Medien, Infrastrukturen und Technologien der Künstlichen Intelligenz
Grundlegende Teile dieses Bandes sind im Rahmen von Fellowships der Herausgeber am Center for Advanced Internet Studies (CAIS) erarbeitet worden. Für die Unterstützung unserer Forschungsarbeiten und die wertvollen Diskussionen am CAIS bedanken wir uns sehr herzlich.
Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.
© 2018 transcript Verlag, Bielefeld Die Verwertung der Texte und Bilder ist ohne Zustimmung des Verlages urheberrechtswidrig und strafbar. Das gilt auch für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und für die Verarbeitung mit elektronischen Systemen. Umschlaggestaltung: Kordula Röckenhaus, Bielefeld Umschlagabbildung: kentoh / fotolia.com Korrektorat: Marisa Uphoff, Münster & Evin Ay, Bielefeld Satz: Mark-Sebastian Schneider, Bielefeld Druck: Majuskel Medienproduktion GmbH, Wetzlar Print-ISBN 978-3-8376-3530-0 PDF-ISBN 978-3-8394-3530-4 EPUB-ISBN 978-3-7328-3530-0 Gedruckt auf alterungsbeständigem Papier mit chlorfrei gebleichtem Zellstoff. Besuchen Sie uns im Internet: https://www.transcript-verlag.de Bitte fordern Sie unser Gesamtverzeichnis und andere Broschüren an unter: [email protected]
Inhalt Einleitung | 9
I. E pistemologien und G enealogien des maschinellen L ernens »Down-to-earth resolutions« Erinnerungen an die KI als eine »häretische Theorie« Bernhard J. Dotzler | 39
Szenarien des Postdigitalen Deep Learning als MedienRevolution Andreas Sudmann | 55
Von Maschinen lernen Zur Mechanical Notation von Charles Babbage Hermann Rotermund | 75
Das Lernen lernen oder die algorithmische Entdeckung von Informationen Luciana Parisi | 93
II. H istorische I maginationen und D iskursformationen zu ( autonomen ) L ernmaschinen ›Bin doch keine Maschine …‹ Zur Kulturgeschichte eines Topos Stefan Rieger | 117
Maschinelles Lernen als bildungspolitischer Kontrollverlust? Eine spekulative Kontrollgeschichte der Bildungsplanung Jeremias Herberg | 143
Selbstlernende autonome Systeme? Medientechnologische und medientheoretische Bedingungen am Beispiel von Alphabets Differentiable Neural Computer (DNC) Thomas Christian Bächle, Christoph Ernst, Jens Schröter und Caja Thimm | 167
III. D aten und D atenprak tiken maschinellen L ernens Daten als Schnittstelle Die Poetik des maschinellen Lernens im Design Daniel Cardoso Llach | 195
Big-Data-Kriege Über Tötungslisten, Drohnen und die Politik der Datenbanken Jutta Weber | 219
Rekursionen über Körper Machine Learning-Trainingsdatensätze als Arbeit am Index Christoph Engemann | 247
Media Analytics & Gegenwartskultur Lev Manovich | 269
IV. M aterialität und Ä sthetik lernender M aschinen Wenn aus Zahlen Töne werden… Überlegungen zu computergenerier ter Musik und Komposition Franziska Kollinger | 291
Ein Meer von Daten Apophänie und Muster(-miss-)erkennung Hito Steyerl | 309
Wenn künstliche Intelligenz laufen lernt Verkörperungsstrategien im Machine Learning Yvonne Förster | 323
biodrag Turing-Test, KI-Kino und Testosteron Ulrike Bergermann | 339
V. I nterviews »Deep Learning ist keine Religion« Andreas Sudmann im Gespräch mit Yoshua Bengio | 367
»Wunderwerke der Parallelisierung« Andreas Sudmann im Gespräch mit Roland Memisevic | 373
Autor_innenverzeichnis | 385
Einleitung Z ur E inführung M edien , I nfrastruk turen und Technologien des maschinellen L ernens Andreas Sudmann
In der noch jungen Geschichte der Erforschung Künstlicher Intelligenz(en) fielen Anspruch und Wirklichkeit oft weit auseinander. Gemäß einer viel zitierten Anekdote, die eine Begebenheit aus dem Jahr 1966 schildert, hat sich niemand Geringeres als Marvin Minsky, schon damals ein weithin bekannter Forscher auf dem Gebiet der Künstlichen Intelligenz(en) (KI), für einen seiner begabteren Studenten folgende Aufgabe überlegt: Gerald Jay Sussman sollte im Rahmen eines Sommerprojekts am MIT herausfinden, wie man einen Computer in die Lage versetzen kann, mittels einer Kamera seine Umwelt zu beschreiben (Crevier 1993: 88). Inwieweit diese Anekdote tatsächlich zutreffend wiedergibt, was sich seinerzeit in Cambridge zutrug, sei dahingestellt. Unzweifelhaft drückt sich in ihr jedoch jener Optimismus aus, den die KI-Forschung seit ihren Anfängen bestimmte. Doch bereits Ende der 1960er Jahre ließ die allgemeine Euphorie über die Entwicklung intelligenter Maschinen spürbar nach. Viele Problemstellungen der KI, allen voran eben jene auf dem Gebiet der Computer Vision, waren letztlich deutlich komplizierter als man zunächst annahm. Das Ausbleiben greif barer Fortschritte war nicht ohne Konsequenzen: Die finanzielle Förderung der KI-Forschung durch das Militär und andere Institutionen ging massiv zurück. Später wird man im Rückblick von einem »KI Winter« sprechen. Zeitsprung in die Gegenwart des Jahres 2018. Man kann vielleicht geteilter Auffassung sein, inwieweit man derzeit als Pendant zum »KI Winter« von einem »Sommer der KI« sprechen kann. Unzweifelhaft kann man jedoch gegenwärtig beobachten, dass die KI-Forschung wieder Konjunktur hat, ohne dass ein Ende ihrer Hochphase abzusehen wäre (was man vom Sommer eigentlich nie sagen kann, weshalb zumindest aus diesem Grund die Metapher
10
Machine Learning
unglücklich gewählt wäre). So vergeht kaum ein Tag, ohne Hinweis auf neue Fortschritte und vermeintliche Innovationen. Von den Sprachassistenten des Smartphones, über selbstfahrende Autos, die Vorhersagen von Börsenkursen oder Verfahren der automatischen Gesichtserkennung, immer stärker und häufiger greifen smarte Algorithmen in die Praktiken und Erscheinungsformen von Kultur und Gesellschaft ein. Und doch ist selbst im Jahr 2018 die Beschreibung visuellen Inputs durch einen Computer in verschiedenen Hinsichten noch ein ungelöstes Problem – einerseits. Andererseits ist der Fortschritt maschineller Intelligenzen gerade auf dem Gebiet der Computer Vision besonders deutlich sichtbar. Beispielsweise ist es einem deutsch-kanadischen Unternehmen 2017 erstmals gelungen, ein KI-System zu entwickeln, das mittels einer Kamera Handlungen in der empirischen Welt identifizieren und beschreiben kann (Sudmann 2016, 2017b). Und wie so oft in der jüngeren Vergangenheit basiert auch dieser Innovationssprung auf einem ganz bestimmten Ansatz der KI: den maschinellen Lernverfahren Künstlicher Neuronaler Netzwerke (kurz: KNN, seit ungefähr 2006 auch Deep Learning genannt, kurz DL). Was aber sind maschinelle Lernverfahren? Und was versteht man unter KNN? Um mit der ersten Frage zu beginnen: Primäres Merkmal maschineller Lernverfahren ist, dass sie einen Computer in die Lage versetzen, aus Erfahrungen zu lernen, um bestimmte Aufgaben zu lösen und Vorhersagen zu treffen, ohne für diese Funktion explizit programmiert worden zu sein (vgl. dazu bereits schon Samuel 1959). Oder um im Anschluss an Mitchell (1997) eine eher formale Definition zu bemühen: Maschinelles Lernen ist das Studium von Algorithmen, die in Bezug auf irgendeine Aufgabe t ihre Leistung p auf der Basis einer Erfahrung e verbessern. Der maschinelle Lernprozesses läuft dabei typischerweise wie folgt ab: Gegeben ist ein Input (x) sowie ein Output (y). Ziel ist es, für irgendeinen Input x (z.B. Bilder bzw. Pixels) den dazu passenden Output y (z.B. den Inhalt eines Bildes) möglichst genau vorherzusagen. Dafür wird das maschinelle Lernsystem im Rahmen einer sogenannten Lernphase auf Grundlage riesiger Mengen von Beispieldaten (anhand gelernter Übereinstimmungen von x, y) so lange trainiert, bis das System auf der Basis der Lernerfahrung aus dem Training in der Lage ist, auch neue, unbekannte Inputdaten zutreffend zu generalisieren. Der Ablauf, wie er hier knapp dargestellt wurde, entspricht dem Typus des sogenannten überwachten Lernens (supervised machine learning), im Unterschied zum unüberwachten Lernverfahren (unsupervised learning). Bei Letzteren geht es um Lernkonstellationen, bei denen jeweils nur der Input (x) ohne zugehörigen Output (y) gegeben ist. Aber auch unter solchen Bedingungen, wo Inputdaten ohne Label vorliegen, sind maschinelle Lernverfahren fähig, auffällige statistische Strukturen in großen Datenmengen zu erkennen. Zum Beispiel können Computersysteme ermitteln, dass in Videos der Social-Media-
Einleitung
Plattform YouTube vor allem immer wieder Katzen als dominantes Muster auftauchen, ohne dabei über ein (semantisches) Konzept von Katzen zu verfügen. Dass die KI-Industrie gerade in Methoden des unüberwachten Lernens große Hoffnungen setzt, ist kaum überraschend. Selten liegen Daten bereits in einer solchen Form vor, dass Lernalgorithmen umstandslos auf sie anwendbar sind. Im Gegenteil ist es in der Regel ein sehr aufwendiger Prozess, Daten so aufzuarbeiten, dass sie als Material für maschinelle Lernprozesse Verwendung finden können (Sudmann 2017c). Und dieser Prozess muss gegenwärtig noch immer von Menschen manuell organisiert und ausgeführt werden. Oft genug hat man es jedoch mit einer Situation zu tun, in der ein Teil der Daten gelabelt ist und ein anderer nicht. In dieser Konstellation kommen die sognenannten semi-überwachten Lernverfahren zum Einsatz, zu denen insbesondere der Lernansatz des Reinforcement Learning zählt. Letzterer spielt gegenwärtig vor allem in Verbindung mit Simulationen wie Computerspielen eine große Rolle, u.a. bei führenden KI-Unternehmen wie DeepMind. Wie der Name bereits signalisiert, geht es beim Reinforcement Learning darum, gleichsam ein bestärkendes Feedback-Signal zur Optimierung des maschinellen Lernprozesses zu nutzen. So lernt die Maschine Computerspiele (konkret z.B. alte Atari-Konsolenspiele wie Space Invaders) ohne Vorwissen über Aufbau, Regeln oder sinnvolle Strategien des Spiels besser als menschliche Experten zu beherrschen, einzig durch die Beobachtung des Bildschirmgeschehens und unter Beachtung einer einzigen Vorgabe: Maximiere den Score. Wie viele unterschiedliche Algorithmen das Gebiet des maschinellen Lernens bereits hervorgebracht hat, ist schwer zu beziffern. Manche Quellen sprechen undifferenziert von Tausenden, andere von Zehntausenden. Derartige Schätzungen sind jedoch allein deshalb fragwürdig, weil sich die einzelnen Lernalgorithmen oftmals sehr ähneln und ihre Abgrenzung entsprechend untereinander schwierig ist. In gewisser Weise sind deshalb auch Versuche mit Vorsicht zu genießen, das Feld maschineller Lernverfahren streng taxonomisch zu ordnen. Zum Beispiel unterscheidet der Computerwissenschaftler Pedro Domingos (2015) in seinem mittlerweile einschlägigen, populärwissenschaftlich orientierten Standardwerk The Master Algorithm fünf »tribes of machine learning«: »symbolists«, »evolutionaries«, »Bayesians«, »analogizers« und schließlich »connectionists«, denen man jeweils einen zentralen Lernalgorithmus zuordnen kann. Dabei verfolgt Domingos die titelgebende These, dass die gegenwärtige und zukünftige Herausforderung maschinellen Lernens darin bestehe, einen Masteralgorithmus zu entwickeln, der sich dadurch als eben solcher auszeichnet, dass er die bestehenden Stärken der existierenden Lernverfahren/-algorithmen effizient zu bündeln weiß. Gleichwohl ließe sich hier einwenden, dass im Feld des maschinellen Lernens längst ein Master-Zugriff existiert: Gemeint sind die bereits erwähnten Ansätze des DL
11
12
Machine Learning
bzw. der KNN, deren zentraler Lernalgorithmus Backpropagation heißt (vgl. LeCun/Bengio/Hinton 2015). Für Laien mag es überraschend sein, dass die Technologie der maschinellen Lernverfahren im Allgemeinen und KNN im Besonderen keineswegs neu sind. Wie im vorliegenden Band noch ausführlicher thematisiert wird, sind wesentliche Grundlagen und erste Implementierungen dieser Verfahren bereits in den 1940er bzw. 1950er Jahren entwickelt worden (vgl. auch Sudmann 2016). Es gehört zum Ziel des vorliegenden Bandes, einige Aspekte der Genese und Genealogie maschineller Lernverfahren und in Sonderheit des Ansatzes der KNN aus kultur- und medienwissenschaftlicher Perspektive zu beleuchten. Ein solches wissenschaftshistorisches Projekt stellt noch weitestgehend ein Desiderat dar, auch wenn mittlerweile immer mehr Forscher_innen aus Disziplinen der Geistes- und Kulturwissenschaften auf den gegenwärtigen Boom der KI reagieren und bereits erste theoretische Modelle und historischen Fallstudien vorgestellt haben (u.a. Engemann & Feigelfeld 2016; Finn 2017; Mackenzie 2017; Pasquinelli 2017; Sudmann 2016, 2017a, 2017b, 2017c). Zudem sind gerade in den letzten Jahren zahlreiche Buchpublikationen als Überblick bzw. Einführung in das Thema KI im Allgemeinen und der ML/DLVerfahren im Besonderen publiziert worden. Viele dieser Veröffentlichungen konzentrieren sich jedoch entweder darauf, die gegenwärtigen Anwendungsfelder und technologischen Verfahren vorzustellen bzw. zu erklären (z.B. Russell/Norvig 2013, Rojas 2013, Shalev-Shwartz/Ben-David 2014, Goodfellow/ Bengio/Courville 2016) und/oder spekulieren, je nach Fokus, über die sozialen, ethischen, ökonomischen Implikationen und Effekte sowohl gegenwärtiger als auch zukünftig denkbarer KI-Technologien (u.a. Barrat 2013, Kurzweil 2013, Bostrom 2014). In Bezug auf letztere Gruppe von Publikationen dominiert dabei immer wieder ein Szenario: Die Heraufkunft einer maschinellen Intelligenz, die jenseits spezifischer KI-Anwendungen (z.B. Spiele) der menschlichen ebenbürtig, wenn nicht gar überlegen ist (vgl. Vinge 1993). Prognosen dazu sind ebenso zahlreich wie kontrovers (vgl. Bostrom 2014). Vor allem aber haben sie eine lange Tradition. Bereits Alan Turing malte in einem Vortrag ein von ihm selbst als »häretisch« bezeichnetes Szenario aus, in dem irgendwann »Maschinen die Macht übernehmen« (1996 [1951]: 15). Darüber, ob ein solches Szenario mittlerweile wahrscheinlicher geworden ist, kann man unterschiedlicher Auffassung sein. Als häretisch wird man es indes kaum mehr bezeichnen können (vgl. dazu u.a. den Beitrag von Bernhard Dotzler in diesem Band). Ohnehin herrscht selbst unter optimistischen ML/DL-Experten insoweit darüber Konsens, dass in allen Anwendungsgebieten des ML/DL noch viel Arbeit zu leisten ist, bis gerade diejenigen komplexen Leistungen zu bewältigen sind, die
Einleitung
Menschen im Unterschied zu KI-Systemen keine Mühe bereiten (vgl. dazu u.a. Bengio 2009). Gleichzeitig rufen die jüngeren KI-Fortschritte bekannte Ängste hervor, was die Einschätzung ihrer sozialen, kulturellen und ökonomischen Folgen betrifft. Unter Bezug auf Bostroms Thesen in Superintelligence. Paths, Dangers, Strategies (2014), ließ niemand Geringeres als Elon Musk im zeitlichen Umfeld der Buchpublikation über Twitter verlauten: »We need to be super careful with AI. Potentially more dangerous than nukes« (vgl. auch Barrat 2013, zu Risiken und ethischen Implikationen jüngster KI-Entwicklungen, s. Müller 2016). Potenzielle negative Auswirkungen KI-gestützter Automatisierung in Arbeitsfeldern, die bis dato klassische Hoheitsgebiete menschlicher Expert_innen waren, thematisieren u.a. Richard und David Susskind (2015). Neben Euphorie und Technikgläubigkeit auf der einen und mitunter von apokalyptischen Szenarien geprägten Ängsten auf der anderen Seite ist vor allem eine dritte Grundhaltung gegenüber den Leistungen und Versprechen der KI verbreitet: ein fundamentaler Skeptizismus sowie ein Beharren auf der anthropologischen Differenz zur Maschinenintelligenz des Computers. Schon die Countess of Lovelace, die ein komplexes Programm für Babbages Analytic Engine geschrieben hat, notierte 1843 sinngemäß, dass Maschinen keine selbständigen analytischen Fähigkeiten hätten, sondern nur diejenigen des Menschen realisieren könnten (vgl. Weizenbaum 1976, Krämer 2015, Sudmann 2016). Wie Bernhard Dotzler bereits Ende der 1980er Jahre notierte, sind sämtliche solcher Hochrechnungen der KI »zweifellos allesamt schon bei Turing zu haben« (Dotzler 1989: 128). Auch aus diesem Grund möchte der vorliegende Band sich nicht darauf beschränken, den Fokus allein auf die Chancen, Risiken und Grenzen von KI-/ ML-/DL-Technologien zu richten, auch wenn deren sorgfältige Erörterung ein Projekt darstellt, das weiterhin inter- bzw. transdisziplinär verfolgt werden sollte. So ist das Nachdenken über angemessene theoretische Zugriffe und Konzepte einer Medienkritik der KI zweifellos eine zentrale Aufgabe der Medienwissenschaft. Erste Ansätze dazu liegen bereits vor, allerdings beziehen sich diese eher undifferenziert auf Phänomene einer vernetzten algorithmischen Kultur, ohne die spezifische Bedeutung von Lernalgorithmen angemessen zu würdigen (so z.B. Finn 2017). Vor dem aktuellen KI-Boom haben die Medienwissenschaften auf die jüngeren Entwicklungen im Bereich der KI/des ML/DL, seit ca. Mitte der 1980er Jahre, bis dato nur in Ansätzen reagiert (u.a. Bolz 1994; Winkler 1997; Weber 2003, 2011; Hayles 2012, Vehlken 2012), und das trotz ihres fachhistorisch weit zurückreichenden Interesses an Maschinen, technischen Objekten oder Akteur-Netzwerken (u.a. Kittler 1986, Becker/Cuntz/Kusser 2008; Hörl 2011, Huhtamo/Parikka 2011, Schmidgen 2001, 2014), an der Kybernetik (u.a. Pias 2003, 2004; Rieger 2003; Bergermann 2015) sowie überhaupt an der theore-
13
14
Machine Learning
tisch-historischen Reflexion zur Mathematik, des Computers und der digitalen Kultur (u.a. Turkle 1991, Rotman 2000, Manovich 2001, Siegert 2003, Böhnke/ Schröter 2004, Warnke/Coy/Tholen 2005, Dotzler 2006, Nohr 2008, Lovink 2011, Pias 2011, Ernst 2013, Peters 2015, Engemann/Sprenger 2015). Ebenso stellten vor ca. 2015 in zahlreichen anderen Fächern der Geistes-, Sozial- und Kulturwissenschaften sowohl Betrachtungen zu maschinellen Lernverfahren insgesamt als auch zu KNN ein Desiderat dar, mit einigen wenigen Ausnahmen: Beispielsweise haben sich zahlreiche Arbeiten der Philosophie, vor allem im Bereich der Philosophie des Geistes, nicht nur umfangreich mit Fragen der KI (vgl. u.a. Hofstadter/Dennett 1981), sondern insbesondere ab Mitte der 1980er Jahre auch verstärkt mit dem Konnektionismus und KNN beschäftigt (vgl. u.a. Ramsey/Rumelhart/Stich 1991, Horgan/Tienson 1996, vgl. zur philosophischen Diskussion mit interdisziplinärer Ausrichtung in Deutschland u.a. Krämer 1994, Pauen/Roth 2001). Ferner sind KNN Bezugspunkt pädagogischer Lerntheorien, die an Ansätze der Neurobiologie und Neuropsychologie anschließen, so z.B. die operative Lerntheorie von Grzesik (2002). Auch in der Computerlinguistik sind DL-/ML-Verfahren seit längerer Zeit ein wichtiges Thema. Dort wurden auch die jüngeren Entwicklungen des DL insbesondere im Bereich des Natural Language Processing frühzeitig reflektiert (vgl. u.a. Manning 2015). Eine nennenswerte Wahrnehmung von KNN hat schließlich im interdisziplinären Feld der Kognitionswissenschaft stattgefunden, das sich mit (potenziell) bewussten Denk- und Verständnisprozessen beschäftigt (vgl. u.a. Friedenberg/Silverman 2006). Dennoch ist auch dort das Paradigma der KNN gegenüber symbolverarbeitenden Ansätzen der KI tendenziell vernachlässigt worden. Innerhalb des Faches Medienwissenschaft sind bis dato in erster Linie die historischen Anfänge der KI als Beitrag zur Entstehung moderner Computer und im Kontext der Kybernetik genealogisch rekonstruiert worden (vgl. Pias 2004) bzw. wurde das Denken von Maschinenintelligenz etwa mit Blick auf Turing und Babbage archäologisch aufgearbeitet (u.a. Kittler/Dotzler 1987, Kittler 1989, Dotzler, 1989, Dotzler 2006). So hat u.a. Friedrich Kittler anhand von Alan Turing und dessen Enigma-Entschlüsselung Kriegsgeschichte als Mediengeschichte profiliert und die Rolle von KI-Technologien im Zweiten Weltkrieg beleuchtet ([1989] 2013). In seinem Beitrag stellt Kittler vor allem die Kontinuität der KI heraus. Moderne Computer, so Kittler, basieren im Kern auf der KI der Universalen Diskreten Maschine, wie Turing sie bereits 1936/1937 beschrieben hat. »Künstliche Intelligenzen von heute laufen schneller, paralleler, nur nicht prinzipiell anders. Mit der Universalen Diskreten Maschine ist das Mediensystem geschlossen. Speicher- und Übertragungsmedien gehen beide in einer Prinzipschaltung auf, die alle anderen Informationsmaschinen simulieren kann, einfach weil sie in jeder einzelnen Programmschleife speichert, überträgt und berechnet.« (Kittler 1989] 2013: 243-44). Kittlers Text stellt
Einleitung
einen grundlegenden Beitrag zur medienwissenschaftlichen Bearbeitung der KI dar. Dennoch müssen seine Ausführungen zur prinzipiellen Kontinuität der KI mit Blick auf das Paradigma der KNN mindestens relativiert, wenn nicht korrigiert werden (vgl. dazu ausführlich mein Beitrag in diesem Band). Eine weitere zentrale Referenz für die medienwissenschaftliche KI-Forschung hat Bernhard J. Dotzler mit dem ersten Band seiner bis dato dreiteiligen Werkreihe Diskurs und Medium (2006) vorgelegt und darin die kybernetischen Grundlagen der gegenwärtigen Computerkultur und der KI u.a. anhand von Turing, Babbage sowie Hollerith medienarchäologisch rekonstruiert. Dotzlers Einsatz wird dabei durch den Anspruch markiert, »die technischen Medien jenseits des Diskurses als (verkörpertes) Wissen zu analysieren« und die Materialität des Diskurses mit der Materialität technischer Medien zu konfrontieren (ebd. 8). Auch wenn Dotzler in dieser Publikation noch keine medienarchäologische Untersuchung von DL-/ML-Verfahren vornimmt, ist sein Vorschlag einer »historischen Techno-Logie« für die Untersuchung moderner KI-Technologien allein insofern relevant, als dieser exemplarisch aufzeigt, wie das Zusammenspiel von Diskursen und technischen Medien auch in Bezug auf die maschinellen Lernverfahren des DL erforscht werden kann. Jenseits von KI-/ML-Verfahren stellt die Auseinandersetzung mit Algorithmen generell einen Weg der Forschung dar, der in der Medienwissenschaft bislang wenig erschlossen wurde. Dennoch sind schon seit Ende der 1990er Jahre eine ganze Reihe Studien vorgelegt worden, die für eine nähere medienwissenschaftliche Beschäftigung mit der algorithmischen Kultur im Allgemeinen wichtige Anschlüsse liefern. Man denke exemplarisch an Alexander Galloways Studie Protocol (2004) und seine theoriehistorischen Arbeiten zu Netzwerken (mit Thacker 2007) sowie an zahlreiche weiteren Arbeiten, die im Bereich der sogenannten Critical Code Studies entstanden sind (u.a. Hayles 1999, Kirschenbaum 2008, Wadrip-Fruin 2009, Reichert 2014). Ein wesentlicher Antrieb und Effekt der KI-Forschung, seit ihren Anfängen in der Kybernetik (vgl. Pias 2003, 2004), war die zunehmende Automatisierung von Aufgaben. Im Rahmen der bereits skizzierten dystopischen Szenarien einer zukünftigen KI, und mit Blick auf die vermeintliche Selbstständigkeit gegenwärtiger ML-/DL-Verfahren, wird über die Frage der Automatisierung hinaus ein Aspekt aufgerufen, mit dem sich die Medienwissenschaft, insbesondere an der Universität Paderborn, in den letzten Jahren intensiv beschäftigt hat: die Frage von Automatismen (u.a. Bublitz et al. 2011). Mit dem Begriff der Automatismen sind gemäß des Basisverständnisses des gleichnamigen Paderborner Graduiertenkollegs im weitesten Sinne sich wiederholende Abläufe und Kulturtechniken gemeint, die einer bewussten Kontrolle bzw. Steuerung weitgehend entzogen sind, sei es in Bezug auf kollektive oder individuelle menschliche Handlungen, sei es als informationstechnischer Prozess oder überhaupt als prozeduraler Effekt der Dynamik von Kultur und Medien
15
16
Machine Learning
(s. dazu, als Publikation des Kollegs u.a. Eke et al. 2014). Ein Grundgedanke des Graduiertenkollegs lautet, dass eine wesentliche Funktion oder Leistung von Automatismen als Kulturtechnik in der Reduktion von Komplexität besteht (ebd.). Hieran anknüpfend könnte z.B. erstens danach gefragt werden, inwieweit auch die DL-Verfahren nicht bloß als kontrollierbare automatische Technik zu begreifen sind, sondern sie auch mit Automatismen operieren bzw. von ihnen abhängig sind. Zweitens ist der Aspekt der Komplexitätsreduktion im Fall von ML auch losgelöst von der Perspektive auf Automatismen zentral, angefangen bei dem Aspekt, dass KNN ein sehr simplifiziertes Simulationsmodell des biologischen Gehirns darstellen. Jutta Weber (2011) hat betont, dass ein zentrales Merkmal neuer Technowissenschaften (z.B. der Robotik oder Neuroinformatik) darin bestünde, »dass sie nicht primär auf die Kontrolle der Naturprozesse durch die Erschaffung zweiter (oder dritter) Natur zielen, sondern dass sie auf Konvertierung, Perfektionierung und letztlich ›Optimierung‹ der Natur setzen« (94). Letztere These müsste auch noch einmal in Bezug auf die gegenwärtige DL-/ML-Forschung genauer geprüft werden. Einerseits verhält es sich in dieser Hinsicht so, dass sich künstlichen neuronale Netzwerke nur vage an ihrem natürlichen Modell orientieren, gleichzeitig existiert allerdings die Hoffnung, dass Ansätze wie DL/KNN eben auch neue Erkenntnisse über die Funktionsweise tierischer und/oder menschlicher Gehirne ermöglichen. In jedem Fall sind DL-/KNNVerfahren hinsichtlich ihrer basalen Operationen als Prozesse der Optimierung und Perfektionierung beschreibbar (vgl. dazu auch Schröter et al. in diesem Band). Ende der 1990er Jahre hat Sybille Krämer die These vertreten, dass der Computer immer weniger als Instrument der »Intelligenzverstärkung« und zunehmend als Medium der Kommunikation reflektiert wird (Krämer 1998). Angesichts der aktuellen Konjunktur der KI wird sich vermutlich auch die Art und Weise der wissenschaftlichen Betrachtung erneut verschieben. Bereits dem vorliegenden Band ist ablesbar, dass der Computer neuerlich verstärkt als Medium der Ermöglichung und Erweiterung von Intelligenz reflektiert wird. Zugleich bleibt die Frage der Kommunikation im Kontext der Smartness unserer alltäglichen Computersysteme (Tablet, Mac, Smartphone oder PC) offenkundig äußerst relevant. Man denke hier an sogenannte persönliche Assistenten wie Siri und Alexa oder eben Chatbots wie Microsoft Tay, anhand derer Experten wie Laien aus naheliegenden Gründen leidenschaftlich über die Grenzen und Möglichkeiten gegenwärtiger oder zukünftiger KI diskutieren. Immerhin erinnern beide Anwendungsformen an den klassischen Turing-Test, mit dem wichtigen Unterschied, dass hier in beiden Fällen die maschinelle Existenz den Usern bekannt ist.
Einleitung
Im Zuge des gegenwärtigen KI-Booms geht es jedoch nicht allein um den Computer als Medium, sondern ganz grundsätzlich um die Beziehungen von Menschen und Technologien. Allemal bemerkenswert scheint, dass die gegenwärtige Rede über KI-basierte Prozesse der technischen Automatisierung ausgerechnet in eine Zeit fällt, in der die Medien- und Kulturwissenschaft sowohl die Autonomie der Technik als auch die des Menschen fundamental infrage gestellt hat und stattdessen über die Bedeutung von Netzwerken, Interfaces oder medialen Umgebungen nachdenkt (vgl. dazu auch den Beitrag von Christoph Ernst et al. in diesem Band). Aspekte der Konnektivität und der Vernetzung drängen sich zur Reflexion offenkundig besonders dort auf, wo sie bereits im Namen der KI-Verfahren enthalten sind. Aber auch die konkreten Praktiken im Zusammenhang mit Programmbibliotheken wie TensorFlow oder Crowd-Worker-Plattformen wie Amazon Mechanical Turk führen nachdrücklich vor Augen, dass die Infrastrukturen gegenwärtiger KI-Technologien eben keine in sich geschlossenen technischen Systeme sind, sondern offene Netzwerke, die global unterschiedlich verteilt sind und so ihre Wirksamkeit entfalten. Gleichzeitig werden die Möglichkeitsbedingungen maschineller Lerntechnologien eben auch nicht unwesentlich durch die Bedingungen eines neoliberalen Kapitalismus formiert. In diesem Kontext scheinen insbesondere KNN einerseits geeignet, um als Macht- bzw. Überwachungstechnologien einer traditionellen Disziplinargesellschaften zu fungieren, andererseits befördern sie auch jene Praktiken und Erscheinungsformen, die Deleuze als Kennzeichen der modernen Kontrollgesellschaften hervorgehoben hat, indem sie bloß dem Schein nach neue Spielräume einer flexiblen Selbstkontrolle und Selbsteinpassung in das gesellschaftliche Leben schaffen. Man denke nur an die Praktiken der Selbstverdatung, wie sie von Milliarden bzw. Millionen von Nutzer_innen tagtäglich auf den Plattformen sozialer Medien wie Facebook stattfinden. Irgendwann wird man vielleicht darüber staunen, dass Konzerne wie Google, Amazon oder Facebook bereits Big-Data-Riesen waren, bevor sie von avancierten maschinellen Lernalgorithmen wie KNN Gebrauch machten, gerade wenn man sich vergegenwärtigt, dass die die Geschichte des Machine Learning eben weitaus älter ist als die großen Repräsentanten des Internetzeitalters. Historische Abhandlungen zum Machine Learning gibt es nach wie vor kaum, erst recht nicht aus einer medienhistorischen Perspektive. Und tatsächlich ist ein solches historiographisches Projekt eine nicht unbeträchtliche Herausforderung, gerade wenn man Verfahren des ML im Kontext der übergeordneten Geschichte der KI stellt.
17
18
Machine Learning
Mediengenese und -genealogien des maschinellen Lernens und der Künstlichen Neuronalen Netzwerke Immerhin beginnt, wie u.a. Pamela McCorduck (2004 [1979]) gezeigt hat, die Vorgeschichte der KI und damit auch der maschinellen Lernverfahren bereits in der Antike. Zu denken wäre an die Mythen artifizieller Wesen, seien es die mechanischen goldenen Dienerinnen von Hephaistos, dem Gott des Feuers und des Handwerks in der griechischen Mythologie, oder Pygmalions Galatea. Seitdem hat sich die Vorstellung artifizieller Wesen mal mehr, mal weniger sichtbar in die kulturellen Erzählungen und Bilder der westlichen Welt eingeschrieben. Indes sind all diese frühen Vorstellungen weit entfernt von dem, was man im 20. Jahrhundert als KI diskutieren wird: Spätestens ab Anfang/Mitte des 18. Jahrhunderts transformiert sich das Maschinendenken zunehmend von einem Projekt der Fiction in ein Projekt der Science. So begreift etwa der Mediziner, Philosoph und Naturforscher La Mettrie in seiner Schrift mit dem programmatischen Titel L’Homme Machine (2001 [1747]) den Menschen erstmals umfassend als Maschine und fordert damit das Weltbild seiner Zeit heraus. Aber auch die junge Ingenieurskunst des 18. Jahrhunderts, man denke exemplarisch an die Arbeiten von Jacque de Vaucanson, ist von automatischen Maschinen fasziniert. Mit der Heraufkunft des modernen Digitalcomputers änderte sich das Konzept der Maschine allerdings nochmals grundlegend. Statt dass Maschinen lediglich eine oder wenige Aufgaben ausüben können, funktioniert der Computer als programmierbare »Universalmaschine« für variable Anforderungen (s. Turing 1936/1937). Entsprechend stehen 200 Jahre nach La Mettrie theoretische Überlegungen zur Mensch-Maschine-Relation unter diesen neuen Vorzeichen, was sich insbesondere in jenem Denken äußert, das ab 1946 im Rahmen der sogenannten Macy-Konferenzen zum Gegenstand eines Dialogs unterschiedlicher Disziplinen und bald unter dem Namen Kybernetik firmieren wird. Die Kybernetik markiert jedoch nicht bloß einen epistemischen Bruch, indem sie die anthropologische Differenz von Mensch und Maschine infrage stellt. Vielmehr steht sie für den Beginn eines Forschungsprogramms, das zehn Jahre später im Umfeld der berühmten Dartmouth Conference, geprägt durch J. McCarthy, »Artificial Intelligence« heißen wird und zwar in Bezug auf beide der zentralen KI-Paradigmen: Symbolische KI auf der einen und Simulation von KNNs auf der anderen Seite (s. McCarthy/Rochester/Shannon 2006 [1955]); oder in den Worten von Hubert L. und Stuart E. Dreyfus (1988): »making a mind« versus »modelling the brain«. Im Rahmen der vorliegenden Publikation wird es schwerpunktmäßig um eine Auseinandersetzung mit dem letztgenannten Paradigma gehen. Dabei
Einleitung
soll versucht werden, die Engführungen und Tautologien der bisherigen Debatte zur Mensch-Maschine-Differenz zu vermeiden (zu den Gründen s.u.a. Dotzler 1989: 130). Entsprechend geht es im vorliegenden Band in erster Linie darum, die existierenden Praktiken des maschinellen Lernens gleichsam als für sich stehend zu begreifen sowie ihre medialen Voraussetzungen und Umgebungen theoretisch-historisch angemessen zu beschreiben. Die technologischen Differenz zwischen ML-Verfahren zu anderen Ansätzen der KI, die etwa klassisch auf Programmierung (Symbolverarbeitung) setzen (s. dazu Amir 2014), stehen dabei nicht im Zentrum der Beschäftigung, sind jedoch grundsätzlich von Bedeutung, um die Spezifik von ML-/KNN-Verfahren angemessen darstellen zu können. Die vorliegende Publikation ist nicht zuletzt auch daran interessiert, in ersten Ansätzen die verschiedenen historischen Epistemologien des Lernens zu erschließen, die durch das DL-/KNN-Paradigma und seine Forschungen aufgerufen werden. So stellt die Auseinandersetzung mit Lernmodellen, -strategien, -bedingungen und -umgebungen unterschiedlicher Disziplinen (Pädagogik, Didaktik, Psychologie etc.) eine wichtige Aufgabe dar, um den Zusammenhang unterschiedlicher Wissensformen als mediale Voraussetzung von ML-/ DL-Verfahren angemessen zu erschließen. Im Zentrum steht dabei, welches (historische) Wissen über das Lernen außerhalb der Informatik Ansätze der DL-Forschung informiert (hat) und welches nicht. Vor allem drei Ansätze oder Paradigmen von Lerntheorien haben in den Sozial-, Kultur- und Geisteswissenschaften die wissenschaftliche Diskussion grundlegend bestimmt und sind deshalb auch für die Rezeption durch die ML-/DL-Forschung bedeutsam: der Behaviorismus, der Kognitivismus und der Konstruktivismus. Zum Beispiel verweisen die ML-/DL-Verfahren des sogenannten Reinforcement Learnings auf psychologische Experimente des Behaviourismus, wie sie seit Pavlov und Thorndike durchgeführt wurden. In der aktuellen Fachliteratur zu ML-/ DL-Verfahren, d.h. auf dem Gebiet der Informatik, sind allerdings explizite Bezüge zur Lernforschung anderer Disziplinen (Psychologie, Pädagogik etc.) grundsätzlich eher selten (vgl. Schmidhuber 2015). Domingos (2015) nennt in seinem Buch zumindest The Scientist in the Crib von Gopnik, Meltzhoff und Kuhl (1999) als Zusammenfassung psychologischer Erkenntnisse der Kognitionswissenschaft, wie Kinder und Babys lernen. Umfangreicher sind Verweise auf psychologische Modelle in der ›historischen‹ Fachliteratur zu KNN-Verfahren (vgl. u.a. McClelland/Rumelhart 1986). Die Fokussierung auf Lernkonzepte jenseits der Informatik ist aber auch deshalb relevant, weil sich zahlreiche pädagogische, psychologische oder didaktische Studien – wie die KNN-Forschung selbst – immer wieder an den Erkenntnissen der Gehirnforschung ausrichten. So ist z.B. die sogenannte Neurodidaktik darum bemüht, Vorschläge für ein »gehirngerechtes Lehren und Lernen« zu unterbreiten (Herrmann 2006; vgl. u.a. auch Grzesik 2002).
19
20
Machine Learning
Für die historische Epistemologie maschinellen Lernens sind derartige Formen zirkulärer Referenz und ihre Effekte kritisch zu befragen, nicht zuletzt mit Blick auf die Evaluation von Lernregimen (vgl. Tuschling 2009). Zudem nehmen zahlreiche Lerntheorien der Pädagogik, Didaktik und Psychologie ihrerseits regelmäßig auf Computer oder Maschinen Bezug: entweder als Entitäten, die den Menschen beim Lernen unterstützend umgeben (z.B. Krause 2007, Terhart 2009), zur Kennzeichnung regelbasierter Lernstrategien (Funke/Zumbach 2006) oder zur Beschreibung menschlicher Prozesse der Informationsverarbeitung und -speicherung (u.a. Craik/Lockhart 1972). Zu erwarten ist, dass die Lerntheorien der Zukunft wesentlich stärker auf Ansätze des Machine Learning und der KNN zurückgreifen werden. Jedenfalls scheint es kaum abwegig, dass in nicht allzu ferner Zukunft im Klassenzimmer oder im Seminarraum immer mehr mit Hilfe maschineller Lernverfahren gelernt und geforscht wird. Zur (historischen) Epistemologie menschlichen und maschinellen Lernens gehört in jedem Fall nicht bloß die Frage nach dem Lernen selbst, sondern ebenso die nach dem Lernen des Lernens und seinen Bedingungen. Letzteres betrifft insbesondere das Verhältnis des Zusammenspiels von menschlichen und nicht-menschlichen Akteuren, die das Lernen und seine Vermittlung ermöglichen (z.B. Metzig/Schuster 2006), die Rolle von Lernstrategien sowie überhaupt die Rolle von Lernumgebungen, d.h. die (mediale) Situierung des Lernens. In dieser Hinsicht lohnt es sich hervorzuheben, dass erst seit gut drei Jahren damit begonnen wurde, Roboter nennenswert mit der Technologie der KNN zu verschalten. Mit dem Einsatz mobiler Roboter werden die Möglichkeiten von KI-Systemen, ihre Umwelt wahrzunehmen, jedenfalls drastisch erweitert. Inzwischen hat z.B. die Firma Boston Dynamics eine Generation mobiler Roboter präsentiert, die, über visuelle Sensoren vermittelt, in der Lage sind, selbständig Türen zu öffnen. Das ist jedoch erst der Anfang. Die eigentliche Herausforderung besteht darin, dass Roboter bestimmte Lernherausforderungen nicht nur über ihr visuelles System, sondern durch ihre eigenen Handlungen und Bewegungen erlernen. Vor dem Hintergrund, dass derzeit vor allem KNN unter den Technologien des maschinellen Lernens herausragen, überrascht es nicht, dass auch die Beiträge des vorliegenden Bandes in erster Linie auf diesen Ansatz Bezug nehmen. Und folglich scheint es auch im Rahmen dieser Einleitung sinnvoll zu sein, zumindest grob einige Aspekte zur Geschichte der KNN zu entfalten. Erfreulicherweise existieren längst einige historische Studien, an die man in dieser Hinsicht anschließen kann. Zum Beispiel könnte man hier auf die lange Geschichte der Hirnforschung verweisen, wie sie nicht zuletzt wissenschaftshistorisch vor allem mit Blick auf Entwicklungen seit dem 18. Jahrhundert untersucht worden ist (vgl. u.a.
Einleitung
Borck 2013, Schmidgen 2014). Erste Konzepte zur konnektionistischen Funktionsweise des Gehirns wurden bereits im 19. Jahrhundert von Alexander Bain [1873] und David Ferrier [1876] entwickelt. Ferner kann man die Geschichte der KNN zur Emergenz statistischer Verfahren und des Wahrscheinlichkeitsdenkens in Beziehung setzen (vgl. Hacking 1975, Porter 1986). Jenseits dieser historischen Pfade spricht einiges dafür, Alan Turing nicht nur als Begründer der KI-Forschung im Allgemeinen zu begreifen, sondern – neben McCulloch/Pitts – als Vordenker des ML im Sinne der Simulation von KNN. Mit seinem Beitrag »Computing Machinery and Intelligence« für die Zeitschrift Mind hat Turing 1950 einen der bekanntesten Grundlagentexte zur Frage der Entwicklung denkender Maschinen vorgelegt. In dem spekulativen Beitrag vermeidet Turing das definitorische Problem, was in Bezug auf die Beziehung von Mensch und Maschine Denken heißt, zugunsten eines Gedankenexperiments, das später als Turing-Test berühmt wurde: Sollte eine Maschine in der Lage sein, über einen gewissen Zeitraum und vermittelt z.B. über einen Teleprinter eine Konversation zu führen, die man nicht von einem Gespräch mit einem Menschen unterscheiden kann, könnte man, so Turing, vernünftigerweise behaupten, dass die Maschine in gewisser Weise zur Denkleistung befähigt ist (zur Kritik am Turing-Test vgl. u.a. Searle 1980). Für die Ausführungen dieses Projekts sind Turings Überlegungen vor allem deshalb wichtig, weil er sich auch der Frage der Lernfähigkeit von Maschinen zuwendet und vorschlägt, dass ML sich sinnvollerweise an dem Modell des kindlichen Lernens orientieren solle, eine Perspektive, die für nachfolgende Paradigmen des Machine Learning von entscheidender Relevanz sein wird. Doch schon vor diesem berühmten Text hat Turing in einem (zunächst) unveröffentlichten Bericht aus dem Jahr 1948 mit dem Titel »Intelligent Machinery« bereits ein Konzept erarbeitet, Computer herzustellen, die aus trainierbaren Netzwerken Neuronen-artiger Elemente bestehen (Turing 1969 [1948], Teuscher 2001). Da Turings Berichts erstmals 1969 publiziert wurde, hat er den frühen Konnektionismus kaum beeinflusst, was jedoch nichts an der historischen Bedeutung seiner Überlegungen ändert. Für das KI-Paradigma der Simulation von KNN sind bis Ende der 1980er Jahre stattdessen folgende Publikationen bzw. technische Entwicklungen wirkungsmächtig: Zuvorderst ist hier die bereits erwähnte Arbeit von McCulloch/ Pitts (1943) zu erwähnen, die jedoch noch kein Konzept zu einem Lernalgorithmus enthielt. Die Basis eines solchen Lernalgorithmus lieferten vor allem die Forschungen des kanadischen Psychologen Donald O. Hebb, der 1949 in seinem Buch The Organization of Behavior die neurologischen Fundamente des Lernens darlegte und beschrieb, wie Neuronen sich in Abhängigkeit von Erfahrung physiologisch transformieren (2002 [1949]: 62). Seine Idee, dass eine Verbindung zwischen Neuronen gestärkt wird, wenn irgendein In-Output-Paar ebenfalls ›feuert‹, stellt eine grundlegende Einsicht dar, die seit den
21
22
Machine Learning
Anfängen der KNN-Simulationen bis heute von Bedeutung ist. So liefert die Hebbsche Lernregel eine Methode, wie man die Gewichtung zwischen künstlichen Neuronen anpassen kann. Die Arbeiten von McCulloch/Pitts und Hebb führten bald zur Entwicklung erster KNN, die über Lernalgorithmen verfügten. Bereits 1951 baute Marvin Minsky mit seinem Kollegen Dean Edmonds den vermutlich ersten lernfähigen Neuronencomputer, der den Namen SNARC (Stochastic Neural-Analog Reinforcment Computer) trug, allerdings ausschließlich dafür konzipiert war, dass eine simulierte Ratte den Weg aus einem Labyrinth findet. Ein deutlich komplexeres KNN mit Lernfähigkeit wurde Ende der 1950er Jahre u.a. von Frank Rosenblatt am MIT in Form des sogenannten Perzeptron-Modells realisiert und unter dem Namen »Mark 1 Perceptron« auch hardware-mäßig implementiert. Dieser Neuronencomputer konnte bereits für erste Aufgaben der Muster- bzw. Bilderkennung eingesetzt werden. Im Gegensatz zu heutigen DL-Verfahren war bei Rosenblatts Modell jedoch jeweils nur die Input/Output-Schicht des Netzwerkes trainierbar. Diese Beschränkung in der Schichtenarchitektur war durchaus gravierend. 1969 nahmen Minsky/Papert eine mathematische Untersuchung des Perzeptrons vor und legten dar, dass zentrale Aufgaben der Wissensrepräsentation und Klassifizierung mit Hilfe von Rosenblatts Modell (vermeintlich) nicht gelöst werden konnten (z.B. die sogenannte XOR-Funktion). Konsequenz dieser Studie war, dass über eine längere Periode für Arbeiten im Bereich der KNN keine Gelder mehr bewilligt wurden und zahlreiche Wissenschaftler sich von diesem KI-Paradigma abwandten. Dennoch kam die Forschung zur Simulation von KNNs während der 1970er Jahre nicht vollständig zum Erliegen (vgl. dazu Schmidhuber 2015: 90). Ein wesentlicher Fortschritt in der Entwicklung der Lernfähigkeit von KNN gelang schließlich in den 1980er Jahren mit der Etablierung des Backpropagation-Verfahrens, das im Unterschied zum Perzeptron-Modell Rosenblatts das Training mehrschichtiger, wenn auch vorläufig nur flacher Netzwerke ermöglicht. Verschiedene historische Pfade haben bei der Entwicklung der Backpropagation eine Rolle gespielt (vgl. oben). Grundlagen des Verfahrens wurden u.a. bereits in der sogenannten control theory von Kelley sowie von Bryson (1961) entwickelt. Dreyfus (1973) hatte in der Folge die Backpropagation eingesetzt, um Kostenfunktionen durch die Adaption von Kontrollparametern (Gewichten) zu minimieren, während Werbos bereits 1974 die Möglichkeit diskutiert, dieses Prinzip auf KNN zu übertragen. 1982 wendet Werbos dann Linnainmaas (1970) Methode der sogenannten automatischen Differenzierung auf KNN an. 1986 konnten wiederum Rumelhart/Hinton/ Williams zeigen, dass die besagte Methode auch geeignet ist, um mehrschichtige KNN so zu trainieren, dass sie selbst derart komplexe Lernaufgaben bewältigen können, wie Minsky/Papert sie noch Ende der 1960er Jahre für unmöglich hielten (vgl. Schmidhuber 2015). Die Forschung im Bereich KNN hat sich
Einleitung
seit Ende der 1980er in den verschiedenen Anwendungsgebieten (NLP, Bilderkennung etc.) stark ausdifferenziert. Nach ersten Erfolgen, die dem Backprop-Lernalgorithmus zu verdanken waren, kam die Weiterentwicklung der KNNs während der 1990er Jahre bis in die 2000er Jahre vorläufig wieder ins Stocken. Vor 2006 scheiterten Versuche, komplexere bzw. tiefere Netzarchitekturen (mit mehr als zwei Schichten) erfolgreich zu trainieren. ML mit der Backpropagation war jedoch noch immer zu langsam. Das änderte sich erst mit der Arbeit von u.a. Hinton zu den sogenannten Deep Belief Networks (vgl. u.a. Hinton/Osindero/Teh 2006), auch wenn dort die Backpropagation nur zum Teil eingesetzt wurde. Der entscheidende Durchbruch der KNN erfolgte jedoch erst 2012 mit dem Beitrag von Krizhevsky/Sutskever/Hinton beim sogennanten ImageNet-Wettbewerb. So ist es dem Team der Universität Toronto um DL-Pionier Geoffrey Hinton gelungen, die Fehlerrate bisheriger Ansätze im Bereich Computer Vision deutlich zu reduzieren. Ein entscheidender Faktor für den damaligen Erfolg war, dass zum Training nicht nur ein sogenanntes Convolutional Neuronal Networks (CNN), eine auf Bildinput angepasste Architekturvariante herkömmlicher KNNs zum Einsatz kam, sondern dass zum Training erstmals schnelle, parallel organisierte GPU-Prozessoren eingesetzt wurden (Sudmann 2016). Die Forschungsleistungen im Bereich KNN sind bis heute zudem ein wichtiger Referenzpunkt für die Konzeption sogenannter nichtklassischer, z.B. sogenannter neuromorpher Computer, die eine Abkehr vom bisherigen Digitalcomputer nach der Von-Neumann-Architektur bedeuten und von denen man sich ebenfalls verspricht, dass sie die Funktionsweise des menschlichen Gehirns besser zu verstehen helfen und sich unter Umständen vielleicht sogar selbst programmieren können (vgl. Beitrag von Sudmann, vgl. dazu u.a. auch DeepMinds Arbeiten zur sogenannten »Neural Turing Machine« u.a. Aron 2014). Inwieweit KNN auch in Zukunft das Feld des maschinellen Lernens dominieren werden, bleibt abzuwarten. Vorerst scheint jedenfalls ihre Vorherrschaft gesichert zu sein. Dennoch haben wir uns als Herausgeber bewusst entschieden, den Fokus nicht allein auf die Medien, Infrastrukturen und Technologien der KNN zu beschränken, sondern uns ebenso mit der Frage des maschinellen Lernens allgemein zu beschäftigen.
23
24
Machine Learning
Z ur S truk tur des B andes Andreas Sudmann und Christoph Engemann Der vorliegende Band gliedert sich in insgesamt fünf Rubriken, welche – nicht immer ganz trennscharf – die hier versammelten theoretisch-historischen Zugriffe auf die Medien, Instratrukturen und Technologien maschineller Lernverfahren gliedern. Die erste Gruppe der Beiträge lässt sich unter der Rubrik »Epistemologien und Genealogien des maschinellen Lernens« zusammenfassen. Ihr erster Beitrag, verfasst von Bernhard Dotzler, zieht in Zweifel, inwiefern die mit dem Machine Learning einhergehende Rhetorik einer epistemisch-technischen Zäsur gerechtfertigt ist. Mit Verweis auf die von Alan Turing beschriebenen, nicht weiter zerlegbaren Grundoperationen der »machine computability«, argumentiert er, dass diese bis heute Basis jeglicher Künstlicher Intelligenz sei. Das gelte auch und gerade für das Machine Learning, das immer noch auf dieser ›kleinen Intelligenz‹ beruhe, diese aber vor dem Hintergrund heutiger Miniaturisierungmöglichkeiten lediglich mit ungeahnter Komplexität verschalte. Eine (medien-)wissenschaftliche Forschung zur künstlichen Intelligenz ist damit auf die Notwendigkeit verwiesen, sich die materiellen Grundlagen dieser Techniken intelligibel zu machen. Sie ist aber auch angehalten, den empathischen Aufladungen von Begriffen wie Intelligenz, neuronalen Netzen und Lernen, mit skeptischen Verweisen auf die technischen Anordnungen und Grundlagen zu begegnen. An diese Debatte anknüpfend und tendenziell eine Gegenposition beziehend, stellt Andreas Sudmann die Grundlagen künstlicher neuronaler Netzwerke in ihrer historischen Entwicklung und aktuellen Fortentwicklung dar. Die Revolutionsrhetorik des Machine-Learning-Diskurses aufnehmend, erweitert er auf dieser Basis die Fragestellung nach dem Verhältnis von Medien und Revolutionen und zeigt, dass gängige Mediengeschichtsschreibungen des Computers hier revisionsbedürftig werden. Denn die Funktionsweise künstlicher neuronaler Netzwerke gehorcht – und zwar selbst dort, wo sie auf digitalen Rechnern implementiert werden – eher analogen Prinzipien. Zudem verdankt sich auch der jüngere Erfolg der KNN ihrer Anwendung auf parallelen GPUProzessoren, deren Operationsweise ebenfalls zur Funktionsweise klassischer Digitalrechner gemäß der seriell organisierten Von-Neumann-Architektur quer steht. Damit eröffnet sich auch die Frage, ob das maschinelle Lernen des DL weniger als digitale, sondern als buchstäblich postdigitale Informationstechnologie verstanden werden muss. Das Maschinen und Lernen bereits lange vor der aktuellen Konjunktur eine enge Beziehung aufwiesen, verdeutlicht Herman Rotermund in seinem Beitrag. Anhand der von Charles Babbage bereits in der ersten Hälfte des 19.
Einleitung
Jahrhunderts entwickelten Mechanical Notation, zeigt er, dass mit der industriellen Revolution und ihrer Proliferation von Maschinen, das Problem ihrer Vereinheitlichung kritisch wurde. Rotermund legt dabei nahe, dass die mit der Mechanical Notation beabsichtigte Standardisierung ebenso sehr dem Versuch geschuldet ist, Maschinensysteme in eine semiotische und damit letztlich programmierbare Form zu überführen, wie der Notwendigkeit, das Führen von Maschinen für Vorarbeiter erlernbar zu machen. Rotermund sieht die Mechanical Notation als frühe Form einer Hardware Description Language, jedoch mit dem universellen Anspruch verbunden, Aufgaben des Industrial Design zu lösen, die aufgrund ihrer Komplexität von Menschen allein nicht bewältigt werden können. Auf diese Weise eröffnet Rotermund eine Diskussion über die historische Genese des maschinellen Lernens als industrielle Prozesse der engen Verschränkung semiotischer Systeme und maschineller Konstruktionen. Eine kritische Reflexion der Epistemologien maschineller Lernverfahren ist Gegenstand des Beitrags von Luciana Parisi. Zu den Feinheiten maschinellen Lernens gehört ihrer Ansicht nach, dass in sie die historische Artikulation der Spannung zwischen Information und Energie, Muster und Zufälligkeit, Signal und Rauschen, logischen Prozeduren und Unberechenbarkeiten eingeschrieben ist. Dabei wendet sich Parisi den Kontextualitäts- und Temporalitätskonstruktionen maschineller Lernverfahren zu. Zum einen, so ihre Argumentation, markiert der Übergang vom Programmieren zum Lernen die Abwertung deduktiver zugunsten von induktiver und abduktiver Verfahren. Implizit ist damit jedoch das Verhältnis von Vergangenheit, Gegenwart und Zukunft modifiziert, denn während beim deduktiv orientierten Programmieren die Vergangenheit die Zukunft informiert, evoluiert bei der Induktion und Abduktion die Vergangenheit von der Zukunft her. Zum anderen ziele das Machine Learning auf die Extraktion von Bedeutungen ab und erschüttere damit das informationstheoretische Paradigma der Trennbarkeit von Information und Sinn. Da aber Bedeutungen soziale Konstrukte sind, sie zudem die Orientierung in Vergangenheit, Gegenwart und Zukunft organisieren und jetzt alltäglich zugleich Input- wie Output von Machine Learning Verfahren werden, gilt es zu erschließen, welche Epistemologien oder gar Ontologien des Denkens in diesem techno-sozialen Ensemble des Machine Learning entstehen. Im Rahmen ihres Ausblicks erhofft sie, mit der Erforschung des Status des Lernens in rezenten Formen algorithmischer Intelligenz, einen Ausgangspunkt einer Auto-Kritik (auto-critique) der Instrumentalität gewinnen zu können. Die zweite Sektion des Buches widmet sich den historischen Imaginationen und Diskursformationen zu (autonomen) Lernmaschinen. In einer breiten historischen Analyse widmet sich Stefan Riegers Beitrag den diskursiven Auseinandersetzungen mit dem Maschinellen. Wie Rieger zeigt, führt deren historisch keineswegs immer gleichermaßen negativ besetzte Semantik spätestens seit der Goethezeit zur dominanten Mechanophobie. Besonders anfällig
25
26
Machine Learning
dafür waren Pädagogik und Ästhetik. Heutzutage werden computergenerierte Kunstwerke genauso wie maschinelle Lehr- und Lernverfahren zu einem Brennpunkt ideologischer Auseinandersetzungen. Ob ihrer argumentativen Ungeschütztheit und ungefilterten Vehemenz, so Rieger, scheinen diese besonders geeignet, die sowohl untergründigen wie manifesten Vorbehalte gegenüber dem bloß Mechanischen dingfest zu machen. Jeremias Herbergs Beitrag kritisiert und historisiert eine kybernetische Kontrollvorstellung in der Bildungspolitik: In einer diachronischen Perspektivierung der aktuellen Rede des maschinellen Lernens geht er der Wirkungsgeschichte kybernetischer Konzepte in der amerikanischen Bildungspolitik der sechziger Jahre nach. Im Anschluss an kybernetische Modelle zeigt er, wie Schulen und andere Bildungseinrichtungen als Umgebungen modelliert werden, die Selbststeuerungspotentiale durch spezifische Feedbackarrangements erzeugen sollen. Der gemeinsame Beitrag von Thomas Christian Bächle, Christoph Ernst, Jens Schröter und Caja Thimm untersucht schließlich das maschinelle Lernen im Zusammenhang bzw. als Voraussetzung der Zuschreibung von Autononomie an Computersystemen. Die Autoren gehen von der Beobachtung aus, dass die Wissensproduktion maschineller Lernprozesse sowie korrespondierende Prozesse der Automatisierung eng an das Vorhandensein eines historisch beispiellosen Datenreichtum gebunden ist. Gleichzeitig betonen sie die BottomUp-Struktur maschineller Lernprozesse, die scheinbar eine (von Menschen) vorgegebene Wissens- oder Orientierungsordnung obsolet macht. Wie im Beitrag argumentiert wird, beruhen jedoch viele der Annahmen über die Autonomie selbstlernender Systeme auf Kategorienfehlern und tradierten Zuschreibungen an ›künstliche Intelligenzen‹, wodurch insbesondere die spezifische Rolle von Medientechnologien bei der Konzeption von Wahrnehmungs- und Bewusstseinsprozessen nur unzureichend berücksichtigt wird. Am Beispiel des sogenannten Differentiable Neural Computer (DNC) von Alphabet zeigt sich dieser Umstand in einem bisher nicht aufgelösten Widerspruch: Einerseits wird Lernen in seiner maschinellen Ausprägung auf einen instrumentellen Ansatz (als spezifisches mathematisches Problemlösungsverfahren) verengt; andererseits wird ihm jedoch das Potenzial zugeschrieben, alte Probleme der KI-Forschung lösen zu können. Das maschinelle Lernen erscheint damit als symptomatischer Fall eines reduzierten Verständnisses von Autonomie, das unter anderem eine praxeologische Verortung (z.B. praktische Kreativität in konkreten Handlungssituationen) von Lernen und Wissen vernachlässigt. Die herausragende Bedeutung von Big Data und Data Mining hat man in den Medien- und Kulturwissenschaften bereits zu einem Zeitpunkt reflektiert, als man über maschinelles Lernen noch nicht viel wusste. Insofern ist der aktuelle Boom der KI auch ein neuer Anlass, erneut über die Rolle der Daten und die mit ihnen verbunden Praxen nachzudenken, bevor, nachdem und während
Einleitung
sie von Lernalgorithmen bearbeitet werden. Genau diese Perspektive nehmen die Texte der dritten Sektion des Bandes ein. Inwieweit die im Zuge des maschinellen Lernens notwendigen Datenpraktiken naive Vorstellungen von Daten als vorfindliche Informationen konterkarieren, arbeitet Daniel Cardoso Llach in seinem Beitrag auf. Anhand eines Beispiels aus der Frühgeschichte maschineller Lernverfahren arbeitet er heraus, dass ästhetische Überlegungen und Kriterien für diese Datenpraxen charakteristisch sind. Daten werden durch stilistische und kuratorische Entscheidungen zu Daten, und es sind diese ästhetischen Eingriffe, die die darauf operierenden Machine-Learning-Verfahren in ihren Freiheitsgraden auf ein erwünschtes Ziel hin ausrichten. Llach schlägt entsprechend vor, die Fokussierung auf die Interfaces der Machine Learning-Applikationen zu erweitern und Daten selbst als Schnittstellen zu verstehen. Das gilt gerade für die Designdiskurse in der Architektur, bei denen mittels maschineller Lernverfahren Fassaden, Statiken oder andere bautechnische Elemente entwickelt werden, ohne dass der Status der in diese Projekte eingehenden Daten Gegenstand einer ausreichenden Reflexion wäre. Dem kritisch unterbestimmten Status von Daten in einem sehr viel existenzielleren Kontext geht auch Jutta Weber in ihrem Beitrag nach. Ihre Untersuchung der medialen Infrastrukturen und Datenpraxen des ›War on Terror‹ fokussieren den unsicheren und unscharfen Status der Daten, die nicht zuletzt für Tötungsentscheidungen herangezogen werden. Dabei geht es ihr aber nicht um die Skandalisierung einer mangelnden Qualität der Datenakquise und -auswahl, sondern darum, den strukturellen Status dieser Unsicherheiten herauszuarbeiten. Gerade diese Unsicherheit erweist sich als Ressource eines auf Präemption abgestellten Sicherheitsdispositivs, dessen medientechnischen Grundlagen Datenbanken und Machine Learning-Verfahren verkörpern. Maschinell berechnete, probabilistische Risiken sind, so Weber, mindestens im War on Terror politisch transformativ und müssen in ihren weiteren Implikationen kritisch beforscht werden. Dem Status der Körperlichkeit in Machine Learning-Verfahren geht Christoph Engemann anhand der Rolle und Genese von Trainingsdatensätzen bei überwachten Lernverfahren nach. Dabei wird gezeigt, dass duratierte Trainingsdatensätze eine entscheidende Vorraussetzung für funktionierende Machine Learning-Anwendungen sind, diese aber trotz Fortschritten in der Automatisierung immer noch weitgehend auf ein händisches Labeling der Daten rekurrieren (siehe auch Sudmann 2017c). Die Praxis des Labeling ist dabei ein Akt der Zuordnung von Wörtern zu Daten, denen wiederum darin ein Referent im Realen zugeschrieben wird. Engemann bezeichnet dies als Indexikalisierungsarbeit und betont den Status menschlicher Körpern in diesem Prozeß, bei dem sie zugleich als Zuordnungsinstanzen der Beziehung zwischen Daten und Dinge, wie auch als Addressaten dieser Zuordnungen fungieren. Vor die-
27
28
Machine Learning
sem Hintergrund argumentiert er, dass die Forschung zum Machine Learning von ihrem Fokus auf Algorithmen auf die Beforschung der Trainingsdatensätze und den Verfahren ihrer Verfügung und Verfertigung ausgeweitet werden müsse. Den Abschluss der Sektion über Datenpraktiken markiert der Beitrag von Lev Manovich. Letzterer schlägt den Begriff der »Media Analytics« vor, um mit ihm die von großen Plattformanbietern wie Facebook, Google und Netflix entwickelten Verfahren zur computerisierten Analyse sowohl von Online-Content als auch von dessen Nutzerinteraktionen zu bezeichnen. Manovich bezeichnet mit dem Konzept eine historisch neue Etappe in der Entwicklung technischer Medien. Diese zeichne sich nicht primär durch neue Mechanismen der Erzeugung, Veröffentlichung oder Verteilung aus, sondern sei dadurch gekennzeichnet, dass Computersysteme nunmehr umfassend die Inhalte digitaler Online-Medien automatisch analysieren und diese Analysen wiederum zu automatisierten Aktionen führen. Die Umgebungen, die Plattformanbieter bauen, sind auch als Trainingssysteme für Machine Learning-Prozesse verstehbar, deren Attraktiviät durch deren Machine Learning Anwendungen steigt, was wiederum den Datenreichtum der Plattformen erhöht. Machine Learning ist somit ein essentieller Teil der positiven Feedbackschleife zwischen Nutzern und Plattformen. Entsprechend sieht Manovich das maschinelle Lernen als ein entscheidendes Instrument im Repertoire der Media Analytics, die die Verschränkung von Kultur und deren Analyse für viele bisher der computerisierten Analyse unzugänglichen Bereiche aufschließt. Eine vierte Sektion widmet sich Fragestellungen zur Materialität und Ästhetik lernender Maschinen. Ausgehend von einer historischen Synopse prozessualer Operationen musikalischen Schaffens und Komponierens, untersucht Franziska Kollinger die Folgen des Eintritts von Automaten und Maschinen in die musikästhetischen Praxen. Ein Sektor, auf dem Methoden wie Deep Learning Anwendung finden, ist die Komposition von Musik. Während die Verwendung von Computern zur Klangerzeugung ebenso wenig neu ist wie das Komponieren mit Algorithmen, bringt die Digitalisierung von Klang jedoch gänzlich neue Herausforderungen mit sich. Diese verändern nicht nur die Verfahrensweisen der Musikproduktion langfristig, sondern stellen den tradierten Musikbegriff als solchen infrage, da nicht mehr mit zuvor selbstverständlichen Kategorien wie Material und Struktur operiert werden kann. Ausgehend von dieser Beobachtung diskutiert der Artikel in historischer Perspektive die ästhetischen und medialen Voraussetzungen von computergenerierter Musik einerseits und Komposition andererseits. Der Bezug von maschinellem Lernen und Musik wird auf diese Weise veranschaulicht und überführt den Diskurs von einer bloßen (De-)Legitimation neuer Technologien in eine Reflexion der kunsttheoretischen Konsequenzen.
Einleitung
Stellt Kollingers Beitrag die Relevanz des maschinellen Lernens für den Bereich des Auditiven heraus, widmet sich der Text von Hito Steyerl der visuellen Dimension maschineller Wahrnehmungsweisen, die in den letzten Jahren immer mehr durch Big-Data- und KI-Technologien geformt werden. Steyerl betrachtet das maschinelle Sehen in dem Zusammenhang der Apophänie, d.h. der Wahrnehmung von Mustern in zufälligen Daten, unter anderem mit Bezug auf Googles DeepDream-Algorithmus. Unter Rückgriff auf die klassische Unterscheidung von Signal und Rauschen argumentiert Steyerl in ihrer kritischen Analyse des Machine Learning, dass maschinisierte Apophänien wie DeepDream mehr sind als Bilder des Rausches, des Wahns oder bizarrer Träume: Sie seien vielmehr in der Tat Repräsentation der vernetzten Operationen maschineller Bildgebungsverfahren samt ihrer spezifischen »hardcodierten Ideologien«. Schließlich fordern die Ideologien der algorithmischen Kultur auch dazu heraus, das Verhältnis ihrer materiellen und immateriellen Verflechtungen und Relationen diesseits und jenseits ihrer ästhetische sichtbaren und greifbaren Phänomene neu auszuloten. So widmet sich Yvonne Försters Beitrag den Wechselwirkungen zwischen Konzepten künstlicher und menschlicher Intelligenz auf Basis des Dualismus von Körper und Geist. Dabei geht Förster von der Hypothese aus, dass sowohl maschinelles Lernen als auch kognitionswissenschaftliche Konzepte tendenziell reduktionistisch verfahren und zwischen Ver- und Entkörperlichungsszenarien oszillieren. Mithin geht es hier um Positionen, die Körpern entweder keinen epistemologischen Status für die Entwicklung von KIs zuschreiben oder selbige notwendig auf Körper verwiesen sehen. Dabei gehen die Embodiment- und Enactivismus-Ansätze davon aus, dass kognitive Prozesse aus Organismus-Umwelt Interaktionen emergieren. Wenn auch nicht notwendig zielgerichtet, setzt das Lernen eine strukturelle Kopplung von Organismen und Umwelt voraus. Implementiert man solche Verfahren in Robotern und anderen Objekten, so schließt Förster ähnlich wie Stefan Rieger in diesem Band, kommt es zu Unheimlichkeitseffekten. Während diese ästhetisch insbesondere im populären Film bereits in vielfältiger Weise verhandelt werden, steht eine Diskussion der sich daraus ergebenden epistemologischen Herausforderungen noch weitgehend aus. Der spezifische Blick auf die Verkörperung der KI, gerade mit Blick auf Einschreibungen von Gender ist auch das bestimmende Motiv des Beitrags von Ulrike Bergermann. In ihrem Beitrag geht sie davon aus, dass die Schnittstellen für das Machine Learning oft mit Attributen versehen sind, die Weiblichkeit artikulieren sollen. Tatsächlich zeigt Bergermann jedoch auf, dass die Verbindungen von Lernen und Geschlecht intrakter sind. Der Beitrag verfolgt sie in drei Perspektiven: Mit Alan Turings Text zum »Turing-Test« Computing machinery and intelligence von 1950, mit kinematischen Phantasmen um 2000 und mit Preciados Testosteron-Reallabor am Anfang des 21. Jahrhunderts. Zwei
29
30
Machine Learning
Wissenschaftsgeschichten und der ins Imaginäre delegierte Teil der Technikgeschichte verfolgen die Verflochtenheit des maschinellen Lernens mit ihren Genderings. Neben vielen Beiträgen aus den Geistes- und Kulturwissenschaften sollen auch die Einschätzungen der Data und Computer Scientists selbst nicht fehlen. Die Herausgeber des vorliegenden Bandes freuen sich, mit Roland Memisevic und Yoshua Bengio zwei der weltweit führenden Experten im Bereich des Deep Learning als Interviewpartner gewonnen zu haben. Neben grundsätzlichen Fragen zur Technologie des Deep Learning geht es in den Beiträgen auch um die Frage, welche Medien an der Hervorbringung und Formierung moderner DL-Technologien beteiligt sind. Die Auseinandersetzung mit maschinellen Lernverfahren als geistes- und kulturwissenschaftliches Unternehmen hat gerade erst begonnen. Als Herausgeber des vorliegenden Bandes hoffen wir, dass die hier versammelten Texte einen wichtigen Beitrag leisten, die gegenwärtigen und zukünftigen Transformationen der Medienkultur durch maschinelle Lernverfahren angemessen einordnen und reflektieren zu können.
L iter atur Amir, Eyal (2014): »Reasoning and decision making«. In: Frankish, Keith/ Ramsey, William M. (Hg.): The Cambridge Handbook of Artificial Intelligence. Cambridge: Cambridge University Press: 191-212. DOI: https://doi. org/10.1017/CBO9781139046855.013 Aron, Jacob (2014): »Computer with Human-like Learning Will Program Itself«. In: New Scientist. 29.10.: https://www.newscientist.com/article/mg224299 32-200-computer-with-human-like-learning-will-program-itself/?curator= MediaREDEF (07.05.2016). Bain, Alexander (1873): Mind and Body the Theories of Their Relation. London: Henry S. King & Company. Barrat, James (2013): Our Final Invention. Artificial Intelligence and the End of the Human Era. New York: Thomas Dunne Books. Becker, Ilka/Cuntz, Michael/Kusser, Astrid (Hg.) (2008): Unmenge. Wie verteilt sich Handlungsmacht? München: Fink. Bengio, Yoshua (2011): »Deep Learning of Representations for Unsupervised and Transfer Learning«. In: JMLR: Workshop and Conference Proceedings 7: 1-20. — (2009): »Learning Deep Architectures for AI«. In: Foundations and Trends in Machine Learning 2.1: 1-127. Bergermann, Ulrike (2015): Leere Fächer. Gründungsdiskurse in Kybernetik & Medienwissenschaft. Berlin et al.: Lit.
Einleitung
Böhnke, Alexander/Schröter, Jens (Hg.) (2004): Analog/Digital? – Opposition oder Kontinuum. Bielefeld: transcript. Bolz, Norbert (1994): »Computer als Medium – Einleitung«. In: Bolz, Norbert/ Kittler, Friedrich/Tholen, Christoph (Hg.): Computer als Medium. München: Fink: 9-16. Borck, Cornelius (2013): Hirnströme. Eine Kulturgeschichte der Elektroenzephalographie. Göttingen: Wallstein. Bostrom, Nick (2014): Superintelligence. Paths, Dangers, Strategies. Oxford: Oxford University Press. Bryson, Arthur E. (1961): »A Gradient Method for Optimizing Multi-stage Allocation Processes«. In: Proceedings of the Harvard University Symposium on Digital Computers and their Applications. Bublitz, Hannelore/Kaldrack, Irina/Röhle, Theo/Winkler, Hartmut (Hg.) (2011): Unsichtbare Hände. Automatismen in Medien-, Technik- und Diskursgeschichte. München: Fink. Craik, Fergus I.M./Lockhart, Robert S. (1972): »Levels of Processing: A Framework for Memory Research«. In: Journal of Verbal Learning and Verbal Behavior 11.6: 671-684. DOI: https://doi.org/10.1016/S0022-5371(72)80001-X Crevier, Daniel (1993): AI. The Tumultuous History of the Search for Artificial Intelligence. New York: Basic Books. Domingos, Pedro (2015): The Master Algorithm. How the Quest for the Ultimate Learning Machine Will Remake Our World. New York: Basic Books. Dotzler, Bernhard (1989): »Know/Ledge: Versuch über die Verortung der Künstlichen Intelligenz«. In: MaschinenMenschen. Katalog zur Ausstellung des Neuen Berliner Kunstvereins, 17.-23.07. Berlin: NBK: 127-132. — (2006): Diskurs und Medium. Zur Archäologie der Computerkultur. Band 1. München: Fink. Dreyfus, Herbert L./Dreyfus, Stuart E. (1988): »Making a Mind Versus Modelling the Brain. Artificial Intelligence Back at a Branchpoint«. In: Daedalus 117.1: 185-197. Dreyfus, Stuart E (1973): »The Computational Solution of Optimal Control Problems with Time Lag«. In: IEEE Transactions on Automatic Control 18.4: 383-385. DOI: https://doi.org/10.1109/TAC.1973.1100330 Engemann, Christoph/Feigelfeld, Paul (2017): »Distributed Embodiement«. In: Kries, Mateo/ Thun-Hohenstein, Christoph/Klein, Amelie (Hg.): Hello Robot. Design zwischen Mensch und Maschine. Weil am Rhein: Vitra Desing Museum: 252-259. Eke, Norbert Otto/Foit, Lioba/Kaerlein, Timo/Künsemöller, Jörn (Hg.) (2014): Logiken strukturbildender Prozesse: Automatismen. Paderborn: Fink. Ernst, Wolfgang (2013): Digital Memory and the Archive. Parikka, Jussi (Hg.): Minneapolis: University of Minnesota Press.
31
32
Machine Learning
Ferrier, David (1876): The Functions of the Brain. New York: GP Putnam’s Sons. DOI: https://doi.org/10.1037/12860-000 Finn, Ed (2017): What Algorithms Want. Imagination in the Age of Computing. Cambridge, MA: MIT Press. DOI: https://doi.org/10.7551/mit press/9780262035927.001.0001 Friedenberg, Jay D./Silverman, Gordon (2006): Cognitive Science. An Introduction to the Study of Mind. Thousand Oaks: Sage. Funke, Joachim/Zumbach, Jörg (2006): »Problemlösen«. In: Mandl, Heinz/ Friedrich, Helmut Felix (Hg.): Handbuch Lernstrategien. Göttingen: Hogrefe: 206-220. Galloway, Alexander R (2004): Protocol. How Control Exists After Decentralization. Cambridge, MA: MIT Press. — /Thacker, Eugene (2007): The Exploit. A Theory of Networks. Minneapolis: University of Minnesota Press. Gopnik, Alison/Meltzhoff Andrew N./Kuhl, Patricia K. (1999): The Scientist in the Crib. What Early Learning Tells Us About the Mind. New York: William Morrow & Co. Goodfellow, Ian/Bengio, Yoshua/Courville, Aaron (2016): Deep Learning. Cambridge; London: MIT Press. Grzesik, Jürgen (2002): Operative Lerntheorie. Neurobiologie und Psychologie. Bad Heilbrunn/Obb.: Klinkhardt. Hayles, N. Katherine (2012): How We Think. Digital Media and Contemporary Technogenesis. Chicago: University of Chicago Press. Hacking, Ian (1975): The Emergence of Probability. A Philosophical Study of Early Ideas About Probability Induction and Statistical Inference. New York: Cambridge University Press. — (1999): How We Became Posthuman. Virtual Bodies in Cybernetics, Literature, and Informatics. Chicago: University of Chicago Press. Hebb, Donald Olding (1949): The Organization of Behavior. A Neuropsychological Approach. New York: John Wiley & Sons. Herrmann, Ulrich (Hg.) (2006): Neurodidaktik. Grundlagen und Vorschläge für gehirngerechtes Lehren und Lernen. Weinheim: Beltz. Hinton, Geoffrey E (1986): »Learning distributed representations of concepts«. In: Proceedings of the Eights Annual Conference of the Cognitive Science Society. Amherst, MA: Erlbaum, NJ. —, Osindero, Simon/Teh, Yee-Whye (2006): »A fast learning algorithm for deep belief nets«. In: Neural computation 18.7: 1527-1554. Hofstadter, Douglas R./Dennett, Daniel C. (1981): The Mind’s I. Fantasies and Reflections on Self and Soul. Brighton: Harvester Press. Horgan, Terence/Tienson, John (1996): Connectionism and the Philosophy of Psychology. Cambridge: MIT Press.
Einleitung
Hörl, Erich (2011): Die technologische Bedingung. Beiträge zur Beschreibung der technischen Welt. Berlin: Suhrkamp. Huhtamo, Erkki/Parikka, Jussi (Hg.) (2011): Media Archaeology. Approaches, Applications, and Implications. Berkeley; Calif: University of California Press. Kelley, Henry (1960): »Gradient theory of optimal flight paths«. In: Ars Journal 30: 947-954. DOI: https://doi.org/10.2514/8.5282 Kirschenbaum, Matthew (2008): Mechanisms. New Media and the Forensic Imagination. Cambridge; London: MIT Press. Kittler, Friedrich A. (2013): Die Wahrheit der technischen Welt. Essays zur Genealogie der Gegenwart. Hans Ulrich Gumbrecht (Hg.). Berlin: Suhrkamp. —. »Die künstliche Intelligenz des Weltkriegs. Alan Turing«. In: Gumbrecht, Hans Ulrich (Hg.): Die Wahrheit der technischen Welt. Essays zur Genealogie der Gegenwart. Berlin: Suhrkamp: 232-252. — /Dotzler, Bernhard (Hg.) (1987): Alan Turing. Intelligent Service. Schriften. Berlin: Brinkmann & Bose. — (1986): Grammophon/Film/Typewriter. Berlin: Brinkmann & Bose. — (Hg.) (1980): Austreibung des Geistes aus den Geisteswissenschaften. Programme des Poststrukturalismus. Paderborn: Schöningh. Krämer, Sybille (2015): Ada Lovelace. Die Pionierin der Computertechnik und ihre Nachfolgerinnen. Paderborn: Fink. — (Hg.) (1994): Geist – Gehirn – künstliche Intelligenz. Zeitgenössische Modelle des Denkens. Berlin: De Gruyter. — »Was haben die Medien, der Computer und die Realität miteinander zu tun? Zur Einleitung in diesem Band«. In: Dies. (Hg.) (1998): Medien – Computer – Realität – Wirklichkeitsvorstellungen und Neue Medien. Frankfurt: Suhrkamp: 9-26. Krause, Ulrike-Marie (2007): Feedback und kooperatives Lernen. Münster: Waxmann. Krizhevsky, Alex/Sutskever, Ilya/Hinton, Geoffrey E. (2012): »ImageNet Classification with Deep Convolutional Neural Networks«. In: Advances in Neural Information Processing Systems 25: 1097-1105. Kurzweil, Ray (2013): How to Create a Mind. The Secret of Human Thought Revealed. New York: Penguin Books. La Mettrie, Julian Offray de (2001 [1747]): Der Mensch eine Maschine. Stuttgart: Reclam. LeCun, Yann/Bengio, Yoshua /Hinton, Geoffrey E. (2015): »Deep Learning«. In: Nature 521: 436-444. DOI: https://doi.org/10.1038/nature14539 Linnainmaa, Seppo (1970): »The Representation of the Cumulative Rounding Error of an Algorithm as a Taylor Expansion of the Local Rounding Errors«. Master’s Thesis (in Finnish): University of Helsinki. Lovink, Geert (2011): Networks Without a Cause. A Critique of Social Media. Cambridge, UK: Polity Press.
33
34
Machine Learning
Mackenzie, Adrian (2017): Machine Learners. Archeaology of Data Practice. Cambridge, MA: MIT Press. Manning, Christopher D (2015): »Computational Linguistics and Deep Learning«. In: Computational Linguistics 41.4: 701-707. DOI: https://doi. org/10.1162/COLI_a_00239 Manovich, Lev (2001): The Language of New Media. Cambridge, MA: MIT Press. McCarthy, John/Minsky, Marvin L./Rochester, Nathaniel/Shannon, Claude E. (2016): »A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence«. 31. August 1955. In: AI Magazine 27.4: 12. McCorduck, Pamela (2004 [1979]): Machines Who Think. A Personal Inquiry into the History and Prospects of Artificial Intelligence. London: Taylor & Francis. McCulloch, Warren S./Pitts, Walter (1943): »A Logical Calculus of the Ideas Immanent in Nervous Activity«. In: The Bulletin of Mathematical Biophysics 5.4: 115-133. DOI: https://doi.org/10.1007/BF02478259 Metzig, Werner/Schuster, Martin (2006): Lernen zu lernen. 7. Auflage. Berlin: Springer. Minsky, Marvin Lee/Papert, Seymour (1969): Perceptrons. An Introduction to Computational Geometry. Cambridge, MA: MIT Press. Mitchell, Thomas (1997): Machine Learning. New York: McGraw-Hill. Müller, Vincent C. (2016): Risks of Artificial Intelligence. London: CRC Press. Nohr, Rolf (2008): Die Natürlichkeit des Spielens. Vom Verschwinden des Gemachten im Computerspiel. Münster et al.: LIT Verlag. Pasquinelli, Matteo (2017): »Machines that Morph Logic: Neural Networks and the Distorted Automation of Intelligence as Statistical Inference«. In: Glass Bead journal: »Logic Gate: The Politics of the Artifactual Mind«: 1. Pauen, Michael/Roth, Gerhard (2001): Neurowissenschaften und Philosophie. München: Fink. Pias, Claus (2011): »On the Epistemology of Computer Simulation«. In: Zeitschrift für Medien- und Kulturforschung 1: 29-54. —, (Hg.) (2004): Cybernetics – Kybernetik 2: The Macy-Conferences 1946-1953. Zürich: Diaphanes. —, (Hg.) (2003): Cybernetics – Kybernetik 1: The Macy-Conferences 1946-1953. Zürich: Diaphanes. Porter, Theodore M (1986): The Rise of Statistical Thinking 1820-1900. Princeton, NJ: Princeton University Press. Ramsey, William/Rumelhart, David E./Stich, Stephan P. (Hg.) (1991): Philosophy and Connectionist Theory. Hilsdale: Lawrence Erlbaum. Reichert, Ramón (2014): Big Data. Analysen zum digitalen Wandel von Wissen, Macht und Ökonomie. Bielefeld: transcript. Rieger, Stefan (2003): Kybernetische Anthropologie. Eine Geschichte der Virtualität. Frankfurt a.M.: Suhrkamp.
Einleitung
Rojas, Raul (2013): Theorie der neuronalen Netze. Eine systematische Einführung. Berlin: Springer. Rosenblatt, Frank (1958): »The Perceptron. A Probabilistic Model for Information Storage and Organization in the Brain«. In: Psychological Review 65.6: 386-408. DOI: https://doi.org/10.1037/h0042519 Rotman, Brian (2000): Mathematics as Sign: Writing, Imagining, Counting. Stanford: Stanford University Press. Rumelhart, David E./Hinton, Geoffrey E./Williams, Ronald J. (1986): »Learning Internal Representations by Error Propagation«. In: Rumelhart, David E./McClelland, James L. (Hg.): Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Vol. 1: Foundations. Cambridge, MA: Bradford Books/MIT Press: 318-362. — /James L. McClelland (Hg.) (1986): Parallel Distributed Processing. Explorations in the Microstructure of Cognition. Cambridge, MA: MIT Press. Russell, Stuart/Norvig, Peter (2013): Artificial Intelligence. A Modern Approach. 3. Auflage. New Jersey: Prentice Hall. Schmidgen, Henning (2014): Hirn und Zeit. Die Geschichte eines Experiments, 1800-1950. Berlin: Matthes & Seitz. — (2001): »Der Psychologe der Maschinen. Über Gilbert Simondon und zwei Theorien technischer Objekte«. In: Kraft Alsop, Christiane (Hg.): Grenzgängerin. Bridges Between Disciplines. Festschrift für Irmingard Staeuble. Heidelberg et al.: Asanger: 265-287. Schmidhuber, Jürgen (2015): »Deep learning in Neural Networks. An Overview«. In: Neural Networks 61: 85-117. DOI: https://doi.org/10.1016/j. neunet.2014.09.003 Searle, John R. (1980): »Minds, Brains, and Programs«. In: Behavioral and Brain Sciences 3.3: 417-424. DOI: https://doi.org/10.1017/S0140525X00005756 Shalev-Shwartz, Shai/Ben-David, Shai (2014): Understanding Machine Learning. From Theory to Algorithms. New York: Cambridge University Press. DOI: https://doi.org/10.1017/CBO9781107298019 Siegert, Bernhard (2003): Passage des Digitalen. Berlin: Brinkmann & Bose. Sprenger, Florian/Engemann, Christoph (2015): Internet der Dinge. Über smarte Objekte, intelligente Umgebungen und die technische Durchdringung der Welt. Bielefeld: transcript. DOI: https://doi.org/10.14361/9783839430460 Sudmann, Andreas (2016): »Wenn die Maschinen mit der Sprache spielen«. In: Frankfurter Allgemeine Zeitung Nr. 256.02.11., N2. — (2017a): Serielle Überbietung. Zur Fernsehästhetik und Fernsehphilosophie exponierter Steigerungen. Stuttgart: J.B. Metzler. — (2017b): »Das intuitive Wissen der Maschinen«. In: Neue Zürcher Zeitung. 27.10.: 59. — (2017c): »Deep Learning als dokumentarische Praxis«. In: Sprache und Literatur 48:2: 155-170.
35
36
Machine Learning
Terhart, Ewald (2009): Didaktik. Eine Einführung. Stuttgart: Reclam. Teuscher, Christof (2001): Turing’s Connectionism. An Investigation of Neural Network Architectures. London: Springer. Thielmann, Tristan/Schüttpelz, Erhard (Hg.) (2013): Akteur-Medien-Theorie. Bielefeld: transcript. Turing, Alan M. (1950): »Computing Machinery and Intelligence«. In: Mind 59.236: 433-460. DOI: https://doi.org/10.1093/mind/LIX.236.433 — (1969 [1948]): »Intelligent Machinery«. In: Meltzer, Bernard/Mitchie, Donald (Hg.): Machine Intelligence. Band. 5. Edinburgh: Edinburgh University Press: 3-23. — (1936/1937): »On Computable Numbers, with an Application to the Entscheidungsproblem«. In: Proceedings of the London Mathematical Society 42:2: 230-265. Turing, Alan M. (1996 [1951]): »Intelligent Machinery, A Heretical Theory«. Philosophica Mathematica 4:3: 256-260. Turkle, Sherry (1991): Die Wunschmaschine. Vom Entstehen der Computerkultur. Reinbek: Rowohlt. Tuschling, Anna (2009): »Lebenslanges Lernen als Bildungsregime der Wissensgesellschaft«. In: Berliner Debatte Initial. Geistes- und sozialwissenschaftliche Zeitschrift 20.04: 45-54. Vehlken, Sebastian (2012): Zootechnologien. Eine Mediengeschichte der Schwarmforschung. Zürich: Diaphanes. Vinge, Vernor (1993): »The Coming Technological Singularity. How to Survive in the Post-human Era«. In: Proceedings of a Symposium Vision-21: Interdisciplinary Science & Engineering in the Era of CyberSpace. NASA Lewis Research Center (NASA Conference Publication CP-10129). Warnke, Martin/Coy, Wolfgang/Tholen, Georg Christoph (Hg.) (2005): HyperKult II. Zur Ortsbestimmung analoger und digitaler Medien. Bielefeld: transcript. DOI: https://doi.org/10.14361/9783839402740 Weber, Jutta (2003): Umkämpfte Bedeutungen. Naturkonzepte im Zeitalter der Technoscience. Frankfurt a.M.: Campus. — (2011): »Die kontrollierte Simulation der Unkontrollierbarkeit. Kontroll- und Wissensformen in der Technowissenschaftskultur«. In: Bublitz, Hannelore, Kaldrack, Irina, Röhle, Theo und Winkler, Hartmut (Hg.): Unsichtbare Hände. Automatismen in Medien-, Technik- und Diskursgeschichte, München: Fink, 93-110. Weizenbaum, Joseph (1976): Computer Power and Human Reason. From Judgement to Calculation. San Francisco: W. H. Freeman. Werbos, Paul (1974): Beyond Regression. New Tools for Prediction and Analysis in the Behavorial Sciences. PhD thesis. Cambridge: Harvard University. Winkler, Hartmut (1997): Docuverse. Zur Medientheorie der Computer. München: Boer.
I. Epistemologien und Genealogien des maschinellen Lernens
»Down-to-earth resolutions« Erinnerungen an die KI als eine »häretische Theorie« Bernhard J. Dotzler »…and I k’n tell a fortune pretty good when I’ve got somebody along to find out the facts for me.« M ark Twain , The A dventures of H uckleberry F inn »The Talking Robot was a tour de force, a thoroughly impractical device, possessing publicity value only.« I saac A simov, Robbie »What we want is a machine that can learn from experience.« A lan Turing , L ecture to L.M.S. F eb . 20 1947 »…und die Frage, ob Computer denken konnten, hatte längst ihre Unschuld verloren, denn was sie konnten, lehrte einen das Fürchten, wie auch immer man es nennen wollte, und Denken sollte man in diesem Zusammenhang vielleicht nicht überschätzen.« N orbert G strein , I n der freien Welt
Medien sind nicht nur Teil der Welt. Medien machen Welt. Zum Beispiel durch Werbung. Denn so erfolgreich kann Werbung sein, dass sie ein Sehen und Hören der Leute macht, das Markennamen wie die Dinge selbst vernimmt, und dass ein Heidegger dieses Vernehmen gegen einen Dingbegriff in Stellung bringen konnte, der das Ding als »Einheit einer Mannigfaltigkeit des in den Sinnen Gegebenen« definiert: Niemals vernehmen wir, wie er [dieser Dingbegriff] vorgibt, im Erscheinen der Dinge zunächst und eigentlich einen Andrang von Empfindungen, z.B. Töne und Geräusche, sondern wir hören den Sturm im Schornstein pfeifen, wir hören das dreimotorige Flugzeug,
40
Bernhard J. Dot zler wir hören den Mercedes im unmittelbaren Unterschied zum Adler-Wagen. (Heidegger 1935/36: 10)
Keine der beiden genannten Firmen, sondern der Autohersteller, der das Hören selbst zum Namen und daher auch zu seiner Marke erkoren hatte, hatte das Motorengeräusch zum Werbeargument gemacht (Potužníková 2015: 129). Dessen ungeachtet, fährt die philosophische Argumentation fort wie folgt: Viel näher als alle Empfindungen sind uns die Dinge selbst. Wir hören im Haus die Tür schlagen und hören niemals akustische Empfindungen oder auch nur bloße Geräusche. Um ein reines Geräusch zu hören, müssen wir von den Dingen weghören, unser Ohr davon abziehen, d.h. abstrakt hören. (Heidegger 1935/36: 10)
Wir, die Menschen, heißt das, haben es bei dem, was wir wahrnehmen, nie mit den bloßen Sinnesdaten, sondern »immer bereits mit Interpretation zu tun« (Winograd/Flores 1989: 127).1 Umgekehrt die Maschinen. Ausgestattet mit einer entsprechenden Sensorik, hören sie – wenn man es überhaupt hören nennen will – erst einmal nur und ausschließlich ›abstrakt‹, also ›bloße Geräusche‹. Und weil sie deren Erkennung, ob also ein Motor brummt, eine Tür schlägt oder eine Uhr tickt, immer erst in weiteren Schritten errechnen müssen, ohne dafür von sich aus über einen die »Fragen nach Relevanz, Kontext und Hintergrundbezug« der Daten beantwortenden »Horizont« zu verfügen, hat man den Unternehmungen einer sogenannten ›starken KI‹ gerade schon zu Zeiten ihrer höchsten Blüte die Voraussage ihres notwendigen Scheiterns entgegenhalten können. Als wäre wieder einmal alles nur »Werbung« und »Werbeaufwand«, hieß etwa die Ankündigung einer »Robotergeneration, die ›sehen‹, ›fühlen‹ und ›denken‹ kann«, für alle Zeiten bloßes Wortgeklingel. »Niemand«, lautete der Einwand gegen die raison d’etre eines »Fachgebietes wie ›Künstliche Intelligenz‹«, sei »in der Lage, Computer so zu programmieren, dass sie intelligent sein werden« (Winograd/Flores 1989: 219, 177, 213, 216, 212 u. 157). Und doch – Werbung noch einmal – schaltete Mercedes-Benz unlängst eine Anzeigenkampagne, die erstens erinnerte: »Vor 130 Jahren haben wir das Pferd ersetzt«, um zweitens als fait accompli zu vermelden: »Jetzt ist der Kutscher dran.« Beworben wurde eine neue Fahrzeug-Klasse, die das Etikett eines »Masterpiece of Intelligence« verdienen würde, indem sie das sogenannte »autonome Fahren« etabliert, wenn auch zunächst nur als »teilautomatisiertes Fahren«, für das aber bereits gelten soll: »Das Auto teilt sich jetzt das Den-
1 | Vgl. zur Auseinandersetzung hiermit und zum obigen Heidegger-Zitat auch Kittler 1997.
»Down-to-ear th resolutions«
ken mit dem Menschen […].«2 Wenig später ging die Meldung eines tödlichen Unglücks mit dem selbstfahrenden Auto eines anderen Herstellers durch die Presse (und andere Medien).3 So dramatisch kann die Abschaffung des Kutschers einerseits wahr werden. Andererseits handelte es sich bei dem Unfall aus Sicht der KI-Entwickler selbstredend um einen Rückschlag und nicht etwa um eine Erfolgsbestätigung. Was also besagt ein Beispiel wie das beworbene »Intelligent Drive«? Es bezeugt vorab, dass sich – mit neuer Vehemenz – die Anzeichen für die Erfüllung eines Menetekels verdichten, das schon vor etwa einem Menschenalter seine bekannte Deutung erfuhr. Rückschläge, ob kleinere oder größere, halten die Entwicklung nicht auf. Im Gegenteil, sie gehören dazu, denn, wie Alan Turing bereits anlässlich der praktischen Umsetzung seiner zuvor unternommenen theoretischen Untersuchung der »Möglichkeiten und Grenzen digitaler Rechenmaschinen« erklärte, »wenn von einer Maschine Unfehlbarkeit erwartet wird, kann sie nicht zugleich intelligent sein« (Turing 1947: 186 u. 207). Gerade also auf der Basis einkalkulierter Fehlbarkeit gibt es inzwischen die allfälligen, immer noch anfälligen, aber erstaunlich leistungsfähigen Systeme autonomer Fahrzeuge, der Sprach- und der Bilderkennung, der maschinellen Übersetzung oder beispielsweise auch eines IBM Watson, der 2011 siegreich aus Jeopardy! hervorging, und eines AlphaGo von Google DeepMind mit seinem im März 2016 errungenen Turniersieg über den Go-Meister Lee Sedol. Machine Learning heißt das Schlagwort für ihren Erfolg, und mit Blick auf die Eigenschaft der Lernfähigkeit, deren Unabdingbarkeit vom Beginn informationstechnologischer Entwürfe möglicherweise intelligenter Systeme an betont worden war – man denke etwa nur an Norbert Wieners usurpatorischen Hinweis, »der Begriff der lernenden Maschinen [sei] ebenso alt wie die Kybernetik selbst« (Wiener 1963: 17)4 –, deutete Alan Turing die Zeichen schon seiner Zeit als die Prophezeiung, dass, weil ja die Maschinen unsterblich seien und auch noch voneinander lernen könnten, früher oder später »damit [zu] rechnen [sei], »daß die Maschinen die Macht übernehmen« (Turing 1951: 15). Niemand soll daher sagen, man hätte es nicht wissen können. »Die smarte Kapitulation« oder »Wir schaffen uns ab« mögen immer noch pressetaugliche
2 | Gesehen in: Die Welt, 17.3.2016, S. 11-14. Vgl. www.horizont.net/marketing/nachrichten/Mercedes-Benz-Stuttgar ter-Sticheleien-zum-130.-Gebur tstag-139356 bzw. www.h orizont.n et/galerien/Die-3-seitige-Anzeigenstrecke-in-FAZ-SZ-und-Co-2404 (26.7.2016) 3 | »Tesla-Fahrer stirbt in selbstfahrendem Auto«: FAZ, 2.7.2016, S. 19. 4 | In der Sache richtig, ist es doch bezeichnend, daß Wiener diese Feststellung erst in der zweiten Auflage, 1961, traf.
41
42
Bernhard J. Dot zler
Schlagzeilen sein,5 sind aber längst keine wirklichen Sensationsmeldungen mehr. Ihre Zugehörigkeit zur normativen Kraft des Faktischen steht außer Zweifel. Die fortgesetzt insistierende Frage ist stattdessen, was genau es zu wissen gilt, wenn man denn – so lange schon – weiß, dass die Maschinen die Macht übernehmen.
»L ost G ener ation « Von einem gewissermaßen nominalistischen Standpunkt aus beginnt die Geschichte der KI mit dem der neuen Disziplin ihren Namen gebenden Dartmouth Summer Research Project on Artificial Intelligence, 1956. Dessen ungeachtet werden zu den tatsächlichen Anfängen – neben etwa eines Claude E. Shannon Programming a Computer for Playing Chess (1949) oder seiner Presentation of a Maze Solving Machine (1951) – eben auch die Überlegungen gerechnet, die Turing in seiner Lecture to the London Mathematical Society (1947), seinem NPL-Report Intelligent Machinery (1948), seinem berühmten Mind-Artikel Computing Machinery and Intelligence (1950) oder schließlich dem Vortrag Intelligent Machinery, a Heretical Theory (1951) angeregt hat.6 »This mouse is smarter than you are«, hieß es damals über die mechanische Maus in Shannons Theseus-Maschine, »die in der Lage ist, ein Labyrinth durch Trial-and-Error zu lösen, sich an die Lösung zu erinnern, sie aber auch wieder zu vergessen, falls sich die Situation ändert und die Lösung nicht weiter anwendbar ist« (Shannon 1952: 291). Zu ergänzen war freilich: »Unfortunately, maze-solving is all the mouse can do« (Pfeiffer 1952: 100). Doch hinderte das einen Turing wiederum nicht, sich gegenüber solchen Entwicklungen nachgerade »verpflichtet« zu fühlen, »die Maschine als intelligent anzusehen« (Turing 1947: 206) und die starke »Behauptung« zu vertreten, daß Maschinen konstruiert werden können, die das Verhalten des menschlichen Geistes weitestgehend simulieren. Sie werden bisweilen Fehler machen, und es ist möglich, daß sie bisweilen neue und sehr interessante Aussagen machen, und im großen und ganzen wird ihr Output dasselbe Maß an Aufmerksamkeit verdienen wie der Output eines menschlichen Geistes (Turing 1951: 10).
5 | FAZ, 5.1.2016, S. T1; FAS 24.1.2016, S. 47. Vgl. dann z.B. auch Kultur & Technik 3/2016, S. 30: »Die neue Arbeit. Vernetzte Automatisierung verdrängt Menschen aus Arbeitsprozessen […]«. 6 | Copeland (2004) bringt darüber hinaus die beiden Radiobeiträge Can digital computers think? (1951) und Can automatic calculating machines be said to think? (1952).
»Down-to-ear th resolutions«
Das dann auf den Namen Artificial Intelligence getaufte Forschungsgebiet hielt an dieser Zielvorgabe fest bis etwa, um eine länglichere Geschichte kurz zu machen, zur seinerzeit Furore machenden Ausrufung einer ominösen Fifth Generation. 1981 bekannt gegeben, war deren »Ziel: Computer für die neunziger Jahre und darüber hinaus zu entwickeln – intelligente Computer, die in der Lage sein soll[t]en, mit Menschen in natürlicher Sprache zu verkehren und Stimmen und Bilder zu verstehen«. Es sollten »Computer sein, die lernen, assoziieren, Folgerungen anstellen, Entscheidungen fällen und sich auch sonst so verhalten können, wie wir es bisher allein dem menschlichen Verstand zugebilligt haben« (Feigenbaum/McCorduck 1984: 25). Man bezeichnete sie als »Fünfte Generation« zur Unterscheidung von den vorhergegangen ersten vier Generationen, als da waren: »1. elektronische Vakuumröhrencomputer, 2. transistorisierte Computer, 3. integrierte Schaltkreiscomputer und 4. höchstintegrierte Schaltkreiscomputer«. Deren »Grundkonstruktion« war und ist die »von Neumann-Maschine«, bestehend »aus einem Zentralprozessor (einer Programmsteuereinheit), einem Speicher, einer arithmetischen Einheit und Ein/Ausgabegeräten. Sie arbeitet auch in der Hauptsache seriell, Schritt für Schritt.« Auf eben diese Bauweise sollte die Fifth Generation jedoch »verzichten oder sie in starkem Maß verändern. Stattdessen«, hieß es, werde es »neue Parallelarchitekturen geben (in ihrer Gesamtheit als nicht von-Neumannsche Architekturen bekannt), neue Speicherorganisationen, neue Programmiersprachen und neu eingefügte Arbeitsgänge für den Umgang mit Symbolen, statt nur mit Zahlen«. So werde die Fifth Generation »nicht allein wegen ihrer Technologie etwas Eigenes sein, sondern auch deshalb, weil sie sich von den ersten vier, der Welt vertrauten Generationen in Konzeption und Funktion unterscheidet«. Diese Neukonzeption werde auch »KIPS« genannt: »knowledge information processing systems« (Feigenbaum/McCorduck 1984: 31). Dergleichen KIPS, ob nun sogenannt oder nicht, sind in der Folge tatsächlich en masse gekommen. Nur die besagte, mit dem Fifth Generation Project ihren Gipfel erreichende, ›starke KI‹ feierte so gut wie keine Erfolge – außer in Film und Fernsehen, wo auf Kubricks HAL der selbstfahrende Knight Industries Two Thousand7, die Nexus 6-Replikanten des Blade Runner, der Terminator und der RoboCop folgten wie heute, um dies schon vorwegzunehmen, die netz-, also Big-Data- bzw. Data Mining-basierten KI-Phantasien von Her, Transcendence, Ex Machina und des jüngsten Stuttgarter Tatort 8. Solcher Phantasien ungeachtet, lautete die Wahrheit in der Realität eher: »›Fifth Generation‹ Became Japan’s Lost Generation«, wie die New York Times im Juni 1992 titelte (Pollack 1992). 7 | K night R ider (USA 1982-1986). 8 | Tatort : HAL (D 2016, R: Niki Stein), Erstausstrahlung: 28.8.2016.
43
44
Bernhard J. Dot zler
Das Versprechen der ›starken KI‹ konnte und könnte auch niemals wahr werden, hieß die bereits erwähnte, das Fifth Generation-Projekt teils begleitende, teils nachträgliche Kritik. Wie sollte es gelingen, ›denkende‹ und dafür notwendig ›wissende‹ Maschinen zu realisieren, ohne über eine elaborierte Wissenstheorie zu verfügen (Michie 1988: 469)? Und selbst wenn man sie hätte, stünde doch fest, dass erstens »das Aufstellen einer geeigneten Repräsentation« dessen, womit die Maschinen umgehen sollen, grundlegend ist, womit sie zweitens aber zugleich »mit eingebauter Blindheit geschlagen« werden. Für Situationen, »die keine einfache Vor-Definition des Problems oder einen Zustandsraum, der nach einer Lösung abzusuchen ist, bereitstell[en]«, reicht solche Intelligenz niemals aus. Als, im Kern, PROLOG-Initiative oder »Versuch, höherstufige Programmiersprachen, basierend auf formaler Logik, einzusetzen«, blieb die Fifth Generation unweigerlich auf die GOFAI-Grenzen (»Good Old-Fashioned Artificial Intelligence«, Haugeland 1987: 96f.) reduziert. Aber auch für lernende Systeme steht das nämliche »Problem der Blindheit« zu vermuten. Weshalb die Gesamtbilanz nur lauten konnte, die »grandiosen Ziele« seien »unerreichbar«, wenn auch stets mit dem Nachsatz: »aber nützliche Nebenprodukte werden abfallen« (Winograd/Flores 1989: 142, 165, 229, 170, 230).9 Auf diese Weise etablierte sich die Unterscheidung zwischen jener ›starken KI‹ und einer ›schwachen KI‹, welch letztere sich um die großen Fragen maschinellen Denkvermögens so wenig bekümmert, wie sie statt dessen auf funktionierende Produkte zielt: »durchdachte Verfahren Künstlicher Intelligenz als Technologie« zur Anwendung »auf praktische Probleme« (Winograd/ Flores 1989: 211).10 Ausgerechnet diese, wenn man so will, bescheidenere KIPhilosophie erbrachte nun aber Resultate, die der vorangegangenen hochfliegenden KI-Werbung erstaunlich genau entsprechen – jene KIPS, könnte man durchaus sagen. »Hervorstechendstes Merkmal« der Fifth Computer Generation Systems, versprach deren gleichsam offizielle Ankündigung, werde sein, »daß sich die Schnittstelle zwischen Mensch und Computer weitgehend menschlichem Niveau angleicht […] Für die Kommunikation mit dem Computer wird dem Menschen zur Verfügung stehen: Sprache, Text, Graphik und Bilder« (zit.n. Winograd/Flores 1989: 228). Nicht anders ist es gekommen. Oder, wenn man liest, die Fifth Generation-Planer hätten »Information als den Schlüssel« betrachtet:
9 | Zu den erwartbaren nützlichen Anwendungen s.a. Michie (1988: 486). Zur Fifth Generation als PROLOG-Unternehmung vgl. Ertel (2013: 10). 10 | Als Beispiel für die mit der Unterscheidung zwischen ›starker‹ und ›schwacher KI‹ einhergehenden Vernebelungen vgl. zuletzt etwa Floridi (2015: 188).
»Down-to-ear th resolutions« Information, die durch weitverbreitete Informationsverarbeitungssysteme die Gesellschaft ›wie die Luft‹ durchdringt. ›In diesen Systemen […] wird Intelligenz so stark verbessert sein, daß sie der eines Menschen nahekommt. Verglichen mit üblichen Systemen, wird (die) Schnittstelle Mensch/Maschine näher an das menschliche System heranrücken.‹ Das heißt: Sie haben die Absicht, Maschinen zu produzieren, die so leicht benutzbar, so intelligent und reaktionsschnell sind, daß sie der Art von Verkehr nahekommen, wie er zwischen intelligenten Menschen üblich gewesen ist. (Feigenbaum/ McCorduck 1984: 30)
So hat die Fifth Generation-Idee zwar keine einzige ›denkende Maschine‹ hervorgebracht und doch vorausgesagt, was inzwischen durch das Internet in seiner nicht umsonst zuerst als die reine KI-Phantasie daherkommenden Semantic Web-Zurichtung (Berners-Lee 2001) und Google-Erschließung (Alesso/ Smith 2009: 206ff.) Realität geworden ist. Andernorts hat man zur selben Zeit »tragbare menschenähnliche Gehirne« heraufkommen sehen, die »partnerschaftlich mit dem Menschengeschlecht zusammenarbeiten. Wir werden diese unscheinbaren Kreaturen überall mit uns herumtragen. Man braucht sie lediglich in die Hand zu nehmen […], um sie für unsere Angelegenheiten zu nutzen. Sie werden sich als Artoo-Detoos [R2D2’s] ohne Räder erweisen« (Robert Jastrow, zit.n. Winograd/Flores 1989: 20) – und wieder sieht man leicht, wie viel davon Star Wars-Phantasie geblieben und wie sehr diese doch in jedem heutigen Smartphone Gestalt angenommen hat.
B ack to the roots Die Maschinen, um somit darauf zurückzukommen, sind an der Macht. Kein Wunder, wenn inzwischen die Bescheidenheit wieder umschlug und von endlich erfolgreichen »big step[s] towards true artificial intelligence« (zu deutsch wohl: »echter künstlicher Intelligenz«, Jones 2014: 146) die Rede ist. Diese nutzerseitig oft gar nicht bemerkten, aufseiten der Systementwickler aber gefeierten Erfolge haben auch das Label einer ›nouvelle KI‹ erhalten. Aber was ist neu? Was genau geht eigentlich vor sich? Machine Learning als Oberbegriff, Deep Learning, Künstliche Neuronale Netze, Konnektionismus oder Cognitive Computing als Unterbegriffe oder zum Teil Synonyme – in systematischer Hinsicht sieht alles an der ›nouvelle KI‹ nach einer Art Umkehrung aus: Seit Turing gilt, dass jedweder Denkprozess, dessen Regeln unzweideutig formuliert werden können, genauso als Algorithmus alias Computerprogramm nachgeahmt werden kann (vgl. etwa Turing 1947: 186 u. 1953: 121). Dagegen erklärt die jüngere, ihrem Anspruch nach neue KI, dass es möglich ist, in »künstlichen neuronalen Netzen« – also das Organ des Denkens rudimentär kopierenden
45
46
Bernhard J. Dot zler
Systemen – »zumindest im Prinzip jedes herkömmliche Computerprogramm nachzubilden« (Ritter 2004: 126). Das Cognitive Computing mittels der sogenannten Künstlichen Neuronalen Netze vermag mithin erstens alle andere KI-Software zu ersetzen, ist aber zweitens – das ist der Clou – gerade nicht von der Art solcher Software. Um das Wunder zu vollbringen, Maschinen vom abstrakten Hören und Sehen zum Hören und Sehen von Sprache und Bildern gelangen zu lassen, sind die Künstlichen Neuronalen Netze des Deep Learning vielmehr in Schichten aufgebaut wie die Objekte ihrer Lernbegierden in Ebenen: Deep neural networks exploit the property that many natural signals are compositional hierarchies, in which higher-level features are obtained by composing lower-level ones. In images, local combinations of edges form motifs, motifs assemble into parts, and parts form objects. Similar hierarchies exist in speech and text from sounds to phones, phonemes, syllables, words and sentences. (LeCun/Bengio/Hinton 2015: 439)
Entsprechend die Deep Learning-Systeme: The strategy called for simulated neurons to be organized into several layers. Give such a system a picture and the first layer of learning will simply notice all the dark and light pixels. The next layer might realize that some of these pixels form edges; the next might distinguish between horizontal and vertical lines. Eventually, a layer might recognize eyes, and might realize that two eyes are usually present in a human face. (Jones 2014: 146)
Auf diese Weise unterscheidet sich die »neural-network-inspired« neue KI deutlich von der »logic-inspired« alten (LeCun/Bengio/Hinton 2015: 441). Neuronale Netze sind keine Von-Neumann-Rechner, wie sich herumgesprochen hat und einmal im Manifest-Ton wie folgt erklärt wurde: To complement today’s computational paradigm that brings data to computation and excels at symbolic processing, we envision a […] computational paradigm that brings computation to data and excels at sub-symbolic processing. Specifically, the low-precision, synthetic, simultaneous, pattern-based metaphor of [Cognitive Computing Systems] is a fitting complement to the high-precision, analytical, sequential, logic-based metaphor of today’s von Neumann computers. (Esser et al. 2013: 1)
Orientiert an der Funktionsweise des Gehirns: »brain-inspired mechanics to achieve brain-like function« (Jones 2014: 146), exploriert die ›neue KI‹, als das laut verkündete, mithin offenbare Geheimnis ihrer unheimlichen Erfolge, »entirely new computing architectures, system designs, and programming paradigms« (Modha et al. 2011: 70).
»Down-to-ear th resolutions«
Und doch stellt das beschworene »gänzlich neue« Paradigma in historischer Hinsicht keine Neuerung und keine Umkehrung dar, sondern, auf elementarer Ebene, ein back to the roots. Die »brain-inspired mechanics« impliziert eine Abkehr von der Regelbasiertheit der »symbolic processing« GOFAI-Algorithmen. Statt dessen operiert sie über den Aktivitätsmustern und Verbindungswichtungen simulierter Neuronen(schichten): »neural networks just use big activity vectors, big weight matrices« (LeCun/Bengio/Hinton 2015: 441). Aber das heißt nicht, dass der Algorithmus als Grundprinzip aller computation keine Rolle mehr spielen würde, im Gegenteil. Der neue Ansatz sei »rich with opportunity«, sagen seine Protagonisten, um doch nur ergänzen zu müssen: »Finally, the ugly news is that the core set of algorithms implemented within the brain are as yet undiscovered« (Modha et al. 2011: 71). So insistiert, um welche Intelligenz auch immer es geht, die Frage ihrer Algorithmik. Ob ›starke‹ oder ›schwache‹, ob ›Good Old-Fashioned‹ oder ›nouvelle‹ KI, bei allen Errungenschaften bis heute gilt: »All ›intelligent‹ systems constructed so far are in the domain of algorithms and thus in the computational domain of Turing machines« (Teuscher 2004: 524). Allein deshalb schon lohnt ein Blick zurück auf die Anfänge, als die Macht der Computer bereits mehr als nur geahnt wurde. Bereits Turing wies nicht nur auf das entscheidende Kriterium der Lernfähigkeit hin, sondern experimentierte auch mit neuronalen Architekturen. »Unorganisierte Maschinen« hieß das bei ihm, aber die Beschreibung ist unzweideutig: Ein typisches Beispiel einer unorganisierten Maschine […] ist aufgebaut aus einer ziemlich großen Anzahl N gleicher Einheiten. Jede Einheit hat zwei Eingänge (input terminals) und einen Ausgang (output terminal), der mit den Eingängen anderer (0 oder mehr) Einheiten verbunden sein kann. (Turing 1948: 92)
Darüber hinaus sprach Turing dann auch ebenso ausdrücklich von seinem Entwurf als »in etwa [dem] einfachste[n] Modell eines Nervensystems mit zufälliger Neuronenanordnung«, wie er die Konfigurierung unorganisierter zu organisierten Maschinen durch »einen Erziehungsprozeß« als Ziel seiner Experimente benannte. Am Ende sollte eine zu Beginn unorganisierte Maschine »sich wie eine für einen bestimmten Zweck organisierte« verhalten (Turing 1948: 94, 99f.). Sei nun dahingestellt, inwieweit Turings verstreute Andeutungen zu Indizierungs- und Wichtungsverfahren im Maschinengedächtnis, zu dessen Selbstmodifikation oder zum automatisierten (unüberwachten) Lernen als
47
48
Bernhard J. Dot zler
Proto-Versionen heutiger konnektionistischer Techniken gelten könnten.11 Klar ist, dass Turings rudimentäre Skizzen einem Vergleich mit den aktuellen »much more powerful neural models« schwerlich standhalten (Teuscher 2004: 523). Aber gerade deshalb lohnt der Vergleich, konkretisiert er doch die Frage, ob die rezenten KI-Durchbrüche die unabweisbar gewordene Machtübernahme der Maschinen bedingen – oder ob nicht umgekehrt diese Machtergreifung, massiert zutage tretend, die rezenten Erscheinungsweisen der KI, als den Schein endlich erreichter ›echter KI‹, erklärt. Es geht ja nicht um ein wohlfeiles Alles-schon-Dagewesen oder, frei nach Becketts Murphy: The sun, having no alternative, shines on the nothing new. Entscheidend ist vielmehr, die KI im rechten Licht zu sehen, oder genauer: die Sicht der KI auf die intelligent machinery, wie Turing sie implementierte, als tendentielle Fehllektüre zu erkennen, die nur blind dafür macht, wie intelligent diese computing machinery aus sich heraus ist. Denn Turings Beitrag zum laufenden Stand der Intelligenz-Ermittlungen war zum einen, den Begriff irgendeiner ›echten künstlichen Intelligenz‹ schlicht aufzuheben. Es wäre auch anders kaum eine (wie er sie aber doch nicht umsonst überschrieb) »häretische Theorie«. Sein Einsatz bezüglich der Frage, ob Maschinen denken können, war nun einmal der, sie zu ersetzen durch die Probe aufs Exempel funktionierender Systeme, die sich in so hinreichendem Maße wie intelligent verhalten, dass Aussagen über ihr Denkvermögen unentscheidbar sind. Die Zurechenbarkeit von Intelligenz sensu Denkfähigkeit kann so wenig »in mathematischen Terms ausgedrückt werden« (Turing 1951: 11), wie daher jeder konkrete Akt der Zurechnung eine »subjektive« Angelegenheit ist, ihrerseits »eher emotional als mathematisch« (Turing 1948: 112 u. 84). Weshalb Turing zum anderen ganz auf die künstliche Intelligenz als solche setzte, die »technische Bedeutung« (Turing 1954: 76) des Worts und der Sache, die (in der Formulierung seines Biographen) »down-to-earth resolution« (Hodges 1992: 108) jener reellen Maschinen und Programme, wie er sie, wenn auch zum Teil nur auf dem Papier, zum Laufen brachte. Bemerkenswerterweise zielten dabei schon die kleinen neuronalen Netze Turings – Maschinen mit nur »wenigen Einheiten« (Turing 1948: 93) – auf ein Lernen von Phänomenen, an denen regelbasierte KI-Ansätze zwangsläufig scheitern. »Wir scheinen«, führte er am Beispiel unregelmäßiger Verben aus, »mehr oder weniger damit zufrieden, daß die Dinge nicht zu sehr mathematischen Gesetzmäßigkeiten gehorchen. Durch lange Erfahrung können wir die kompliziertesten Regeln auffassen und anwenden, ohne doch in der Lage zu sein, sie zu formulieren« (Turing 1948: 109). Andere Vorgriffe in die damalige Zukunft betreffen die Notwendigkeit riesiger Speicherkapazitäten – diese seien, schrieb er, »der 11 | Vgl. im Einzelnen: Turing 1948: 95f. u. 109, 1951: 12 – sowie als Gesamtwürdigung: Teuscher 2002.
»Down-to-ear th resolutions«
Schlüssel zum Problem der Digitalrechner«: will man sie dazu bringen, »irgendeine Art von genuiner Intelligenz zu zeigen, müssen zweifellos viel größere Kapazitäten, als jetzt erreichbar sind, bereitgestellt werden« (Turing 1947: 192f.) – und die eminente Rolle, die Suchverfahren für die »weitere Forschung über maschinelle Intelligenz« spielen werden, einschließlich der Verallgemeinerung, daß sie alle auf die Form »Finde eine Nummer n, so daß…« gebracht werden können (Turing 1948: 110-112). Wie wahr dies alles geworden ist, bedarf in Zeiten von Google DeepMind keiner langen Ausführungen.12 Aber all diese noch oder zumal für die aktuellen KI-Ansätze einschlägigen Einsichten, die Turing aus seinen prototypischen Entwürfen gewann, spielen demgemäß auch schon wieder hinüber in die, ob ›stark‹ oder ›schwach‹, jedenfalls gewissermaßen ›höhere KI‹. Entscheidend jedoch ist ihre Fundierung auf der, wie man sie nennen könnte, ›kleinen Intelligenz‹ der Grundoperationen aller Turing machine computability: »›einfache Operationen‹ […], die so elementar sind, daß es schwer fällt, sie sich noch weiter aufgespalten vorzustellen« (Turing 1937: 41). Ein Zeichen oder eine Schalterstellung lesen, je nach aktuellem Maschinenzustand diese Schalterstellung lassen oder verändern, je nach Schalterstellung in einen anderen Maschinenzustand übergehen oder nicht – so und nicht anders funktioniert maschinell implementierte Intelligenz, die Intelligenz zu heißen verdient, indem sie nichts geringeres als Kritik- sensu Diskriminationsfähigkeit, also: die Operationen des Unterscheidens und Entscheidens auf so basaler Ebene impliziert wie auf der höheren Ebene komplexerer Programmierkunst die »Idee« der Fallunterscheidung als, so Turing, »einer zum Teil von den Ergebnissen der Maschine selbst und nicht den dem Programmierer verfügbaren Daten abhängenden Entscheidung über den nächsten Schritt« (Turing 1947: 199ff.). Und weil sich in allen noch so komplexen Machine Learning- oder Cognitive Computing-Systemen, in allen Internet-Bots und Smartphone-Apps keine andere als diese Intelligenz ausbreitet, ›nur‹ auf Big-Data-Format gebracht (Google Brain: »a network of 1,000 computers«, »about 1 million simulated neurons and 1 billion simulated connections«, angesetzt auf »some 10 million still images from YouTube videos« [Jones 2014: 146]), bezeugen Beispiele wie »Intelligent Drive« erstens durchaus neue Dimensionen im Voranschreiten der Maschinenmacht, darin aber zweitens dennoch nicht unbedingt die Erfüllung ›starker‹ KI-Verheißungen als vielmehr die Stärke der massierten Intelligenz im Kleinen.
12 | Für die etwas älteren Zeiten vgl. nur ehemals Ashby 1956, sowie dann Winograd/ Flores 1989: 47-50, 161-163 u. 235.
49
50
Bernhard J. Dot zler
»E s funk tioniert alles « Worin diese besteht, und was sie vermag, lehrt schon das seinerseits ›kleine‹ Beispiel, das Shannon einst auch einmal vor laufender Kamera präsentierte: This is Theseus. Theseus is an electrically controlled mouse. He has the ability to solve a certain class of problems13, bestehend in der Aufgabe, seinen Weg durch ein Labyrinth zu finden. Im vorgeführten Fall handelt es sich um ein Feld aus 5x5 Quadraten, aus denen sich durch frei versetzbare Trennwände ein beliebiger Irrgarten gestalten lässt. Die Maus registriert durch einen Sensor, erstens wenn eine Wand ihr den Weg versperrt, und zweitens wann sie ihr Ziel erreicht hat. Wird sie das erste Mal an den Eingang des Labyrinths gesetzt, ertastet sie sich ihren Weg von Quadrat zu Quadrat, bis sie am Ende angelangt ist. Setzt man sie an beliebiger Stelle erneut in das Labyrinth, nimmt sie von dort aus fehlerlos und unbeirrt den richtigen Pfad. Sie hat also, wie Shannon erläutert, aus Erfahrung gelernt. Oder simpler: Die einmal durch Versuch und Irrtum herausgefundene Route wurde abgespeichert. Mehr nicht. Insofern auch Memorieren ein Lernen ist (Flechtner 1984: 295), hat man es durchaus mit einem Fall von Machine Learning zu tun. Aber – nur als Beispiel – die Maschine erarbeitet sich dabei keinerlei eigene Wegfindungsstrategie (auch wenn Shannon andeutet, dies wäre machbar: »es würde nur eine viel kompliziertere Maschine bedeuten« [Shannon 1952: 296]). Noch weniger als Turings Netze leidet ihre Lernfähigkeit den Vergleich mit derjenigen komplexer Deep Learning-Systeme. Vielmehr scheint prima vista sogar eher eine Art Taschenspielertrick im Spiel zu sein. Unter dem Labyrinth, durch das die Maus läuft, befindet sich ebenso ein größerer Kasten wie hinter dem Spiegel, der zur Projektion der Aufsicht aufs Labyrinth für das Publikum oder die Kamera dient. Diese Gesamtapparatur, und nicht die Maus, ist Theseus. Und nicht die Maus registriert durch einen Sensor ihr im Weg stehende Wände, sondern sie ist der mobile Sensor, den eine in den Kästen versteckte Relais-Vorrichtung durch das Labyrinth zu manövrieren lernt: »40 airplane-control relays« für die Steuerung und »50 more relays, two for each of the 25 squares« als »[t]he mouse’s ›memory‹« (Pfeiffer 1952: 100). So macht nur der Schein, die Oberfläche, die, könnte man sagen, mediengestalterische Zurichtung glauben, die Maus wäre klug und lernfähig. Aber es ist nicht die Maus, sondern das Ganze aus Maus und Relais-Kasten ist die Labyrinthe lösende Maschine: Theseus. Diese, und nicht die Maus, ist »smarter than you are«. Fast ist es wie einst bei Kempelens Schachtürken. Die Intelligenz steckt im Kasten darunter oder dahinter. 13 | AT&T Archives, I n Their O wn Words: D emonstration of E arly M achine L earning with ›Theseus ‹. By: Claude Shannon, URL: http://techchannel.att.com/play-video. cfm/2010/3/16/In-Their-Own-Words-Claude-Shannon-Demonstrates-Machine-Learning (5.10.2016)
»Down-to-ear th resolutions«
Nur dass sich kein Mensch in diesem Kasten verbirgt; nur dass Intelligenz im System ist, die Fähigkeit zu diskriminieren und zu entscheiden, die beim heutigen Stand der Miniaturisierung leichtestens auch in die mechanische Maus selber eingebaut werden kann. Die Gaukelei besteht also nicht in einem falschen Spiel des Erfinders; sie besteht darin, dass die Maus von der Intelligenz des Systems nur ablenkt, oder: sie demonstriert und von ihr ablenkt zugleich. Diese Intelligenz ist nichts anderes als das »on-on, on-off, off-on, offoff« (Pfeiffer 1952: 100) der Steuer- und der Speicherrelais. Durch sie hat die Maschine zum einen den Überblick über das Feld aus 5x5-Quadraten und erlernt zum anderen den Weg durch das darauf errichtete Labyrinth: »Für jedes der fünfundzwanzig Quadrate behält der Speicher der Maschine ein Vektorfeld, das über das 5x5-Labyrinth definiert ist« (Shannon 1952: 297). Und wie dies geschieht, legte damals den Grund für die gespenstische Normalität, um nicht zu sagen normale Gespensterhaftigkeit, mit der heute jede E-mail ihren Weg von einem zum anderen, beliebig nahen, beliebig weiten Schreibtisch findet (Roch 2009: 22), ganz wie es kein Zufall ist, wenn der Film, der Shannon und seine Maschine präsentiert, an genau der Stelle seiner Erläuterungen zur Relais-Technik zur reinen Eigenwerbung der Produktionsfirma wird: This is a bank of relays, telephone relays. And the job they do for Theseus is similar to the job they do in your dial telephone system […]. Here at the Bell Telephone Laboratories we’re concerned with improving your telephone system, making it work better to give you more efficient service.14 Wie rudimentär die Intelligenz und die Lernfähigkeit der Shannonschen Implementierung daher auch noch gewesen sein mögen, so illustriert sie doch einen bis heute, wenn nicht heute mehr denn je gültigen Zusammenhang. Da ist vorab die autonomisierte Schalttechnologie. Ferner die Ermöglichung autonomen Verhaltens durch einen Sensor. Wie schließlich die Ausrichtung auf die Optimierung einer IT-Anwendung und genauerhin schon das Netz (indem ja Telefonie die infrastrukturelle Basis für das Internet miterschuf): das Netz als die mächtigste (teils überwacht, teils unüberwacht) lernende Maschine (bestehend aus lernenden Maschinen), auf die bislang verwiesen werden kann. Deren »formale […] Bedingungen zu analysieren«, heißt daher die strengste nur denkbare KI-Kritik »zu bewerkstelligen« (Foucault 1978: 13), der gegenüber die »unaufhörlich[e]« KI-Aufgeregtheit (Turing 1950: 165), selbst in ihren neuesten, eine neue Evolutionsstufe verheißenden Kleidern, nur Ablenkung, Verkennung, Verharmlosung ist. »We live in a world where a rapid proliferation of sensors, embedded in a range of consumer devices like cars, cameras, and cell phones as well as complex systems like weather monitoring networks, provide a massive flow of real-time, spatio-temporal, multi-modal data« (Esser et al. 2013: 1), lautet die ausdrücklich erklärte Motivation für die Entwicklung von Cogniti14 | D emonstration of E arly M achine L earning with ›Theseus‹, Timecode: 01:35-02:19.
51
52
Bernhard J. Dot zler
ve Computing Systems nicht umsonst. Darum geht es. Um all die Daten, die von Maschinen längst schon nur noch für Maschinen produziert und prozessiert werden. Ob diese Maschinen ›denken‹, tut wenig zur Sache. Sie funktionieren. Das ist, in ihrem Fall, die Macht. Das Unheimliche, wie Heidegger sagte, also das Offenbare (»Jetzt ist der Kutscher dran«): »Es funktioniert alles. Das ist gerade das Unheimliche, daß es funktioniert, und daß das Funktionieren immer weiter treibt zu einem weiteren Funktionieren« (Heidegger 1976: 98) – und das nicht nur mehr und mehr autonom, sondern immer mehr wie autochthon: »down-to-earth«. Als wäre, in Abrede zu stellen und nicht etwa zu behaupten, dass Maschinen denken können, die Häresie.
L iter atur Alesso, H. Peter/Smith, Craig F. (2009): Thinking on the Web: Berners-Lee, Gödel and Turing. Hoboken, NJ: Wiley-Interscience. Ashby, W. Ross (1956): »Entwurf für einen Intelligenz-Verstärker«. In: Shannon, Claude E./McCarthy, John (Hg.): Studien zur Theorie der Automaten. München: Rogner und Bernhard, 1974: 249-271. Berners-Lee, Tim et al. (2001): »The Semantic Web«. In: Scientific American 5: 35-43. DOI: https://doi.org/10.1038/scientificamerican0501-34 Copeland, B. Jack (2004): The Essential Turing. Oxford: Oxford University Press. Ertel, Wolfgang (2013): Grundkurs Künstliche Intelligenz. 3. Auflage. Wiesbaden: Springer. DOI: https://doi.org/10.1007/978-3-8348-2157-7 Esser, Steve K. et al. (2013): »Cognitive Computing Systems: Algorithms and Applications for Networks of Neurosynaptic Cores«. In: Proceedings of the International Joint Conference on Neural Networks. Dallas, TX: August 2013: www.research.ibm.com/software/IBMResearch/multimedia/IJCNN2013. algorithms-applications.pdf (11.9.2016) Feigenbaum, Edward A./McCorduck, Pamela (1984): Die Fünfte ComputerGeneration, Basel; Boston; Stuttgart: Springer Basel. DOI: https://doi. org/10.1007/978-3-0348-6528-9 Flechtner, Hans-Joachim (1984): Grundbegriffe der Kybernetik. München: Deutscher Taschenbuch Verlag. Floridi, Luciano (2015): Die 4. Revolution. Berlin. Foucault, Michel (1978): Von der Subversion des Wissens. Frankfurt a.M.; Berlin; Wien: Ullstein. Heidegger, Martin (1935/36): »Der Ursprung des Kunstwerks«. In: Ders. Holzwege. 6. durchgesehene Auflage. Frankfurt a.M. 1980: 1-72. Heidegger, Martin (1976): »Das Spiegel-Interview«. In: Neske, Günther/Kettering, Emil (Hg.): Antwort. Martin Heidegger im Gespräch. Pfullingen 1988: Neske: 79-111.
»Down-to-ear th resolutions«
Hodges, Andrew (1992): Alan Turing: The Enigma. London: Vintage. Jones, Nicola (2014): »The Learning Machines«. In: Nature 505: 146-148: www.nature.com/news/computer-science-the-learning-machines-1.14481 (20.9.2016) Kittler, Friedrich (1997): »Farben und/oder Maschinen denken«. In: Warnke, Martin et al. (Hg.): HyperKult. Geschichte, Theorie und Kontext digitaler Medien. Basel; Frankfurt a.M.: Stroemfeld: 83-97. LeCun, Yann/Bengio, Yoshua/Hinton, Geoffrey (2015): »Deep learning«. In: Nature 521: 436-444. DOI: https://doi.org/10.1038/nature14539 Michie, Donald (1988): »The Fifth’s Generation Unbridged Gap«. In: Herken, Rolf (Hg.): The Universal Turing Machine: A Half-Century Survey, Berlin: Springer: 467-489. Modha, Dharmendra S. et al. (2011): »Cognitive computing«. In: Communications of the ACM. Vol. 54, No. 8: 62-71. DOI: https://doi.org/10.1145/1978542.1978559 Pfeiffer, John (1952): »This Mouse Is Smarter Than You Are«. In: Popular Science 3: 99-101. Pollack, Andrew (1992): »›Fifth Generation‹ Became Japan’s Lost Generation«. In: New York Times 05.06.: www.nytimes.com/1992/06/05/business/ fifth-generation-became-japan-s-lost-generation.html (17.11.2016). Potužníková, Marta (2015): Audi-Werbung 1909-1965. Frankfurt a.M.: Peter Lang. Ritter, Helge (2004): »Die neuen Denkmuster der künstlichen Intelligenz«. In: Mutius, Bernhard von (Hg.): Die andere Intelligenz. Wie wir morgen denken werden. Stuttgart: Klett-Cotta: 118-131. Roch, Axel (2009): Claude E. Shannon – Spielzeug, Leben und die geheime Geschichte seiner Theorie der Information. Berlin: gegenstalt. Shannon, Claude E. (1952): »Vorführung einer Maschine zur Lösung des Labyrinthproblems«. In: Ders.: Ein/Aus. Ausgewählte Schriften zur Kommunikations- und Nachrichtentheorie. Berlin 2000: Brinkmann & Bose: 289-298. Teuscher, Christof (2004): »Turing’s Connectionism«. In: Ders. (Hg.): Alan Turing: Life and Legacy of a Great Thinker. Berlin; Heidelberg: Springer: 499527. DOI: https://doi.org/10.1007/978-3-662-05642-4_21 Teuscher, Christof (2002): Turing’s Connectionism. An Investigation of Neural Network Architectures. London: Springer. DOI: https://doi.org/10.1007/9781-4471-0161-1 Turing, Alan (1937): »Über berechenbare Zahlen mit einer Anwendung auf das Entscheidungsproblem«. In: Ders. (Hg.): Intelligence Service. Schriften. Berlin: Brinkmann und Bose: 17-60. Turing, Alan (1947): »The State of the Art. Vortrag vor der London Mathematical Society am 20. Februar 1947«. In: Ders. (Hg.): Intelligence Service. Schriften. Berlin: Brinkmann und Bose: 183-207.
53
54
Bernhard J. Dot zler
Turing, Alan (1948): »Intelligente Maschinen«. In: Ders. (Hg.): Intelligence Service. Schriften. Berlin: Brinkmann und Bose: 81-113. Turing, Alan (1950): »Rechenmaschinen und Intelligenz«. In: Ders. (Hg.): Intelligence Service. Schriften. Berlin: Brinkmann und Bose: 147-18. Turing, Alan (1951): »Intelligente Maschinen, eine häretische Theorie«. In: Ders. (Hg.): Intelligence Service. Schriften. Berlin: Brinkmann und Bose: 7-15. Turing, Alan (1953): »Spielprogramme«. In: Ders. (Hg.): Intelligence Service. Schriften. Berlin: Brinkmann und Bose: 115-145. Turing, Alan (1954): »Lösbare und unlösbare Probleme«. In: Ders. (Hg.): Intelligence Service. Schriften. Berlin: Brinkmann und Bose: 61-80. Turing, Alan (1987): Intelligence Service. Schriften. Hg. v. Bernhard Dotzler u. Friedrich Kittler. Berlin: Brinkmann und Bose. Wiener, Norbert (1963): Kybernetik. Regelung und Nachrichtenübertragung im Lebewesen und in der Maschine. Düsseldorf; Wien: Econ. Winograd, Terry/Flores, Fernando (1989): Erkenntnis. Maschinen. Verstehen. Zur Neugestaltung von Computersystemen. Berlin: Rotbuch.
Szenarien des Postdigitalen Deep Learning als MedienRevolution 1 Andre as Sudmann
1. E inleitung Wenn gegenwärtig von Künstlicher Intelligenz (im Folgenden: KI) die Rede ist, so ist damit in der Regel vor allem ein technologischer Ansatz gemeint: das sogenannte Deep Learning (DL) oder um eine Bezeichnung zu gebrauchen, die eine weitaus längere Tradition hat: Künstliche Neuronale Netzwerke (KNN). KI-Technologien, die auf KNN basieren, greifen mittlerweile in fast alle Bereiche von Kultur und Gesellschaft ein. Sie ermöglichen selbstfahrende Autos, die Vorhersage von Börsenkursen, die medizinische Diagnose von Krankheitsbildern, die Verarbeitung natürlicher Sprache, um nur einige der geläufigen Anwendungsbeispiele anzuführen. Sie sind mithin ein Kernbestandteil der technologischen Bedingungen der Gegenwart und bestimmen schon jetzt, mit Kittler gesprochen, unsere Lage. Deep-Learning-Verfahren gehören zu einem bestimmten Paradigma der KI, das mit dem Oberbegriff des Machinell Learning (ML) bezeichnet werden kann (vgl. u.a. Mitchell 1997, Bishop 2006, Shalev-Shwartz/Ben-David 2014). Mit Blick auf dieses Paradigma sprechen Experten wie Pedro Domingos (2015) längst von einer neuen Phase in der Evolution der Computertechnologie: Diese sei dadurch bestimmt, dass Computer, um bestimmte Aufgaben erfüllen oder Probleme lösen zu können, zukünftig immer weniger programmiert werden müssen, sondern stattdessen quasi-selbstständig mit Lernalgorithmen operieren. Dank spezifischer Lernalgorithmen können Computer aus umfangreichen komplexen Daten Muster extrahieren, um auf diese Weise Unterscheidungen vorzunehmen oder Vorhersagen zu treffen. Dafür wird das KI-System 1 | Bei dem vorliegenden Essay handelt es sich um eine erweiterte und leicht modifizierte Fassung meiner Antrittsvorlesung, die ich am 17. Mai 2017 an der Fakultät für Philologie der Ruhr-Universität Bochum unter dem Titel »Szenarien des Postdigitalen: Künstliche Intelligenz als Medienrevolution« gehalten habe.
56
Andreas Sudmann
im Rahmen einer sogenannten Lernphase mit Beispieldaten trainiert. Im Anschluss an diese Trainingsphase soll das System autonom in der Lage sein, die Lerndaten zu verallgemeinern, um schließlich auch unbekannte Daten zutreffend klassifizieren zu können (vgl. auch Mitchell 1997). In Domingos’ Publikation von 2015 figurieren KNN als einer von mehreren Ansätzen maschinellen Lernens. Folgt man der Kernthese des Autors, besteht die zentrale Herausforderung der gegenwärtigen und zukünftigen KI-Forschung in erster Linie darin, einen Masteralgorithmus zu finden, der die individuellen Stärken verschiedener Ansätze des ML bündelt. Eine solche Herangehensweise mag auf den ersten Blick plausibel erscheinen. Gleichwohl kann man Domingos’ Ausführungen auch kritisch betrachten. Erstens ignoriert er die herausragende Stellung von DL-Ansätzen im Feld der maschinellen Lernverfahren und zweitens kann man durchaus argumentieren, dass speziell DL-Verfahren längst über einen ›Masteralgorithmus‹ verfügen: Er heißt Backpropagation und kommt bei nahezu allen KI-Anwendungen zum Einsatz, die derzeit als Innovationen in Erscheinungen treten. Bei den nachfolgenden Überlegungen geht es jedoch nicht darum, echte von falschen Masteralgorithmen unterscheiden zu wollen. Ein solcher Fokus entspräche auch weder der Kompetenz noch der Zuständigkeit eines medienwissenschaftlichen Zugriffs. Dennoch ist die kritische Auseinandersetzung mit Domingos These aus der Fachperspektive der Medienwissenschaft insofern relevant, als sie nahelegt, dass die entscheidenden Entwicklungsschübe der gegenwärtigen KI-Technologie allgemein dem maschinellen Lernen zugerechnet werden könnten. Mit Blick auf die dominante Einstellung von DL-Verfahren scheint eine solche Einschätzung, selbst aus fachfremder Perspektive, kaum haltbar zu sein. Aus eben diesem Grund beziehen sich die nachfolgenden Ausführungen ausschließlich auf KNN und beanspruchen keine Geltung für andere Ansätze des maschinellen Lernens. Ziel des folgenden Beitrags ist es, die allgegenwärtige Rede von einer Revolution der KI, die sich dem Ansatz des DL verdankt, kritisch zu prüfen. Verbunden mit diesem Fokus besteht das Erkenntnisinteresse in einem zweiten Schritt darin, auszuloten, auf welche Weise die gegenwärtigen Entwicklungen des DL spezifisch als Medienrevolution verhandelt werden können. Als dritter und letzter Schritt soll diskutiert werden, inwieweit DL für den Wandel hin zu einer postdigitalen Konfiguration der Informationstechnologie steht.
Szenarien des Postdigitalen
2. D eep L e arning und die R evolution der K ünstlichen I ntelligenz Spätestens seit 2015 ist die Rede von einer neuen revolutionären Phase der KIForschung in der globalen Berichterstattung allgegenwärtig. Die Revolutionsrhetorik kennzeichnet dabei auch und gerade die Selbstbeschreibungen der führenden DL-Wissenschaftler, wenn etwa Andrew Ng, der Gründer und ehemalige Leiter des Google-Brain-Projekts, am 26. Mai 2016 über Twitter verlauten ließ: »AI is the new electricity. Electricity transformed countless industries; AI will now do the same.« Rund zwei Monate zuvor, im März 2016, hatte ein Computer-System namens AlphaGo den Weltmeister im Brettspiel in fünf Partien mit 4:1 geschlagen. AlphaGo ist eine Entwicklung des KI-Unternehmen DeepMind, das 2014 von Alphabet (Google) für ca. 400 Millionen Pfund aufgekauft wurde. Und wie schon 1997, als ein Schachcomputer namens Deep Blue für Furore sorgte, ist es erneut ein spielerischer Wettkampf zwischen Mensch und Maschine, der am eindrücklichsten den Fortschritt der KI-Forschung vor Augen führt. Im Unterschied zu den 1990er Jahren hat man gegenwärtig allerdings durchaus einige Mühe, in der Presse sowie unter jüngsten wissenschaftlichen Publikationen solche Auffassungen zu finden, welche die gegenwärtige Blütephase der KI schlicht als weiteren Hype begreifen, von dem man erfahrungsbedingt durchaus annehmen darf, dass sein Abklingen nicht lange auf sich warten lässt. Immerhin hat die Geschichte der Informationstechnologie wiederholt gezeigt, dass nach Phasen eines oftmals kurzen ›KI-Sommers‹ des Fortschritts alsbald ein eher härterer ›KI-Winter‹ der Stagnation folgte und deshalb eine grundsätzliche Skepsis gegenüber euphorischen Hochrechnungen zum Leistungspotenzial maschineller Intelligenz berechtigt erscheint. Eine Schlussfolgerung, die man daraus ziehen kann, ist die, dass man hinsichtlich der Einschätzung, ob wir es dieses Mal nun endlich mit einer veritablen Revolution zu tun haben, sich zunächst auf den aktuellen Stand der Entwicklung beziehen sollte, statt auf vermeintlich absehbare Errungenschaften zu spekulieren. Damit sind bereits die Kriterien angesprochen, nach denen Revolutionen als solche zu bestimmen sind. Der Umstand, dass die Rede von der Revolution sich entweder auf eine rapiden und/oder radikalen Wandel bezieht, muss kaum eigens betont werden. Relevant ist dagegen eher der Hinweis, dass sich Revolutionen in der Regel gerade nicht an dem Geschehen selbst festmachen lassen, sondern vor allem anhand ihrer historischen Beschreibung (Engell 2006: 103). Als geschichtliche Deskription eines ereignishaften Wandels implizieren Revolutionen die Beobachtung der Differenz eines Vorher und Nachher. Damit beziehen sie sich auf etwas grundlegend Abwesendes, von dem sie sich in ihrer jeweils gegenwärtigen Beschreibungsform unterscheiden. Wie Engell
57
58
Andreas Sudmann
weiter ausführt, handelt es sich bei Revolutionen um einen Spezialfall historischer Beschreibungen. Sie treten, so Engell, eben nicht (allein) im Modus der historischen Fremdbeobachtung auf, sondern operieren im Modus der Selbstbeobachtung. Sie sind geschichtliche Transformationsprozesse, die sich selbst als solche begreifen und dabei Gegenwärtiges als historische Form behandeln. Engell bringt das auf die Formel: »Revolution heißt Selbstwahrnehmung der gegenwärtigen Geschehnisse als geschichtliche« und verweist dabei, ähnlich wie schon Luhmann, auf die Französische Revolution als dafür einschlägiges Beispiel (ebd.). Und wie ich bereits mit dem Zitat von Andrew Ng angedeutet habe, ist genau diese Form der Selbstbeobachtung gleichermaßen für die gegenwärtige Entwicklung der KI charakteristisch. Laut Engell bringen folglich zuallererst die historischen Beschreibungen das Revolutionäre hervor. Damit hat man es dann aber nicht mehr mit einem Ereignis oder einer Zäsur zu tun. Vielmehr erscheint das Revolutionäre diskursiv als Serie oder zumindest als Serie von Ereignissen, soweit die Beobachtungen sich jeweils weiterhin auf die oben genannte Differenz eines Vorher oder Nachher beziehen (ebd.: 102).2 Der Fokus auf das Revolutionäre als historische Beobachtung entbindet aber nicht von der Frage, wie sich die Beobachtung und mit ihr die Differenz eines Vorher und Nachher jeweils plausibilisieren oder begründen lässt. Für eine solche Begründung empfiehlt sich, soweit es um den spezifischen Bereich wissenschaftlicher Revolutionen geht, nochmals der Rückgriff auf die in dieser Hinsicht einschlägigen Überlegungen von Thomas S. Kuhn (1962). Ihm zufolge finden wissenschaftliche Revolutionen statt, wenn Wissenschaftler mit Anomalien konfrontiert sind, die nicht durch das universal akzeptierte Paradigma der Normalwissenschaft erklärt werden können, innerhalb dessen bis dahin wissenschaftliche Fortschritte erzielt wurden. Unter Paradigma versteht Kuhn dabei weniger diese oder jene vorherrschende Theorie, sondern eher eine Weltsicht innerhalb derer eine Theorie existiert (ebd.). Es sind die großen Wissensschaftsrevolutionen wie u.a. Einsteins Spezielle Relativitätstheorie, welche die Newtonsche Mechanik ablöst, auf die Kuhn sich dabei hauptsächlich stützt. Hat ein solcher Paradigmenwechsel im Zusammenhang mit den gegenwärtigen Entwicklungen der KI stattgefunden? Wie nachfolgend gezeigt werden soll, haben wir es, anders als etwa im Fall von Einsteins Relativitätstheorie und der Newtonschen Mechanik, in Bezug auf das Gebiet der KI nicht mit einem Paradigmenwechsel von grundsätzlichen Weltsichten oder Theorien, sondern zunächst mit einem von Technologien zu tun. Als eben solcher verdankt er sich auch nicht der Entdeckung von Anomalien, die ein bisher dominantes wissenschaftliches Paradigma im Hin2 | Laut Luhmann kann die besagte »Differenz in der Zeit jedoch nicht einfach durch Desidentifikation aufgelöst werden [...] in dem Sinne, daß die Gesellschaft vorher eine andere ist als die nachher« (Luhmann 1997: 573).
Szenarien des Postdigitalen
blick auf seine Erklärungskraft von Welt herausfordern. Vielmehr geht es im Fall der aktuellen KI-Entwicklungen darum, dass eine Klasse von Ansätzen, die unter der Bezeichnung DL als Klammerbegriff subsumierbar sind, alle anderen existierenden KI-Ansätze, seien dies konkurrierende Verfahren maschinellen Lernens sowie die sogenannte symbolische KI, zunehmend zu verdrängen scheinen. Und sie sind dazu in der Lage, weil das nunmehr vorherrschende ›Paradigma‹ des maschinellen Lernens in seiner spezifischen Gestalt als DL/KNN in Bezug auf diverse Anwendungsgebiete der KI, von der Bild- bis zur Spracherkennung, schlicht leistungsfähiger ist. Mehr noch: Zum ersten Mal in der Geschichte der Informationstechnologie scheint es sogar möglich, dass intelligente Maschinen mit Hilfe von DL/KNN-Verfahren auf das Erlernen von Common-Sense-Wissen trainiert werden können (Sudmann 2016). Um nachfolgend die Spezifik von DL-Verfahren darzustellen, empfiehlt sich nicht so sehr die Kontrastierung mit anderen Ansätzen maschineller Lernverfahren, sondern die Gegenüberstellung mit der sogenannten symbolischen KI, die zuweilen auch GOFAI (»Good Old-Fashioned Artificial Intelligence«) genannt wird. Letztere basiert auf der Annahme, dass viele, wenn auch vielleicht nicht alle Herausforderungen der KI durch symbolische Manipulation gemäß von Regeln bewältigt werden können, eine Annahme, die Allen Newell und Herbert A. Simon (1976) als sogenannte »Physical Symbol Systems Hypothesis« definiert haben. Im Klartext: Alles Wissen, das zur adäquaten Beschreibung eines Problems sowie zu dessen Lösung erforderlich ist, kann explizit in Form von Algorithmen eines digitalen Computers encodiert und verarbeitet werden. Ein zentrales Kennzeichen symbolischer KI ist dabei ihr Top-DownZugang. Gemäß dieser Herangehensweise wird versucht, die übergeordneten logischen und konzeptionellen Strukturen zu identifizieren, die einem intelligenten Computersystem dazu verhelfen, ein Problem zu lösen, und zwar unabhängig vom materiellen Substrat seiner jeweiligen Implementierung, sei es in Form eines Gehirns oder eines digitalen Computers. Wenn symbolische KI, in den Worten von Hubert und Stuart Dreyfus (1988) darauf abzielt, gleichsam »einen Geist herzustellen«, dann lässt sich DL bzw. die KNN als Zugang der KI begreifen, der dem Paradigma verpflichtet ist, »ein Gehirn zu modellieren« (ebd.). Die Vorgehensweise entspricht dabei einem Bottom-Up-Zugang: Die Prämisse lautet, dass man bereits mit der sehr abstrakten Modellierung biologischer Gehirne, d.h. durch die Simulation neuronaler Netzwerke und ihrer Verbindungen, eine Struktur schaffen kann, die es erlaubt, dass ein Computersystem die Bewältigung von Problemen wie Bild- oder Spracherkennung erlernen und Vorhersagen treffen kann, ohne dass er für diese spezifischen Zwecke explizit programmiert wird. In Abgrenzung zu anderen maschinellen Lernverfahren zeichnen sich DL-Verfahren dadurch als solche aus, dass sie Hierarchien von Merkmalen lernen können, wobei Merkmale der höheren Ebene aus Merkmalen der unteren Ebenen zusam-
59
60
Andreas Sudmann
mengesetzt sind (Bengio 2009: 5-6, Goodfellow/Bengio/Courville 2016, zum Überblick maschineller Lernverfahren: Domingos 2015). Hinsichtlich ihrer grundsätzlichen Funktionsweise und ihres Auf baus unterscheiden sich DL-Verfahren kaum. Die Architektur von KNN besteht aus Schichten von Knoten, d.h. simulierten Neuronen. Jedes Netzwerk verfügt über eine Eingabe-Schicht von Knoten, die die Input-Daten repräsentieren (z.B. Pixel eines Bildes), und eine Ausgabe-Schicht von Knoten, welche entsprechend die Output-Daten darstellen. Dazwischen befinden sich bei DL-Architekturen mehrere sogenannte verdeckte Schichten. Typischerweise sind sämtliche Knoten einer Schicht mit denen der nachfolgenden Schicht verbunden. Ist ein Input-Knoten aktiviert, wird die Aktivierung über die Verbindung an die Knoten der nächsten Schicht weitergeleitet. Den einzelnen Relationen zwischen den Knoten (simulierten Neuronen) ist dabei jeweils ein Gewicht als Parameter zugeordnet. Im Rahmen des Lernvorgangs werden die Gewichte auf Grundlage der Beispieldaten aus der Trainingsphase optimiert. Ziel des Lernprozesses ist es, Input-Daten korrekte Output-Daten zuzuordnen. Ausschlaggebend hierfür ist die jeweils auftretende Abweichung zwischen Ist- und Sollwert des Outputs. Die Schichtung des KNN entspricht dabei einer hierarchisch organisierten Aufgliederung des ML-Prozesses auf mehreren Ebenen, die aufeinander auf bauen, von einfachen zu immer komplizierteren Formen (vgl. Bengio 2009). Als zentraler Lernalgorithmus kommt beim DL, wie bereits erwähnt, die sogenannte Backpropagation zum Einsatz, deren Funktion darin besteht, die Anpassung von Gewichten zwischen Verbindungen in einem KNN vorzunehmen (vgl. Hinton 1986, Rumelhart/Hinton/Williams 1986, LeCun 1989, vgl. auch Sudmann 2016: N2). Eine Besonderheit des Paradigmenwechsels auf dem Gebiet der KI besteht nun darin, dass KNN gegenüber der symbolischen KI keineswegs neueren Datums ist. Im Gegenteil kann man eher sagen, dass die moderne KI-Forschung von Anfang an beide Paradigmen mehr oder weniger parallel verfolgt hat. Erste Überlegungen, maschinelle Lernverfahren auf der Basis von KNN zu entwickeln, wurden sogar schon von Alan Turing Ende der 1940er Jahre formuliert, also Jahre bevor John McCarthy im Zusammenhang mit der berühmten Darthmouth-Konferenz die Rede von »Künstlicher Intelligenz« als Bezeichnung eines entsprechenden Forschungsprogramms etabliert hat (vgl. dazu auch Beitrag von Dotzler in diesem Band). Und bereits Anfang der 1950er entwickelte Marvin Minsky den ersten Neurocomputer der Computergeschichte. In der KI-Forschung hat der Ansatz der KNN jedoch über Jahre nur eine untergeordnete Rolle gespielt und wurde von vielen Experten, zu denen in den 1960er Jahre auch Marvin Minsky zählte, als wenig aussichtsreiches Paradigma eingeschätzt, um die Entwicklung maschineller Intelligenz voranzutreiben. Um 1970 lag der Forschungsansatz mehr oder weniger brach. Erst durch
Szenarien des Postdigitalen
die Implementierung der Backpropagation und dank insgesamt leistungsfähiger Computer erfuhr der Ansatz der KNN ab Mitte der 1980er einen kurzfristigen Aufschwung. Tatsächlich konnten KNN dank dieses Lernalgorithmus seinerzeit bereits eingesetzt werden, um handschriftlich verfasste Schecks maschinenlesbar auszuwerten, aber an komplexeren Lernherausforderungen scheiterten sie weiterhin. Die eigentliche, bis heute anhaltende Konjunkturphase der KNN, nunmehr unter dem neuen Namen DL, setzte ab ca. 2006 und insbesondere ab 2012 ein. Ausschlaggebend für die jüngste Durchsetzung des KNN/DL-Paradigmas war vor allem ein Paper: die 2012 von Krizhevsky/Sutskever/Hinton veröffentlichte Untersuchung »ImageNet classification with deep convolutional neural networks«. Dank des Trainings sogenannter Convolutional Neuronal Networks (CNN), eine auf Bildinput angepasste Architekturvariante herkömmlicher KNNs, ist es Hintons Team seinerzeit gelungen, die Fehlerrate auf dem Gebiet der Bilderkennung fast zu halbieren und im Rahmen der sogenannten ImageNet Challenge, einem Wettbewerb für maschinelle Bilderkennung, die Konkurrenz deutlich hinter sich zu lassen. Diese Forschungsleistung von Hinton et al. stellt in der Geschichte des DL tatsächlich eine Zäsur da. Sie war ein wesentlicher Faktor dafür, dass in ihrer Folge ein Großteil der Akteure der KI-Forschung ihre Methoden auf DL-Verfahren umstellten (vgl. Sudmann 2016: N2) und IT-Konzerne wie Google oder Facebook alsbald führende DL-Forscher wie Geoffrey Hinton oder Yann LeCun für ihre Dienste akquirierten. Was immer man als Möglichkeitsbedingung der Beschreibung von KI oder DL als Revolution ansehen mag, in jedem Fall hat die Forschungsleistung von Krizhevsky/Sutskever/Hinton (2012) daran einen wesentlichen Anteil. Gleichzeitig war letztere ihrerseits an bestimmte technische und ökonomische Voraussetzungen und Bedingungen gebunden, die nachfolgend dargestellt werden, wenn es im nächsten Abschnitt darum geht, die gegenwärtige KI-Revolution spezifischer als Medienrevolution zu diskutieren.
3. D eep L e arning als M edienrevolution Zunächst kann es kaum überraschen, dass Experten auf dem Gebiet des DL die Durchsetzung dieses Ansatzes zwar ständig als Revolution, nicht aber als Medienrevolution beschreiben. Medienrevolutionen sind eben zunächst einmal ein Konzept der Medienwissenschaft beziehungsweise medienwissenschaftlichen Denkens. Aber selbst der Einleitungstext eines Sammelbandes zum Thema Medienrevolutionen, der seinerzeit im Kontext des Siegener Forschungskollegs Medienumbrüche entstanden ist, verzichtet darauf, die Spezifik von Medienrevolutionen herauszuarbeiten (vgl. Schnell 2006).
61
62
Andreas Sudmann
Über die Probleme einer entsprechenden Begriffsklärung ist gerade in den letzten Jahren viel diskutiert worden: In welchem Verhältnis steht das Konzept der Medienrevolution zum Konzept der Medienevolution? Geht es bei Medienrevolutionen nur um die Revolution der Medien oder um die Medien der Revolution? Und heißt letzteres, dass jede Revolution der Geschichte auch als Medienrevolution untersucht werden kann, da alles, was wir wissen, denken, sagen können, nur in Abhängigkeit von Medien gewusst, gedacht, gesagt werden kann? Aber was ist dann mit Medien gemeint? Alle Entitäten und deren historische Relationen sowie die mit ihnen zusammenhängenden Prozesse, von denen das Sagbare, Denkbare und Wissbare jeweils abhängig ist? Muss es nicht darum gehen, Medien von Nicht-Medien zu unterscheiden, damit der Begriff überhaupt von analytischen Wert ist, um Unterschiede zu bezeichnen, die einen Unterschied machen, was wiederum unweigerlich bedeutet, dass nicht jede Revolution als Medienrevolution verstanden werden kann? Oder gehört es zur Spezifik von Medienrevolutionen a priori, dass man sie als eben solche eigentlich gar nicht beobachten kann? Am Anfang meiner Ausführungen habe ich mit Verweis auf Überlegungen von Lorenz Engell dargestellt, dass Revolutionen nur als historische Beobachtung fassbar sind. Gemäß eines verbreiteten Verständnis in der Medienwissenschaft zeichnen sich jedoch Medien konzeptionell dadurch als solche aus, dass sie im Prozess dessen, was sie anteilig hervorbringen und formen (z.B. Kommunikation), zurücktreten oder gar gänzlich unsichtbar sind, d.h. der Beobachtung entzogen sind. Entsprechend könnte man die These aufstellen, dass es zwar Revolutionen gibt, jedoch keine Medienrevolutionen, sofern man das Revolutionäre gleichsam nur als historisch stabilisierte, sichtbare Form begreift und mithin ausschließt, dass es so etwas wie unmerkliche Revolutionen geben kann. Aber was folgt aus diesen durchaus paradoxen Bestimmungen des Konzepts? Vielleicht besteht die besondere Herausforderung an das Denken von Revolutionen als Medienrevolutionen gerade darin, sämtlichen hier vorgestellten Perspektiven Rechnung zu tragen und die mit ihnen einhergehenden Paradoxien auszuhalten, statt sich vorschnell für eine bestimmte Auffassung zu entscheiden. Analog dazu erscheint es sinnvoll, das Konzept der Medienrevolution nicht als ontologische, sondern als heuristisch-epistemische Kategorie zu verstehen, mit der man einerseits relativ offen nach den Medien der Revolution fragen kann, d.h. danach, was z.B. im Sinne der Akteur-NetzwerkTheorie jeweils die spezifischen Vermittlungsgrößen sind, die Revolutionen als historische Formationen hervorbringen und konfigurieren. Andererseits scheint mir zugleich eine minimale Bestimmung erforderlich zu sein, was diese Frage nach den Medien der Revolution als eben solche jeweils ein- und ausschließt. Und eine derartige Bestimmung könnte in der Tat so aussehen, dass sie auf die Erforschung von Entitäten und deren Konfigurationen abzielt, die im Prozess dessen, was sie generieren und formen, weitestgehend unsichtbar
Szenarien des Postdigitalen
oder zurücktreten, sich also ergo wesentlich durch das Merkmal des Entzugs als Medien einer Revolution auszeichnen. Die entsprechenden Vermittlungsgrößen umfassen dabei nicht nur die technischen Medien, die als solche Daten oder Informationen speichern, prozessieren und übertragen. Vielmehr geht es z.B. auch um unterschiedliche Wissensformen, die für DL-Anwendungen mobilisiert werden, aber auch um die Bedeutung medialer Umgebungen, wie KI-Labore und die in ihnen stattfindenden und durch sie vermittelten Weisen des Medienhandelns als Operationen verteilter Akteurschaft von Menschen und Dingen. Mit diesem Vorschlag, der fachgeschichtlich längst etabliert ist, auch wenn ich ihn nicht allein von der Akteur-Netzwerk-Theorie herleiten würde, sind jedoch eine Reihe weiterer epistemologischer Probleme und Paradoxien verbunden, die hier nur angedeutet werden können. Zu ihnen gehört etwa, dass Medien nicht auf die Qualität des Sicht-Entziehens fixiert, sondern gerade als historisch stabilisierte Formen folgenreich sind, womit ich implizit auf die Medium-Form-Unterscheidung von Luhmann (1997) zurückgreife. Dennoch steht außer Frage, dass KNN-Technologien grundsätzlich als hintergründige, unsichtbare Anordnung der Generierung von Wissen, Kommunikation und Praktiken verstanden werden können. Mehr noch: Im aktuellen Diskurs werden KNN-/DL-Verfahren immer wieder als opake Black-Box-Technologie beschrieben, d.h. als technische Systeme, die nur über ihren jeweiligen Input und Output erschlossen werden können, da ihre internen Operationen wenigstens zum Teil undurchsichtig, d.h. dem menschlichen Verständnis entzogen sind (vgl. Castelvecchi 2016). Im Unterschied zu anderen Medien scheint also die für Medien generell charakteristische Eigenschaft des Entzugs im Fall von KNN eben als solche fixiert zu sein. Die vermeintliche oder tatsächliche Opazität der KNN hat ihren jüngsten Erfolg als KI-Technologie allerdings weder verhindert noch besonders geschmälert. Es kann auch nicht wirklich überraschen, dass die Aufmerksamkeit der Medien zunächst darauf ausgerichtet war, neben der grundsätzlichen Funktionsweise von KNN die Bedingungen ihres aktuellen Erfolgs zu rekonstruieren. Und tatsächlich sind eben jene Bedingungen im Fall von KNN besonders interessant. Der Umstand, dass DL insbesondere ab 2012 derart reüssieren, ist nämlich weder wesentlich der Weiterentwicklung der Lernalgorithmen selbst zu verdanken, noch hat dieser allein mit der besonderen Größe des Datensatzes zu tun, mit dem man KNN trainiert hat. Die entscheidende Bedingung für den Erfolg war vielmehr, dass das Training von KNN erstmals auf der Basis parallel organisierter, schneller GPU-Hardware erfolgte, wie sie unter anderem bei modernen Spielkonsolen zum Einsatz kommt und deren Entwicklung maßgeblich durch die digitale Spieleindustrie vorangetrieben wurde (Sudmann 2016: N2). Die Frage nach den Medien der KI-Revolution ist also eng an die Frage
63
64
Andreas Sudmann
nach einer potenziellen Revolution der Medien geknüpft. Damit sind wir beim letzten Punkt dieser Abhandlung angekommen, der Betrachtung von DL-Verfahren als gleichsam postdigitale Informationstechnologie.
4. D eep L e arning als postdigitale I nformationstechnologie Die Siegener Kolleginnen und Kollegen hatten seinerzeit mit ihrem Fokus auf Medienumbrüche u.a. mit dem Datum um 2000 eine historische Phase untersucht, in der die Transformation von analogen zu digitalen Medien zunehmend die Wahrnehmung der Öffentlichkeit bestimmte (vgl. Schnell 2006). Demgegenüber möchte ich argumentieren, dass DL keineswegs bloß als neues Phänomen einer vermeintlichen digitalen Revolution verstanden werden kann. Ganz im Gegenteil könnten KNN, so meine These, für die Herauf kunft einer gleichsam postdigitalen Ära der Informationstechnologie stehen und zwar auf der Basis von Eigenschaften, die seit ihrer ersten Implementierung in den 1950er Jahren zu ihren Kernmerkmalen zählen. Das Attribut ›postdigital‹ wäre hier avant la lettre zu verstehen und grenzt sich von anderen Bedeutungen des Ausdrucks ab, wie er im aufgeladenen Sinn u.a. durch und seit Nicholas Negroponte geprägt wurde. Letzterer hatte in einem Artikel der Zeitschrift Wired mit dem programmatischen Titel »Beyond Digital« Ende der 1998er eine Veralltäglichung und ein in den Hintergrundtreten des Digitalen prognostiziert und dafür plädiert, epistemologische, soziale und technische Transformationen jenseits des digitalen Wandels in den Blick zu nehmen.3 Um die oben genannte These zu entfalten, müssen wir zunächst zu den historischen Anfängen der Forschung zu KNN in der Kybernetik zurückkehren. Letztere entwickelte sich ab 1946 als Gegenstand eines Dialogs unterschiedlicher Disziplinen im Rahmen der sogenannten Macy-Konferenzen. Die Kybernetik steht für ein Programm, heterogene Prozesse des Sozialen, Psychischen, Ästhetischen und Maschinellen aus der universalen Perspektive eines theoretischen Zugriffs zu begreifen, der die Frage ihrer systemischen Steuerung und Kontrolle zentral stellt. Als Kernbestandteile dieser theoretischen Modelle hat Claus Pias folgende Elemente hervorgehoben: Die Kybernetik zeichne sich dadurch aus, eine »universale Theorie digitaler Maschinen« (McCulloch/ Pitts), »eine stochaistische Theorie des Symbolischen« (Shannon) sowie »eine 3 | Auch verwende ich den Begriff des Postdigitalen im Folgenden nicht dafür, um im Kontext ästhetischer Fragestellungen Phänomene einer vermeintlich zunehmenden Vermischung des Digitalen und Nicht-Digitalen zu reflektieren. Vgl. dazu Berry/Dieter 2015. Zur grundlegenden Unterscheidung der Konzepte analog versus digital siehe Schröter/Böhnke (2004).
Szenarien des Postdigitalen
nicht-deterministische und trotzdem teleologische Theorie der Rückkopplung« (Wiener/Bigelow/Rosenblueth) miteinander zu vermitteln (2004: 13). In meinem Zusammenhang sind vor allem die Arbeiten von McCulloch interessant, dem Initiator der Macy-Konferenzen und deren federführende Instanz: In seinem gemeinsam mit Walter Pitts verfassten Aufsatz »A Logical Calculus Immanent in the Ideas of Nervous Activity« von 1943 demonstriert McCulloch, dass neuronale Aktivität und ihre Interaktionen nach dem Prinzip einer digitalen Schaltlogik bzw. eines mathematisch-logischen Kalküls funktionieren, so dass neuronale Interaktionen in symbolische Aussagen übersetzt werden können und umgekehrt. Konkret bedeutet dies, zumindest gemäß einer in der Medienwissenschaft einflussreichen Lesart, dass der Mensch gleichsam ›enspiritualisiert‹ wird. Er wird nach Pias zum Spezialfall einer Informationsmaschine, die wiederum zum »Oberbegriff aller ›Kommunikation‹« (Pias 2004: 14) avanciert. Die »Austreibung des Geistes aus der Geisteswissenschaft«, für die später Friedrich Kittler (1980) in der Medienwissenschaft votiert, gründet u.a. in diesem kybernetischen Modell der Information. Die kybernetischen Studien von McCulloch/Pitts kann man als Herausforderung der anthropologischen Differenz zwischen Menschen und Maschine begreifen, wie sie bereits rund 200 Jahre vorher u.a. von La Mettrie (2001 [1747]) hinterfragt wurde. Die medientheoretischen Implikationen sind hierbei durchaus heikel und entsprechend bis heute umstritten: die prinzipielle Unabhängigkeit der Informationsverarbeitung vom materiellen Substrat (Körper), das als Medium die Informationsverarbeitung auf spezifische Weise konstelliert. Im Zusammenhang mit der Darstellung der symbolischen KI wurde dieser Aspekt bereits kurz erwähnt. Für die nachfolgenden Überlegungen spielt er jedoch keine Rolle. Vielmehr kommt es mir hier auf einen anderen Aspekt an. So geht es mir im Weiteren vor allem darum, dass die Funktionsweise von KNN (unabhängig von der Form ihrer Implementierung als Hard- oder Software), wie auch die neuronale Aktivität biologischer Gehirne, gerade nicht der Logik eines digitalen Computers ähnlich ist. Die meisten modernen Computer, ob z.B. PC oder Mac, basieren nach wie vor auf den Prinzipien der Universalen Diskreten Maschine, wie sie Alan Turing in der zweiten Hälfte der 1930er als Modell mit dem Ziel entworfen hat, eine präzise mathematische Definition für das Konzept eines Algorithmus zu entwickeln (Turing 1936/1937, vgl. auch Davis 2000). Sein hypothetisches Computermodell arbeitet mit einer endlichen Anzahl diskreter Zustände und benutzt ein endliches Alphabet von Symbolen, die auf einem (theoretisch) unendlich langen Band gespeichert und von der Maschine gelesen werden kann. Auf der Basis dieses einfachen Dispositivs ist die Turing-Maschine in der Lage,
65
66
Andreas Sudmann
jeden mathematisch definierbaren Algorithmus auszuführen.4 Alles was man gleichsam als Medien dafür benötigt, sind Papier, Bleistift und Radiergummi oder alternativ: eine Schreibmaschine. Wie der Lauf der Geschichte gezeigt hat, beschränkte sich Turings Beitrag zur Entwicklung des modernen Computer keineswegs darauf, gleichsam dessen theoretisches Modell entwickelt zu haben. Vielmehr war er Ende des Zweiten Weltkriegs auch an der Herstellung eines der ersten elektronisch-digitalen Rechners beteiligt. Ein spezifisches Schaltungskonzept zur Implementierung eines universalen Rechners, das alle Funktionskomponenten einer Turing-Maschine einschließt, stellt die sogenannte Von-Neumann-Architektur dar. Auf eben dieser Architektur, die bereits in den 1940er Jahren entwickelt wurde, basiert nach wie vor der Großteil der gegenwärtig verwendeten digitalen Computer.5 Drei zentrale Merkmale eines Von-Neumann-Rechners sollen hier noch einmal hervorgehoben werden: Erstens werden alle Daten in digitaler Form gemäß des binären Darstellungssystems verarbeitet. Zweitens werden Daten, Programme sowie die Resultate einer Berechnung in demselben Speicherwerk abgelegt. Drittens erfolgt die Verarbeitung von Daten und Programmbefehlen in serieller bzw. sequentieller Form (wobei die sequentielle Ordnung durch Sprungbefehle aufgehoben werden kann). Neuronale Netzwerke, ob künstlich oder natürlich, stellen jedoch in mindestens zweifacher Hinsicht ein Gegenmodell zur Funktionsweise digitaler Computer gemäß der seriell organisierten Von-Neumann-Architektur dar. Erstens ist ein einzelnes künstliches Neuron in der Regel zwar entweder aktiv oder nicht, funktioniert in dieser Hinsicht also üblicherweise gemäß einer binären Logik, wie die Schaltzustände eines digitalen Computers. Die Gewichtung der Aktivität zwischen den Neuronen, d.h. die Stärke ihrer Verbindungen, wird jedoch bei neuronalen Netzen zumeist durch Fließkommazahlen (positive und negative) repräsentiert. Und diese Repräsentation ist so feingliedrig, dass man die entsprechenden Werte als quasi-analog begreifen kann. Als Medium der Informationsübertragung operieren KNN also nicht mit binären Einheiten, wie etwa von 0 und 1, sondern in annähernd analoger Form. (Auch wenn die gleichsam analog erscheinenden Werte weiterhin auf 4 | Diese Forschungsleistung ist auch als Church-Turing-These bekannt, da Church letztlich dasselbe wie Turing bewies, wenn auch mit einem anderen mathematischen Ansatz. 5 | Die erfolgreiche Etablierung digitaler Computer war jedoch aus historischer Perspektive keine Selbstverständlichkeit. Schon vor der Entwicklung moderner digitaler Computer gemäß der bis heute maßgeblichen Von-Neumann-Architektur existierten Analogrechner, und sie es tun bis heute. Weshalb sich letztlich der digitale Computer gegenüber analogen Systemen durchsetzen konnte, hat sicherlich viele Gründe, darunter der, dass die Kontrolle von Fehlern bei digitalen Systemen leichter möglich ist.
Szenarien des Postdigitalen
einem digitalen Substrat basieren). Zweitens gilt es hervorzuheben, dass die massenhaft miteinander verbundenen Neuronen, die durch einen Input aktiviert werden, gemeinsam bzw. parallel feuern, und sie auf diese Weise ein komplexes emergentes System bilden, das letztlich die Diskretheit der Elemente, aus denen es besteht (die Neuronenschichten und ihre Verbindung), fundamental aufhebt (s. dazu auch das Interview mit Roland Memisevic in diesem Band). Diese extreme bzw. massive Parallelität der Informationsverarbeitung ist ein weiteres wesentliches Kennzeichen von KNN, durch das sie sich von der bis heute dominanten, seriell organisierten Von-Neumann-Architektur unterscheiden.6 Aufgrund der beschriebenen Eigenschaften handelt es sich bei einem KNN demzufolge um ein Unschärfesystem mit probabilistischen Resultaten, dessen Operationen ›eher‹ als analog denn als digital zu beschreiben sind. Dabei ist der Unterschied, ob KNN (wie gegenwärtig) vorrangig als Software oder zukünftig vielleicht vermehrt als Hardware implementiert werden, für ihre Charakterisierung als gleichsam postdigitale Informationstechnologie unerheblich. Wie auch immer zukünftige Prozessorentechnologien (siehe unten), die nach dem Vorbild von neuronalen Netzwerken gestaltet sind, konkret aussehen werden, teilen sie die grundlegenden Eigenschaften, die KNN gleichsam schon als ›Software-Medium‹ kennzeichnen. Wer die gegenwärtigen Entwicklungen des DL schlicht als weiteren Ausdruck der digitalen Revolution versteht, verwendet also – wenigstens zum Teil – die falschen Kategorien.7 Die grundsätzliche epistemische Differenz zwischen der Logik klassischer digitaler Computer und der neuronalen KI wurde übrigens schon von Nobert Bolz 1994 knapp notiert. In der Einleitung zu dem Band Computer als Medium schreibt er: [Die] Neuorientierung der Intelligenz an simultan und parallel prozessierenden Nervensystem, das seine Daten auf einem vergleichsweise geringen Präzisionsniveau statistisch verarbeitet, nimmt Abschied vom Traum einer mathesis universalis, den die Philosophie von Leibniz bis Husserl träumte. Denn der Computer ist nur so lange eine 6 | Eine weitere Charakteristik von KNN als Informationstechnologie besteht darin, dass die Elemente, die an der Übertragung von Information beteiligt sind, keine genaue Adresse haben und entsprechend nicht im strengen Sinne lokalisierbar sind, wie das bei digitalen Rechnern der Fall ist und auch sein muss, damit sie überhaupt funktionieren. 7 | Es ist sicherlich diskussionswürdig, KNN eher als analoge statt als postdigitale Informationstechnologie zu kennzeichnen. Meine Position ist jedoch, dass die Entwicklung von KNN eben weitaus stärker mit der Geschichte digitaler Computer verzahnt ist, als mit der Geschichte analoger Computer, weshalb mir das Attribut »postdigital« geeigneter erscheint.
67
68
Andreas Sudmann plausible Metapher für den Mediengeist, solange Denken Kalkulieren heißt und Kognition als Rechnen mit digitalen Symbolen begriffen wird. Algorithmen definieren eine logische Welt durch rein syntaktische Operationen, in der alle Probleme durch serielle Suchroutinen gelöst werden können. Ganz anders die Welt der emergent AI. Konnektionismus ist der Name für das Operieren in subsymbolischen Netzwerken, in denen sich Bedeutung als Funktion eines Systemzustands darstellt. Entsprechend erfolgt Speicherung nicht in einzelnen, genau adressierten Speicherplätzen, sondern in Netzwerken. Alle Regularitäten in diesem Netzwerk sind emergente Qualitäten vor dem Hintergrund eines Chaos von Verknüpfungen. Damit gibt es im subsymbolischen Netzwerk konnektionistischer Maschinen eine genaue Entsprechung zum Rauschen im Gehirn, d.h. zum zufälligen Feuern der Nervenzellen. (1994: 14)
Bolz bezieht sich bei seinen Ausführungen auf ein Standardwerk der konnektionistischen KI von David Rumelhart und James McClelland, das den Titel Parallel Distributed Processing trägt. Es scheint so, als ob sich die oben zitierte Charakterisierung der Logik von KNN im Kern auf diese Publikation stützt. Dennoch kann man im Detail an der Genauigkeit von Bolz’ Darstellung Kritik üben. Beispielsweise ist es etwas irreführend, in Bezug auf den Auf bau und die Operationsweise der KNN von einem Chaos an Verknüpfungen zu reden. Führende Experten im Bereich des DL, wie der Hinton-Schüler Roland Memisevic weisen nicht umsonst darauf hin, dass sich die Aktivität der neuronalen Netzwerke von Computersystemen sehr genau beobachten und messen lasse (siehe Interview in diesem Band). Außerdem ist erstaunlich, dass Bolz es bei einer einfachen Beschreibung konnektionistischer Systeme belässt, ohne z.B. ein Wort darüber zu verlieren, welche medientheoretischen Implikationen eigentlich mit KNN konkret verbunden sind. Dennoch handelt es sich bei Bolz’ Darstellung um die erste umfangreichere Thematisierung von KNN in einem medienwissenschaftlichen Kontext, weshalb sie allein schon deshalb fachhistorisch relevant ist. Mit Blick auf die hochgradige Parallelität, welche die Informationstechnologie der KNN kennzeichnet, war es eigentlich ohnehin erstaunlich, dass ihre Simulation auf klassischen digitalen Rechnern überhaupt funktioniert hat – allerdings eben nur in gewissen Grenzen. Wie ich bereits oben ausgeführt habe, verdankt sich der eigentliche Durchbruch der KNN als derzeit vorherrschendes Paradigma der KI seinerzeit ihrer Anwendung auf schnellen, parallel organisierten GPU-Prozessoren. Dieser Umstand beinhaltet jedoch eine entscheidende Konsequenz. So erscheint es kaum möglich, KNN ausschließlich als Software-Technologie zu verstehen. Dafür greift die Parallelität der Hardware als gleichsam materielles Substrat viel zu sehr in die operative Logik (oder Effizienz) der KNN als Software ein.
Szenarien des Postdigitalen
Neben den GPUs, wie sie etwa der Hersteller Nvidia entwickelt, gibt es derzeit weitere Anstrengungen, die Leistungskapazitäten paralleler Prozessoren zu optimieren. Als Konkurrenz u.a. zur GPU-Hardware von Nvidia hat Google unlängst mit seinen Tensor Processing Units (TPUs) ein eigenes Chipsystem der Öffentlichkeit vorgestellt, das in den Datenzentren des Konzerns bereits seit einiger Zeit im Einsatz war und speziell für die plattformunabhängige Machine-Learning-Programmbibliothek TensorFlow entwickelt wurde. Ferner bemüht man sich seit vielen Jahren in unterschiedlichen wissenschaftlich-industriellen Kontexten darum, leistungsfähige KNN gleich hardwaremäßig als Neurocomputer zu implementieren. Zum Beispiel arbeitet derzeit eine Arbeitsgruppe von Karlheinz Meier, Professor für Experimentalphsyik, im Rahmen des Projekts FACETS in Heidelberg (»Fast Analog Computing with Emergent Transient States«) an der Herstellung eines eben solchen Neurocomputers, der aus einer Kombination von fünf mal fünf Millimeter großen Netzwerkchips besteht und in der ersten Entwicklungsstufe einhunderttausend künstliche Nervenzellen und 25 Millionen Synapsen aufweisen soll. Noch ist die Entwicklung solcher nichtklassischer Computer, zu denen im Übrigen auch Quantencomputer zählen, technisch nicht ausgereift, um bereits eine greif bare Alternative zu derzeitigen GPU- oder TPU-Prozessoren darzustellen. Davon unberührt bleibt aber die Feststellung, dass sich die jahrzehntelange Simulation von neuronalen Netzwerken auf klassischen Von-NeumannRechnern, wenn man auf eine einschlägige These Kittlers anspielen darf, durchaus als »Mißbrauch von Digitalgerät« charakterisieren lässt. Ob eine solche Kennzeichnung Kittler gefallen hätte, darf allerdings bezweifelt werden. Ende der 1980er Jahre schrieb er jedenfalls: »Künstliche Intelligenzen von heute laufen schneller, paralleler, nur nicht prinzipiell anders« als jene, die »dem Prinzip der Universal Diskreten Maschine [folgen]«. Und weiter, mit ihr sei »das Mediensystem geschlossen. Speicher- und Übertragungsmedien gehen beide in einer Prinzipschaltung auf, die alle anderen Informationsmaschinen simulieren kann, einfach weil sie in jeder einzelnen Programmschleife speichert, überträgt und berechnet« (ebd.: 243-44). Kittlers Argument trifft zwar zweifellos zu, relevant ist es jedoch ausschließlich in theoretischer Hinsicht. Wie im Rahmen dieses Beitrags dargestellt wurde, sind serielle Maschinen mit ihren digitalen Operationen in der Anwendung letztlich viel zu langsam, um den Zeitskalen menschlicher Ansprüche gerecht zu werden. Alle intelligenten Systeme, auch eben jene, die auf KNN basieren, mögen zwar letztlich als Algorithmen fassbar und damit Turing-berechenbar sein (Teuscher 2001, vgl. dazu auch Beitrag von Bernhard Dotzler in diesem Band). Aber wie entscheidend ist dieser Aspekt, wenn entsprechende Berechnungsprozesse komplexer Denkund Lernaufgaben, auf der Basis klassischer Computersysteme, Jahrzehnte oder Jahrhunderte benötigen?
69
70
Andreas Sudmann
5. S chluss Eine zentrale Aufgabe der Geschichtsschreibung besteht darin, historische Prozesse hinsichtlich ihrer Kontinuitäten und Diskontinuitäten zu untersuchen. Beobachtet man die gegenwärtigen KI-Diskurse, lässt sich feststellen, dass vor allem die Diskontinuität der gegenwärtigen Entwicklungen betont wird und die entsprechende Revolutionsrethorik, wie ich eingangs erläutert habe, auch und gerade die Selbstbeschreibungen der DL-Experten bestimmt. Als historische Beschreibung mag die Rede von einer Revolution zwar erwartungsgemäß und grundsätzlich mit der Einführung einer Differenz von Vorher und Nachher verbunden sein. In Bezug auf den gegenwärtigen KI-Diskurs ist aber häufig weder klar auszumachen, wie die historische Zäsur zeitlich genau zu verorten ist, noch wie sie im Detail begründet wird. Zudem bezieht sich die aktuelle Rede von der KI-Revolution eben gerade nicht bloß auf die Gegenwart oder jüngste Vergangenheit. Vielmehr wird bereits seit Jahrzehnten immer wieder eine Zäsur in der Zukunft verhandelt. Gemeint ist selbstverständlich das Ereignis der sogenannten »technischen Singularität«. Die Bedeutung dieses Ereignis wurde von Wissenschaftlern und Techno-Utopisten wie Vernor Vinge, Ray Kurzweil oder Jürgen Schmidhuber im Detail sehr unterschiedlich ausformuliert. Im Kern geht es jedoch darum, dass die technologische Entwicklung aufgrund der immer schnelleren Optimierung (und einer potenziellen Selbstoptimierung von intelligenten Maschinen) eine derartige Beschleunigung erfährt, dass irgendwann ein Zeitpunkt erreicht wird, in dessen Folge Maschinen nicht nur vollends und umfassend die Menschen übertreffen sondern überhaupt die technologische Entwicklung eine derartige Komplexität erreicht hat, dass sie dem Verständnis menschlicher Akteure fundamental entzogen bleibt. In Abwandlung von Engells Zitat zu Beginn bedeutet Revolution im Fall von KI demnach zugleich: Die Wahrnehmung und historische Beschreibung der nicht beobachtbaren Zukunft als geschichtliche. Darüber, ob und wann und mit welcher Wahrscheinlichkeit ein solches Ereignis eintritt, möchte ich hier nicht spekulieren. Nicht umsonst stand zu Beginn dieses Beitrags der Vorschlag, mit der Frage nach der KI als Medienrevolution den Blick auf die Gegenwart zu richten, statt maschinelle Intelligenz bloß immer wieder als technische Utopie zu verhandeln (vgl. auch Sudmann 2016: N2). Dennoch muss man wohl zugestehen, dass die jüngsten Fortschritte des DL/der KNN uns vielleicht zum ersten Mal in der Geschichte einen hinreichenden Grund liefern, die Realisierung einer starken, universellen KI nicht mehr länger als ewiges Phantasma abzutun. Selbstverständlich fällt es nach wie vor sehr leicht, auf Arkanbereiche menschlicher Kompetenz hinzuweisen, wo eine Verdrängung durch maschinelle Intelligenzen in naher Zukunft eher unwahrscheinlich ist. Weiterhin gilt: All jene Aufgaben, die Menschen leicht fallen, sind für KI-Systeme besonders kompliziert. Umgekehrt trifft aber auch
Szenarien des Postdigitalen
zu: Was für intelligente Maschinen eine vergleichsweise einfache Herausforderung darstellt, Schach zu spielen etwa, fordert die Denkleistung humaner Akteure wesentlich heraus. Deshalb sollte uns gerade das Beispiel Schach in Erinnerung rufen, dass nicht erst seit und mit DL intelligente Maschinen die Fähigkeiten und Fertigkeiten des Menschen überbieten. Ungeachtet dessen ist DL schon jetzt eine äußerst leistungsfähige Technologie, um speziell jene Lernherausforderungen zu meistern, die Menschen gleichsam intuitiv beherrschen. Zwar ist es unter Umständen verfrüht, die gegenwärtigen KI-Entwicklungen als revolutionären Prozess in der Geschichte der Informationstechnologie zu begreifen und ihn als solche zu begründen, jedenfalls nicht, soweit wir uns dabei auf das beziehen, was wir gemeinhin so unspezifisch Gegenwart nennen. Gleichwohl lassen sich in der jüngeren Geschichte des maschinellen Lernens schon jetzt bestimmte Kristallisationspunkte der Entwicklung der KNN-Technologie identifizieren, die sicherlich auch als epistemisch-technische Zäsuren beschreibbar sind. Auf die besondere Bedeutung der Forschungsleistung von Krizhevsky/Sutskever/Hinton (2012) habe ich in diesem Zusammenhang mehrfach hingewiesen. Die gegenwärtigen Entwicklungen der KI- und Computertechnologie stellen jedoch noch ein anderes Szenario in Aussicht, über dessen spekulativen Gehalt man trefflich wird streiten können, das jedoch im Fall seines Eintreffens die Charakterisierung als Medienrevolution durchaus rechtfertigen würde: die Herauf kunft eines postdigitalen, subsymbolischen Informationszeitalters, dessen epistemisch-technisches Prinzip durch die Geschichte und Gegenwart des DL bereits vorgezeichnet ist.
L iter atur Bengio, Yoshua (2009): »Learning Deep Architectures for AI«. In: Foundations and Trends in Machine Learning 2.1: 1-127. DOI: https://doi. org/10.1561/2200000006 Berry, David M./Dieter, Michael (2015): »Thinking Postdigital Aesthetics. Art, Computation and Design«. In: Dies. (Hg.): Postdigital Aesthetics. Art, Computation and Design. Basingstoke et al.: Palgrave Macmillan: 1-11. DOI: https://doi.org/10.1057/9781137437204.0005 Bishop, Christopher M. (2006): Pattern Recognition and Machine Learning. New York: Springer. Bolz, Norbert (1994): »Computer als Medium – Einleitung«. In: Bolz, Norbert/ Kittler, Friedrich/Tholen Christoph (Hg.): Computer als Medium. München: Fink: 9-16.
71
72
Andreas Sudmann
Castelvecchi, Davide (2016): »Can we open the black box of AI?« In: Nature.com. 05. 10: www.nature.com/news/can-we-open-the-black-box-of-ai-1.20731 (12. 07.2017). Davis, Martin (2000): The Universal Computer. The Road from Leibniz to Turing. New York; London: W.W. Norton & Company. Domingos, Pedro (2015): The Master Algorithm. How the Quest for the Ultimate Learning Machine Will Remake Our World. New York: Basic Books. Dreyfus, Herbert L./Dreyfus, Stuart E. (1988): »Making a Mind Versus Modelling the Brain. Artificial Intelligence Back at a Branchpoint«. In: Daedalus 117.1: 185-197. Engell, Lorenz (2006): »Ein Mauerfall – von der Rückkehr zum Anfang. Umbruch und Serie in den Medien-Revolutionen des 2o. Jhdts«. In: Ralf Schnell (Hg.): MedienRevolutionen. Beiträge zur Mediengeschichte der Wahrnehmung (=Medienumbrüche, Band. 18). Bielefeld: transcript: 101-120. Goodfellow, Ian/ Bengio, Yoshua / Courville, Aaron (2016): Deep Learning. Cambridge, London: MIT Press. Hinton, Geoffrey E. (1986): »Learning distributed representations of concepts«. In: Proceedings of the Eights Annual Conference of the Cognitive Science Society. Amherst, MA; Erlbaum, NJ. —, Osindero, Simon/Teh, Yee-Whye (2006): »A Fast Learning Algorithm for Deep Belief Nets«. In: Neural computation 18.7: 1527-1554. DOI: https://doi. org/10.1162/neco.2006.18.7.1527 Kittler, Friedrich A. (Hg.) (1980): Austreibung des Geistes aus den Geisteswissenschaften. Programme des Poststrukturalismus. Paderborn: Schöningh. — (2013 [1989]). »Die künstliche Intelligenz des Weltkriegs. Alan Turing«. In: Friedrich Kittler: Die Wahrheit der technischen Welt. Essays zur Genealogie der Gegenwart. Gumbrecht, Hans Ulrich (Hg.). Berlin: Suhrkamp: 232-252. Krämer, Sybille (2003): »Erfüllen Medien eine Konstitutionsleistung? Thesen über die Rolle medientheoretischer Erwägungen beim Philosophieren«. In: Münker, Stefan/Roesler, Alexander/Sandbothe, Mike (Hg.): Medienphilosophie. Beiträge zur Klärung eines Begriffs. Frankfurt a.M.: Fischer: 78-90. Krizhevsky, Alex/Sutskever, Ilya/Hinton, Geoffrey E.:,»ImageNet Classification with Deep Convolutional Neural Networks«. In: Advances in Neural Information Processing Systems 25: 1097-1105. Kuhn, Thomas S. (1962): The Structure of Scientific Revolutions. Chicago, Ill.: University of Chicago Press. La Mettrie, Julian Offray de (2001 [1747]): Der Mensch eine Maschine. Stuttgart: Reclam. LeCun, Yann (1989): »Generalization and network design strategies«. In: Pfeifer, Rolf/Schreter, Zoltan/Fogelman, François/Steels, Luc (Hg.): Connections in Perspective. Amsterdam: Elsevier: 143-55.
Szenarien des Postdigitalen
Luhmann, Niklas (1997): Die Gesellschaft der Gesellschaft. Franfkurt a.M.: Suhrkamp. Mitchell, Thomas (1997): Machine Learning. New York: McGraw-Hill. McCulloch, Warren S./Pitts, Walter (1943): »A Logical Calculus of the Ideas Immanent in Nervous Activity«. In: The Bulletin of Mathematical Biophysics 05. 04.: 115-133. DOI: https://doi.org/10.1007/BF02478259 Negroponte, Nicholas (1998): »Beyond digital«. In: Wired 06. 12.: 288. Newell, Allen/Simon, Herbert A. (1976): »Computer Science as Empirical Inquiry: Symbols and Search«. In: Communications of the ACM 19:3.: 113-126: http://delivery.acm.org/10.1145/370000/360022/a1975-newell_simon.pdf?i p=134.147.24.29&id=360022&acc=OPEN&key=4D4702B0C3E38B35%2E4 D4702B0C3E38B35%2E4D4702B0C3E38B35%2E6D218144511F3437&CFID =959053660&CFTOKEN=39544443&__acm__=1499778895_372efcc769 84df0b216f1ec859381649 (18.7.2017). Pias, Claus (2004): »Zeit der Kybernetik – Eine Einstimmung«. In: Ders. (Hg.): Cybernetics – Kybernetik. Die Macy-Konferenzen 1946-1953. Band 2. Zürich: Diaphanes: 9-41. Rumelhart, David E./Hinton, Geoffrey E./Williams. Ronald J.: »Learning Internal Representations by Error Propagation« In: Rumelhart/McClelland: 318-362. — und James L. McClelland (Hg.) (1986): Parallel Distributed Processing. Explorations in the Microstructure of Cognition. Cambridge: MIT Press. Schnell, Ralf (Hg.) (2006): MedienRevolutionen. Beiträge zur Mediengeschichte der Wahrnehmung. Bielefeld: transcript. DOI: https://doi.org/10.14361/9783 839405338 Schröter, Jens/Böhnke, Alexander (2004): Analog/Digital – Opposition oder Kontinuum? Zur Theorie und Geschichte einer Unterscheidung. Bielefeld: transcript. DOI: https://doi.org/10.14361/9783839402542 Shalev-Shwartz, Shai/Ben David, Shai (2014): Understanding Machine Learning. From Theory to Algorithms. New York: Cambridge University Press. DOI: https://doi.org/10.1017/CBO9781107298019 Sudmann, Andreas (2016): »Wenn die Maschinen mit der Sprache spielen«. Frankfurter Allgemeine Zeitung Nr. 256, 02. 11., N2. Teuscher, Christof (2001): Turing’s Connectionism. An Investigation of Neural Network Architectures. London: Springer. Turing, Alan M. (1936/1937): »On Computable Numbers, with an Application to the Entscheidungsproblem«. In: Proceedings of the London Mathematical Society 42: 2.
73
Von Maschinen lernen Zur Mechanical Notation von Charles Babbage Hermann Rotermund
V orbemerkung Die theoretischen und konzeptionellen Arbeiten von Charles Babbage kreisen über mehrere Jahrzehnte hinweg um die Konstruktion zeichenverarbeitender Maschinen – und gleichzeitig um den Entwurf von Maschinen mit Hilfe von Zeichensystemen. Die Maschinensysteme des englischen Mathematikers haben im Kontext einer Problematisierung des maschinellen Lernens schon deshalb ihren berechtigten Platz, weil sie zum ersten Mal die ernstzunehmende wissenschaftliche Vision einer selbsttätig entscheidenden Maschine hervorgerufen haben: »The engine is capable, under certain circumstances, of feeling about to discover which of two or more possible contingencies has occurred, and of then shaping its future course accordingly.« (Fußnote von Lovelace in Menabrea 1843: 675) Die von Lady Lovelace hier nur angedeutete und nicht ausgeführte Möglichkeit einer »fühlenden« und vernünftig abwägenden Maschine hat Voraussetzungen, die im Folgenden untersucht werden. Dabei steht die Funktion der von Babbage entwickelten Rechenmaschinen weniger im Fokus als die Methodik ihrer Entwicklung. Diese Methodik kann als abstrakte Maschine bezeichnet werden, deren Aufgabe wiederum die Erzeugung von Rechenautomaten ist. Jedenfalls geraten die Arbeiten von Babbage in ein falsches Licht, wenn sie neben Maschinentheoretiker des neunzehnten Jahrhunderts wie z.B. Franz Reuleaux gestellt werden (vgl. Dotzler 2006: 181 sowie Berz 2001: 176ff.). Babbage analysiert nicht nur die Funktionsmechanismen von Maschinen, sondern auch ihr Entwicklungspotenzial, indem er sie einem hochgradigen Abstraktionsprozess unterzieht. Die Mechanical Notation, die eine zweite, abstrakte Ebene seiner Entwurfszeichnungen bildet und alle funktionalen Elemente und Aufgaben der dargestellten Artefakte in knappster Form symbolisiert, weist über die Kinematik von Reuleaux hinaus. Diese bleibt letztlich eine systematische Maschinenbeschreibung (vgl. Reuleaux 1875 sowie König
76
Hermann Rotermund
1999: 35-46), während die von ihm angestrebte kinematische Synthese, mit der neue Maschinen erzeugt werden können, scheitert (vgl. Mayr 1968). Babbage hingegen zielt darauf ab, eine Maschine so universell zu gestalten, dass ihr Funktionsgefüge gleichgültig gegen Zwecke ist, und kommt mit seiner Maschinenbeschreibung der von Reuleaux so bezeichneten »synthetischen« Qualität zumindest sehr nahe. Er analysiert in seinen Maschinenschriften (vgl. Babbage 1822, 1823, 1826b) mechanische Prozesse in der gleichen Weise wie mathematische Analyse- und Darstellungsverfahren. Dabei integriert er Erkenntnisse zur Ökonomie, zu industriellen Kooperationsformen, zum Funktionswandel der menschlichen Arbeitskraft sowie zum Fortschritt des Wissens und der Erfahrung unter industriellen Bedingungen.
Ö konomie des M aschinenwesens Charles Babbage beginnt seine Überlegungen um 1820, in einer Phase der breiten Diskussion über die großen technischen und sozialen Umwälzungen der Industriellen Revolution. Diese setzt in England erheblich früher ein als in anderen europäischen Ländern, etwa zwischen 1750 und 1770, und verliert zwischen 1830 und 1850 bereits ihr umstürzendes Entwicklungstempo (vgl. z.B. Daene 1973, Hill 1977). Die in diesem Zeitraum durchgesetzte Mechanisierung vieler Produktionstechniken resultiert in veränderten Arbeitsabläufen, die mechanische Energieerzeugung sorgt für den Antrieb von Maschinen aller Art, Maschinen beginnen Maschinen herzustellen, die Qualifikationen der Beschäftigten differenzieren sich erheblich. Die maschinell hergestellten Produkte sind gleichzeitig durch eine größere Variabilität und durch Standardisierung charakterisiert. Auch das Verhältnis der Konsumenten zu vertrauten Produktgattungen verändert sich grundlegend. Die auf den Märkten vorfindbaren Produkte werden anonym und offenbaren augenscheinlicher als die gewohnte handwerkliche oder Manufakturware ihren Seriencharakter. Vielfach weisen preiswerte Serienprodukte auch qualitative oder ästhetische Mängel auf. Ihre kulturelle Wirkung ist indessen verheerend. Industrielle Produkte werden von Künstlern, Kunsthandwerkern und ihnen zugeneigten Kritikern als Kränkung des bürgerlichen Individuums rezipiert. In einer sich über mehr als zwei Jahrzehnte erstreckenden Debatte geht es vor allem um zwei Anstoß erregende Beobachtungen. Die Standardisierung reduziert die Vielfalt der Produktvarianten und eliminiert die individuellen »Handschriften« ihrer Erzeuger. Dass viele Produkte durch Standardisierung und Serienproduktion überhaupt erst möglich werden, entzieht sich dem Blick der meisten Beobachter im 19. Jahrhundert noch. Erst die Durchsetzung chemischer Alltagsprodukte wie Reinigungsmittel und Medikamente oder elektrischer Haushaltsgeräte eröffnet später eine neue Sicht.
Von Maschinen lernen
Die Herstellung einer steigenden Zahl von Produkten wird zudem maschinentauglich, auch weil die Maschinentechnik selbst flexibler wird. Diese Universalisierung gewinnt noch mehr an Schwung, da es möglich wird, Maschinenkomponenten mit Maschinen herzustellen. Für Konsumenten werden nun Reproduktionen beliebiger handwerklicher Unikate angefertigt, wobei neue Surrogat-Materialien verwendet werden. Stuck statt Marmor, Gusseisen statt Steinzeug oder geschmiedeter Metallgegenstände ziehen in die Häuser ein. Galvanoplastische Kunstwerke, bei denen Gips oder Holz mit Kupfer überzogen sind, täuschen elaboriertes Kunsthandwerk vor. Die Great Exhibition 1851 zeigt tausende solcher Surrogat-Produkte. Gleichzeitig entwickelt sich in Europa und Nordamerika die Idee des Industrial Design als erkennbares Desiderat. Britische Theoretiker, Designer und Künstler – und mit ihnen auch der deutsche Emigrant Gottfried Semper – reflektieren die grundlegend veränderten Bedingungen der Produktion und auch der Funktionen von Design. Industrial Design markiert einen deutlichen Unterschied zum handwerklichen Design, zur handwerklichen und kunstgewerblichen Produktwelt, die allerdings den Design-Diskurs noch bis ins 20. Jahrhundert hinein bestimmt. In der ersten Design-Zeitschrift der Welt, die vom Kurator der Great Exhibition von 1851, Sir Henry Cole, herausgegeben wird, wird bereits ein neues Paradigma formuliert, dem es allerdings sowohl auf der Ausstellung wie auch in den folgenden Jahrzehnten noch an Durchsetzungskraft fehlt. William Digby Wyatt, Architekt und Kunsttheoretiker, wirft in einer Rezension des Buchs »The Seven Lamps of Architecture« dessen Autor John Ruskin vor, dass er die unvermeidliche Auseinandersetzung mit der Gegenwart verweigere und vor allem keine »konsistente Theorie der mechanischen Repetition, angewandt auf die Kunst«, besitze (Wyatt 1850: 72. Eigene Übersetzung). Diese Theorie besitzt jedoch Charles Babbage – der dennoch mit seiner Difference Engine nicht zur ersten Weltausstellung eingeladen wird. Die erste umfassende Beschäftigung mit den Auswirkungen der industriellen Entwicklung auf alle Aspekte der Gesellschaft – ihre Ökonomie, ihre sozialen Verhältnisse und ihre Kultur – leistet Charles Babbage in seinem Werk »On the Economy of Machinery and Manufactures« (1832). Er erweitert dabei Einsichten von Adam Smith, der 1776 am Beispiel einer Stecknadel-Manufaktur die Vorzüge der Arbeitsteilung erläutert, aber die Vorteile der wissenschaftlichen Betriebsführung, der maschinellen Produktion auf großer Stufenleiter und ihre Auswirkungen auf die Industriekultur nicht vorhersehen kann. Babbage legt sein Augenmerk speziell auf die Differenzierung der in der Produktion benötigten Qualifikationen. Seit 1822 arbeitet er an seinem ersten Rechenautomaten – der Difference Engine – und befindet sich in langwierigen Auseinandersetzungen um dessen mechanische Realisierung. Das Rechenwerk ist so kompliziert, dass Babbage ausführliche Recherchen zu Fertigungsmethoden der benötigten 24.000 Einzelteile anzustellen beginnt, die
77
78
Hermann Rotermund
ihn zur systematischen Analyse der Voraussetzungen und Auswirkungen der Industrieproduktion veranlassen. Ein Teil der Maschine läuft 1833, die Arbeit daran wird ein Jahr später allerdings unterbrochen und dann ganz auf Eis gelegt. Ausschlaggebend dafür ist neben technischen Problemen bei der Realisierung und der förderpolitischen Akzeptanz durch die britische Regierung vor allem die Hinwendung zur nächsten Entwicklungsidee. Babbage beginnt mit der Konzeption eines Universal-Computers, der Analytical Engine, kommt mit neu gewonnenen Einsichten allerdings nochmal auf die Difference Engine zurück und entwickelt zwischen 1846 und 1849, auch im Hinblick auf die Great Exhibition, eine zweite Version, die nur noch 8000 Bauteile benötigt und – wie sich bei ihrer 1991 erfolgten Konstruktion für das Londoner Science Museum erweist – voll funktionsfähig ist. Das erwähnte Buch Babbages über die Ökonomie der Maschinerie und des Fabrikwesens enthält detaillierte Erläuterungen der Unterschiede zwischen dem handwerklichen und dem industriellen Produktionsprozess. Babbage präsentiert in ihm die Auswirkungen und Vorzüge der Industrialisierung als notwendige und vernünftige Entwicklung, ohne deren Gründe und Folgen einer kritischen Diskussion auszusetzen. In dieser Hinsicht ist seine Haltung den zeitgenössischen utilitaristischen Positionen von Jeremy Bentham und James Mill (dem Vater von John Stuart Mill) recht nah. Im einzelnen analysiert Babbage Planungs- und Fertigungsverfahren in verschiedenen Branchen, die Qualität der Ergebnisse, die benötigten Ressourcen und Qualifikationen auf jeder Ebene des Produktions- und Distributionsprozesses sowie die Auswirkungen der industriellen Produktionsweise auf die Märkte. Ihn interessieren nicht nur Belege dafür, dass die Arbeitsteilung oder der Handel für alle Beteiligten nützlich sind, er will eine Gesamtsicht gewinnen und aufdecken, mit welchen Codes die industrielle Produktionssphäre operiert und wie diese interpretiert werden sollten. Er kommt zu drei wesentlichen Erkenntnissen. 1. Kreativität und Erfindergeist verlagern sich von der Sphäre einzelner und konkreter ästhetischer Gegenstände auf die Entdeckung abstrakter Prinzipien und die Entwicklung von Methoden. Die Potenziale der verschiedenen Gewerbesparten des Landes stehen in enger Verbindung mit dem Fortschritt der Wissenschaften. Dabei macht Babbage als einer der ersten in der Wissenschaftsgeschichte die Unterscheidung von angewandter Wissenschaft und abstrakter Theorie (vgl. Kaldewey 2013: 137ff.). Ricardo und anderen Ökonomen macht er den Vorwurf, sich auf eine zu geringe Faktenbasis und zu sehr auf abstrakte Theorien zu stützen. Jedenfalls unterliege die geistige Produktion ebenso der Arbeitsteilung wie die materielle, und insofern seien Fortschritte in der Industrie nur durch die vereinten arbeitsteiligen Anstrengungen aller Abteilungen der Wissenschaft sowie aller qualifizierten Praktiker möglich. Die Kombination theoretischen Wissens, der Ergebnisse aktueller wissenschaftlicher Untersuchungen und des Erfahrungswissens aus den praktischen Berufen erzeugt
Von Maschinen lernen
die Voraussetzungen für die Entwicklung der Industrieproduktion. Die Tatsache, dass Maschinen die Fertigkeiten und die Kraft menschlicher Arbeit überschreiten, ist mit einer Qualifizierung der maschinellen Produkte verbunden. Diese können nicht nur in schnellerer Frequenz, sondern auch präziser und in vorher unbekannten Kombinationen erzeugt werden. 2. Die industrielle Herstellung von Gegenständen bedeutet gegenüber ihrer manuellen Herstellung eine Ökonomisierung – und dies umso mehr, wenn eine größere Menge eines Gutes nicht nur kurzfristig Abnehmer findet. Serienproduktion schließt die Typisierung und Standardisierung von Gegenständen ein. Die Serienproduktion ist nur lohnend, wenn die Produkte dem Geschmack des Publikums entsprechen. Die Typisierung wirkt allerdings auch selbst auf die Geschmacksbildung des Publikums ein (vgl. Babbage 1832: 185f.). 3. Arbeitsteilung und Spezialisierung fördern eine Verbesserung und Verfeinerung der Werkzeuge und ihrer Nutzung. Die Qualifikationen und die Gewandtheit der Arbeitenden werden gesteigert. Die negative Seite der beständigen Repetition, die von späteren Autoren beschriebene Abstumpfung der Arbeiter durch immer gleiche Detailarbeit, sieht und beschreibt Babbage in seinem Buch nicht. Die Quintessenz aller seiner Untersuchungen zur maschinellen Produktion ist, dass die mechanisch erzeugten Produkte gleichzeitig perfektioniert und verbilligt werden. Wenn berücksichtigt wird, wie bestürzt noch zwanzig Jahre später selbst eingefleischte Anhänger der Industrie über die Qualität vieler Exponate auf der Great Exhibition von 1851 sind, muss diese Position von Babbage zunächst verwundern. Auch seine eigene Erfahrung bei der Suche nach Komponenten für die Difference Engine scheint gegen die These der Perfektionierung zu sprechen. Die vielen Erfindungen zur Verbesserung der Produktionsprozesse, die Verstärkung der Kraft und die Beschleunigung durch die dampfgetriebenen maschinellen Abläufe sind in der Tat weder in der eigentlichen Durchbruchs- und Entwicklungsphase der Industriellen Revolution bis etwa 1830 noch in den Jahrzehnten danach schon geeignet, handwerkliche Produkte qualitativ jederzeit in die Schranken zu weisen. Die Fabrikanten sind nicht automatisch imstande, überall Sorgfalt und Präzision durchzusetzen. Erst recht besitzen sie nicht das Urteilsvermögen von Handwerkern, die aus ihrem Erfahrungswissen heraus generell akzeptierte Geschmacksentscheidungen treffen können. Babbage sieht über diese Defizite hinweg und formuliert auch dort, wo ästhetische Grausamkeiten die Produktwelt zeitweilig bestimmen, die umfassende Überlegenheit der Industrieproduktion über die tradierte handwerkliche Produktionsweise. Das Maschinerie-Buch von Babbage (1832) kann insgesamt als ein Werk zur Semiotik der Industriekultur verstanden werden. Trotz des Buchtitels handelt es sich eher um eine Philosophie der Zeichen als um eine Ökonomie der Ma-
79
80
Hermann Rotermund
schinerie. Der Kulturhistoriker Joseph Bizup charakterisiert in seiner Babbage-Analyse zunächst dessen semiotische Grundposition: Babbage lehnt eine referenzielle Sicht des Begriffs der Bedeutung grundsätzlich ab, die Zeichen (sprachliche oder andere) als Eigenschaften von Dingen in der Welt auffasst, und behandelt Zeichen statt dessen als abstrakte Einheiten, die Bedeutung durch ihren wechselseitigen Bezug aufeinander erhalten. (Bizup 2003: 54. Eigene Übersetzung.)
Das Zeichensystem der Mathematik mit seiner Eindeutigkeit und Konstanz scheint ihm verständlicherweise der natürlichen Sprache deutlich überlegen, wenn es um die Beschreibung von Maschinensystemen oder einer maschinenbasierten Ökonomie geht. Andererseits geht es ihm nicht so sehr um die physischen Eigenschaften der Maschinenwelt, sondern um das, was diese Welt verkörpert und repräsentiert. Maschinen sind in diesem Sinne keine technischen Konfigurationen, sondern Materialisierungen abstrakter Konzepte und Ideen. Industrielle Herstellungsprozesse verweisen auf die abstrakten Prozesse zurück, die sie erst ermöglicht haben (vgl. Bizup 2003: 54). Das Fabriksystem, in dessen einzelnen Produktionsabschnitten das konkrete Produkt oft gar nicht sichtbar ist, spiegelt sich im abstrakten Denken und in systematischen Planungsprozessen, die in dieser Form der Welt des Handwerks fremd sind. Der Disziplinierung der Fabrikarbeit entspricht das disziplinierte Planen und Entwerfen, das zwar auch dem Produkt, aber in zunehmendem Maß der Methode seiner Herstellung gewidmet ist. Es ist folgerichtig, dass Babbage an dieser Stelle auch über das kreative Entwerfen und Entwickeln von Produkten nachdenkt und die Zusammenführung von künstlerischem und technischem Zeichnen anregt (vgl Babbage 1846: 174f.). Hier wie an anderen Stellen seiner Publikationen wird deutlich, dass seine Hinwendung zur Konstruktion von Rechenautomaten nicht auf das Design von Maschinen, sondern letztlich auf das Design industrieller Prozesse zielt. Babbage teilt in seiner konsequenten Apologie der Industriearbeit allerdings nicht die Haltung von Autoren wie Ure, Baines und Cooke Taylor, mit denen ihn die liberalistische und utilitaristische Grundauffassung verbindet. Diese verkehrten die romantische Verehrung der Handwerksidylle in eine Apotheose der eisenbahndurchdampften Fabriklandschaften, wobei sie bekanntlich nicht vor einer Verteidigung der Kinderarbeit zurückschrecken (vgl. Cooke Taylor 1844: 21).
Von Maschinen lernen
M echanical N otation Babbage ist vor allem Mathematiker und interessiert sich schon früh für den Einfluss von Notationssystemen auf mathematische Verfahren – zunächst begrenzt auf die Darstellung von Funktionen (Babbage 1820) –, dann erweitert auf die prinzipielle Möglichkeit, bestimmte Berechnungen durch den Einsatz von Rechenautomaten zu ökonomisieren. Diese verbindet er mit ersten Überlegungen zu Rückwirkungen von maschinellen Berechnungen auf die mathematische Analysis selbst. Thus, you see, one of the first effects of machinery adapted to numbers, has been to lead us to surmount new difficulties in analysis; and should it be carried to perfection, some of the most abstract parts of mathematical science will be called into practical utility, to facilitate the formation of tables. (Babbage 1823: 127)
In den folgenden Jahren setzt sich Babbage noch umfassender mit der Frage auseinander, wie sich die mathematische Darstellung weiter verkürzen ließe, wenn die Anforderungen aus naturwissenschaftlichen Fragestellungen wachsen (Babbage 1826a: 7). Dabei geht es ihm allerdings nicht nur um die Verkürzung mathematischer Ausdrücke beim Anschreiben von Funktionen, sondern auch um Vereinfachungen auf der Ebene von Operationen. Komplexe Ausdrücke lassen sich in viele einzelne Komponenten teilen, für die es häufig bereits bekannte und schnelle Lösungen gibt. Dieses »fast mechanische Wesen« algebraischer Operationen hebt Babbage als Vorzug hervor, da sie eine einfachere Lösung ermöglichen. Er setzt sich speziell mit Abstraktionen in geometrischen Notationen auseinander: Ein Buchstabe kann problemlos die Länge einer Linie repräsentieren; wenn jedoch eine zweite Linie ebenfalls nur mit einem Buchstaben bezeichnet wird, gehen die Längenverhältnisse in der Abstraktion unter. Das gilt erst recht für komplexere geometrische Gebilde. Die willkürliche Abstraktion zeichenhafter Symbolisierungen ist demnach geometrischen Elementen nicht vollständig angemessen, die Zeichen sollten den individuellen Charakter der jeweiligen geometrischen Form respektieren. Babbage hebt in diesem Zusammenhang die »Mechanique Analytique« von Joseph-Louis Lagrange hervor, die nicht nur alle Elemente der Mechanik in die Analysis überführt, sondern dabei auch passende Symbole verwendet, die das Lesen und Verstehen des Formelwerks erheblich erleichtern. Gegen Ende der Broschüre diskutiert er Details wie die Vorteile selbsterklärender Zeichen (wie »>« und »