148 90 1MB
French Pages 180 [191] Year 2021
L’intelligence artificielle
L’intelligence artificielle Margaret A. Boden
Traduit de l’anglais par Alan Rodney
ChronoSciences Collection destinée à un large public qui invite le lecteur à découvrir de façon très complète mais de manière abordable un sujet ou une thématique précise. « Dans la même collection » La Théorie quantique, John Polkinghorne Les Marées, David George Bowers et Emyr Martyn Roberts (à paraître) L’Anthropocène, Erle C. Ellis (à paraître) L’Odorat, Matthew Cobb (à paraître) Artificial intelligence: a very short introduction, first edition was originally published in English in 2016. This translation is published by arrangement with Oxford University Press. Artificial intelligence: a very short introduction, first edition, a été initialement publiée en anglais en 2016. Cette traduction est publiée avec l’autorisation d’Oxford University Press. © Margaret A. Boden 2016, 2018 © Pour la traduction française, EDP sciences, 2021. Composition et mise en page : Desk (www.desk53.com.fr) Imprimé en France ISBN : 978-2-7598-2579-0 Ebook : 978-2-7598-2580-6 Tous droits de traduction, d’adaptation et de reproduction par tous procédés, réservés pour tous pays. La loi du 11 mars 1957 n’autorisant, aux termes des alinéas 2 et 3 de l’article 41, d’une part, que les « copies ou reproductions strictement réservées à l’usage privé du copiste et non destinées à une utilisation collective », et d’autre part, que les analyses et les courtes citations dans un but d’exemple et d’illustration, « toute représentation intégrale, ou partielle, faite sans le consentement de l’auteur ou de ses ayants droit ou ayants cause est illicite » (alinéa 1er de l’article 40). Cette représentation ou reproduction, par quelque procédé que ce soit, constituerait donc une contrefaçon sanctionnée par les articles 425 et suivants du code pénal.
Pour Byron, Oscar, Lukas et Alina
Remerciements Je tiens à remercier les amis suivants pour leurs conseils très utiles (les erreurs, cela va de soi, me seront imputables) : Phil Husbands, Jeremy Reffin, Anil Seth, Aaron Sloman et Blay Whitby. Je remercie également Latha Menon pour sa compréhension et sa patience.
Sommaire Préface...........................................................................................................................
11
1. Qu’est-ce au juste que l’intelligence artificielle ?................................
13
2. Avec l’intelligence artificielle générale pour Graal..............................
33
3. Langage, créativité et émotions.....................................................................
69
4. Les réseaux de neurones artificiels..............................................................
91
5. Les robots et la vie artificielle (A-life)......................................................... 113 6. Mais, est-ce réellement de l’intelligence ?............................................... 131 7. La Singularité............................................................................................................. 155 Références................................................................................................................... 177 Lectures complémentaires................................................................................ 183 Index............................................................................................................................... 185
Préface S’il fallait rassurer le lecteur que Margaret Boden possède des connaissances plus que suffisantes et la perspicacité nécessaire pour écrire une excellente « introduction » à l’intelligence artificielle, il suffirait amplement de passer en revue la liste des nombreux lauriers, prix et récompenses qui lui ont été décernés au fil des décennies pour ses recherches et son analyse très pertinente de ce domaine et de celui, connexe, des sciences cognitives. Comme il n’y a pas de place ici pour fournir une liste complète, je ne mentionnerai donc que deux prix notables qu’elle a reçus dans le court laps de temps qui s’est écoulé depuis la publication de la première édition de ce livre en 2017, « Maggie » (comme l’appellent ses amis et collègues) a reçu le Prix Allen Newell de l’Association for Computing Machinery/American Association for Artificial Intelligence pour ses contributions aux sciences cognitives, à l’IA et à l’étude de la créativité humaine ; et, en 2019, elle a reçu le Prix K. Jon Barwise de l’American Philosophical Association. Mais pour écrire ce livre, qui est une brève introduction à l’intelligence artificielle, il faut exiger encore plus de l’écrivain : un style de prose clair sans jargon tout en définissant de nouveaux termes importants, une capacité à jouer le funambule sur la corde raide tendue entre le fait de présupposer trop ou trop peu de connaissances chez ses lecteurs, et un talent pour fournir des exemples qui illustrent bien les principes centraux. Maggie possède ces talents à foison, et le démontre adroitement dans ce livre. Les livres de Maggie ont été traduits de l’anglais vers plus de vingt langues, mais elle m’a dit qu’elle était particulièrement satisfaite de l’édition que vous lisez actuellement, car il s’agit de la première traduction 11
L’intelligence artificielle
d’un de ses livres en français. Elle n’est pas la seule à se réjouir de voir enfin que cet oubli soit corrigé. L’IA est un domaine de recherche et de pratiques particulièrement dynamique, et on peut constater que de nombreux détails de l’IA et de l’apprentissage automatique se sont modifiés au cours des cinq dernières années. Mais les principes sous-jacents, les défis fondamentaux et les compromis inévitables restent inchangés et ce livre, par conséquent, représente un merveilleux guide des idées dont on a besoin pour donner un sens à l’IA telle qu’elle est aujourd’hui, et telle qu’elle est sur le point de devenir. Ron Chrisley, Hove, Sussex, mars 2021 Director of the Centre for Cognitive Science University of Sussex, Brighton
12
1 Qu’est-ce au juste que l’intelligence artificielle ? L’intelligence artificielle (IA 1) cherche à faire faire aux ordinateurs le genre de choses que l’esprit humain peut faire. Certaines activités (par exemple, le raisonnement) sont habituellement qualifiées d’« intelligentes ». D’autres (par exemple, la vision) ne le sont pas. Mais toutes impliquent de posséder des compétences psychologiques, telles que la perception, l’association, la prévision, la planification, le contrôle moteur, qui permettent aux humains et aux animaux d’atteindre leurs objectifs. L’intelligence n’est pas constituée d’une dimension unique, mais comprend un espace richement structuré de diverses capacités de traitement de l’information. En conséquence, l’IA utilise de nombreuses techniques différentes pour accomplir de nombreuses tâches, elles aussi différentes. Et on trouve l’IA partout. Ses applications pratiques se retrouvent à la maison, dans la voiture (et dans la voiture sans conducteur), au bureau, à la banque, à l’hôpital, 1. Toutes les notes sont du traducteur. Ce livre ayant été rédigé en 2018 par un leader des recherches en intelligence artificielle, j’ai pris le parti de garder tels quels en anglais une série d’acronymes ou d’expressions comme deep learning (apprentissage profond) ajoutant entre parenthèses un équivalent. Dans certains cas, où j’estime que le lecteur, venu d’autres horizons et disciplines que l’AI, n’est pas nécessairement au fait de la technologie sous-jacente, j’ai ajouté une note de bas de page plus explicite.
13
L’intelligence artificielle
dans le ciel… et sur Internet, y compris l’Internet des Objets (en anglais Internet of Things (IoT), qui relie les capteurs physiques toujours plus nombreux de nos gadgets, dans nos vêtements et nos environnements). Certaines applications se trouvent en dehors de la planète Terre : dans les robots envoyés sur la Lune et sur Mars 2, ou dans les satellites en orbite dans l’espace. Les dessins animés d’Hollywood, les jeux vidéo et informatiques, les systèmes de navigation par satellite (communément appelé « GPS » pour NavStar Global Positioning System) et le moteur de recherche de Google sont tous basés sur des techniques d’IA. Il en va de même pour les systèmes utilisés par les financiers afin de prévoir et anticiper les mouvements des marchés boursiers, et par les gouvernements pour aider à orienter les décisions politiques en matière de santé et de transports. Même chose pour les « apps » (applications) sur nos Smartphones®. S’y ajoutent des avatars dans la réalité virtuelle et les modèles d’émotion dits « orteils dans l’eau 3 », développés pour les robots dits de « compagnie ». Même les galeries d’art utilisent l’IA, sur leurs sites web, mais aussi pour exposer de d’art informatisé. Moins rassurant, nous voyons des drones militaires qui parcourent aujourd’hui les zones de guerre, mais fort heureusement, il existe aussi des robots démineurs. L’IA a deux objectifs principaux. Le premier est technologique : l’utilisation faite des ordinateurs pour réaliser des choses utiles (parfois en employant des méthodes très différentes de celles utilisées par l’esprit humain). L’autre est scientifique : l’utilisation des concepts et de modèles de l’IA pour aider à répondre aux questions sur les êtres humains et autres êtres vivants. La plupart des travailleurs de l’IA se concentrent sur un seul de ces objectifs, mais certains analysent les deux simultanément.
2. Curiosity est un engin mobile de Mars Science Laboratory développé par la NASA qui se déplace sur la planète Mars après son atterrissage dans le cratère Gale le 6 août 2012 ; il est toujours, en 2020, en route vers le Mont Sharp. 3. Expression anglaise pour signifier une nouvelle expérience – l’équivalent en français de « mettre les doigts de pied dans l’eau » pour juger de sa température.
14
Qu’est-ce au juste que l’intelligence artificielle ?
En plus d’équiper d’innombrables gadgets technologiques, l’IA a profondément influencé les sciences de la vie. Elle a notamment permis aux psychologues et aux neuroscientifiques de développer de puissantes théories sur l’esprit et le cerveau et leurs liens. Ces théories comprennent des modèles du fonctionnement du cerveau physique et – question différente mais tout aussi importante – de ce que fait le cerveau en réalité : à quelles questions « computationnelles » (psychologiques) répond-il et quels types de traitement de l’information lui permettent de le faire ? De nombreuses questions restent sans réponse, car l’IA elle-même nous a appris que nos esprits sont beaucoup plus riches que ce que les psychologues avaient imaginé. Les biologistes ont également eu recours à l’IA – sous la forme d’une vie artificielle (« A-life » en anglais] – qui permet de créer et de développer des modèles informatiques sur divers aspects des organismes vivants. Cela les aide à expliquer les différents types de comportement des animaux, le développement de leurs formes corporelles, leur évolution biologique et la nature de la vie elle-même. En plus de modifier notre approche des sciences de la vie, l’IA a influencé la philosophie. Aujourd’hui, de nombreux philosophes fondent leur compréhension de l’esprit sur les concepts sous-jacents à l’IA. Ils s’en servent pour aborder, par exemple, les épineux problèmes des liens « esprit-corps », l’énigme du libre arbitre, et les nombreux autres questionnements concernant la conscience. Cependant, ces idées philosophiques sont largement controversées. Et il existe de profonds désaccords sur la question de savoir si un système d’IA pourrait posséder une réelle intelligence, une créativité ou la vie. Enfin et surtout, l’IA a remis en question la façon dont nous pensons l’Humanité et son avenir. Certaines personnes s’inquiètent de savoir si nous aurons réellement un avenir, car elles prévoient que l’IA surpassera celle des hommes dans tous les domaines. Si quelques penseurs se réjouissent de cette perspective, la plupart la redoutent sérieusement : quelle place restera-t-il à la dignité et à la responsabilité humaines ? Toutes ces questions seront abordées dans les chapitres suivants. 15
L’intelligence artificielle
MACHINES VIRTUELLES
Penser à l’intelligence artificielle, est-ce penser aux ordinateurs ? La réponse est oui et non. Les ordinateurs, en tant que tels, ne nous intéressent pas. Ce qui compte, c’est ce qu’ils font. En d’autres termes, bien que l’IA ait besoin de machines physiques (c’est-à-dire des ordinateurs), il est préférable de la penser en termes de ce que les informaticiens appellent des machines virtuelles. Une machine virtuelle n’est pas une machine représentée dans la réalité virtuelle, ni quelque chose comme le moteur de voiture simulé qu’on utilise pour former des mécaniciens. Il s’agit plutôt du système de traitement de l’information que le programmeur a à l’esprit lorsqu’il écrit un programme et que les gens ont à l’esprit lorsqu’ils l’utilisent. Un logiciel de traitement de texte, par exemple, est considéré par son concepteur et vécu par ses utilisateurs comme traitant directement des mots et des paragraphes. Mais le programme lui-même ne contient généralement ni l’un ni l’autre. Et un réseau de neurones (voir chapitre 4) est considéré comme effectuant un traitement de l’information en parallèle, même s’il est généralement mis en œuvre dans un ordinateur (séquentiel) de type « von Neumann ». Cela ne signifie pas qu’une machine virtuelle n’est qu’une fiction commode, une chose qui relèverait de notre seule imagination. Les machines virtuelles sont des réalités. Elles peuvent faire bouger les choses, tant à l’intérieur du système (si ces machines sont reliées à des appareils physiques tels que des caméras ou des mains de robot) que dans le monde extérieur. Les chercheurs en IA qui essaient de découvrir ce qui ne va pas lorsqu’un programme fait quelque chose d’inattendu ne tiennent que rarement compte des défauts du matériel. En général, ils s’intéressent aux événements et aux interactions causales dans la machine virtuelle ou dans le logiciel. Les langages de programmation sont eux aussi des machines virtuelles (c’est-à-dire que les instructions doivent être traduites en langage [code] machine avant de pouvoir être exécutées). Certains sont définis 16
Qu’est-ce au juste que l’intelligence artificielle ?
en termes de langages de programmation de niveau inférieur, de sorte qu’une traduction devient nécessaire à plusieurs niveaux successifs. Ce n’est pas vrai seulement pour les langages de programmation, les machines virtuelles en général sont constituées de schémas d’activité (traitement de l’information) qui existent à différents niveaux. Et ce n’est pas vrai seulement pour les machines virtuelles qui fonctionnent sur des ordinateurs. Nous verrons au chapitre 6 que l’esprit humain peut être compris comme une machine virtuelle – ou plutôt, comme un ensemble de machines virtuelles en interaction mutuelle, fonctionnant en parallèle (et développées ou « apprises » à différents moments) – mise en œuvre dans le cerveau. Les progrès en matière d’IA exigent des progrès dans la définition des machines virtuelles intéressantes/utilisables. Les ordinateurs plus puissants physiquement (plus grands, plus rapides) sont tous très bien. Ils peuvent même être nécessaires à la mise en œuvre de certains types de machines virtuelles. Mais elles ne peuvent être exploitées que si des machines virtuelles informatiquement puissantes peuvent être exécutées sur elles. (De même, les progrès des neurosciences nécessitent une meilleure compréhension des machines virtuelles psychologiques mises en œuvre par les neurones physiques, cf. chapitre 7). Différentes sortes d’informations du monde extérieur sont utilisées. Chaque système d’IA a besoin de dispositifs périphériques d’entrée et de sortie, ne serait-ce qu’un clavier et un écran. Souvent, il existe également des capteurs spéciaux (par exemple des caméras ou des « moustaches » sensibles à la pression) et/ou des effecteurs (par exemple des synthétiseurs de sons pour la musique ou la parole ou des mains de robot). Le programme d’intelligence artificielle se connecte à – ou crée des changements dans – ces interfaces du monde informatique et traite les informations en interne. Le traitement au moyen de l’IA implique généralement aussi des périphériques d’entrée et de sortie internes, permettant aux différentes machines virtuelles du système d’interagir entre elles. Par exemple, une partie d’un programme d’échecs peut détecter une menace éventuelle en 17
L’intelligence artificielle
remarquant quelque chose dans un autre secteur du jeu et peut ensuite « s’interfacer » avec un troisième secteur pour chercher un « coup » afin de contrer la menace. LES PRINCIPAUX TYPES D’IA
La manière dont l’information est traitée dépend du type de machine virtuelle concernée. Comme nous le verrons dans les chapitres suivants, il existe cinq grandes catégories de machines virtuelles, chacune présentant de nombreuses variantes. L’une est l’IA classique, ou symbolique, parfois appelée « Good Old-Fashioned AI » (GOFAI). Une autre est celle des réseaux de neurones artificiels, qui met en œuvre le connexionnisme. Il existe en outre la programmation évolutive, les automates cellulaires et les systèmes dynamiques. Les chercheurs n’ont recours le plus souvent qu’à une seule catégorie d’IA et sa méthodologie, mais il existe aussi des machines virtuelles hybrides. Par exemple, une théorie de l’action humaine qui passe continuellement du traitement symbolique au traitement connexionniste est abordée au chapitre 4. (Cela explique pourquoi, et comment, quelqu’un peut être distrait de la réalisation d’une tâche planifiée en remarquant dans l’environnement quelque chose sans rapport avec celle-ci). Et un dispositif sensorimoteur qui combine la robotique « située 4 », les réseaux neuronaux et la programmation évolutive est décrit au chapitre 5. (Ce dispositif aide un robot à trouver son chemin de retour « vers la maison » en utilisant un triangle en carton comme point de repère). Outre leurs applications pratiques, ces approches peuvent éclairer l’esprit, le comportement et la vie. Les réseaux neuronaux sont utiles pour modéliser certains aspects du cerveau, ainsi que pour la reconnaissance automatique des formes et pour l’apprentissage. L’IA classique (en particulier lorsqu’elle est combinée avec la statistique) peut également modéliser l’apprentissage, la planification et le r aisonnement. 4. La robotique « située » tient compte du contexte et de l’environnement des dispositifs.
18
Qu’est-ce au juste que l’intelligence artificielle ?
La programmation évolutionniste éclaire l’évolution biologique et le développement du cerveau. Les automates cellulaires (AC ou CA) et les systèmes dynamiques peuvent être utilisés pour modéliser le développement des organismes vivants. Certaines méthodologies sont plus proches de la biologie que de la psychologie, certaines plus proches du comportement non réfléchi que de la pensée délibérative. Pour comprendre toute la gamme des « mentalités », il faudra les utiliser toutes, et probablement davantage. De nombreux chercheurs en IA ne se soucient guère de la façon dont l’esprit fonctionne : ils recherchent l’efficacité technologique, et non la compréhension scientifique. Même si leurs techniques sont issues de la psychologie, elles n’ont aujourd’hui que très peu de rapport avec celle-ci. Nous verrons, cependant, que les progrès de l’Intelligence Générale Artificielle (acronyme en anglais AGI) nécessiteront une compréhension approfondie de l’architecture informatique des esprits. L’IA PRÉVUE
L’IA avait été subodorée dans les années 1840 par Lady Ada Lovelace 5. Ou, plus précisément, elle en avait prévu une partie. Elle s’est concentrée sur les symboles et la logique, n’ayant pas la moindre notion de ce que nous appelons les « réseaux de neurones », ni l’IA évolutive et dynamique. Elle n’avait pas non plus de penchant pour le but psychologique de l’IA, son intérêt étant purement technologique. Elle a déclaré, par exemple, qu’une machine « pourrait très bien composer des morceaux de musique élaborés et “scientifiques” (sic) de n’importe quel degré de complexité ou d’ampleur », et pourrait également exprimer « les grands faits du monde naturel » en autorisant l’avènement d’« une époque glorieuse de l’histoire des sciences ». Elle n’aurait donc pas été surprise de voir que, deux
5. Ada Lovelace (Augusta Ada King), comtesse de Lovelace (1815-1852), est une pionnière de la science informatique.
19
L’intelligence artificielle
siècles plus tard, les scientifiques utilisent les Big Data 6 et des astuces de programmation spécialement conçues pour faire progresser les connaissances en génétique, pharmacologie, épidémiologie… la liste est infinie. La machine qu’elle avait à l’esprit a été baptisée la Machine analytique [Analytical Engine]. Ce dispositif à engrenages (jamais entièrement construit) avait été conçu par son ami proche Charles Babbage en 1834. Bien qu’elle soit consacrée à l’algèbre et aux nombres, cette Machine analytique était essentiellement l’équivalent d’un ordinateur numérique polyvalent. Ada Lovelace a reconnu la généralité potentielle du moteur de recherche, sa capacité à traiter des symboles représentant « tous les sujets de l’Univers ». Elle a également décrit diverses bases de la programmation moderne : programmes enregistrés, sous-programmes hiérarchiquement imbriqués, adressage, microprogrammation, boucles, conditions logiques, commentaires et même les « bugs » (bestioles en anglais). Mais elle n’a rien dit sur la façon dont la composition musicale, ou le raisonnement scientifique, pourraient être mis en œuvre sur la machine de Babbage. L’IA est possible, oui, mais comment y parvenir restait un mystère. COMMENT L’IA A DÉBUTÉ
Ce mystère a été résolu un siècle plus tard par Alan Turing. En 1936, Turing a montré que tous les calculs possibles peuvent en principe être effectués par un système mathématique universel appelé la Machine de Turing. Ce système imaginaire construit et modifie des combinaisons de symboles binaires – représentés par 0 et 1. Après avoir réussi le décryptage
6. Le Big Data (« grosses données » en anglais) désigne les ressources d’informations dont les caractéristiques en termes de volume, de vélocité et de variété imposent l’utilisation de technologies et de méthodes analytiques particulières pour générer de la valeur, qui dépassent en général les capacités d’une seule et unique machine, et nécessitent donc des traitements parallélisés.
20
Qu’est-ce au juste que l’intelligence artificielle ?
des codes 7 de l’ennemi à Bletchley Park, au cours de la Seconde Guerre mondiale, il a passé le reste des années 1940 à réfléchir à la manière dont la Machine de Turing, définie de manière abstraite, pouvait devenir une machine physique (il a contribué à la conception du premier ordinateur moderne, achevé à Manchester en 1948), et à la manière dont un tel engin pouvait être amené à fonctionner intelligemment. À la différence d’Ada Lovelace, Turing a accepté les deux objectifs de l’IA. Il voulait que les nouvelles machines fassent des choses utiles – dont on dit normalement qu’elles requièrent de l’intelligence (peutêtre en utilisant des techniques très peu naturelles), mais aussi qu’elles modélisent les processus qui se produisent dans les esprits biologiques. Le document de 1950 dans lequel il proposait, en blaguant, le Test de Turing (cf. chapitre 6) se voulait avant tout un manifeste en faveur de l’IA. (Une version plus complète avait été rédigée peu après la guerre, mais la loi sur la sécurité nationale de l’époque en empêchait la publication). Il identifiait des questions clés sur le traitement de l’information dans le renseignement (la conduite de jeux, la perception, et l’apprentissage), en donnant des indices alléchants sur ce qui avait déjà été réalisé (mais seulement des « indices » car le travail en cours à Bletchley Park était couvert par le secret Défense. Il a même suggéré des approches informatiques, telles que les réseaux de neurones et l’informatique évolutionniste, qui n’ont pris de l’importance que bien plus tard. Mais le mystère était encore bien loin d’être levé. Turing avait avancé des remarques très générales : programmatiques, pas de programmes. Sa conviction que l’IA devait être réalisable, d’une manière ou d’une autre, a été renforcée au début des années 1940 par le neurologue/ psychiatre Warren McCulloch et par le mathématicien Walter Pitts. Dans leur article intitulé « A Logical Calculus of the Ideas Immanent in Nervous
7. Il s’agit de décrypter les codes Enigma, notamment ceux des sous-marins allemands, à « Station X », (Bletchley Park au nord de Londres) pendant la Seconde Guerre mondiale.
21
L’intelligence artificielle
Activity », ils ont associé les travaux de Turing à deux autres travaux passionnants (tous deux datant du début du xxe siècle) : la « logique propositionnelle » de Bertrand Russell et la « théorie des synapses neuronales » de Charles Sherrington. Le point essentiel de la logique propositionnelle est qu’elle est binaire. Chaque phrase (également appelée proposition) est supposée être vraie ou fausse. Il n’y a pas de solution intermédiaire, ni de reconnaissance de l’incertitude ou de la probabilité. Seules deux « valeurs de vérité » sont autorisées, à savoir le vrai et le faux. De plus, des propositions complexes sont construites et des arguments déductifs sont utilisés en utilisant des opérateurs logiques (tels que « et », « ou » et « SI-ALORS ») dont la signification est définie en termes de vérité/fausseté des propositions qui les composent. Par exemple, si deux (ou plusieurs) propositions sont liées par « et », on suppose que les deux/toutes sont vraies. Ainsi, « Marie a épousé Tom et Flossie a épousé Peter » est vrai « si », et seulement « si », « Marie a épousé Tom » et « Flossie a épousé Peter » sont toutes deux des propositions « vraies ». Les idées de Russell et Sherrington ont pu être réunies par McCulloch et Pitts parce qu’ils avaient tous deux décrit des systèmes binaires. Les valeurs « vraies »/ « fausses » de la logique ont été mises en correspondance avec l’activité « allumée/éteinte » des neurones du cerveau et le 0/1 des états distincts dans la Machine de Turing. Sherrington pensait que les neurones n’étaient pas seulement strictement allumés/éteints, mais qu’ils avaient aussi des seuils fixes. Ainsi, les portes logiques (informatiques « et », « ou », et « non ») étaient définies comme de minuscules réseaux de neurones, qui pouvaient être interconnectés pour représenter des propositions très complexes. Tout ce qui pouvait être énoncé dans la logique propositionnelle pouvait être calculé par un réseau de neurones, et donc par une Machine de Turing. En bref, la neurophysiologie, la logique et le calcul ont été ainsi regroupés – et la psychologie s’y est jointe. McCulloch et Pitts croyaient (comme beaucoup de philosophes d’ailleurs à l’époque) que le langage naturel se résumait, en substance – et pouvait être réduit – à des expressions 22
Qu’est-ce au juste que l’intelligence artificielle ?
logiques. Ainsi, tous les raisonnements et les opinions, de l’argument scientifique aux délires schizophrènes, alimentaient leur « moulin » théorique. Ils prévoyaient une époque où, pour l’ensemble de la psychologie, « la spécification du réseau [de neurones] apporterait tout ce qui pouvait être réalisé dans ce domaine ». L’implication principale était claire : une seule et même approche théorique, à savoir le calcul de Turing, pouvait être appliquée à l’intelligence des hommes et des machines. Turing, bien sûr, était d’accord. Mais il ne pouvait pas progresser beaucoup plus loin avec l’IA : la technologie disponible était encore trop « primitive ». Au milieu des années 1950, cependant, des machines plus puissantes et/ou plus faciles à utiliser ont été développées. « Faciles à utiliser » signifie ici qu’il devenait plus facile de définir de nouvelles machines virtuelles (par exemple, des langages de programmation), qui pouvaient être utilisées plus facilement pour définir des machines virtuelles de plus haut niveau (par exemple, des programmes pour faire des mathématiques ou de la planification). La recherche en IA symbolique, largement explicitée dans l’esprit du manifeste de Turing, a commencé des deux côtés de l’Atlantique. L’un des points de repère de la fin des années 1950 a été le jeu de dames d’Arthur Samuel, qui a fait « la une » des journaux parce qu’il a appris à battre Samuel lui-même. C’était une indication que les ordinateurs pouvaient un jour développer une intelligence surhumaine, dépassant les capacités de leurs programmeurs. La deuxième de ces révélations a également eu lieu à la fin des années 1950, lorsque la Machine de la Théorie Logique a non seulement résolu dix-huit des principaux théorèmes logiques de Russell, mais a présenté une preuve plus élégante pour l’un d’entre eux. C’était vraiment impressionnant. Alors que Samuel n’était lui-même qu’un joueur de dames médiocre, Russell était un logicien de premier plan (et lui-même était ravi de cette réalisation, mais le Journal of Symbolic Logic a refusé de publier un article avec un programme informatique nommé comme auteur, d’autant plus qu’il n’avait pas résolu un nouveau théorème). 23
L’intelligence artificielle
La Machine de la Théorie Logique a rapidement été dépassée par le General Problem Solver (GPS 8) – « dépassée » non pas dans le sens où le GPS pouvait surpasser encore d’autres génies imposants, mais dans le sens où elle n’était pas limitée à un seul domaine. Comme son nom l’indique, ce GPS pouvait être appliqué à tout problème pouvant être représenté (expliqué au chapitre 2) en termes d’objectifs, de sous-objectifs, d’actions et d’opérateurs. Il appartenait aux programmeurs d’identifier les objectifs, les actions et les opérateurs pertinents pour tout domaine spécifique. Mais ceci fait, le raisonnement pouvait être laissé au programme. Le GPS a réussi à résoudre le problème des « missionnaires et des cannibales », par exemple. Trois missionnaires et trois cannibales sur un côté d’une rivière ; un bateau assez grand pour deux personnes ; comment faire pour que tout le monde traverse la rivière sans qu’à aucun moment les cannibales soient plus nombreux que les missionnaires ? C’est difficile, même pour les humains, parce qu’il faut faire marche arrière pour aller de l’avant. (Essayez-le, en utilisant des pièces de monnaie pour les personnages !) La Machine de la Théorie Logique et le GPS ont été les premiers exemples de GOFAI. Ils sont maintenant manifestement « démodés ». Mais ils étaient également « bons », car ils ont été les premiers à utiliser l’heuristique et la planification, deux éléments extrêmement importants dans l’IA d’aujourd’hui (cf. chapitre 2). GOFAI n’est pas le seul type d’IA à s’être inspiré de l’article intitulé « Logical Calculus ». Le connexionnisme a également été encouragé par celui-ci. Dans les années 1950, des réseaux de neurones logiques McCulloch-Pitts, construits spécialement ou simulés sur des ordinateurs numériques, ont été utilisés (par Albert Uttley, par exemple) pour modéliser l’apprentissage associatif et des réflexes conditionnés. (Contrairement aux réseaux neuronaux actuels, ceux-ci opèrent un traitement « localiste », et non « distribué » (cf. chapitre 4). 8. Le GPS ici ne doit pas être confondu avec le « GPS » (NavSat Global Positioning System) pour la navigation.
24
Qu’est-ce au juste que l’intelligence artificielle ?
Cependant, la modélisation des premiers réseaux n’était pas entièrement dominée par la logique neuronale. Les systèmes mis en œuvre (dans les ordinateurs analogiques) par Raymond Beurle au milieu des années 1950 étaient très différents. Au lieu de réseaux de portes logiques soigneusement conçus, il est parti de réseaux bidimensionnels (2D) d’unités à connexions aléatoires, et avec des seuils variables. Il considérait que l’auto-organisation neurale était due à des vagues dynamiques d’activation – se construisant, se propageant, persistant, mourant, et parfois interagissant. Comme Beurle s’en est rendu compte, le fait de dire que les processus psychologiques peuvent être modélisés par une machine à « saucissonner » la logique ne signifie pas que le cerveau est réellement une telle machine. McCulloch et Pitts l’avaient déjà souligné. Quatre ans seulement après leur premier article révolutionnaire, ils en publièrent un autre soutenant que la thermodynamique est plus proche que la logique pour expliquer le fonctionnement du cerveau. La logique a cédé la place aux statistiques, les unités individuelles aux collectivités et la pureté déterministe au bruit probabiliste. En d’autres termes, ils avaient décrit ce que l’on appelle aujourd’hui l’informatique distribuée, tolérante aux erreurs (cf. chapitre 4). Ils ont considéré cette nouvelle approche comme une « extension » de la leur, et non pas comme une contradiction. Elle était plus réaliste d’un point de vue biologique. LA CYBERNÉTIQUE
L’influence de McCulloch sur les débuts de l’IA est allée plus loin encore que le GOFAI et le connexionnisme. Ses connaissances en neurologie et en logique ont fait de lui un leader influent dans le mouvement naissant cybernétique des années 1940. Les cybernéticiens se sont concentrés sur l’auto-organisation biologique. Celle-ci couvrait divers types d’adaptation et de métabolisme, y compris la pensée autonome et le comportement moteur ainsi que la régulation 25
L’intelligence artificielle
(neuro-)physiologique. Leur concept central était la « causalité circulaire », ou rétroaction [feedback]. Et une préoccupation essentielle était la téléologie, ou le caractère inhérent d’intention. Ces idées étaient étroitement liées, car la rétroaction dépendait des différences d’objectifs : la distance actuelle par rapport à l’objectif était utilisée pour guider et décider de l’étape suivante. Norbert Wiener (qui avait conçu des missiles antibalistiques pendant la guerre) a donné le nom Cybernétique au mouvement en 1948, le définissant comme « l’étude du contrôle et de la communication chez l’animal et la machine ». Les cybernéticiens qui ont fait de la modélisation informatique se sont souvent inspirés de l’ingénierie de contrôle et des ordinateurs analogiques plutôt que de la logique et de l’informatique numérique. Cependant, la distinction n’était pas si nette que cela. Par exemple, les différences d’objectifs étaient utilisées à la fois pour contrôler des missiles et pour diriger la résolution symbolique des problèmes. De plus, Turing – champion de l’IA classique – s’est servi d’équations dynamiques (décrivant ordinairement la diffusion chimique) pour définir des systèmes auto-organisés dans lesquels de nouvelles structures, telles que les taches ou la segmentation, pouvaient émerger d’une origine homogène (cf. chapitre 5). Parmi les autres premiers membres du mouvement figuraient le psychologue expérimental Kenneth Craik, le mathématicien John von Neumann, les neurologues William Grey Walter et William Ross Ashby, l’ingénieur Oliver Selfridge, le psychiatre et anthropologue Gregory Bateson, et le chimiste et psychologue Gordon Pask. Craik qui a trouvé la mort dans un accident de vélo en 1943 (à 31 ans) – donc avant l’avènement des ordinateurs numériques – a fait référence à l’informatique analogique en pensant au système nerveux. Il a décrit la perception et l’action motrice, et l’intelligence en général, comme étant guidées par les réactions de « modèles » dans le cerveau. Son concept de modèles cérébraux, ou représentations, sera plus tard très influent dans l’IA.
26
Qu’est-ce au juste que l’intelligence artificielle ?
Von Neumann s’était interrogé sur l’auto-organisation tout au long des années 1930, et était très enthousiaste au sujet du premier article de McCulloch et Pitts. Outre le fait qu’il a modifié sa conception de base de l’ordinateur, en passant du décimal au binaire, il a adapté leurs idées pour expliquer l’évolution et la reproduction biologiques. Il a défini divers automates cellulaires : des systèmes constitués de nombreuses unités de calcul, dont les changements obéissaient à des règles simples en fonction de l’état actuel des unités voisines. Certains d’entre eux pourraient en reproduire d’autres. Il a même défini un « réplicateur » universel, capable de copier n’importe quoi, y compris lui-même. « Ce sont des erreurs de réplication qui pourraient conduire à l’évolution », a-t-il dit. Les automates cellulaires ont été spécifiés par von Neumann en termes « informationnels » abstraits. Mais ils pouvaient être incarnés de nombreuses façons, par exemple : comme des robots qui s’auto- assemblent, comme la diffusion chimique de Turing, comme les ondes physiques de Beurle, ou comme l’ADN. À partir de la fin des années 1940, Ashby a développé l’Homéostat, un modèle électrochimique d’homéostasie physiologique. Cette machine fascinante pouvait s’installer dans un état d’équilibre global quelles que soient les valeurs initialement attribuées à ses cent paramètres (permettant près de 400 000 états de départ différentes). Elle illustrait la théorie d’Ashby sur l’adaptation dynamique – tant à l’intérieur du corps (notamment dans le cerveau) et entre le corps et son environnement externe, dans un apprentissage par essais et erreurs et un comportement adaptatif. Grey Walter, lui aussi, étudiait le comportement adaptatif – mais d’une manière très différente. Il a construit des minirobots ressemblant à des tortues, dont les circuits sensorimoteurs modélisent la théorie de Sherrington sur les circuits réflexes neuraux. Ces robots pionniers, placés dans un endroit précis, affichaient des comportements réalistes, quasi-vivants, tels que la recherche de (et l’orientation vers) la lumière, l’évitement d’obstacles et l’apprentissage associatif par le biais de réflexes
27
L’intelligence artificielle
conditionnés. Ils ont été présentés au grand public lors du Festival de Grande-Bretagne en 1951. Dix ans plus tard, Selfridge (petit-fils du fondateur du grand magasin de Londres) a utilisé des méthodes symboliques pour mettre en place un système de traitement de données essentiellement parallèle appelé Pandemonium. Ce programme GOFAI a appris à reconnaître les modèles en possédant de nombreux « démons » de bas niveau, chacun cherchant toujours à en trouver un simple apport perceptif, et qui relayerait leurs résultats à des « démons » de plus haut niveau. Ces derniers ont pesé les caractéristiques reconnues jusqu’à présent pour des raisons de cohérence (par exemple, seulement deux barres horizontales dans un F), en minimisant les caractéristiques qui ne convenaient pas. Les niveaux de confiance pouvaient varier, et c’était important : les démons qui criaient le plus fort avaient le plus d’effet. Enfin, un « maître-démon » choisissait le modèle le plus plausible, compte tenu des preuves (souvent contradictoires) disponibles. Cette recherche a rapidement influencé à la fois le connexionnisme et l’IA symbolique. (Une ramification très récente est le modèle de conscience LIDA, voir le chapitre 6). Bateson ne s’intéressait guère aux machines, mais dans les années 1960, il a fondé ses théories sur la culture, l’alcoolisme et la schizophrénie « en double-aveugle » sur des idées de communication (c’est-à-dire sur la rétroaction), reprises plus tôt lors de réunions cybernétiques. À partir du milieu des années 1950, Pask – décrit par McCulloch comme « le génie des systèmes auto-organisés », a utilisé des idées cybernétiques et symboliques dans de nombreux projets différents. Parmi ceux-ci, on trouve le théâtre interactif, les robots musicaux « inter-communicants », l’architecture qui apprend et s’adapte aux objectifs de ses utilisateurs, les concepts chimiques auto-organisateurs et les machines d’enseignement. Ces dernières permettaient aux gens de suivre différents chemins à travers une représentation complexe des connaissances, et étaient donc adaptées aux styles cognitifs pas à pas et holistiques (et avec une tolérance variable de la non-pertinence) de la part de l’apprenant. En 28
Qu’est-ce au juste que l’intelligence artificielle ?
un mot, tous les principaux types d’IA ont été pensés, et même mis en œuvre, à la fin des années 1960 – et dans certains cas, bien avant cela. La plupart des chercheurs concernés sont aujourd’hui largement vénérés. Pourtant, seul Turing était un fantôme constant aux colloques parfois hauts en couleur de l’IA. Pendant de nombreuses années, les autres n’ont été évoqués que par un sous-ensemble de la communauté des chercheurs. Grey Walter et Ashby, en particulier, ont presque été ignorés jusqu’à la fin des années 1980, lorsqu’ils ont été salués (aux côtés de Turing) comme les grands-pères de la Vie artificielle (« A-life »). Pour comprendre pourquoi, il faut d’abord savoir comment les modélisateurs informatiques se sont désunis. COMMENT LE MONDE DE L’IA S’EST DIVISÉ
Avant les années 1960, il n’y avait pas de distinction claire entre ceux qui modélisaient le langage ou la pensée logique et ceux qui modélisaient le comportement moteur intentionnel/adaptatif. Certains travaillaient même sur les deux versants. Donald Mackay a même suggéré de construire des ordinateurs hybrides, combinant les réseaux de neurones et le traitement symbolique. Et tous étaient éminemment sympathiques les uns envers les autres. Les chercheurs qui étudient l’autorégulation se considéraient comme engagés dans la même entreprise globale que leurs collègues aux orientations psychologiques. Ils ont tous participé aux mêmes réunions : les séminaires interdisciplinaires de Macy aux États-Unis (présidés par McCulloch de 1946 à 1951) et la conférence de Londres sur « La mécanisation des processus de pensée » (organisée par Uttley en 1958). Cependant, à partir de 1960 environ un schisme intellectuel s’est creusé. De manière générale, ceux qui s’intéressaient à la vie sont restés dans la cybernétique, et ceux qui s’intéressaient à l’esprit se sont tournés vers l’informatique symbolique. Les adeptes des réseaux s’intéressaient à la fois au cerveau et à l’esprit, bien entendu. Mais ils étudiaient l’apprentissage associatif en général, et non un contenu sémantique ou un 29
L’intelligence artificielle
raisonnement spécifique, et relevaient donc de la cybernétique plutôt que de l’IA symbolique. Malheureusement, il y avait très peu de respect mutuel entre ces sous-groupes qui se sont séparés de plus en plus. L’émergence de coteries sociologiques distinctes était inévitable. En effet, les questions théoriques posées – biologiques (de différentes sortes) et psychologiques (également différentes) – étaient elles-mêmes différentes. Il en va de même pour les compétences techniques impliquées : définition large, logique versus équations différentielles. La spécialisation croissante a rendu la communication de plus en plus difficile et largement non rentable. Ces conférences très éclectiques sont devenues une chose du passé. Ceci dit, la division n’aurait pas dû être aussi vivace. L’amertume du côté des cybernéticiens/connexionnistes a démarré comme un mélange de jalousie professionnelle et d’indignation vertueuse. Cette initiative a été motivée par l’énorme succès initial de l’informatique symbolique, par l’intérêt journalistique suscité par le terme provocateur d’« intelligence artificielle » (inventé par John McCarthy 9 en 1956 pour désigner ce qu’on appelait auparavant la « simulation par ordinateur »), et par l’arrogance – et le battage publicitaire irréaliste – de certains symbolistes. Les membres du camp des symbolistes étaient au départ moins hostiles, car ils se voyaient comme les gagnants du concours d’IA. En effet, ils ont largement ignoré les premières recherches sur les réseaux, même si certains de leurs dirigeants (Marvin Minsky, par exemple) avaient commencé leur carrière dans ce domaine. En 1958, cependant, une théorie ambitieuse de la « neurodynamique » – définissant des systèmes de traitement parallèle capables d’un apprentissage auto-organisé à partir d’une base aléatoire (et, ce qui ne gâche rien, tolérant aux erreurs) – a été présentée par Frank Rosenblatt et partiellement mise en œuvre dans sa machine photoélectrique 9. Wiki-John McCarthy (1927-2011) est considéré le principal pionnier de l’IA, avec Marvin Lee Minsky ; son courant met l’accent sur la logique symbolique ; créateur du langage LISP en 1958. Il reçoit le Prix Turing 1971 pour ses travaux en intelligence artificielle.
30
Qu’est-ce au juste que l’intelligence artificielle ?
P erceptron. Contrairement à Pandemonium, il n’a pas eu besoin que les modèles d’entrée soient soumis à une pré-analyse par le programmeur. Cette nouvelle forme de connexionnisme ne pouvait pas être ignorée des symbolistes. Mais elle a été rapidement rejetée, avec fracas et mépris. Comme nous le verrons dans le chapitre 4, Minsky (avec Seymour Papert) a lancé une critique cinglante dans les années 1960, affirmant que les perceptrons sont incapables de calculer certaines choses fondamentales. Le financement de la recherche sur les réseaux de neurones s’est donc tari. Ce résultat, délibérément voulu par les deux critiques, a aggravé les antagonismes au sein de l’IA. Pour le grand public, il semblait désormais que l’IA classique était le seul jeu qui vaille. Certes, les tortues de Grey Walter avaient reçu un accueil très favorable lors du Festival de Grande-Bretagne. Le Perceptron de Rosenblatt a fait l’objet d’un grand battage médiatique à la fin des années 1950, tout comme Adaline de Bernard Widrow (basé sur le traitement du signal). Mais la critique des symbolistes a mis fin à cet intérêt. C’est bien l’IA symbolique qui a dominé les médias dans les années 1960 et 1970 (et qui a également influencé la philosophie de l’esprit). Cette situation n’a pas duré. Les réseaux de neurones – en tant que « systèmes PDP » (traitement parallèle distribué) – ont surgi sur la scène publique en 1986 (cf. chapitre 4). La plupart des personnes extérieures – et certains initiés, qui auraient dû s’en douter – ont pensé que cette approche était totalement nouvelle. Elle a séduit les étudiants diplômés et a attiré une énorme attention journalistique (et philosophique). Maintenant, c’était le tour des symbolistes de l’IA d’avoir leur « nez tordu ». Le PDP était à la mode, et l’IA classique était largement considérée comme un échec. Quant aux autres cybernéticiens, ils sont finalement revenus du froid avec le baptême sous la dénomination du concept A-life en 1987. Les journalistes, et les étudiants diplômés, ont suivi. L’IA symbolique a été remise en question une fois de plus. Au xxie siècle, cependant, il est devenu évident que des questions de nature différente exigent aussi des réponses différentes. De même 31
L’intelligence artificielle
quand il faut différents chevaux selon la nature de la course (obstacles, trot…). Bien qu’il reste des blessures résultantes des vielles animosités, il y a maintenant du respect, et même de la coopération, entre les différents tenants et leurs approches. Par exemple, l’« apprentissage profond » (deep learning) est parfois utilisé dans des systèmes puissants combinant une logique symbolique et des réseaux probabilistes multicouches ; d’autres approches hybrides comprennent des modèles ambitieux de la conscience (cf. chapitre 6). Étant donné la grande variété de machines virtuelles qui constituent l’esprit humain, il ne faut pas trop s’en étonner.
32
2 Avec l’intelligence artificielle générale pour Graal L’IA de pointe a beaucoup d’atours, plus merveilleux les uns que les autres. Elle offre une profusion de machines virtuelles, effectue de nombreux types de traitement de l’information. Mais il n’y a ni clé secrète ni technique de base qui unifierait le domaine : les praticiens de l’IA sont des professionnels travaillant dans bien des domaines différents, n’ayant en commun en fait peu d’objectifs ou méthodes. Ce livre ne peut mentionner que très peu des progrès récents. Force est de constater que la gamme méthodologique de l’IA est extraordinairement large. On pourrait dire qu’elle a connu un succès étonnant, car sa portée pratique est elle aussi extraordinairement vaste. Il existe une multitude d’applications de l’IA, conçues pour d’innombrables tâches spécifiques, mises en œuvre dans presque tous les domaines de la vie, par des non-spécialistes, comme par des professionnels. Nombre d’entre elles sont plus performantes que les humains les plus experts. En ce sens, les progrès observés ont été spectaculaires. Mais les pionniers de l’IA ne visaient pas seulement à réaliser des systèmes spécialisés. Ils espéraient également créer des systèmes d’intelligence générale. Chaque « capacité » humaine qu’ils ont modélisée – la vision, le raisonnement, le langage, l’apprentissage, etc. – couvrirait toute la gamme de ses défis. De plus, ces capacités seraient intégrées, le cas échéant.
33
L’intelligence artificielle
À l’aune de ces critères, les progrès ont été beaucoup moins impressionnants. John McCarthy a reconnu très tôt que l’IA avait besoin de « bon sens ». Et il a parlé de l’« intelligence artificielle générale » lors de ses deux discours très remarqués lors du Prix Turing, respectivement en 1971 et 1987 – mais il ne se réjouissait pas, au contraire, il se plaignait. Aujourd’hui, ses récriminations n’ont pas encore trouvé de réponse. Le xxie siècle voit un regain d’intérêt pour l’intelligence artificielle, stimulé par les récentes augmentations de la puissance de traitement des ordinateurs 1. Si cela se concrétisait, les systèmes d’IA pourraient moins s’appuyer sur des astuces de programmation spécialisées, et bénéficier à la place de pouvoirs généraux de raisonnement et de perception – en y ajoutant le langage, la créativité et l’émotion (aspects que nous aborderons au chapitre 3). Cela, cependant, est plus facile à dire qu’à faire. L’intelligence artificielle générale représente toujours un défi majeur, encore très insaisissable, c’est le Saint Graal du domaine. LES SUPERCALCULATEURS NE SUFFISENT PLUS
Les supercalculateurs d’aujourd’hui sont certainement une aide pour quiconque cherche à réaliser ce rêve. L’explosion du calcul combinatoire – où il faut plus de calculs qu’on ne peut en faire en réalité – n’est plus la menace qu’elle était. Néanmoins, les problèmes ne peuvent pas toujours être résolus simplement en augmentant la puissance des ordinateurs. De nouvelles méthodes de résolution de problèmes sont souvent nécessaires. De plus, même si une méthode particulière doit réussir en principe, elle peut exiger trop de temps de calcul et/ou de mémoire pour réussir en pratique. Trois exemples de ce type (concernant les réseaux de neurones) sont donnés au chapitre 4. 1. La puissance de traitement des ordinateurs se mesure en Mflops (millions d’opérations de base par seconde). Le supercalculateur le plus rapide du monde en 1996 était à la NASA et possédait 9 500 CPU Intel Pentium Pro à 200 MHz pouvant effectuer 1,5 TéraFlops de calcul élémentaire à la seconde — le préfixe Téra est 1012 (soit mille milliards).
34
Avec l’intelligence artificielle générale pour Graal
L’efficacité est également importante : moins le nombre de calculs est élevé, mieux c’est. En bref, il faut rendre les problèmes « traitables ». Pour ce faire, il existe plusieurs stratégies de base. Toutes ont été lancées par l’IA symbolique classique, ou GOFAI, et toutes sont encore essentielles aujourd’hui. L’une d’elles consiste à n’attirer l’attention du chercheur que sur une partie de l’espace de recherche (la représentation du problème par l’ordinateur, dans laquelle la solution est supposée se trouver). Une autre revient à aménager un espace de recherche plus restreint, en faisant des hypothèses simplificatrices. Une troisième consiste à ordonner la recherche de manière efficace. Une autre encore consiste à construire un espace de recherche différent, en représentant le problème d’une nouvelle manière. Ces approches impliquent respectivement l’heuristique, la planification, la simplification mathématique et la représentation des connaissances. Les cinq sections suivantes examinent ces stratégies générales d’IA. LA RECHERCHE HEURISTIQUE
Le mot « heuristique » a la même racine que « Eureka ! » : il vient du grec et signifie « trouver » ou « découvrir ». L’heuristique a été mise en valeur par les premières expériences impliquant la GOFAI, et est souvent considérée comme un apport d’« astuces de programmation ». Mais le terme ne vient pas du monde de la programmation : il est depuis longtemps familier aux logiciens et aux mathématiciens. Que ce soit chez l’homme ou dans les machines, l’heuristique permet de résoudre plus facilement le problème. En IA, elle le fait en orientant le programme vers certaines parties de l’espace de recherche et en l’éloignant d’autres. De nombreuses approches heuristiques, y compris la plupart de celles utilisées au début de l’IA, sont en fait des règles empiriques dont le succès n’est pas garanti. La solution peut se trouver dans une partie de l’espace de recherche que l’heuristique a conduit le système à ignorer. 35
L’intelligence artificielle
Par exemple, aux échecs « Protégez la Reine » est une règle très utile, mais elle doit parfois, part stratégie du jeu, être négligée. D’autres approches peuvent être logiquement ou mathématiquement prouvées comme étant adéquates. De nos jours, de nombreux travaux en matière d’IA et d’informatique visent à identifier les propriétés « démontrables » des programmes. C’est l’un des aspects de l’« IA conviviale », car la sécurité des personnes peut être compromise par l’utilisation de systèmes logiquement peu fiables (cf. chapitre 7). Qu’elle soit fiable ou non, l’heuristique est un aspect essentiel de la recherche sur l’IA. La spécialisation croissante de l’IA mentionnée précédemment dépend en partie de la définition de nouvelles approches heuristiques qui peuvent améliorer l’efficacité de façon spectaculaire, mais seulement dans un type de problème très restreint, c’est-à-dire, un espace de recherche. Une heuristique très efficace peut ne pas convenir pour être « empruntée » par d’autres programmes d’IA. Étant donné l’existence de plusieurs formes d’heuristique, leur ordre d’application peut être important. Par exemple, « Protégez la Reine » doit être pris en compte avant « Protégez le Fou » – même si cet enchaînement peut parfois conduire à un désastre. Des ordres différents définiront des arbres de recherche différents dans l’espace de recherche. Définir et ordonner les traitements heuristiques sont des tâches cruciales pour l’Al moderne (les heuristiques sont également importantes en psychologie cognitive). Des travaux intrigants sur les « heuristiques rapides et frugales », par exemple, indiquent comment l’évolution nous a dotés de moyens efficaces pour répondre à l’environnement. L’heuristique rend inutile la recherche par la force brute, à travers tout l’espace de recherche. Mais elle est parfois combinée à une recherche en employant une force brute limitée. Le programme d’échecs Deep Blue d’IBM, qui a suscité l’enthousiasme du monde entier en battant le champion du monde Gary Kasparov en 1997, utilisait des puces matérielles dédiées, traitant 200 millions de positions par seconde, pour générer tous les coups possibles préemptant les huit coups suivants.
36
Avec l’intelligence artificielle générale pour Graal
Cependant, il a dû utiliser l’heuristique pour sélectionner le « meilleur » coup parmi eux. Et comme ses heuristiques n’étaient pas fiables, même Deep Blue n’a pas battu Kasparov à chaque fois. LA PLANIFICATION
La planification est très importante dans l’IA d’aujourd’hui, notamment dans un large éventail d’activités militaires. En effet, le ministère américain de la Défense (DOD) – qui a financé la majorité des recherches sur l’IA jusqu’à très récemment – a déclaré que les économies réalisées (grâce à la planification de l’IA) sur la logistique du champ de bataille lors de la première guerre en Irak ont dépassé tous leurs investissements précédents. La planification n’est pas limitée à l’IA : nous le faisons tous. Pensez au moment, par exemple, où vous faites vos valises pour les vacances. Vous devez d’abord trouver toutes les choses que vous voulez prendre, qui ne se trouveront probablement pas toutes au même endroit. Vous devrez peut-être acheter de nouveaux articles (la crème solaire, par exemple). Vous devez décider si vous voulez rassembler toutes les choses (peutêtre sur votre lit ou sur une table) ou si vous voulez les mettre chacune dans vos bagages au fur et à mesure que vous les trouverez. Cette décision dépendra en partie de votre volonté de mettre les vêtements en dernier lieu, pour empêcher qu’ils soient froissés dans le transport. Vous aurez besoin d’un sac à dos, ou d’une valise, ou peut-être de deux : mais comment décider ? Les programmeurs qui invoquent les méthodes de la GOFAI et qui ont utilisé la technique de planification de l’IA avaient à l’esprit des exemples bien pensés. C’est parce que les pionniers responsables de la Machine de la Théorie Logique (cf. chapitre 1) et du GPS s’intéressaient avant tout à la psychologie du raisonnement humain. Les planificateurs modernes de l’IA ne s’appuient pas tant sur des idées issues d’une introspection consciente ou d’une observation mentale.
37
L’intelligence artificielle
Et leurs « plans » sont beaucoup plus complexes que ceux possibles à l’origine. Mais l’idée de base est la même. Un plan spécifie une séquence d’actions, représentée à un niveau général – un objectif final, auquel s’ajoutent des sous-objectifs et des sous-sous-objectifs… – de sorte que tous les détails ne sont pas pris en compte en même temps. La planification à un niveau d’abstraction approprié peut conduire à un certain « débroussaillage » dans l’espace de recherche, certains détails n’ayant jamais besoin d’être pris en compte du tout. Parfois, l’objectif final représente lui-même un plan d’action – peutêtre la programmation des livraisons à destination et en provenance d’une usine ou d’un champ de bataille. À d’autres moments, il représente la réponse à une question, par exemple : « Quel est le diagnostic médical ? » Pour un objectif donné et des situations prévisibles, le programme de planification a besoin : d’une liste d’actions – c’est-à-dire d’opérateurs symboliques – ou de types d’actions, chacun d’entre eux pouvant apporter un changement pertinent ; pour chaque action, un ensemble de conditions préalables nécessaires (pour saisir quelque chose, il faut qu’il soit à portée de main) ; et, enfin, des approches heuristiques pour hiérarchiser les changements requis et ordonner la mise en œuvre des actions. Si le programme décide d’une action particulière, il se peut qu’il doive mettre en place un nouveau sous-objectif pour satisfaire les conditions préalables, appelées « prérequis ». Ce processus de formulation d’objectifs peut être répété sans arrêt ni limite. La planification permet au programme et/ou à l’utilisateur humain de découvrir quelles actions ont déjà été entreprises et pourquoi. Le « pourquoi » fait référence à la hiérarchisation des objectifs : cette action a été entreprise pour satisfaire cette condition préalable (prérequise), pour atteindre tel ou tel sous-objectif. Les systèmes d’IA emploient généralement des techniques de couplage avant et de couplage arrière, qui expliquent comment le programme a trouvé sa solution. Cela aide l’utilisateur à juger si l’action/conseils du programme sont appropriés ou non. 38
Avec l’intelligence artificielle générale pour Graal
Certains systèmes de planification actuels disposent de dizaines de milliers de lignes de code, définissant des espaces de recherche hiérarchiques à de nombreux niveaux. Ces systèmes sont souvent très différents de ceux des premiers planificateurs. Par exemple, la plupart ne partent pas du principe que tous les sous-objectifs peuvent être traités indépendamment (c’est-à-dire que les problèmes sont parfaitement sécables). Dans la vie réelle, après tout, le résultat d’une activité orientée vers un objectif peut être annulé par une autre activité. Les planificateurs d’aujourd’hui peuvent traiter des problèmes partiellement sécables : ils travaillent sur des sous-objectifs de manière indépendante, mais peuvent effectuer un traitement supplémentaire pour combiner les sous plans résultants, si nécessaire. Les planificateurs classiques ne pouvaient s’attaquer qu’à des problèmes dans lesquels l’environnement était entièrement observable, déterministe, fini et statique. Mais certains planificateurs modernes peuvent faire face à des environnements partiellement observables (c’est-à-dire que le modèle du monde du système peut être incomplet et/ou inexact) et probabilistes. Dans ces cas, le système doit suivre l’évolution de la situation en cours d’exécution, afin de modifier le plan et/ou ses propres croyances sur le monde, le cas échéant, et certains planificateurs modernes peuvent le faire sur de très longues périodes : ils s’engagent dans la formulation, l’exécution, l’ajustement et l’abandon continus des objectifs, en fonction de l’évolution de l’environnement. De nombreux autres développements ont été ajoutés, et sont encore de nos jours, à la planification classique. Il peut donc sembler surprenant que la planification ait été rejetée par certains roboticiens dans les années 1980, la robotique située étant recommandée comme alternative (cf. chapitre 5). La notion de représentation interne – des objectifs et des actions possibles, par exemple – a également été rejetée. Cependant, cette critique était largement erronée. La robotique a souvent besoin de planification et de réactions purement réactives – pour construire des robots qui jouent au football, par exemple.
39
L’intelligence artificielle
LA SIMPLIFICATION MATHÉMATIQUE
Alors que l’heuristique laisse l’espace de recherche tel qu’il est (ce qui fait que le programme ne se concentre que sur une partie de celui-ci), les hypothèses simplificatrices bâtissent un espace de recherche irréaliste mais qui peut être traité, calculé. Certaines de ces hypothèses sont mathématiques. Un exemple est l’hypothèse « v.i.i.d. 2 », couramment utilisée dans l’apprentissage automatique. Elle représente les probabilités dans les données beaucoup plus simples qu’elles ne le sont en réalité. L’avantage de la simplification mathématique lors de la définition de l’espace de recherche est que des méthodes de recherche mathématiques – c’est-à-dire clairement définissables et, du moins pour les mathématiciens, facilement intelligibles – peuvent être utilisées. Mais cela ne veut pas dire que toute recherche définie mathématiquement sera utile. Comme indiqué précédemment, une méthode mathématiquement garantie pour résoudre tous les problèmes d’une certaine classe peut être inutilisable dans la vie réelle, car il lui faudrait un temps infini pour le faire. Elle peut cependant suggérer des approximations plus pratiques : voir la discussion sur la technique dite du backprop (rétropropagation du gradient) au chapitre 4. Les hypothèses simplificatrices non mathématiques dans le domaine de l’IA sont légion – et souvent inexprimées. L’une d’entre elles est l’hypothèse (tacite) selon laquelle les problèmes peuvent être définis et résolus sans tenir compte des émotions (cf. chapitre 3). De nombreuses autres sont intégrées dans la représentation des connaissances générales utilisée pour spécifier la tâche.
2. Les variables indépendantes et identiquement distribuées (appelées « variables i.i.d ») sont des aléatoires qui obéissent toutes à une même loi de probabilité.
40
Avec l’intelligence artificielle générale pour Graal
LA REPRÉSENTATION DES CONNAISSANCES
Souvent, la partie la plus difficile de la résolution des problèmes d’IA réside dans la première présentation du problème au système. Même s’il semble qu’une personne puisse communiquer directement avec un programme – en parlant en anglais à Siri 3, peut-être, ou en tapant des mots français dans le moteur de recherche de Google® – elle n’y arrive pas. Qu’il s’agisse de textes ou d’images, l’information concernée doit être présentée au système de manière à ce que la machine puisse la comprendre, autrement dit, qu’elle puisse la traiter. La question de savoir s’il s’agit d’une véritable compréhension est abordée au chapitre 6. Les méthodes d’AI pour y parvenir sont très diverses. Certaines sont des développements/variations de méthodes générales de représentation des connaissances intégrées dans la GOFAI. D’autres, de plus en plus, sont des méthodes hautement spécialisées, conçues sur mesure pour une catégorie étroite de problèmes. Il peut y avoir, par exemple, une nouvelle façon de représenter les images radiologiques ou les photographies d’une certaine classe de cellules cancéreuses, soigneusement adaptée pour permettre une méthode d’interprétation médicale très spécifique (donc, totalement inefficace pour reconnaître les chats, ou même les images scannées CAT). Dans la recherche menée par AGI, les méthodes générales sont primordiales. Initialement inspirées par la recherche psychologique sur la cognition humaine, elles comprennent : des ensembles de règles SI-ALORS ; des représentations de concepts individuels ; des séquences d’action stéréotypées ; des réseaux sémantiques ; et l’inférence par la logique ou la probabilité. Examinons chacun de ces éléments à tour de rôle. Une autre forme de représentation des connaissances, à savoir les réseaux de neurones, est décrite au chapitre 4. 3. Siri est une application informatique de commande vocale qui comprend les instructions verbales données par les utilisateurs et répond à leurs requêtes. Siri est qualifiée d’« assistant personnel intelligent ».
41
L’intelligence artificielle
LE « MOTEUR DE RÈGLES »
Dans la programmation dite « Moteur de Règles », un ensemble de connaissances/croyances est représenté par un ensemble de règles SI-ALORS reliant les conditions aux actions : SI telle Condition est satisfaite, ALORS entreprendre cette action. Cette forme de représentation des connaissances s’appuie sur une logique formelle (les systèmes de « production » d’Emil Post). Mais les pionniers de l’IA, Allen Newell et Herbert Simon, allaient jusqu’à avancer qu’elle sous-tendait la psychologie humaine en général. La Condition et l’Action peuvent l’une et l’autre être complexes, spécifiant une conjonction (ou disjonction) de plusieurs – peut-être de plusieurs – éléments. Si plusieurs Conditions sont remplies simultanément, la conjonction la plus inclusive devient prioritaire. Ainsi, « SI l’objectif est de cuire du rosbif et du Yorkshire pudding » aura la priorité sur « SI l’objectif est de cuire du rosbif » – ajoutant « trois légumes » à la Condition – et l’emportera sur ce dernier. Les Moteurs de Règles ne précisent pas l’ordre des étapes à l’avance. Chaque Règle est plutôt en attente d’être mise en œuvre par sa Condition. Néanmoins, de tels systèmes peuvent être utilisés pour la planification. S’ils ne le pouvaient pas, ils seraient d’une utilité limitée pour l’IA. Mais ils le font différemment de ce qui se fait dans la forme de programmation la plus ancienne et la plus familière (parfois appelée « contrôle exécutif »). Dans les programmes sous contrôle exécutif, la planification est représentée de manière explicite. Le programmeur spécifie une séquence d’instructions de recherche d’objectifs à suivre pas à pas, dans un ordre temporel strict : « Faire ceci », puis « faire cela », puis « vérifier si X est vrai », si tel est le cas, « faire telle ou telle chose » ; dans le cas contraire, « faire telle ou telle autre chose ». Parfois, le « ceci » ou le « tel » est une instruction explicite pour fixer un objectif ou un sous-objectif. Par exemple, un robot ayant pour objectif de quitter la pièce peut recevoir l’instruction de fixer un sous-objectif, à savoir ouvrir la porte ; ensuite, si l’examen de l’état actuel de la porte 42
Avec l’intelligence artificielle générale pour Graal
montre qu’elle est fermée, mettre en place le sous-objectif consistant à saisir la poignée de la porte. (Un enfant en bas âge peut avoir besoin d’un sous-sous-objectif, à savoir faire en sorte qu’un adulte saisisse la poignée de porte à sa place ; et le nourrisson peut avoir besoin de plusieurs objectifs à des niveaux encore plus bas pour y parvenir.) Un Moteur de Règles pourrait également permettre de trouver comment s’échapper de la pièce. Toutefois, la hiérarchie du plan serait représentée non pas comme une séquence ordonnée dans le temps d’étapes explicites, mais comme la structure logique implicite dans la collection de règles SI-ALORS qui composent le système. Une Condition peut exiger que tel ou tel objectif ait déjà été fixé (SI vous vouliez ouvrir la porte et que vous n’êtes pas assez grand). De même, une Action peut inclure la mise en place d’un nouvel objectif ou sous-objectif (demandez ALORS à un adulte). Les niveaux inférieurs seront activés automatiquement (SI vous voulez demander à quelqu’un de faire quelque chose, ALORS fixez l’objectif de vous rapprocher de lui). Bien entendu, le programmeur doit avoir inclus les Règles pertinentes SI-ALORS (dans notre exemple, les règles concernant les portes et les poignées de porte). Mais il n’a pas besoin d’avoir anticipé toutes les implications logiques potentielles de ces règles. C’est une malédiction, en même temps qu’une bénédiction, car les incohérences potentielles peuvent rester non découvertes pendant un certain temps. Les objectifs/sous-objectifs actifs sont affichés sur un « tableau noir » central, accessible à l’ensemble du système. Les informations affichées sur le tableau noir comprennent non seulement les objectifs activés, mais aussi les données perceptives et d’autres aspects du traitement en cours. Cette idée a influencé une théorie neuropsychologique de la conscience de premier plan, et un modèle d’IA de la conscience basé sur celle-ci (cf. chapitre 6). Les Moteurs de Règles ont été largement utilisés pour les « systèmes experts » pionniers du début des années 1970. Parmi ceux-ci, citons MYCIN, qui conseillait aux médecins humains quant à l’identification de certaines maladies infectieuses et la prescription de médicaments 43
L’intelligence artificielle
antibiotiques, et DENDRAL, qui effectuait l’analyse spectrale de molécules dans un domaine spécifique de la chimie organique. MYCIN, par exemple, a fait un diagnostic médical en faisant correspondre les symptômes et les propriétés corporelles de base (Conditions) aux conclusions diagnostiques et/ou aux suggestions de tests ou de médicaments supplémentaires (Actions). De tels programmes sont le premier pas d’une IA qui s’éloigne de l’espoir du généralisme pour se tourner vers la pratique de la spécialisation. Et ils représentent le premier pas vers le rêve d’Ada Lovelace, celui d’une science créée par des machines (cf. chapitre 1). La forme de représentation des connaissances basée sur des règles permet de construire des programmes progressivement, à mesure que le programmeur – ou peut-être un système AGI lui-même – en apprend davantage sur le domaine. Une nouvelle Règle peut être ajoutée à tout moment. Il n’est pas nécessaire de réécrire le programme à partir de zéro. Mais il y a un hic. Si la nouvelle Règle n’est pas logiquement cohérente avec les Règles existantes, le système ne fera pas toujours ce qu’il est censé faire. Il se peut qu’il ne s’approche même pas de ce qu’il est censé faire. Lorsqu’il s’agit d’un petit ensemble de Règles, de tels conflits logiques sont facilement évités, mais des systèmes plus importants s’avèrent moins transparents. Dans les années 1970, les nouvelles Règles SI-ALORS ont été tirées de conversations continues avec des experts humains, à qui l’on demandait d’expliquer leurs décisions. Aujourd’hui, de nombreuses Règles ne sont pas le fruit d’une introspection consciente. Mais elles sont encore plus efficaces. Les « systèmes experts » modernes (terme rarement utilisé aujourd’hui) vont des énormes programmes utilisés dans la recherche scientifique et le commerce aux humbles applications sur nos téléphones mobiles. Beaucoup surpassent leurs prédécesseurs parce qu’ils bénéficient de formes supplémentaires de représentation des connaissances, telles que les statistiques et la reconnaissance visuelle à des fins spécifiques, et/ou l’utilisation de Big Data (cf. chapitre 4). Ces programmes peuvent aider, voire remplacer, les experts humains dans des domaines étroitement limités. Il existe aujourd’hui 44
Avec l’intelligence artificielle générale pour Graal
d ’innombrables exemples de programmes utilisés pour aider les professionnels des sciences, de la médecine, du droit… et même du design vestimentaire. Ce qui n’est pas exactement ce qu’on peut appeler une bonne nouvelle, voir le chapitre 7. CADRES, VECTEURS DE MOTS, SCRIPTS, RÉSEAUX SÉMANTIQUES
D’autres méthodes de représentation des connaissances couramment utilisées concernent des concepts individuels, et non des domaines entiers (comme le diagnostic médical ou la conception de vêtements). On peut, par exemple, dire à un ordinateur ce qu’est une pièce en spécifiant une structure de données hiérarchique (parfois appelée « cadre »). Cette structure représente une pièce comme ayant un plancher, un plafond, des murs, des portes, des fenêtres et des meubles (lit, bain, table à manger, etc.). Les pièces réelles ont un nombre variable de murs, de portes et de fenêtres, de sorte que des « créneaux » dans le cadre permettent de remplir des numéros spécifiques et fournissent également des affectations par défaut (quatre murs, une porte, une fenêtre). Ces structures de données peuvent être utilisées par l’ordinateur pour déceler des analogies, répondre à des questions, engager une conversation, ou écrire ou comprendre une histoire. Et elles sont à la base de CYC 4 : une tentative ambitieuse – certains diraient même beaucoup trop ambitieuse – pour représenter l’ensemble du savoir humain. Les « cadres » peuvent cependant être trompeurs. Les affectations par défaut, par exemple, sont problématiques. Certaines pièces n’ont pas de fenêtre, et les pièces dites open space n’ont pas de porte. Pire encore : qu’en est-il des concepts quotidiens tels que « tomber » ou « renverser » ? L’IA symbolique représente notre connaissance de la « physique naïve »
4. Le Cyc© est un projet en IA qui date de 1984, qui cherche à développer une ontologie globale et une base de connaissances générale (KB, pour Knowledge Base).
45
L’intelligence artificielle
en construisant des cadres codant des faits tels que celui où un objet physique tombera s’il n’est pas soutenu. Mais pas un ballon d’hélium. Permettre explicitement de tels cas est une tâche sans fin. Dans certaines applications utilisant des techniques récentes de traitement des données Big Data (de très, très grands volumes de mégadonnées), un concept unique peut être représenté comme un cluster, groupe, ou « nuage » [cloud] composé de centaines ou de milliers de concepts parfois associés, les probabilités des nombreuses associations appariées étant distinguées, voir le chapitre 3. De même, les concepts peuvent désormais être représentés par des « vecteurs de mots » plutôt que par des mots. Ici, on découvre les facteurs sémantiques qui se connectent, de nombreux concepts différents sont découverts par le système (d’apprentissage approfondi) et utilisés pour prédire la traduction automatique des mots suivants, par exemple. Cependant, ces représentations ne sont pas encore aussi faciles à utiliser dans le raisonnement ou la conversation que les cadres classiques. Certaines structures de données (appelées « scripts ») désignent des séquences d’actions familières. Par exemple, le rituel de mettre un enfant au lit implique souvent de le border, de lui lire une histoire, de lui chanter une berceuse et d’allumer la veilleuse. Ces structures de données peuvent être utilisées pour répondre à des questions et aussi pour suggérer des questions. Si une mère omet d’allumer la veilleuse, des questions peuvent se poser sur le « Pourquoi ? » et sur « Qu’est-ce qui s’est passé ensuite ? » En d’autres termes, c’est là que se trouve le germe d’une autre histoire. En conséquence, cette forme de représentation de la connaissance est utilisée pour l’écriture automatique d’une histoire et serait nécessaire pour les ordinateurs « compagnons » capables d’engager une conversation humaine normale voir le chapitre 3). Une forme alternative de représentation des connaissances pour les concepts est celle des réseaux sémantiques (ce sont les réseaux locaux, cf. chapitre 4). Plusieurs exemples, lancés par Ross Quillian dans les années 1960 en tant que modèles de mémoire associative humaine, étendus (par exemple WordNet) sont aujourd’hui disponibles en tant 46
Avec l’intelligence artificielle générale pour Graal
que ressources de données publiques. Un réseau sémantique relie des concepts par des relations sémantiques telles que synonymie, antonymie, subordination, super-ordination, partie/entier – et souvent aussi par des liens associatifs assimilant la connaissance du monde factuel à la sémantique (voir le chapitre 3). Le réseau peut représenter aussi bien des mots que des concepts, en ajoutant des liens codant pour les syllabes, les lettres initiales, phonétique et les homonymes. Un tel réseau est utilisé par JAPE de Kim Binsted et STAND UP de Graeme Ritchie, qui génèrent des blagues (de neuf types différents) basées sur des jeux de mots, des allitérations et des changements de syllabes. Un bémol cependant s’impose. Les réseaux sémantiques ne sont pas la même chose que les réseaux de neurones. Comme nous le verrons au chapitre 4, les réseaux de neurones distribués représentent la connaissance d’une manière très différente. Là, les concepts individuels sont représentés non pas par un seul nœud dans un réseau associatif soigneusement défini, mais par le modèle d’activité qui se modifie à travers le réseau entier. De tels systèmes peuvent tolérer des preuves contradictoires, et ne sont donc pas gênés outre mesure par les problèmes de maintien de la cohérence logique (qui seront décrits dans la section suivante). Mais ils ne peuvent pas faire d’inférence précise. Néanmoins, ils constituent un type de représentation des connaissances suffisamment important (et une base suffisamment importante pour des applications pratiques) pour mériter un chapitre séparé. LA LOGIQUE ET LE RÉSEAU-« TOILE » SÉMANTIQUE
Si le but ultime qu’on se donne est d’atteindre une AGI, la logique semble très appropriée comme représentation des connaissances. Car la logique y est généralement applicable. En principe, la même représentation (le même symbolisme logique) peut être utilisée pour la vision, l’apprentissage, le langage, etc., et pour toute intégration de ceux-ci. De plus, elle fournit des méthodes puissantes de théorème prouvant la manipulation de l’information.
47
L’intelligence artificielle
C’est pourquoi le mode préféré de représentation des connaissances dans les débuts de l’IA était le « calcul des prédicats » (ou calcul de premier ordre). Cette forme de logique a davantage de pouvoir de représentation que la logique propositionnelle, car elle peut « pénétrer » dans les phrases pour en exprimer le sens. Prenons, par exemple, la phrase « Ce magasin a un chapeau qui convient à tout le monde ». Le calcul des prédicats peut clairement distinguer ces trois significations possibles : « Pour chaque individu humain, il existe dans cette boutique un chapeau qui lui convient » ; « Il existe dans cette boutique un chapeau dont la taille peut être modifiée de manière à convenir à tout être humain » ; et « Dans cette boutique, il existe un chapeau [probablement replié !], suffisamment grand pour convenir à tous les êtres humains simultanément ». Pour de nombreux chercheurs en IA, la logique des prédicats reste l’approche privilégiée. Les cadres du CYC, par exemple, sont basés sur la logique des prédicats. Il en va de même pour les représentations du traitement du langage naturel (TLN) en sémantique compositionnelle (voir le chapitre 3). Parfois, la logique des prédicats est étendue de manière à représenter le temps, la cause ou le devoir/et/ou/moralité. Bien sûr, cela dépend de la personne qui a développé ces formes de logique modale – ce qui n’est pas facile. Cependant, la logique a aussi des inconvénients. L’un précisément concerne l’explosion combinatoire. La méthode de « résolution » largement utilisée par l’IA pour prouver un théorème logique peut s’enliser dans la formulation de conclusions vraies mais non pertinentes. Les heuristiques existent pour guider et restreindre les conclusions et pour décider quand abandonner (ce que l’Apprenti Sorcier 5 ne pouvait pas faire). Mais elles ne sont pas infaillibles. 5. En allemand, Der Zauberlehrling. Il s’agit d’un poème populaire de Johann Wolfgang von Goethe, écrit en 1797. Un jeune apprenti sorcier fainéant tente d’animer un balai pour faire son travail pour lui : remplir une bassine d’eau en prenant des seaux et en les vidant, tout en parcourant un trajet, tâche que le maître, parti faire une course, lui a assignée. Le balai s’arrête sur le moment mais se divise en deux balais et ainsi de suite. L’apprenti doit faire face à des centaines de balais. L’eau déborde et inonde la demeure du maître qui devient une piscine géante.
48
Avec l’intelligence artificielle générale pour Graal
Un autre inconvénient est que le théorème de résolution prouvant que non-non-X implique X. Si le domaine sur lequel on raisonne est complètement compris, c’est logiquement correct. Mais les utilisateurs de programmes (tels que de nombreux systèmes experts) avec résolution intégrée supposent souvent que l’impossibilité de trouver une contradiction implique qu’il n’y a pas de contradiction – c’est ce qu’on appelle la « négation par échec ». En règle générale, il s’agit d’une erreur. Dans la vie réelle, il y a une grande différence entre prouver qu’une chose est fausse et ne pas prouver qu’elle est vraie (pensez à cette question : votre partenaire vous trompe-t-il (elle) ? Un troisième inconvénient est que dans la logique classique (« monotone »), une fois que l’on a prouvé que quelque chose est vrai, elle reste vraie. Dans la pratique, ce n’est pas toujours le cas. On peut accepter X pour de bonnes raisons (peut-être s’agissait-il d’une mission par défaut, ou même d’une conclusion tirée d’une argumentation soignée et/ou de preuves solides), mais il peut s’avérer plus tard que X n’est plus vrai – ou ne l’était pas, tout au moins, au départ. Dans ce cas, il faut revoir ses convictions en conséquence. Dans le cas d’une représentation logique des connaissances, c’est plus facile à dire qu’à faire. De nombreux chercheurs, inspirés par McCarthy, ont essayé de développer des logiques « non monotones » qui peuvent tolérer des valeurs de vérité changeantes. De même, des personnes ont défini diverses logiques « floues » [fuzzy logic], dans lesquelles une déclaration peut être qualifiée de probable/ improbable ou d’inconnue, plutôt que vrai/faux. Malgré cela, aucune défense fiable contre la monotonie n’a été trouvée. Les chercheurs en IA qui développent la représentation logique des connaissances recherchent de plus en plus les « atomes ultimes » de la connaissance, ou la signification, en général. Ils ne sont pas les premiers : McCarthy et Hayes l’ont fait dans « Some Philosophical Problems from an AI Standpoint ». Ce premier article abordait de nombreuses énigmes familières, allant du libre arbitre aux données contrefactuelles. Il s’agissait notamment de questions sur l’ontologie de base de l’Univers : états, événements, propriétés, changements, actions. … le « quoi » des choses. 49
L’intelligence artificielle
À moins d’être un métaphysicien dans l’âme (une passion humaine plutôt rare), pourquoi s’en préoccuper ? Et pourquoi ces questions obscures devraient-elles être « de plus en plus » approfondies aujourd’hui ? D’une manière générale, la réponse est qu’essayer de concevoir l’AGI soulève des questions sur les ontologies que la représentation des connaissances peut utiliser. Ces questions se posent également pour la conception de la toile sémantique. La toile sémantique n’est pas la même chose que le World Wide Web [WWW] – que nous avons depuis les années 1990. En effet, la toile sémantique n’est même pas à la pointe de la technologie : il est à la pointe de l’avenir. Si (et quand) il existe, la recherche associative pilotée par la machine sera améliorée et complétée par la compréhension de la machine. Cela permettra aux applications et aux navigateurs d’accéder à l’information de n’importe où sur l’Internet et d’intégrer différents éléments de manière sensée dans le raisonnement des questions. C’est un défi de taille. En plus de nécessiter d’énormes progrès techniques en matière de matériel et d’infrastructure de communication, ce projet ambitieux (dirigé par Sir Tim Berners-Lee) doit permettre aux programmes d’itinérance sur la toile de mieux comprendre ce qu’ils font. Les moteurs de recherche comme Google, et les programmes de TLN en général, peuvent trouver des associations entre des mots et/ou des textes, mais il n’y a pas de compréhension à ce niveau. Ici, il ne s’agit pas d’un point philosophique (pour cela, voir le chapitre 6), mais d’un point empirique et d’un obstacle supplémentaire à la réalisation de l’AGI. Malgré quelques exemples trompeurs et décevants, tels que WATSON, Siri et la traduction automatique (tous abordés au chapitre 3) – les ordinateurs actuels ne saisissent pas le sens de ce qu’ils « lisent » ou « disent ». LA VISION PAR ORDINATEUR
Les ordinateurs d’aujourd’hui ne comprennent pas non plus les images visuelles de la même manière que les humains. (Là encore, il s’agit d’un point empirique, la question de savoir si les AGI pourraient avoir une phénoménologie visuelle consciente sera examinée au chapitre 6). 50
Avec l’intelligence artificielle générale pour Graal
Depuis 1980, les différentes représentations des connaissances utilisées pour la vision avec IA se sont fortement inspirées de la psychologie, en particulier des théories de David Marr et de James Gibson. Cependant, malgré ces influences psychologiques, les programmes visuels actuels sont très limités. Certes, la vision par ordinateur a réalisé des prouesses remarquables : la reconnaissance faciale avec 98 % de succès, par exemple. Ou la lecture automatique de l’écriture cursive. Ou en remarquant une personne au comportement suspect (qui s’arrête à proximité des portes d’une voiture) dans les parkings. Ou encore identifier certaines cellules malades, mieux que ne le font les médecins. Face à de telles réussites, l’esprit est fortement tenté de faire « chapeau bas ». Mais les programmes (dont beaucoup sont des réseaux de neurones, voir le chapitre 4) doivent habituellement savoir exactement ce qu’ils recherchent : par exemple, un visage non inversé, qui n’est pas de profil, n’est pas partiellement caché derrière quelque chose d’autre et (pour 98 % de réussite) éclairé d’une manière particulière. Le mot « habituellement » est important. En 2012, le laboratoire de recherche de Google a intégré 1 000 gros ordinateurs (chacun à seize processeurs) pour former un énorme réseau de neurones, avec plus d’un milliard de connexions. Doté d’un apprentissage approfondi, il s’est vu présenter dix millions d’images aléatoires tirées de vidéos YouTube®. On ne lui a pas dit quoi chercher, et les images n’étaient pas étiquetées. Néanmoins, au bout de trois jours, une unité (un neurone artificiel) avait appris à réagir aux images du visage d’un chat, et une autre aux visages humains. Impressionnant, non ? Eh bien, oui. Intriguant aussi : les chercheurs se sont rapidement souvenus de l’idée des « cellules grands-mères » que nous abriterions dans notre cerveau. Depuis les années 1920, les neuroscientifiques ne s’entendent pas sur leur existence ou non. Dire qu’elles existent c’est annoncer qu’il y a des cellules dans le cerveau (soit des neurones isolés, soit de petits groupes de neurones) qui deviennent actives quand, et seulement quand, une grand-mère, ou une autre caractéristique spécifique, est perçue. Apparemment, quelque chose 51
L’intelligence artificielle
d’analogue se passe dans le réseau de reconnaissance des chats de Google. Et bien que les visages des chats dussent être pleins et à la bonne hauteur, ils pouvaient varier en taille, ou apparaître dans différentes positions dans le réseau (200 × 200 neurones). Une autre étude, qui a entraîné le système sur des images soigneusement présélectionnées (mais non étiquetées) de visages humains, y compris certains de profil, a abouti à une unité qui pouvait parfois – mais seulement parfois – discriminer les visages détournés du spectateur. Il existe aujourd’hui de nombreuses autres réalisations de ce type, encore plus impressionnantes. Les réseaux multicouches ont déjà fait d’énormes progrès dans la reconnaissance des visages et peuvent parfois trouver la partie la plus saillante d’une image et générer une légende verbale (par exemple « personnes faisant leurs courses dans un marché en plein air ») pour la décrire. Le défi de reconnaissance visuelle à grande échelle récemment lancé augmente chaque année le nombre de catégories visuelles pouvant être reconnues et réduit les contraintes imposées aux images concernées (par exemple, le nombre et l’occultation plus ou moins complète des objets). Toutefois, ces systèmes d’apprentissage en profondeur partageront toujours certaines des faiblesses de leurs prédécesseurs. Par exemple, ils n’auront aucune compréhension de l’espace en 3D, aucune connaissance de ce qu’est un profil ou une occlusion, comme c’était le cas pour la reconnaissance du visage du chat. Même les programmes de vision conçus pour les robots ne donnent qu’un aperçu de ces questions posées. Les robots du Mars Rover, tels qu’Opportunity et Curiosity (qui ont atterri sur Mars respectivement en 2004 et 2012), se servent d’astuces spéciales de représentation des connaissances : des analyses heuristiques adaptées aux problèmes 3D auxquels ils sont censés faire face. Dans le cas général, ils ne peuvent pas faire de recherche de trajectoire ou de manipulation d’objets. Certains robots simulent une vision animée, dans laquelle les mouvements du corps fournissent des informations utiles (parce qu’ils modifient systématiquement les données à l’entrée visuelle). 52
Avec l’intelligence artificielle générale pour Graal
Mais même eux ne peuvent pas remarquer un cheminement possible, ou reconnaître que cette chose peu familière pourrait être saisie par leur main de robot alors que cela ne peut pas se faire. Au moment de la publication de ce livre, il pourrait y avoir quelques exceptions. Mais elles aussi auront des limites. Par exemple, ils ne comprendront pas « je ne peux pas ramasser ça », parce qu’ils ne comprendront pas « peux » et « ne peux pas ». C’est parce que la non monotonique requise ne sera probablement pas encore disponible pour la représentation de leurs connaissances. Parfois, la vision peut ignorer l’espace en 3D, par exemple lorsqu’il s’agit de lire une écriture manuscrite. Mais même la vision informatique en 2D est limitée. Malgré des efforts de recherche considérables sur les représentations analogiques, ou iconiques, l’IA ne peut pas utiliser de manière fiable les diagrammes pour résoudre des problèmes, comme nous le faisons pour le raisonnement géométrique ou pour esquisser des relations abstraites au dos d’une enveloppe. (De même, les psychologues ne comprennent pas encore comment nous faisons ces choses). Pour résumer, la plupart des réalisations visuelles humaines dépassent l’IA d’aujourd’hui. Souvent, les chercheurs en IA ne savent pas très bien quelles questions poser. Par exemple, pensez à la tâche qui consiste à plier correctement une robe en satin qui glisse partout. Aucun robot ne peut le faire (bien que l’on puisse apprendre à certains, étape par étape, comment plier une serviette-éponge rectangulaire). Ou pensez à la tâche d’enfiler un T-shirt : la tête doit entrer en premier, et pas par une manche – mais pourquoi ? De tels problèmes topologiques ne sont guère présents dans l’IA. Rien de tout cela n’implique que la vision par ordinateur à l’échelle humaine soit impossible. Mais il est beaucoup plus difficile d’y parvenir que la plupart des gens ne le croient. Il s’agit donc d’un cas particulier du fait mentionné au chapitre 1 : l’IA nous a appris que l’esprit humain est beaucoup plus riche et plus subtil que les psychologues ne l’imaginaient auparavant. C’est d’ailleurs la principale leçon à tirer de l’IA. 53
L’intelligence artificielle
LE PROBLÈME DES CADRES
Il est difficile de trouver une représentation appropriée des connaissances, dans quelque domaine que ce soit, en partie parce qu’il faut éviter ce qu’on appelle le problème des cadres. (Attention : bien que ce problème se pose lorsque l’on utilise des cadres comme représentation de la connaissance pour des concepts, les significations du terme « cadres » [frame] sont ici différentes). Tel que défini à l’origine par McCarthy et Hayes, ce « problème des cadres » implique de supposer (lors de la planification par les robots) qu’une action ne provoquera que ces changements, alors qu’elle peut logiquement provoquer les autres aussi. Plus généralement, le problème des cadres se pose lorsque les implications tacitement supposées par les penseurs humains sont ignorées par l’ordinateur parce qu’elles n’ont pas été rendues explicites. Un cas classique est le problème dit du singe et de la banane, dans lequel le « résolveur de problèmes » (peut-être un planificateur d’IA pour un robot) suppose que rien de pertinent n’existe en dehors du cadre (voir Fig. 1). Mon exemple préféré est le suivant : si un homme de 20 ans peut cueillir 10 livres de mûres en une heure, et une femme de 18 ans 8 livres, combien en recueilleront-ils s’ils vont cueillir des mûres ensemble ? Il est certain que « 18 » n’est pas une réponse plausible. Cela pourrait être beaucoup plus (parce que l’un ou l’autre va vouloir en cueillir plus ou, plus probablement, beaucoup moins. Quels sont les types de connaissances concernés ? Et une AGI pourrait-elle surmonter ce qui semble être des faits arithmétiques évidents ? Le problème du cadre se pose en fait parce que les programmes d’IA n’ont pas le sens inné de la pertinence humaine (cf. chapitre 3). Il peut être évité si toutes les conséquences possibles de chaque action sont connues. Dans certains domaines techniques/scientifiques, c’est le cas. En général, cependant, ce n’est pas le cas. C’est l’une des principales raisons pour lesquelles les systèmes d’IA manquent de bon sens. 54
Avec l’intelligence artificielle générale pour Graal
Boîte
Fig. 1 Le problème du singe et des bananes : comment le singe attraperat-il les bananes ? (L’approche habituelle de ce problème suppose, sans l’énoncer explicitement, que le « monde » pertinent est celui représenté à l’intérieur du cadre en pointillé. En d’autres termes, il n’existe rien en dehors de ce cadre qui provoque des changements significatifs dans celui-ci en déplaçant la boîte.)
En un mot, le problème du cadre est omniprésent et constitue un obstacle majeur aux recherches menées en AGI. LES AGENTS ET LA COGNITION DISTRIBUÉE
Un agent d’IA est une procédure autonome, comparable tantôt à un réflexe d’instinct, tantôt à un mini-esprit. Les applications sur les Smartphones® ou les correcteurs d’orthographe peuvent être appelés des agents, mais ne le sont généralement pas, car ces derniers coopèrent le plus souvent. Ils utilisent leur intelligence très limitée en coopération avec d’autres – ou en tout cas, à côté d’autres agents – pour obtenir des
55
L’intelligence artificielle
résultats qu’ils ne pourraient pas obtenir seuls. L’interaction entre agents est aussi importante que les individus eux-mêmes. Certains systèmes d’agents sont organisés selon, et par, un contrôle hiérarchique : les « meilleurs » et les « moins bons », pour ainsi dire. Mais beaucoup d’entre eux sont des exemples de cognition distribuée. Celle-ci implique une coopération sans structure de commandement hiérarchique (d’où la tergiversation, plus haut, entre « en coopération avec » et « à côté »). Il n’y a pas de plan central, pas d’influence du haut vers le bas, et aucun individu ne possède toutes les connaissances pertinentes. Parmi les exemples naturels de cognition distribuée, on peut citer les pistes de fourmis, la navigation de bateaux et les esprits humains. Les traces de fourmis sont le résultat du comportement de nombreuses fourmis individuelles, qui déposent (et suivent) « automatiquement » les produits chimiques (phéromones) pendant qu’elles avancent. De même, la navigation et la manœuvre des navires résultent de l’imbrication des activités de nombreuses personnes : même le capitaine ne possède pas toutes les connaissances nécessaires, et certains membres d’équipage n’en ont même pas beaucoup. Même un seul esprit implique une cognition distribuée, car il intègre de nombreux sous-systèmes cognitifs, motivationnels et émotionnels (cf. chapitres 4 et 6). Parmi les exemples artificiels, citons les réseaux de neurones (cf. chapitre 4), le modèle informatique de navigation des navires élaboré par un anthropologue et les travaux de A-life sur la robotique située, l’intelligence et la robotique inhérentes au vol en essaim (cf. chapitre 5), les modèles d’IA symbolique des marchés financiers (les agents étant les banques, les fonds spéculatifs et les grands actionnaires) et le modèle de conscience LIDA (cf. chapitre 6). Il est clair que l’IAG au niveau humain impliquerait une cognition distribuée.
56
Avec l’intelligence artificielle générale pour Graal
L’APPRENTISSAGE AUTOMATIQUE
L’AGI au niveau humain inclut également l’apprentissage machine (ou automatique). Cependant, cela ne doit pas être nécessairement humain. Ce domaine est issu des travaux de psychologues sur les processus d’apprentissage et de renforcement. Cependant, il dépend maintenant de techniques mathématiques redoutables, car les représentations des connaissances utilisées font appel à la théorie des probabilités et aux statistiques. On pourrait dire que la psychologie a été laissée loin derrière. Il est certain que certains systèmes modernes d’apprentissage automatique ne ressemblent guère, voire pas du tout, à ce qui pourrait se passer vraisemblablement dans des têtes humaines. Cependant, l’utilisation croissante de la probabilité bayésienne dans ce domaine de l’IA est parallèle aux théories récentes de la psychologie cognitive et des neurosciences. L’apprentissage automatique moderne est extrêmement lucratif. Il est utilisé pour l’extraction de données (data mining) et – dans la mesure où les superordinateurs sont désormais capables d’effectuer un million de milliards de calculs par seconde – pour le traitement de données volumineuses [appelées aussi mégadonnées ou Big Data] (cf. chapitre 3). Certains apprentissages automatiques utilisent des réseaux de neurones. Mais il repose en grande partie sur l’IA symbolique, complétée par de puissants algorithmes statistiques. En fait, les statistiques font vraiment le travail, le GOFAI ne faisant que guider le travailleur vers son lieu de travail. En conséquence, certains professionnels considèrent l’apprentissage-machine comme de l’informatique et/ou des statistiques, et non comme de l’IA. Cependant, il n’y a pas de frontière très nette ici. L’apprentissage-machine se répartit en trois grands types : l’apprentissage supervisé, non supervisé et l’apprentissage par renforcement. Les distinctions proviennent de la psychologie, et différents mécanismes neurophysiologiques peuvent être impliqués ; l’apprentissage par renforcement, d’une espèce à l’autre, implique la dopamine 6. 6. La dopamine est une des nombreuses substances chimiques qui sert de neurotransmetteur dans le cerveau.
57
L’intelligence artificielle
Dans l’apprentissage supervisé, le programmeur « forme » le système en définissant un ensemble de résultats souhaités pour une série de données entrantes (exemples étiquetés et non-exemples), et en fournissant un retour d’information continu pour savoir s’il les a atteints. Le système d’apprentissage génère des hypothèses sur les caractéristiques pertinentes. Chaque fois qu’il effectue un classement incorrect, il modifie son hypothèse en conséquence. Des messages d’erreur spécifiques sont essentiels (et pas seulement un retour d’information indiquant qu’il s’est trompé). Dans l’apprentissage non supervisé, l’utilisateur ne fournit aucun résultat souhaité ni aucun message d’erreur. L’apprentissage est guidé par le principe selon lequel les caractéristiques concomitantes engendrent l’attente qu’elles se reproduiront à l’avenir. L’apprentissage non supervisé peut être utilisé pour découvrir de nouvelles connaissances. Les programmeurs n’ont pas besoin de savoir quels modèles/clusters existent dans les données ; le système les trouvera tout seul. Enfin, l’apprentissage par renforcement est motivé par des analogies de récompense et de punition : des messages de retour d’information indiquant au système que ce qu’il vient de faire est « bien » ou « pas bien ». Souvent, le renforcement n’est pas simplement binaire, mais représenté par des nombres, comme les scores dans un jeu vidéo. « Ce qu’il vient de faire » peut refléter une décision unique (comme un coup dans un jeu) ou une série de décisions (par exemple, des coups dans le jeu d’échecs qui aboutissent normalement à un « échec et mat » et la fin de la partie). Dans certains jeux vidéo, le score numérique est mis à jour à chaque coup. Dans des situations très complexes, comme aux échecs, le succès (ou « l’échec ») n’est signalé qu’après de nombreuses décisions, et une certaine procédure d’attribution de crédits permet d’identifier les décisions les plus susceptibles de mener au succès. L’apprentissage-machine symbolique suppose en général – mais ce n’est pas nécessairement vrai – que la représentation des connaissances pour l’apprentissage implique une certaine forme de distribution de probabilité. Et de nombreux algorithmes d’apprentissage supposent – ce qui 58
Avec l’intelligence artificielle générale pour Graal
est généralement faux – que chaque variable des données a la même distribution de probabilité, et que toutes sont indépendantes les unes des autres. C’est parce que cette hypothèse de VIID (variables indépendantes, distribuées de manière identique) sous-tend de nombreuses théories mathématiques de la probabilité, sur lesquelles les algorithmes sont basés. Les mathématiciens ont adopté l’hypothèse des VIID parce qu’elle rend les mathématiques plus simples. De même, l’utilisation des VIID en IA simplifie l’espace de recherche, ce qui facilite la résolution des problèmes. Les statistiques bayésiennes, cependant, traitent des probabilités conditionnelles, où les éléments/événements ne sont pas indépendants. Ici, la probabilité dépend de la preuve de la distribution du domaine. En plus d’être plus réaliste, cette forme de représentation des connaissances permet de modifier les probabilités si de nouvelles preuves sont apportées. Les techniques bayésiennes occupent une place de plus en plus importante dans l’IA, ainsi qu’en psychologie et en neurosciences. Les théories du « cerveau bayésien » (cf. chapitre 4) tirent parti de l’utilisation de preuves non VIID pour conduire et pour affiner l’apprentissage non supervisé en matière de perception et de contrôle moteur. Compte tenu des diverses théories de la probabilité, il existe de nombreux algorithmes différents qui conviennent à des types d’apprentissage distincts et à des ensembles de données différents. Par exemple, les Machines à Vecteurs de Support – qui acceptent l’hypothèse VIID – sont largement utilisées pour l’apprentissage supervisé, en particulier si l’utilisateur n’a pas de connaissances préalables spécialisées dans le domaine. Les algorithmes du « sac de mots » sont utiles lorsque l’ordre des caractéristiques peut être ignoré (comme dans la recherche de mots mais pas de phrases) et si l’hypothèse de l’identification est abandonnée, les techniques bayésiennes (« Machines de Helmholtz ») peuvent apprendre à partir de preuves de distribution. La plupart des professionnels de l’apprentissage-machine utilisent des méthodes statistiques standardisées. Les auteurs de ces méthodes sont très appréciés par l’industrie. Facebook® a récemment employé le 59
L’intelligence artificielle
créateur de Support Vector Machines, et en 2013/14 Google a recruté plusieurs chercheurs de premier plan sur les questions de l’apprentissage profond. L’apprentissage profond est une nouvelle avancée prometteuse basée sur les réseaux multicouches (cf. chapitre 4), par laquelle les modèles des données d’entrée sont reconnus à différents niveaux hiérarchiques. En d’autres termes, le deep learning permet de découvrir une représentation des connaissances à plusieurs niveaux – par exemple, des pixels aux détecteurs de contraste, aux détecteurs de frontières, aux détecteurs de forme, aux parties d’objets, aux objets eux-mêmes. Un exemple est le détecteur de visage de chat qui a émergé des recherches de Google sur YouTube®. Un autre, signalé dans la revue Nature en 2015, est un apprenant de renforcement (l’algorithme DQN 7) qui a appris à jouer aux jeux classiques Atari 2600 en 2D. Bien qu’il ne reçoive que des pixels et des scores de jeu en entrée (et qu’il ne connaisse déjà que le nombre d’actions disponibles pour chaque jeu), il bât 75 % des humains sur vingt-neuf des quarante-neuf parties, et surpasse les testeurs professionnels de jeux sur vingt-deux parties. Il reste à déterminer dans quelle mesure cette performance peut être étendue. Bien que le protocole DQN trouve parfois la stratégie optimale, impliquant des actions ordonnées dans le temps, il ne peut pas maîtriser les jeux dont la planification s’étend sur une période plus longue. Les neurosciences à venir pourraient suggérer des améliorations de ce système. La version actuelle s’inspire des récepteurs de vision Hubel-Wiesel, des cellules du cortex visuel qui ne réagissent qu’aux mouvements, ou seulement aux lignes d’une orientation particulière. Ce n’est pas une grande affaire : les récepteurs Hubel-Wiesel ont également inspiré le programme Pandemonium, cf. le chapitre 1). Mais plus inhabituellement, cette version de DQN est également inspirée par la 7. Deep Q-Networks ou DQN est le premier algorithme capable de surmonter les problèmes identifiés précédemment. Cet algorithme introduit dans l’algorithme Q-learning le principe de rejouer des expériences.
60
Avec l’intelligence artificielle générale pour Graal
« relecture d’expérience » qui se produit dans l’hippocampe pendant le sommeil. Comme l’hippocampe, le système DQN stocke un ensemble d’échantillons ou d’expériences passées, et les réactive rapidement pendant l’apprentissage. Cette caractéristique est cruciale : les concepteurs ont signalé une « grave détérioration » des performances lorsqu’elle a été désactivée. LES SYSTÈMES GÉNÉRALISTES
Le joueur d’Atari a suscité l’enthousiasme – et a bien mérité une publication dans Nature – en partie parce qu’il semblait représenter un pas en direction de l’AGI. Un seul algorithme, n’utilisant aucune représentation artisanale des connaissances, a permis d’acquérir un large éventail de compétences sur une variété de tâches impliquant une entrée sensorielle relativement élevée. Aucun programme n’avait réussi à le faire par le passé. Pas plus que le programme AlphaGo, développé par la même équipe, qui a battu en 2016 le champion du monde de Go, Lee Sedol. Ni AlphaGo Zero, qui en 2017 a surpassé AlphaGo bien qu’aucune donnée sur les parties de Go jouées par des humains ne l’ait alimenté. Pour mémoire, en décembre 2017, AlphaZero a également maîtrisé le jeu d’échecs : après seulement quatre heures de jeu contre lui-même, en partant d’états aléatoires mais en ayant reçu comme information les règles du jeu, il a battu le « champion » des programmes d’échecs, Stockfish, par vingt-huit victoires et soixante-douze nuls en cent parties. Cependant (comme nous l’avons fait remarquer au début de ce chapitre), une AGI complète ferait beaucoup plus. Bien qu’il soit difficile de construire un spécialiste de l’IA performante, il est plus difficile de construire un généraliste de l’IA. L’apprentissage profond n’est pas la réponse : ses aficionados admettent qu’il faut « de nouveaux paradigmes » pour le combiner avec un raisonnement complexe – une formule un tantinet académique pour dire « nous n’en avons pas la moindre idée ». C’est pourquoi la plupart des chercheurs en IA ont abandonné cet espoir initial, 61
L’intelligence artificielle
se tournant plutôt vers des tâches multiples et étroitement définies – et rencontrant souvent des succès spectaculaires. Parmi les pionniers de l’AGI qui ont conservé leurs espoirs ambitieux, on peut citer Allen Newell et John Anderson. Ils sont à l’origine des systèmes SOAR et ACT-R respectivement, qui ont vu le jour au début des années 1980 et qui sont toujours en cours de développement (et d’utilisation) une trentaine d’années plus tard. Cependant, ils ont simplifié à l’excès la tâche, en ne se concentrant que sur un petit sous-ensemble de compétences humaines. En 1962, Herbert A. Simon, un collègue d’Allen Newell, avait analysé la trajectoire en zigzag d’une fourmi sur un terrain accidenté. Chaque mouvement, disait-il, est une réaction directe à la situation perçue par la fourmi à ce moment (c’est l’idée clé de la robotique « située », cf. chapitre 5). Dix ans plus tard, le livre de Newell et Simon intitulé Human Problem Solving décrit notre intelligence comme étant similaire. Selon leur théorie psychologique, la perception et l’action motrice sont complétées par des représentations internes (règles SI – ALORS, ou « productions ») stockées dans la mémoire, ou nouvellement construites lors de la résolution de problèmes. « Les êtres humains, considérés comme des systèmes comportementaux, disaient-ils, sont assez simples. » Mais les complexités comportementales émergentes sont importantes. Par exemple, ils ont montré qu’un système de seulement quatorze règles SI-ALORS peut résoudre des problèmes cryptarithmétiques (par exemple, faire correspondre les lettres aux chiffres 0 à 9 de cette somme : DONALD + GERALD = ROBERT, où D = 5). Certaines règles portent sur l’organisation des objectifs/sous-objectifs. Certaines attirent l’attention (sur une lettre ou une colonne spécifique). Certaines rappellent les étapes précédentes (résultats intermédiaires). D’autres reconnaissent les faux départs. Et d’autres font marche arrière pour s’en remettre. Selon eux, la cryptarithmétique illustre l’architecture informatique de tout comportement intelligent – cette approche psychologique convient donc à un système d’IA généraliste (AGI). À partir de 1980, Newell (avec 62
Avec l’intelligence artificielle générale pour Graal
John Laird et Paul Rosenbloom) a développé SOAR. Il s’agissait d’un modèle de cognition dans son ensemble. Son raisonnement intégrait la perception, l’attention, la mémoire, l’association, l’inférence, l’analogie et l’apprentissage. Les réponses de type fourmi (situées) ont été combinées avec une délibération interne. En effet, la délibération a souvent abouti à des réponses réflexes, car les éléments d’une séquence de sous-objectifs utilisée auparavant pouvaient être rassemblés en une seule règle. En fait, le SOAR n’a pas réussi à modéliser tous les aspects de la cognition, et a été étendu par la suite au fur et à mesure que les chercheurs reconnaissaient certaines lacunes. La version actuelle est utilisée à de nombreuses fins, du diagnostic médical à la planification d’usine. La famille ACT-R (Adaptive Control of Thought) de John Anderson est constituée de systèmes hybrides (cf. chapitre 4), développés en combinant des systèmes de production et des réseaux sémantiques. Ces programmes, qui reconnaissent les probabilités statistiques dans l’environnement, modélisent la mémoire associative, la reconnaissance des formes, le sens, le langage, la résolution de problèmes, l’apprentissage, l’imagerie et, depuis 2005, le contrôle perceptivo-moteur. Une caractéristique clé de l’ACT-R est l’intégration des connaissances procédurales et déclaratives. Quelqu’un peut savoir qu’un théorème d’Euclide est vrai, sans savoir comment l’utiliser dans une preuve géométrique. L’ACT-R peut apprendre à appliquer une vérité propositionnelle, en construisant des centaines de nouvelles productions qui contrôlent son utilisation dans de nombreuses circonstances différentes. Il apprend quels objectifs, sous-objectifs et sous-sous-objectifs sont pertinents dans quelles conditions, et quels résultats une action donnée produira dans diverses circonstances. En bref, il apprend par la pratique. Et, comme SOAR, il peut regrouper plusieurs règles qui sont souvent exécutées de manière séquentielle en une seule règle. Cela correspond à la différence entre la manière dont les experts et les novices résolvent le « même » problème : de manière irréfléchie ou minutieusement. L’ACT-R a des applications diverses. Ses « tutos » en mathématiques offrent une rétroaction personnalisée, notamment sur les connaissances 63
L’intelligence artificielle
du domaine concerné et sur la structure des objectifs/sous-objectifs de la résolution de problèmes. Grâce à la méthode d’assemblage d’éléments (chunking), la granulométrie de leurs suggestions se modifie au fur et à mesure que l’élève progresse dans son apprentissage. D’autres applications concernent la TLN, l’interaction homme-machine, la mémoire et l’attention humaines, la conduite et le vol, et la recherche visuelle sur le web. Les programmes SOAR et ACT étaient contemporains d’une autre tentative d’AGI : le CYC de Douglas Lenat. Ce système symbolique a été lancé en 1984, et est toujours en développement continu. En 2015, le CYC contenait 62 000 « relations » capables de relier les concepts de sa base de données et des millions de liens entre ces concepts. Parmi ceux-ci figurent les associations sémantiques et factuelles stockées dans de grands réseaux sémantiques (cf. chapitre 3), et d’innombrables faits de la physique – y compris la connaissance non formalisée de divers phénomènes physiques (tels que la chute et le renversement) que possèdent tous les humains. Le système utilise des logiques monotones et non monotones, ainsi que des probabilités, pour raisonner sur ses données. Aujourd’hui, tous les concepts et les liens sont codés à la main, mais l’apprentissage bayésien est en train d’être ajouté et installé ; cela permettra au CYC d’apprendre à partir d’Internet. Il a été utilisé par plusieurs agences gouvernementales américaines, dont le ministère de la Défense [DOD] (pour la surveillance de groupes terroristes, par exemple) ; de même les instituts nationaux de la santé, ainsi que par certaines grandes banques et compagnies d’assurance. Une version plus petite – OpenCyc – a été rendue publique comme source de base pour diverses applications, et une version plus abrégée (ResearchCyc) est disponible pour les travailleurs de l’IA. Bien qu’OpenCyc soit régulièrement mis à jour, il ne contient qu’un petit sous-ensemble de la base de données de CYC et un petit sous-ensemble de règles d’inférence. À terme, le système complet (ou presque complet) sera disponible et en vente dans le commerce. Cependant, cela pourrait tomber entre des mains malveillantes, à moins que des mesures spécifiques ne soient prises pour les en empêcher (cf. chapitre 7). 64
Avec l’intelligence artificielle générale pour Graal
Le CYC a été décrit par Lenat dans AI Magazine (1986) comme « l’utilisation de connaissances de bon sens pour surmonter la fragilité et les goulots d’étranglement dans l’acquisition des connaissances ». En d’autres termes, il s’agissait de relever le défi de la « prescience » de McCarthy. Aujourd’hui, ce programme est le leader dans la modélisation du raisonnement de « bon sens », et aussi dans la « compréhension » des concepts qu’il traite (que même des programmes de TLN apparemment impressionnants ne peuvent pas faire (cf. chapitre 3). Néanmoins, il présente de nombreuses faiblesses et failles. Par exemple, il ne gère pas bien les métaphores (bien que la base de données comprenne de nombreuses métaphores « mortes », bien sûr). Il ignore divers aspects de la physique naïve. Son programme de TLN, bien qu’il s’améliore constamment, est très limité. Et le programme n’inclut pas encore la vision. En résumé, malgré ses objectifs encyclopédiques, il n’englobe pas vraiment la connaissance humaine comme un tout. LE RÊVE RAVIVÉ
Newell, Anderson et Lenat ont œuvré avec ardeur (mais en retrait) pendant trente ans. Récemment, cependant, l’intérêt pour l’AGI s’est nettement ravivé. Une conférence annuelle a été lancée en 2008, et SOAR, ACT-R et CYC sont rejoints par d’autres systèmes censés être généralistes. Par exemple, en 2010, le pionnier de l’apprentissage automatique, Tom Mitchell, a lancé le programme NELL (Never-Ending Language Learner) à l’Université de Carnegie Mellon. Ce système de « bon sens » développe ses connaissances en parcourant le Web sans aucun arrêt (pendant sept ans au moment de la rédaction du présent document) et en acceptant toutes les corrections et mises à jour en ligne produites par les internautes humains. Il peut faire des déductions simples à partir de ses données (non étiquetées) : par exemple, l’athlète Joe Bloggs [l’équivalent d’un Monsieur Toutlemonde] joue au tennis, puisqu’il fait partie de l’équipe de la coupe Davis. En commençant par une ontologie de 65
L’intelligence artificielle
200 catégories et relations (par exemple, maître, est sur le point de), après cinq ans, il a élargi l’ontologie et a amassé quatre-vingt-dix millions de croyances de candidats, chacun avec son propre niveau de confiance. La mauvaise nouvelle est que NELL ne sait pas, par exemple, qu’on peut tirer des objets avec une ficelle, mais pas les repousser. En effet, le bon sens supposé de tous les systèmes AGI est gravement limité. Les affirmations qui font croire que l’épineux problème des cadres a été « résolu » sont décidément très trompeuses. NELL a maintenant un programme frère, NEIL, pour Never-Ending Image Learner. Certains programmes d’AGI partiellement visuels combinent une représentation logico-symbolique des connaissances avec des représentations analogiques ou graphiques (une distinction faite il y a des années par Aaron Sloman, mais pas encore bien comprise). En outre, le CALO (Cognitive Assistant that Learns and Organizes) de l’institut Stanford Research a fourni l’application dérivée de Siri (cf. chapitre 3), achetée par Apple pour 200 millions de dollars en 2009. Parmi les projets comparables actuellement en cours, citons l’intriguant LIDA de Stan Franklin (cf. chapitre 6) et OpenCog de Ben Goertzel, qui apprend ses faits et ses concepts dans un monde virtuel riche et également à partir d’autres systèmes d’AGI. Le LIDA est l’un des deux systèmes généralistes axés sur la conscience ; l’autre s’appelle le CLARION. Un projet AGI encore plus récent, lancé en 2014, vise à développer « une architecture de calcul pour la compétence morale des robots » (cf. chapitre 7). Outre les difficultés mentionnées plus haut, il va devoir faire face à de nombreux problèmes afférents à la moralité. Un système de niveau véritablement humain n’en ferait pas moins. Il n’est donc pas étonnant que l’AGI s’avère si insaisissable. LES DIMENSIONS MANQUANTES
Presque tous les systèmes généralistes actuels sont orientés vers la cognition. Anderson, par exemple, vise à préciser « comment tous les sous-domaines de la psychologie cognitive s’interconnectent ». (« Tous » les 66
Avec l’intelligence artificielle générale pour Graal
sous-domaines ? Bien qu’il aborde le contrôle moteur, il ne parle pas du toucher ou de la proprioception – qui existe pourtant parfois dans la robotique). Une IA vraiment générale couvrirait également la motivation et l’émotion. Quelques scientifiques de l’IA l’ont reconnu. Marvin Minsky et Sloman ont tous deux écrit de manière perspicace sur l’architecture informatique de « l’esprit global », bien que ni l’un ni l’autre n’ait construit de modèle d’esprit global. Le modèle d’anxiété de Sloman, MINDER, est décrit au chapitre 3. Son travail (et la théorie psychologique de Dietrich Dorner) a inspiré le MicroPsi de Joscha Bach : une AGI basée sur sept « motifs » différents, et utilisant des dispositions « émotionnelles » dans la planification et la sélection des actions. Il a également influencé le système LIDA mentionné plus haut (cf. chapitre 6). Mais même ces programmes-ci sont loin de constituer une véritable approche AGI. Le manifeste de Minsky de 1956, Steps Toward Artificial Intelligence, a identifié des obstacles et des promesses. Nombre d’entre eux doivent encore être surmontés. Le chapitre 3 devrait aider à montrer que l’AGI au niveau humain n’est pas en vue.
67
3 Langage, créativité et émotions Certains domaines de l’IA semblent particulièrement ardus tels le langage, la créativité et l’émotion. Si l’IA ne peut pas les modéliser, les espoirs de l’AGI seront illusoires. Dans chaque cas, on a obtenu plus que ce que ce qu’on imaginait possible au départ. Néanmoins, d’importantes difficultés subsistent. Ces domaines essentiellement humains n’ont été modélisés que jusqu’à un certain point. La question de savoir si les systèmes d’IA pourront un jour démontrer la capacité d’une réelle compréhension, de la créativité ou de l’émotion est abordée au chapitre 6. Ici, notre question est de savoir s’ils peuvent sembler les posséder. LE LANGAGE
D’innombrables applications d’IA utilisent le traitement du langage naturel (TLN). La plupart se concentrent sur la « compréhension » par l’ordinateur du langage présenté, et non sur sa propre production linguistique. En effet, la production de la TLN est plus difficile que son acceptation. Les difficultés concernent à la fois le contenu thématique et la forme grammaticale. Par exemple, nous avons vu au chapitre 2 que des séquences d’actions familières (« scripts ») peuvent être utilisées comme la semence d’histoires basées et construites sur l’IA. Mais la question de savoir si la représentation des connaissances de base inclut suffisamment de motivation humaine pour rendre l’histoire intéressante est une autre question. Un système – déjà disponible dans le commerce – est capable 69
L’intelligence artificielle
de rédiger des rapports annuels décrivant l’évolution de la situation financière d’une entreprise, mais génère, en fait, des histoires fort ennuyeuses. Il existe des romans et des feuilletons générés par ordinateur, mais ils ne gagneront pas de prix en raison de leur niveau de subtilité. Si les traductions/sommaires AI de textes générés par l’homme sont peut-être beaucoup plus riches, c’est grâce aux auteurs humains. Quant à la forme grammaticale, la prose informatique est parfois grammaticalement incorrecte et généralement très maladroite. Le récit d’un jeu de tic-tac-toe (appelé aussi Morpion) tel que celui généré par l’IA par Anthony Davey peut avoir des structures de phase /sous-phase qui correspondent à la dynamique du jeu de manière bien appropriée et les possibilités et les stratégies de ce jeu sont parfaitement comprises. Décrire la succession de pensées ou d’actions des protagonistes de la plupart des histoires humaines d’une manière élégante serait beaucoup plus difficile. En ce qui concerne l’acceptation du langage généré par l’IA, certains systèmes sont d’une simplicité ennuyeuse : ils ne nécessitent que la reconnaissance de mots-clés (pensez aux « menus » dans le commerce électronique) ou la prédiction de mots figurant dans un dictionnaire (on peut évoquer ici le remplissage automatique qui se produit lors de la rédaction de « textos »). D’autres sont beaucoup plus sophistiquées. Quelques-uns requièrent la reconnaissance vocale, soit de mots isolés, comme dans les achats téléphoniques automatisés, soit de la parole continue, comme dans le sous-titrage télévisuel en temps réel et les écoutes téléphoniques. Dans ce dernier cas, l’objectif peut être de repérer des mots spécifiques (comme bombe ou djihad) ou, plus intéressant, de saisir le sens de la phrase dans son ensemble. C’est du TLN avec des boutons de réglage : il faut d’abord distinguer les mots eux-mêmes, prononcés par de nombreuses voix différentes et avec des accents locaux/ étrangers différents. Les distinctions de mots sont gratuites dans les textes imprimés. L’apprentissage approfondi (cf. chapitre 4) a permis des progrès significatifs dans le traitement de la parole.
70
Langage, créativité et émotions
Parmi les exemples impressionnants de ce qui ressemble à une compréhension de phrases entières, on peut parler de la traduction automatique, l’exploration de données à partir de grandes collections de textes en langue naturelle, le résumé d’articles dans des journaux et des revues ; la réponse à des questions ouvertes (à réponse libre, de plus en plus utilisée dans les recherches sur Google et dans l’application Siri pour l’iPhone®). Mais ces systèmes peuvent-ils vraiment apprécier la langue ? Peuventils, par exemple, traiter correctement les questions de grammaire ? Aux débuts de l’IA, les gens pensaient que la compréhension du langage nécessitait une analyse syntaxique. Des efforts considérables ont été consacrés à l’écriture de programmes pour y parvenir. L’exemple remarquable – qui a attiré l’attention d’innombrables personnes qui n’en avaient jamais entendu parler était le SHRDLU 1 de Terry Winograd, écrit au MIT au début des années 1970, est un programme qui a été considéré comme impossible. Ce programme acceptait des instructions en anglais disant à un robot de construire des structures faites de blocs coloriés, et déterminait comment certains blocs devaient être déplacés pour atteindre l’objectif. Il a eu une influence considérable pour de nombreuses raisons, dont certaines s’appliquaient à l’IA en général. Ici, ce qui est pertinent, c’est sa capacité sans précédent à assigner une structure grammaticale détaillée à des phrases complexes, telles que : Combien d’œufs auriez-vous utilisés dans le gâteau si vous n’aviez pas appris que la recette de votre grand-mère était erronée ? (Essayez-le !) Pour des raisons technologiques, SHRDLU a déçu. Le programme, écrit en MacLisp, contenait de nombreux bogues, et ne pouvait donc être utilisé que par une poignée de chercheurs hautement qualifiés. 1. Ce curieux enchaînement correspond aux touches des machines Linotype avec lesquelles on assemblait les blocs de lettres d’impression des journaux, etc., en plomb. ETAOIN était la première colonne, SHDLU la seconde (c’est une question de fréquence d’apparition de ces lettres dans le texte). Terry Vinograd a adopté la seconde colonne pour baptiser son programme à MIT. C’est aujourd’hui remplacé par les rangées QUERTY (US) ou AZERTY (langues latines).
71
L’intelligence artificielle
Plusieurs autres logiciels de traitement syntaxique ont été construits à cette époque, mais ils n’étaient pas non plus généralisables à des textes réels. Il est ainsi vite apparu que l’analyse de la syntaxe élaborée est trop difficile pour les systèmes achetés dans le commerce. La syntaxe élaborée n’était pas le seul problème soulevé. Dans l’utilisation du langage humain, le contexte et la pertinence comptent aussi. Il n’était pas évident qu’ils puissent être traités par l’IA. Et il est vrai que la traduction automatique avait été déclarée impossible, voir le rapport ALPAC (du nom en anglais du Comité consultatif pour le traitement automatique des langues) publié par le gouvernement américain en 1964. Outre le fait de prédire que trop peu de gens voudraient l’utiliser pour le rendre commercialement viable (bien que les aides automatiques pour les traducteurs humains puissent être réalisables), le rapport a fait valoir que les ordinateurs auraient du mal à maîtriser la syntaxe, seraient vaincus par le contexte mais – surtout – seraient aveugles quant à la pertinence des textes. Ce fut une bombe pour la traduction automatique (dont le financement s’est pratiquement tari du jour au lendemain), et pour l’IA en général. Elle a été largement interprétée comme démontrant la futilité de l’IA. Le best-seller Computers and Common Sense avait déjà affirmé (en 1961) que l’IA représentait un gaspillage de l’argent des contribuables. Aujourd’hui, il semble que les plus grands experts gouvernementaux étaient d’accord. Deux universités américaines qui étaient sur le point d’ouvrir des départements d’IA ont annulé leurs plans en conséquence. Les travaux sur l’IA ont néanmoins été poursuivis, et lorsque le SHRDLU – qui est très doué pour la syntaxe – a fait son apparition quelques années plus tard, il a semblé être une justification triomphante de la GOFAI. Mais les doutes ne tardèrent pas à s’installer. En conséquence, le TLN s’est tournée de plus en plus vers le facteur contextuel plutôt que vers celui de la syntaxe. Quelques chercheurs avaient déjà pris le contexte sémantique au sérieux au début des années 1950. Le groupe de Margaret Masterman à l’université de Cambridge, en Angleterre, avait abordé la traduction 72
Langage, créativité et émotions
automatique (et la recherche d’informations) en utilisant un thésaurus plutôt qu’un dictionnaire. Ils considéraient la syntaxe comme « cette partie très superficielle et très redondante du langage que [les gens pressés], à juste titre, “laissent tomber” », et se concentraient sur des groupes de mots plutôt que sur des mots isolés. Au lieu d’essayer de traduire mot par mot, ils ont cherché dans le texte environnant des mots de même signification. Cela (lorsque cela a fonctionné) a permis de traduire correctement des mots ambigus. Ainsi, banque pouvait être rendu (en français) comme rive ou comme banque, selon que le contexte contenait des mots comme eau ou argent, respectivement. Et au fur et à mesure des progrès, c’est exactement ce qui s’est passé. En plus de distinguer divers types de similarités lexicales – synonymes (vide/vacant), antonymes (vide/plein), appartenance à une classe (poisson/ animal) et inclusion (animal/poisson), niveau de classe partagé (morue/ saumon), et partie / ensemble (nageoire/poisson) – la traduction automatique actuelle reconnaît également la coexistence thématique (poisson/ eau, poisson/banc, poisson/copeaux, etc.). Il est désormais clair que la manipulation de la syntaxe élaborée n’est pas nécessaire pour résumer, ou remettre en question ou traduire un texte en langue naturelle. Le TLN d’aujourd’hui repose davantage sur du « muscle » (puissance de calcul) que sur le « cerveau » (analyse grammaticale). Les mathématiques, et plus particulièrement les statistiques, ont pris le pas sur la logique, et l’apprentissage machine (y compris, mais sans s’y limiter, l’apprentissage profond) a remplacé l’analyse syntaxique. Ces nouvelles approches du TLN, qui vont des textes écrits à la reconnaissance vocale, sont si efficaces qu’un taux de réussite de 95 % est considéré comme la norme d’acceptabilité pour les applications pratiques. Dans le TLN moderne, de puissants ordinateurs effectuent des recherches statistiques dans d’énormes collections (des « corpus ») de textes (pour la traduction automatique, il s’agit de traductions appariées faites par des humains) pour trouver des modèles de mots à la fois courants et inattendus. Ils peuvent apprendre la probabilité statistique de poisson/eau, ou poisson/têtard, ou poisson et frites (fish & chips)/sel et vinaigre. 73
L’intelligence artificielle
Et, comme indiqué au chapitre 2, le TLN peut maintenant apprendre à construire des « vecteurs de mots » représentant les nuages de sens probabilistes qui accompagnent un concept donné. En général, cependant, l’accent est mis sur les mots et les phrases, pas sur la syntaxe. La grammaire n’est pas ignorée : des étiquettes telles que ADJectif et ADVerbe peuvent être attribuées, automatiquement ou manuellement, à certains mots dans les textes examinés. Mais l’analyse syntaxique est peu utilisée. Même l’analyse sémantique détaillée n’est pas très présente. La sémantique « compositionnelle » utilise la syntaxe pour analyser le sens des phrases ; mais on la trouve dans les laboratoires de recherche, pas dans les applications à grande échelle. Le programme CYC – qui fait appel au « bon sens » – dispose de représentations sémantiques relativement complètes de ses concepts (mots) et, en conséquence, les « comprend » mieux (cf. chapitre 2). Mais cela reste encore inhabituel. La traduction automatique actuelle peut présenter des succès étonnants. Certains systèmes sont limités à un petit nombre de sujets, mais d’autres sont plus ouverts. Google Translate® offre une traduction automatique sur des sujets sans limite, à plus de 200 millions d’utilisateurs chaque jour. SYSTRAN est utilisé quotidiennement par l’Union européenne (pour vingt-quatre langues), de même par l’OTAN, ainsi que par Xerox et General Motors. Nombre de ces traductions, y compris les documents de l’UE, sont quasi parfaites (car seul un sous-ensemble limité de mots est présent dans les textes originaux). Beaucoup d’autres sont imparfaites et pourtant facilement intelligibles, parce que les lecteurs avertis peuvent ignorer les erreurs grammaticales et les choix de mots inappropriés, comme on le fait lorsqu’on écoute un locuteur non natif. Certains ne nécessitent qu’une post-édition minimale par des rédacteurs humains. En japonais, une pré-édition et une post-édition importantes peuvent être nécessaires. Le japonais ne contient pas de mots segmentés, comme dans le passé du verbe anglais vot-ed, et l’ordre des phrases est inversé. Il est généralement difficile de faire correspondre des langues de différents groupes linguistiques. 74
Langage, créativité et émotions
En bref, les résultats de la traduction automatique sont normalement assez bons pour que l’utilisateur humain puisse les comprendre. De même, les programmes de TLN monolingue qui résument les articles de revues peuvent souvent montrer si l’article mérite d’être lu dans son intégralité. On peut dire que la traduction parfaite est de toute façon inatteignable. Par exemple, pour demander une pomme en japonais, il faut un langage reflétant le statut social comparatif des interlocuteurs, mais il n’existe pas de distinctions équivalentes en anglais. La traduction en temps réel disponible sur les applications d’IA telles que Skype a moins de succès. En effet, le système doit reconnaître la parole et non le texte écrit (dans lequel les mots individuels sont clairement séparés). Deux autres applications importantes de TLN sont des formes de recherche et extraction d’informations : la recherche pondérée (démarrée par le groupe de Masterman en 1976) et l’extraction d’information à partir d’énormes bases de mégadonnées (data mining). Le moteur de recherche Google, par exemple, recherche des termes pondérés en fonction de leur pertinence – évaluée statistiquement, et non sémantiquement (c’est-àdire sans compréhension du fond). L’exploration des données permet de trouver des schémas d’agencement de mots insoupçonnés par les utilisateurs humains. Longtemps utilisé pour les études de marché sur les produits et les marques, il est maintenant appliqué (souvent par apprentissage approfondi) aux Big Data : sous la forme de volumineuses collections de textes (parfois multilingues) ou d’images, comme des rapports scientifiques, des dossiers médicaux ou des entrées sur les médias sociaux et sur Internet. Les applications du Big Data mining comprennent la surveillance de personnes et d’installations et le contre-espionnage, ainsi que le suivi des attitudes du public par les gouvernements, les décideurs politiques et les spécialistes des sciences sociales. Ces enquêtes permettent de comparer les opinions changeantes de sous-groupes distincts : hommes/ femmes, jeunes/vieux, Nord/Sud, etc. Par exemple, le groupe de réflexion britannique Demos (qui travaille avec une équipe d’analyse des données 75
L’intelligence artificielle
de TLN à l’université du Sussex) a analysé plusieurs milliers de messages sur Twitter® relatifs à la misogynie, aux groupes ethniques et aux activités de la police. Il est possible d’effectuer des recherches sur des vagues soudaines de tweets qui surgissent après des événements spécifiques (appelés « twitcidents » dans cette étude) pour découvrir, par exemple, les changements de l’opinion publique sur la réaction de la police à un incident particulier. Reste à voir si la TLN des Big Data produira de manière fiable des résultats utiles. Souvent, le data mining, mais utilisant l’analyse des sentiments, cherche à mesurer non seulement le niveau d’intérêt du public, mais aussi son niveau et mode d’évaluation. Cependant, ce n’est pas simple. Par exemple, un tweet contenant une épithète raciale apparemment désobligeante, et codé par un programme automatique comme « négatif », peut en fait ne pas être désobligeant. Un juge humain, en le lisant, peut considérer que le terme est utilisé (dans ce cas) comme un marqueur positif de l’identité du groupe, ou comme une description neutre (par exemple le magasin « chintok » au coin de la rue), et non comme une insulte ou un abus. L’étude de Demos a révélé que seulement une petite proportion des tweets contenant des termes raciaux/ethniques sont en fait de nature agressive. Dans de tels cas, le jugement de l’homme se basera sur le contexte – par exemple, les autres mots du tweet. Il peut être possible d’ajuster les critères de recherche de la machine afin qu’elle fasse moins d’attributions de « sentiments négatifs ». Mais ce n’est pas toujours le cas. De tels jugements sont souvent litigieux. Même lorsqu’ils sont approuvés, il peut être difficile d’identifier les éléments du contexte qui justifient l’interprétation de l’homme. Ce n’est là qu’un exemple de la difficulté de déterminer la pertinence en termes de calcul (ou même de langage). Deux applications bien connues du TLN peuvent sembler, à première vue, contredire cette affirmation : Siri® d’Apple et WATSON® d’IBM. Siri® est un assistant personnel (avec un moteur de règles), un « chat-bot » parlant qui peut répondre rapidement à de nombreuses questions dif 76
Langage, créativité et émotions
férentes. Il a accès à tout ce qui se trouve sur Internet, y compris Google Maps, Wikipedia, le New York Times, constamment mis à jour, et des listes de services locaux tels que les taxis et les restaurants. Il fait également appel au puissant « répondeur » WolframAlpha, qui peut utiliser le raisonnement logique pour trouver – mais pas seulement – des réponses à un large éventail de questions factuelles. Siri® accepte une question orale de l’utilisateur (il s’adapte progressivement à sa voix et à son dialecte) et y répond en utilisant la recherche sur le web et l’analyse conversationnelle. L’analyse conversationnelle étudie comment les gens organisent la séquence des sujets dans une conversation, et comment ils organisent des interactions telles que l’explication et l’accord. Cela permet à Siri® d’examiner des questions telles que « Qu’est-ce que veut l’interlocuteur ? » et « Comment dois-je (doit-il) répondre ? » et jusqu’à s’adapter aux intérêts et aux préférences de l’utilisateur individuel. En bref, Siri® semble être sensible non seulement à l’actualité, mais aussi à la pertinence personnelle. Il est donc superficiellement impressionnant. Cependant, il est facile de l’éconduire, au point de donner des réponses ridicules – et si l’utilisateur s’écarte tant soit peu du domaine des faits, Siri® est perdu. WATSON®, lui aussi, se concentre sur les faits. En tant que ressource standard (avec 2 880 processeurs de base) pour le traitement des données de grande taille, il est déjà utilisé dans certains centres d’appel et est en cours d’adaptation pour des applications médicales telles que l’évaluation des thérapies contre le cancer. Mais il ne se contente pas de répondre à des questions simples, comme le fait Siri®. Il peut également traiter les énigmes qui se posent dans le jeu de connaissance générale Jeopardy ! Dans Jeopardy!, les joueurs ne se voient pas poser de questions directes, mais reçoivent un indice et doivent deviner quelle serait la question pertinente. Par exemple, on leur dit : « Le 9 mai 1921, cette compagnie aérienne “à la lettre” a ouvert son premier bureau de passagers à Amsterdam », et ils doivent répondre « Qu’est-ce que KLM ? » 77
L’intelligence artificielle
WATSON® peut relever ce défi, et bien d’autres encore. Contrairement à Siri®, sa version Jeopardy ! n’a pas accès à Internet (contrairement à la version médicale) et n’a aucune notion de la structure des conversations. Elle ne peut pas non plus découvrir une réponse par un raisonnement logique. Il utilise plutôt la recherche statistique massivement parallèle sur une énorme base de données, mais fermée. Celle-ci contient des documents – d’innombrables revues et livres de référence, ainsi que le New York Times – qui fournissent des informations sur la lèpre à Liszt, l’hydrogène à Hydra, etc. Lorsqu’on joue à Jeopardy!, sa recherche est guidée par des centaines d’algorithmes spécialement conçus qui reflètent les probabilités inhérentes au jeu. Et il peut apprendre des devinettes de ses concurrents humains. En 2011, WATSON® a rivalisé avec le « moment Kasparov » de son cousin Deep Blue® d’IBM (cf. chapitre 2), en battant apparemment les deux meilleurs champions humains. Répétons, apparemment, car l’ordinateur réagit quasi-instantanément alors que les humains ont besoin d’un certain temps de réaction avant d’appuyer sur le buzzer). Mais, comme Deep Blue®, il ne gagne pas toujours. Une fois, WATSON® a perdu parce que, bien qu’elle se soit correctement concentrée sur la jambe d’un athlète particulier, le programme n’a pas réalisé le fait crucial dans ses données stockées : il manquait une jambe à l’intéressé. Cette erreur ne se reproduira plus, car les programmeurs de WATSON® ont maintenant souligné l’importance du mot « manquant ». Mais d’autres le feront. Même dans des contextes de recherche de faits banals, les gens s’appuient souvent sur des jugements de pertinence qui vont au-delà de WATSON®. Par exemple, un indice nécessitait l’identité de deux des disciples de Jésus dont les noms sont les dix premiers prénoms de bébé, et se terminent par la même lettre. La réponse est (en anglais) « Matthew » et « Andrew », ce que WATSON® a trouvé immédiatement. Le champion humain avait la même réponse. Mais sa première idée avait été « James » et « Judas ». Il a rejeté cette idée uniquement parce que : « Je ne pense pas que Judas soit un prénom populaire pour un bébé, pour 78
Langage, créativité et émotions
une certaine raison », a-t-il déclaré. WATSON® ne pouvait pas faire cela. Les jugements humains pertinents sont souvent beaucoup moins évidents que celui-ci, et beaucoup trop subtils pour le TLN d’aujourd’hui. En effet, la pertinence est une version linguistique et conceptuelle de l’impitoyable problème des cadres de la robotique (cf. chapitre 2). Nombreux sont ceux qui affirment qu’elle ne sera jamais entièrement maîtrisée par un système non humain. Le chapitre 6 examine si cela est dû uniquement à la complexité massive des protocoles/données ou au fait que la pertinence est enracinée dans notre forme de vie spécifiquement humaine. LA CRÉATIVITÉ
La créativité – qui est ce qui permet de produire des idées ou des artefacts nouveaux, surprenants et à valeur ajoutée – est le summum de l’intelligence humaine et est nécessaire à l’AGI au niveau humain. Mais elle est largement considérée comme quelque chose de mystérieux. Il n’est pas évident de savoir comment des idées nouvelles peuvent surgir chez les gens, sans parler des ordinateurs. Même la reconnaître n’est pas simple : les gens sont souvent en désaccord sur le caractère créatif d’une idée. Certains désaccords portent sur le fait de savoir si, et dans quel sens, l’idée est réellement neuve. Une idée peut être neuve uniquement pour l’individu concerné, ou nouvelle également pour l’ensemble de l’histoire humaine (illustrant respectivement la créativité individuelle et historique). Dans les deux cas, elle peut être plus ou moins similaire aux idées précédentes, ce qui laisse la place à d’autres désaccords. D’autres différends portent sur l’évaluation (ce qui implique une conscience fonctionnelle, et parfois « phénoménale » (sic) : voir sur ce même registre le chapitre 6). Une idée peut être valorisée par un groupe social, mais pas par d’autres. Pensez au mépris que les jeunes d’aujourd’hui adressent à tous ceux qui adorent leurs DVD d’Abba. Il est communément admis que l’IA n’a rien d’intéressant à dire sur la créativité. Mais la technologie de l’IA a généré de nombreuses idées historiquement nouvelles, surprenantes et à valeur ajoutée. On les trouve, 79
L’intelligence artificielle
par exemple, dans la conception de moteurs, de produits pharmaceutiques et dans divers types d’art informatique. De plus, les concepts de l’IA aident à expliquer la créativité humaine. Ils nous permettent de distinguer trois types : 1° combinatoire, 2° exploratoire et 3° transformationnelle. Ils impliquent différents mécanismes psycho logiques, suscitant différentes formes et niveaux de surprise. Dans la créativité combinatoire, des idées familières sont combinées de manière inhabituelle. Les exemples incluent le collage visuel, l’imagerie poétique et les analogies scientifiques (le cœur comme une pompe, l’atome comme un petit système solaire). La nouvelle combinaison apporte une surprise statistique : elle était improbable, comme un cheval outsider qui gagnerait la célèbre course de Derby. Mais elle est intelligible, et tellement précieuse. Sa valeur novatrice dépend des jugements portés sur la pertinence, dont nous avons parlé plus haut. La créativité exploratoire est moins idiosyncrasique, car elle exploite un mode de pensée culturellement valorisé (par exemple, les styles de peinture ou de musique, ou les sous-domaines de la chimie ou des mathématiques). Des règles stylistiques aident (en grande partie inconsciemment) à produire l’idée nouvelle – comme la grammaire anglaise qui permet de générer de nouvelles phrases. L’artiste/scientifique peut explorer le potentiel du style de manière incontestable. Il peut aussi l’encourager, essayer de le mettre en œuvre pour le tester, découvrant de la sorte ce qu’il peut et ne peut pas générer. Il peut même le modifier un « chouia », en modifiant légèrement (par exemple en l’affaiblissant/renforçant) une règle donnée. La structure nouvelle, malgré sa nouveauté, sera reconnue comme faisant partie d’une famille stylistique familière. La créativité transformationnelle qui succède à la créativité exploratoire, est déclenchée en règle générale par la frustration due aux limites d’un style existant. Dans ce cas, une ou plusieurs contraintes stylistiques sont radicalement modifiées (par abandon, négation, complément, substitution, ajout, etc.), de sorte que des structures nouvelles sont générées qui n’auraient pas pu l’être auparavant. Ces nouvelles idées sont surprenantes car elles paraissent impossibles et irréalisables. Ils sont 80
Langage, créativité et émotions
s ouvent inintelligibles au départ, car elles ne peuvent pas être entièrement comprises en fonction du mode de pensée en vogue précédemment. Cependant, ils doivent être intelligiblement proches de la façon de penser précédente si l’on veut qu’elles soient acceptées. Parfois, cette reconnaissance prendra de nombreuses années. Ces trois types de créativité se retrouvent souvent dans l’IA, les résultats étant attribués par les observateurs aux humains (en fait, en réussissant le Test de Turing, cf. le chapitre 6). Mais ils ne se trouvent pas dans les proportions que l’on pourrait attendre. En particulier, il existe très peu de systèmes combinatoires. On pourrait penser qu’il est facile de modéliser la créativité combinatoire. Après tout, rien n’est plus simple que de faire produire par un ordinateur des associations inhabituelles d’idées déjà stockées. Les résultats seront souvent inédits sur le plan historique et (statistiquement) surprenants. Mais pour qu’ils soient également valables, ils doivent être mutuellement pertinents. Ce n’est pas simple, comme nous l’avons vu. Les programmes générateurs de blagues mentionnés au chapitre 2 utilisent des modèles de blagues pour aider à en assurer la pertinence. De même, le raisonnement de l’IA symbolique basé sur des études de cas réels construits grâce à des similitudes structurelles pré-codées. Ainsi, leur créativité « combinatoire » comporte également un puissant adjuvant de créativité exploratoire. Inversement, on pourrait s’attendre à ce que l’IA ne puisse jamais modéliser la créativité transformationnelle. Il est certain qu’un programme ne peut faire que ce dont il est potentiellement capable. Mais les programmes évolutifs peuvent se transformer (cf. chapitre 5). Ils peuvent même évaluer leurs idées nouvellement transformées – mais seulement si le programmeur a fourni des critères de sélection clairs. De tels programmes sont couramment utilisés pour des applications d’IA en quête de nouveauté, comme la conception de nouveaux instruments scientifiques ou de nouveaux médicaments. Il ne s’agit cependant pas d’un chemin magique vers l’AGI. Des résultats à valeur ajoutée sont rarement garantis. Certains programmes 81
L’intelligence artificielle
é volutifs (en mathématiques ou en sciences) peuvent trouver de manière fiable la solution optimale, mais de nombreux problèmes ne peuvent pas être définis par l’optimisation. La créativité transformationnelle est une option à risque, car les règles précédemment acceptées ne sont plus respectées. Toute nouvelle structure doit être évaluée, sinon le chaos s’installe. Mais les fonctions de l’IA actuelle sont définies par les humains : les programmes ne peuvent pas les adapter/faire évoluer de manière indépendante. La créativité exploratoire est la forme la mieux adaptée à l’IA. Il existe d’innombrables exemples. Certaines nouveautés de l’IA exploratoire en ingénierie (dont une générée par un programme du concepteur de CYC, cf. chapitre 2) ont fait l’objet de brevets. Bien qu’une idée brevetée ne soit pas « évidente pour une personne versée dans les règles de l’art », elle peut se situer de manière inattendue dans le potentiel du style exploré. Quelques explorations de l’IA sont indissociables de réalisations humaines exceptionnelles, comme la composition de musique, par les programmes de David Cope, semblables dans leur style à du Chopin ou à du Bach. (Question : combien d’humains seraient à même de faire cela ?) Cependant, même l’IA exploratoire dépend de manière cruciale du jugement humain. En effet, quelqu’un doit reconnaître – et énoncer clairement – les règles stylistiques concernées. C’est généralement difficile. Un expert mondial des Maisons des Prairies de l’architecte Frank Lloyd Wright a abandonné sa tentative de décrire leur style architectural, le déclarant « occulte ». Plus tard, une « grammaire des formes » calculable a généré indéfiniment des plans de la Prairie House 2, y compris la quarantaine d’originaux – sans aucune invraisemblance dans les résultats produits. Mais c’est l’analyste humain qui a été responsable en dernier ressort du succès du système. Ce n’est que si une AGI pouvait analyser les styles (en art ou en science) pour elle-même que ses explorations créatives 2. Fin du xixe, début du xxe siècle, Frank Lloyd Wright dessinait des maisons, toutes différentes, censées être victoriennes à un seul étage. Le plus célèbre modèle s’appelle la Prairie House Frederic C. Robie, 1906-1909.
82
Langage, créativité et émotions
seraient « son propre travail ». Malgré quelques exemples récents, très limités, de styles artistiques reconnus par un apprentissage approfondi (cf. chapitres 2 et 4), et c’est une tâche difficile. L’IA a permis aux artistes humains de développer une nouvelle forme d’art : l’art généré par ordinateur (Computer-Generated Art [CGA]). Cela concerne l’architecture, le graphisme, la musique, la chorégraphie et – sans succès (étant donné les difficultés du TLN en matière de syntaxe et de pertinence) – des œuvres littéraires. Dans l’art généré par ordinateur, l’ordinateur n’est pas un simple outil, comparable à un nouveau pinceau qui aide l’artiste à produire ce que l’ordinateur peut faire d’office ; autrement dit, le travail n’aurait pas pu être fait, ou peut-être même imaginé, sans elle. L’art des images de synthèse illustre ces trois types de créativité. Pour les raisons évoquées plus haut, il n’y a pratiquement pas d’art contemporain qui soit combinatoire. L’œuvre de Simon Colton intitulée The Painting Fool a produit des collages visuels afférents à la guerre – mais il a été spécifiquement chargé de rechercher des images associées au mot « guerre », facilement disponibles dans sa base de données. La plupart des œuvres de CGA sont de forme exploratoire ou transformationnelle. Parfois, l’ordinateur génère l’œuvre d’art de manière entièrement indépendante, exécutant le programme écrit par l’artiste. Ainsi, le programme AARON produit des dessins au trait et des images coloriées sans aide (en générant parfois des couleurs si audacieusement belles que Cohen dit qu’il est meilleur coloriste que lui-même). En revanche, dans l’art interactif, la forme de l’œuvre finale dépend en partie de l’apport du public, qui peut ou non avoir un contrôle volontariste sur ce qui se passe. Certains artistes interactifs considèrent le public comme des collègues créateurs, d’autres comme de simples facteurs de causalité qui, sans le savoir, influencent l’œuvre d’art de diverses manières (et certains, comme Ernest Edmonds, ont adopté les deux approches). Dans l’art évolutionniste, illustré par William Latham et Jon McCormack, les résultats sont continuellement générés/transformés par l’ordinateur, mais la sélection est généralement effectuée par l’artiste ou le public. 83
L’intelligence artificielle
Brièvement, la créativité de l’IA a de nombreuses applications. Elle peut parfois égaler, voire dépasser les normes humaines dans un petit coin reculé de la science ou de l’art. Mais l’adéquation avec la créativité humaine dans le cas général est une tout autre affaire. L’AGI est plus éloignée que jamais. AI ET ÉMOTION
L’émotion, tout comme la créativité, est généralement considérée comme étant totalement étrangère à l’IA. Outre « l’invraisemblance intuitive », le fait que les humeurs et les émotions dépendent de l’action des neuro-modulateurs qui se diffusent dans le cerveau semble exclure les modèles d’affect de l’IA. Pendant de nombreuses années, les scientifiques de l’IA semblaient être d’accord entre eux. À quelques exceptions près, dans les années 1960 et 1970, comme Herbert Simon, qui considérait que l’émotion était impliquée dans le contrôle cognitif, et comme Kenneth Colby, qui a construit des modèles intéressants, bien que trop ambitieux, les scientifiques ont ignoré l’émotion. Aujourd’hui, les choses sont différentes. La neuro-modulation a été simulée (dans GasNets, cf. chapitre 4). De plus, de nombreux groupes de recherche sur l’IA s’intéressent désormais à l’émotion. La plupart de ces recherches ont peu de profondeur théorique. Et la plupart sont potentiellement lucratives puisqu’elles visent à développer des « compagnons informatiques ». Il s’agit de systèmes d’IA – certains basés sur des écrans, d’autres embarqués dans des robots ambulatoires – conçus pour interagir avec les gens afin qu’ils soient affectivement confortables, voire satisfaisants, pour l’utilisateur (outre leur utilité pratique). La plupart sont destinés aux personnes âgées et/ou handicapées, y compris les personnes atteintes de démence naissante. Certains sont destinés aux bébés ou aux nourrissons. D’autres sont des « jouets pour adultes » interactifs.
84
Langage, créativité et émotions
En bref, des ordinateurs-soigneurs, des nounous robots et des sextoys. Les interactions homme-ordinateur concernées sont les suivantes : rappeler les listes de courses, les médicaments et les visites de la famille ; parler d’un journal personnel continu et aider à le rédiger ; programmer et discuter des programmes télévisés, y compris les informations quotidiennes ; préparer/apporter de la nourriture et des boissons ; surveiller les signes vitaux (et les pleurs des bébés) ; et parler et se déplacer de manière sexuellement stimulante. Nombre de ces tâches impliquent des émotions de la part de la personne. Quant au compagnon-IA, il peut être capable de reconnaître des émotions chez l’utilisateur humain et/ou il peut y répondre de manière apparemment émotionnelle. Par exemple, la tristesse chez l’utilisateur, causée peut-être par la simple évocation d’un deuil pourrait susciter et attirer une certaine sympathie de la part de la machine. Les systèmes d’IA peuvent déjà reconnaître les émotions humaines de différentes manières. Certaines sont physiologiques : surveillance du rythme respiratoire de la personne et réaction galvanique de la peau. D’autres sont verbales : en notant la vitesse et l’intonation du locuteur, ainsi que son vocabulaire. D’autres sont visuelles : analyse des expressions du visage. À l’heure actuelle, toutes ces méthodes sont assez rudimentaires. Les émotions de l’utilisateur sont à la fois facilement ratées et mal interprétées. La performance émotionnelle du compagnon d’ordinateur est généralement verbale. Elle est basée sur le vocabulaire (et l’intonation, si le système génère la parole). Mais, tout comme le système surveille les mots-clés familiers de l’utilisateur, il réagit de manière très stéréotypée. Parfois, il peut citer une phrase ou un poème d’un auteur humain associé à quelque chose que l’utilisateur a dit – peut-être dans son journal. Mais les difficultés du TLN impliquent qu’il est peu probable que le texte généré par ordinateur soit approprié, s’entend de manière subtile. Il peut même ne pas être acceptable, l’utilisateur peut être irrité et frustré par un compagnon incapable d’offrir ne serait-ce que l’apparence d’une véritable camaraderie. De même, un chat robot ronronnant peut finir par irriter l’utilisateur, au lieu de lui communiquer son contentement. 85
L’intelligence artificielle
Mais ce n’est pas toujours le cas. Paro, un bébé phoque interactif et câlin avec de charmants yeux noirs et des longs cils luxueux, semble être bénéfique pour de nombreuses personnes âgées et/ou atteintes de démence. Les futures versions surveilleront les signes vitaux et alerteront, si besoin, les soignants de la personne en question. Certains compagnons-IA peuvent utiliser leurs propres expressions faciales, et leur regard, pour réagir de manière apparemment émotionnelle. Quelques robots possèdent une « peau » flexible, recouvrant un simulacre de musculature faciale humaine, dont la configuration peut suggérer (à l’observateur humain) jusqu’à une douzaine d’émotions de base. Les systèmes sur écran montrent souvent le visage d’un personnage virtuel, dont les expressions changent en fonction des émotions qu’il (elle) est censé(e) ressentir. Cependant, toutes ces choses risquent de tomber dans ce que l’on a nommé la « vallée de l’étrange 3 » : les gens se sentent généralement mal à l’aise, ou même profondément perturbés, lorsqu’ils rencontrent des créatures très semblables aux êtres humains mais pas assez semblables. Les robots (ou les avatars à l’écran) qui ont des visages pas tout à fait humains peuvent donc être considérés comme une menace. On peut se demander s’il est éthique d’offrir une telle quasi-compagne à des personnes émotionnellement démunies (cf. chapitre 7). Il est vrai que certains systèmes interactifs homme-machine (par exemple Paro) semblent procurer du plaisir, et même un contentement durable, à des personnes dont la vie semble autrement vide. Mais est-ce suffisant ? Les modèles « compagnons-IA » n’intègre guère de profondeur théorique. Les aspects émotionnels des compagnons de l’IA sont développés à des fins commerciales. Il n’y a aucune tentative de les faire utiliser les émotions pour résoudre leurs propres problèmes, ni de mettre en lumière le rôle que les émotions jouent dans le fonctionnement de l’esprit dans 3. « The uncanny valley ». La vallée de l’étrange est une théorie du roboticien japonais Mori Mashiro, publiée pour la première fois en 1970, selon laquelle plus un robot androïde est similaire à un être humain, plus ses imperfections nous paraissent monstrueuses
86
Langage, créativité et émotions
son ensemble. C’est comme si les émotions étaient considérées par ces chercheurs en IA comme des options facultatives à ne pas prendre en compte, à moins que, dans un contexte humain désordonné, elles ne soient inévitables. Cette attitude dédaigneuse était répandue en IA jusqu’à une date relativement récente. Même les travaux de Rosalind Picard sur l’« informatique affective », qui a permis de faire « revenir des émotions du froid » à la fin des années 1990, ne les ont pas analysées en profondeur. L’une des raisons pour lesquelles l’IA a ignoré les émotions (et les remarques perspicaces de Simon à ce sujet) pendant si longtemps est que la plupart des psychologues et des philosophes l’ont fait aussi. En d’autres termes, ils n’ont pas considéré l’intelligence comme quelque chose qui requiert de l’émotion. Au contraire, on supposait que l’affect perturbait la résolution des problèmes et la rationalité. L’idée que l’émotion peut aider à décider quoi faire et comment le faire au mieux n’était pas à la mode. L’émotion a fini par prendre de l’importance, en partie grâce aux développements de la psychologie clinique et des neurosciences. Mais son entrée dans l’IA est également due à deux scientifiques de l’IA, Marvin Minsky et Aaron Sloman, qui ont longtemps considéré l’esprit comme un tout, plutôt que de se cantonner – comme la plupart de leurs collègues – dans un minuscule coin de notre mentalité. Par exemple, le projet en cours CogAff de Sloman se concentre sur le rôle de l’émotion dans l’architecture informatique de l’esprit. CogAff a influencé le modèle de conscience LIDA, publié en 2011 et toujours en cours d’extension (cf. chapitre 6). Il a également inspiré le programme MINDER, initié par le groupe de Sloman à la fin des années 1990. MINDER simule (les aspects fonctionnels de) l’anxiété qui survient chez une nourrice, laissée seule à s’occuper de plusieurs bébés. Il n’a que quelques tâches : les nourrir, essayer de les empêcher de tomber, et les emmener au poste de premiers secours s’ils y tombent. Et elle n’a que quelques motifs (objectifs) : nourrir un bébé ; mettre un bébé derrière une clôture de protection, s’il en existe déjà une ; sortir un bébé d’un pour les premiers soins ; construire une clôture ; déplacer un bébé à une 87
L’intelligence artificielle
distance sûre d’un danger ; et, si aucun autre motif n’est actuellement activé, de se promener dans la nurserie. Le programme est donc largement plus simple qu’une vraie nourrice (bien que plus complexe qu’un programme de planification typique, qui n’a qu’un seul but final). Néanmoins, il est sujet à des perturbations émotionnelles comparables à divers types d’anxiété. La nourrice simulée doit réagir de manière appropriée aux signaux visuels de son environnement. Certains de ces signaux déclenchent (ou influencent) des objectifs plus urgents que d’autres : un bébé qui rampe vers un danger a besoin de son attention plus tôt qu’un bébé simplement affamé, et celui qui est sur le point de tomber en a besoin plus tôt encore. Mais même les objectifs « mis en veilleuse » peuvent être traités à terme, et leur degré d’urgence peut augmenter avec le temps. Ainsi, un bébé affamé peut être remis dans son lit si un autre bébé se trouve près du danger ; mais le bébé qui a attendu le plus longtemps devra être nourri avant celui qui l’a été plus récemment. En un mot, les tâches de la nourrice peuvent parfois être interrompues, quitte à être soit abandonnées, soit mises en attente. C’est à MINDER que revient la tâche de décider quelles sont les priorités du moment. Ces décisions doivent être prises tout au long de la session de veille et peuvent entraîner des changements de comportement répétés. Pratiquement aucune tâche ne peut être accomplie sans interruption, car l’environnement (les bébés) impose au système de nombreuses exigences contradictoires et en constante évolution. Comme pour une vraie nourrice, les angoisses augmentent, et les performances professionnelles se dégradent, avec une augmentation du nombre de bébés – chacun d’entre eux étant un agent autonome imprévisible. Néanmoins, l’anxiété est utile, car elle permet à la nourrice de s’occuper des bébés avec succès. Avec succès, mais pas sans heurts : le calme et l’anxiété sont aux antipodes l’un de l’autre. Le programme MINDER indique certaines façons dont les émotions peuvent contrôler le comportement, en programmant intelligemment des motifs concurrents. Une nourrice humaine, sans aucun doute, 88
Langage, créativité et émotions
é prouvera divers types d’anxiété à mesure que sa situation évoluera. Mais le fait est que les émotions ne sont pas seulement faites de sentiments. Elles impliquent une conscience fonctionnelle, mais aussi phénoménale (cf. chapitre 6). Plus précisément, ce sont des mécanismes de calcul qui nous permettent de programmer des motifs concurrents – et sans lesquels nous ne pourrions pas fonctionner. Ainsi, le M. Spock sans émotion de Star Trek est une impossibilité évolutive. Si nous voulons un jour atteindre une AI vraiment Générale, AGI, des émotions telles que l’anxiété devront être incluses – et utilisées.
89
4 Les réseaux de neurones artificiels Les réseaux de neurones artificiels (RNA) sont constitués de nombreuses unités interconnectées, chacune d’entre elles étant capable de calculer une seule chose. Décrits de cette façon, cela peut paraître ennuyeux et dans le même temps, quasi-magique. Ils ont certainement ensorcelé les journalistes. Les perceptrons de Frank Rosenblatt – des machines photoélectriques – ont appris à reconnaître les lettres sans être explicitement formés pour cela et ont été décrits en termes ronflants et avec enthousiasme dans les journaux des années 1960. Les RNA ont fait beaucoup de bruit au milieu des années 1980 et sont encore régulièrement salués dans les médias. Le plus récent battage médiatique lié aux RNA concerne l’apprentissage profond (deep learning). Les RNA ont une myriade d’applications, allant de la participation à la Bourse et de la surveillance des fluctuations monétaires à la reconnaissance de la parole ou des visages. Mais c’est leur mode de fonctionnement qui intrigue tant. Une petite poignée des RNA fonctionnent sur du matériel spécifiquement parallèle – ou même sur un mélange matériel/matériel, combinant de vrais neurones avec des circuits en silicium. Mais en général, le réseau est simulé par une machine de von Neumann. Autrement dit, les RNA sont des machines virtuelles à traitement parallèle mises en œuvre sur des ordinateurs classiques (cf. chapitre 1). Ils sont intrigants en partie parce que très différents des machines virtuelles de l’IA symbolique. Les instructions séquentielles sont remplacées par un parallélisme massif, le contrôle descendant par un traitement 91
L’intelligence artificielle
ascendant, et la logique par la probabilité. Et la dynamique, continuellement changeante des RNA contraste fortement avec les programmes symboliques. De plus, de nombreux réseaux ont la curieuse propriété, un peu étrange d’ailleurs, de s’auto-organiser à partir d’un départ aléatoire. (Les perceptrons des années 1960 possédaient cette caractéristique aussi, d’où leur grande notoriété.) Le système commence avec une architecture aléatoire (des poids aléatoires et connexions), et s’adapte progressivement pour accomplir la tâche demandée. Les réseaux de neurones présentent de nombreux atouts et ont ajouté des capacités de calcul importantes à l’IA. Néanmoins, ils montrent également des faiblesses. Ils ne peuvent donc pas fournir l’IA vraiment générale envisagée au chapitre 2. Par exemple, bien que certains RNA puissent faire de l’inférence approximative, ou du raisonnement, ils ne peuvent pas représenter la précision aussi bien que l’IA symbolique. (Q : Qu’est-ce que 2 + 2 ? R : très probablement 4. Vraiment ? La hiérarchie, elle aussi, est plus difficile à modéliser dans les RNA. Certains réseaux (récurrents) peuvent utiliser des réseaux en interaction pour représenter la hiérarchie – mais seulement dans une certaine mesure. Grâce à l’enthousiasme actuel pour l’apprentissage profond, les réseaux de neurones sont moins rares aujourd’hui qu’ils ne l’étaient auparavant. Cependant, ils sont encore relativement simplistes. Le cerveau humain doit comprendre d’innombrables réseaux, à de nombreux niveaux différents, qui interagissent de manière très complexe. En bref, l’AGI est encore loin de devenir une réalité. LES IMPLICATIONS PLUS LARGES DES RNA
Les RNA représentent un triomphe de l’IA considérée comme une science informatique. Mais leurs implications théoriques vont beaucoup plus loin. En raison de certaines similitudes générales avec les concepts et la mémoire humaine, les RNA intéressent autant les neuroscientifiques que les psychologues et les philosophes. 92
Les réseaux de neurones artificiels
L’intérêt des neurosciences n’est pas nouveau. En effet, les perceptrons pionniers ont été conçus par Rosenblatt non pas comme une source de gadgets pratiques, mais comme une théorie neuropsychologique. Les réseaux actuels et malgré leurs nombreuses différences avec le cerveau, sont importants dans le domaine des neurosciences computationnelles. Les psychologues aussi s’intéressent aux RNA, et les philosophes leur emboîtent le pas. Par exemple, un exemple du milieu des années 1980 a fait fureur bien au-delà des rangs des professionnels de l’IA. Ce réseau a apparemment appris à utiliser le passé grammatical des verbes comme le font les enfants, en commençant par ne pas faire d’erreurs, puis en « régularisant à l’excès » – de sorte que le verbe aller, infinitif et passé simple (to go/went) deviennent (to go/goed) – avant de parvenir à une utilisation correcte des verbes réguliers et irréguliers. Cela a été possible parce que les données qui lui ont été fournies reflétaient les probabilités changeantes des mots généralement entendus par un enfant : le réseau n’appliquait pas de règles grammaticales innées. C’était important car la plupart des psychologues (et de nombreux philosophes) de l’époque avaient accepté les affirmations de Noam Chomsky selon lesquelles les enfants devaient se fier à des règles linguistiques innées pour apprendre la grammaire, et que les sur-régularisations infantiles étaient la preuve irréfutable de la mise en œuvre de ces règles. Le réseau des « temps au passé » a prouvé qu’aucune de ces affirmations n’est vraie (cela ne démontre pas, bien sûr, que les enfants ne possèdent pas de règles innées, simplement qu’ils n’ont pas besoin d’en avoir). Un autre exemple très intéressant, inspiré à l’origine par la psychologie du développement, est la recherche sur les « trajectoires de représentation ». Ici (comme dans l’apprentissage profond), les données d’entrée initialement jugées déroutantes sont recodées sur des niveaux successifs, de sorte que des régularités moins évidentes sont saisies en plus des plus importantes, ce qui concerne non seulement le développement de l’enfant, mais aussi les débats psychologiques et philosophiques sur l’apprentissage inductif. En effet, cela montre que des attentes préalables (structure de calcul) sont nécessaires pour apprendre des modèles cachés 93
L’intelligence artificielle
dans les données d’entrée, et qu’il existe des contraintes inévitables sur l’ordre dans lequel les différents modèles sont appris. En bref, cette méthodologie d’IA est théoriquement intéressante à bien des égards, tout en étant extrêmement importante sur le plan commercial. LE TRAITEMENT DISTRIBUÉ ET PARALLÈLE DE DONNÉES (TDP)
Une catégorie de RNA en particulier attire énormément l’attention, ceux qui font des TDP. En effet, lorsque les gens parlent de réseaux de neurones ou de « connexionnisme » (un terme moins souvent utilisé aujourd’hui), généralement ils veulent dire TDP. En raison de leur mode de fonctionnement, les réseaux TDP partagent quatre grands atouts. Ceux-ci concernent à la fois les applications technologiques et la psychologie théorique (et aussi la philosophie afférente à l’esprit). Le premier atout est leur capacité à apprendre des modèles, et des associations entre modèles, au moyen d’exemples au lieu d’être explicitement programmés. Le deuxième atout est leur tolérance à l’égard des preuves désordonnées. Ils peuvent se satisfaire de contraintes, en donnant un sens à des preuves partiellement contradictoires. Ils n’exigent pas de définitions rigoureuses, exprimées sous forme de listes de conditions nécessaires et suffisantes. Elles traitent plutôt d’ensembles de ressemblances familiales qui se chevauchent – une caractéristique que l’on trouve également dans les concepts humains. Une autre force est leur capacité à reconnaître des modèles incomplets et/ou partiellement endommagés. C’est-à-dire qu’ils ont une mémoire adressable par le contenu. Les gens aussi, pensez, par exemple, à comment on identifie une mélodie dès les premières notes. Et quatrièmement, ils sont robustes. Un réseau TDP dont certains nœuds sont manquants ne débite pas de bêtises, ni ne s’arrête. Il montre 94
Les réseaux de neurones artificiels
« une dégradation gracieuse », dans laquelle les performances s’aggravent graduellement à mesure que les dommages augmentent. Ils ne sont donc pas fragiles, comme le sont les programmes symboliques. Ces avantages résultent du D dans TDP. Tous les RNA n’impliquent pas un traitement distribué. Dans les réseaux locaux (tels que WordNet, cf. chapitre 2), les concepts sont représentés par des nœuds uniques. Dans les réseaux distribués, un concept est stocké à travers (c’est-à-dire distribué sur) l’ensemble du système. Les traitements distribués locaux sont parfois combinés, mais c’est rare. Les réseaux purement locaux sont plutôt rares, car ils ne bénéficient pas des principaux atouts du TDP. On pourrait dire que les réseaux distribués sont locaux à la base, car chaque unité correspond à une micro-caractéristique unique – par exemple, une minuscule tache de couleur, à un endroit particulier du champ visuel. Mais ils sont définis à un niveau bien inférieur à celui des concepts : le TDP implique un calcul « sub-symbolique ». En outre, chaque unité peut faire partie de nombreux modèles globaux différents, ce qui contribue à de nombreuses « significations » différentes. Il existe de nombreux types de systèmes TDP. Ils sont tous constitués de trois couches (ou plus) d’unités interconnectées, chacune ne pouvant calculer qu’une seule chose simple. Mais les unités sont différentes les unes des autres. Une unité de la couche d’entrée se déclenche chaque fois que sa micro-caractéristique est présentée et détectée dans le réseau. Une unité de la couche de sortie s’allume lorsqu’elle est déclenchée par les unités qui lui sont connectées, et son activité est communiquée à l’utilisateur humain. Les unités cachées, dans la ou les couches intermédiaires, n’ont pas de contact direct avec le monde extérieur. Certaines sont déterministes : elles s’allument ou ne s’allument pas, en fonction uniquement des influences de leurs connexions. D’autres sont stochastiques : le fait qu’elles s’allument ou pas dépend en partie d’une certaine distribution de probabilité. Les connexions diffèrent également. Certaines sont de type à propagation avant, c’est-à-dire qu’elles font passer les signaux d’une couche inférieure à une couche supérieure. D’autres envoient des signaux de 95
L’intelligence artificielle
retour, c’est-à-dire dans la direction opposée. D’autres sont latérales, reliant des unités au sein d’une même couche. Et d’autres, comme nous le verrons, font à la fois de la propagation avant et de la rétroaction. Comme les synapses du cerveau, les connexions sont soit excitatrices, soit inhibitrices. Et elles varient en force, ou en poids. Les poids sont exprimés par des nombres entre +1 et -1. Plus le poids d’une liaison excitatrice (ou inhibitrice) est élevé, plus la probabilité que l’unité qui reçoit le signal s’allume est grande (ou faible). Le TDP implique une représentation distribuée, car chaque concept est représenté par l’état de l’ensemble du réseau. Cela peut paraître déroutant, voire paradoxal. C’est certainement très différent de la façon dont les représentations sont définies dans l’IA symbolique. Les personnes qui ne s’intéressent qu’aux applications technologiques/commerciales ne s’intéressent pas à cela. Si elles sont convaincues que certaines questions évidentes – comme la manière dont un seul réseau peut stocker plusieurs concepts ou modèles différents – ne posent pas de problème dans la pratique, elles sont heureuses de s’en tenir là. Les personnes concernées par les implications psychologiques et philosophiques de l’IA posent aussi cette « question qui va de soi ». La réponse est que les états globaux possibles d’un réseau TDP sont si différents les uns des autres que seuls quelques-uns impliqueront une activation simultanée dans telle ou telle dispersion d’unités. Une unité activée n’étendra l’activation qu’à quelques autres unités seulement. Cependant, ces autres unités varient, une unité donnée peut contribuer à de nombreux modèles d’activation différents. (En général, les représentations « éparses », avec de nombreuses unités non activées, sont plus efficaces). Le système finira par se saturer, la recherche théorique sur les mémoires associatives va demander combien de modèles peuvent, en principe, être stockés par des réseaux d’une certaine taille. Mais ceux qui sont concernés par des aspects psychologiques et philosophiques ne sont pas heureux d’en rester là. Ils s’intéressent aussi au concept de représentation lui-même, et dans les débats sur la question de savoir si l’esprit/le cerveau humain contient effective 96
Les réseaux de neurones artificiels
ment des représentations internes. Les adeptes du TDP soutiennent, par exemple, que cette approche réfute l’hypothèse du Physical Symbol System, qui a pris naissance dans l’IA symbolique et s’est rapidement répandu dans la philosophie de l’esprit (cf. chapitre 6). L’APPRENTISSAGE DANS LES RÉSEAUX DE NEURONES
La plupart des ARN peuvent apprendre. Cela implique de modifier de manière adaptative les poids, et parfois aussi les connexions. Ordinairement, l’anatomie du réseau – le nombre d’unités et les liens entre elles – est fixe. Si c’est le cas, l’apprentissage ne modifie que les poids. Mais, parfois, l’apprentissage – ou l’évolution (cf. chapitre 5) – peut ajouter de nouveaux liens et élaguer les anciens. Les réseaux constructifs poussent cela à l’extrême, ils commencent sans aucune unité cachée, puis les ajoutent au fur et à mesure de l’apprentissage. Les réseaux TDP peuvent apprendre de nombreuses manières différentes et illustrent tous les types distingués au chapitre 2 : apprentissage supervisé, non supervisé et renforcement. Dans l’apprentissage supervisé, par exemple, ils reconnaissent une classe en lui montrant divers exemples, dont aucun ne doit posséder toutes les caractéristiques « typiques ». (Les données d’entrée peuvent être des images visuelles, des descriptions verbales, des séries de chiffres.) Lorsqu’un exemple est présenté, certaines unités d’entrée répondent à « leurs » micro-caractéristiques, et les différentes activations se répandent jusqu’à ce que le réseau se stabilise. L’état résultant des unités de sortie est alors comparé à la sortie souhaitée (identifiée par l’utilisateur humain), et d’autres changements de poids sont initiés (peut-être par rétrogradation) afin de rendre ces erreurs moins probables. Après avoir analysé de nombreux exemples, légèrement différents les uns des autres, le réseau aura développé un modèle d’activation qui correspond au cas typique, ou « prototype », même si aucun cas de ce type n’a été rencontré. (Si un exemple endommagé est maintenant présenté, stimulant beaucoup moins d’unités d’entrée pertinentes, ce modèle sera complété automatiquement.) 97
L’intelligence artificielle
La majeure partie de l’apprentissage de l’RNA est basée sur la règle « allumez ensemble, câblez ensemble » [fire together, wire together, en acronyme ft/wt], énoncée dans les années 1940 par le neuropsychologue Donald Hebb. L’apprentissage hebbien renforce les connexions utilisées fréquemment. Lorsque deux unités liées sont activées simultanément, les poids sont ajustés pour rendre cela plus probable à l’avenir. Hebb a exprimé la règle dite du ft/wt de deux manières, qui n’étaient ni précises ni équivalentes. Aujourd’hui, les chercheurs en IA la définissent de nombreuses manières différentes, se basant parfois sur des équations différentielles tirées de la physique ou sur la théorie des probabilités bayésiennes. Ils utilisent des méthodes d’analyse pour comparer et améliorer les différentes versions. Ainsi, la recherche sur le TDP peut s’avérer « diaboliquement » mathématique. Étant donné qu’un réseau TDP utilise une règle d’apprentissage hebbien pour adapter ses poids, on peut se demander quand il s’arrêtera. La réponse n’est pas quand il a atteint la perfection (toutes les incohérences éliminées), mais quand il a atteint une cohérence maximale. Une incohérence se produit, par exemple, lorsque deux micro-caractéristiques – qui ne sont généralement pas présentes ensemble – sont signalées simultanément par les unités concernées. De nombreux programmes d’IA symbolique peuvent satisfaire les contraintes, en approchant la solution par l’élimination, chemin faisant, des contradictions entre les preuves. Mais ils ne tolèrent pas l’incohérence comme faisant partie de la solution. Les systèmes TDP sont différents. Comme le montrent les points forts des TDP énumérés plus haut, ils peuvent fonctionner avec succès même si des divergences persistent. Leur « solution » est l’état général du réseau lorsque les incohérences ont été réduites au minimum, mais non effacées. Une façon d’y parvenir est d’emprunter l’idée d’équilibre à la thermodynamique. Les niveaux d’énergie en physique sont exprimés numériquement, tout comme les poids dans l’approche du TDP. Si la règle d’apprentissage est parallèle aux lois physiques (et si les unités cachées sont stochastiques), les mêmes équations statistiques de Boltzmann peuvent décrire les changements dans les deux cas. 98
Les réseaux de neurones artificiels
Le TDP peut même emprunter la méthode utilisée pour refroidir des métaux rapidement mais uniformément. Le recuit commence à une température élevée et le matériau se refroidit progressivement. Les chercheurs du TDP utilisent parfois le recuit simulé, où les changements de poids dans les premiers cycles d’équilibrage sont beaucoup plus importants que ceux des cycles ultérieurs. Cela permet au réseau d’échapper à des situations (« minima locaux ») où la cohérence globale a été atteinte par rapport à ce qui s’est passé auparavant, mais où une cohérence encore plus grande (et un équilibre plus stable) pourrait être atteinte si le système était perturbé. Vous pouvez comparer avec l’acte de secouer un sac de billes, pour déloger celles des billes qui reposeraient sur une crête interne : il faut commencer par secouer vigoureusement, mais terminer en secouant doucement. Un moyen plus rapide – et plus largement utilisé – d’obtenir une cohérence maximale est d’utiliser la rétropropagation de gradient. Mais quelle que soit la règle d’apprentissage utilisée, l’état de l’ensemble du réseau (et surtout des unités de sortie), à l’équilibre, est considéré comme la représentation du concept concerné. LA RÉTROPROPAGATION DE GRADIENT ET LES CERVEAUX – L’APPRENTISSAGE PROFOND
Les adeptes du TDP affirment que leurs réseaux sont biologiquement plus réalistes que ceux de l’IA symbolique. Il est vrai que le TDP s’inspire du fonctionnement du cerveau, et que certains neuroscientifiques l’utilisent pour modéliser celui des neurones. Cependant, les RNA diffèrent considérablement de ce qui se trouve dans notre tête. L’une des différences entre les RNA et le cerveau (la plupart) est la rétropropagation. Il s’agit d’une règle d’apprentissage – ou plutôt d’une catégorie générale de règles d’apprentissage – qui est fréquemment utilisée dans le TDP. Anticipée par Paul Werbos en 1974, elle a été définie de manière plus commode par Geoffrey Hinton au début des années 1980. Elle résout le problème de l’attribution de crédits. 99
L’intelligence artificielle
Ce problème se pose pour tous les types d’IA, surtout lorsque le système est en constante évolution. Dans un système d’IA complexe qui fonctionne bien, quelles sont les parties qui sont les plus responsables de son succès ? Dans l’IA évolutive, les crédits sont souvent attribués par l’algorithme dit du « seau à jetons » (cf. chapitre 5). Dans les systèmes TDP avec des unités déterministes (non stochastiques), le crédit est généralement attribué par une rétropropagation. L’algorithme de rétropropagation trace la responsabilité de la couche de sortie vers les couches cachées, en identifiant les unités individuelles qui doivent être adaptées. (Les poids sont mis à jour pour minimiser les erreurs de prédiction.) L’algorithme a besoin de connaître l’état précis de la couche de sortie lorsque le réseau donne la bonne réponse. (Ainsi, la rétropropagation peut en fait être assimilé à un apprentissage supervisé.) Des comparaisons unité par unité sont effectuées entre cette sortie exemplaire et la sortie réellement obtenue du réseau. Toute différence entre l’activité d’une unité de sortie dans les deux cas est considérée comme une erreur. L’algorithme suppose que l’erreur dans une unité de sortie est due à une ou à plusieurs erreurs dans les unités qui lui sont connectées. En travaillant à rebours dans le système, il attribue une quantité d’erreur spécifique à chaque unité de la première couche cachée, en fonction du poids de la connexion entre elle et l’unité de sortie. L’« erreur blâmable » est partagée entre toutes les unités cachées connectées à l’unité de sortie erronée. Si une unité cachée est liée à plusieurs unités de sortie, ses mini-couacs s’additionnent. Des changements de poids proportionnels sont ensuite apportés aux connexions entre la couche cachée et la couche précédente. Cette couche peut être une autre (et une autre) strate d’unités cachées. Mais en fin de compte, il s’agira de la couche d’entrée, et les changements de poids s’arrêteront. Ce processus est répété jusqu’à ce que les écarts au niveau de la couche de sortie soient minimisés. Pendant de nombreuses années, la rétropropagation n’a été utilisée que sur les réseaux ayant une couche cachée. Les réseaux multicouches 100
Les réseaux de neurones artificiels
étaient rares : ils sont difficiles à analyser, et même à expérimenter. Récemment, cependant, ils ont suscité un énorme engouement – et, pour tout dire, un certain battage irresponsable – par l’avènement de l’apprentissage profond. Ici, un système apprend une structure qui s’étend en profondeur dans un domaine, par opposition à de simples modèles superficiels. En d’autres termes, il découvre une représentation de la connaissance à plusieurs niveaux, et non à un seul niveau. L’apprentissage profond est passionnant car il promet de permettre aux RNA de traiter enfin de la hiérarchie. Depuis le début des années 1980, des connexionnistes comme Geoffrey Hinton et Jeffrey Elman ont eu du mal à représenter la hiérarchie en combinant la représentation locale et la représentation distribuée, ou en définissant des réseaux récurrents. Les réseaux récurrents, en effet, fonctionnent comme une séquence d’étapes discrètes. Des versions récentes, utilisant un apprentissage profond, peut parfois prédire le mot suivant dans une phrase, ou même la prochaine « pensée » dans un paragraphe. Mais ils ont eu un succès limité (et les RNA ne sont toujours pas adaptés à la représentation de hiérarchies définies avec précision ou au raisonnement déductif). L’apprentissage profond a également été initié dans les années 1980 (par Jurgen Schmidhuber). Mais le domaine a vraiment décollé bien plus récemment, lorsque Hinton a fourni une méthode efficace permettant aux réseaux multicouches de découvrir des relations à de nombreux niveaux. Ses systèmes d’apprentissage profond sont constitués de machines Boltzmann « restreintes » (sans connexions latérales) sur une demi-douzaine de couches. Tout d’abord, les couches effectuent un apprentissage non supervisé. Elles sont formées l’une après l’autre, à l’aide d’un recuit simulé. La sortie d’une couche est utilisée comme entrée pour la suivante. Lorsque la dernière couche s’est stabilisée, l’ensemble du système est affiné par la rétropropagation, en passant par tous les niveaux pour attribuer les crédits de manière appropriée. Cette approche de l’apprentissage est intéressante aussi pour les spécialistes des neurosciences cognitives, ainsi que pour les technologues de l’IA. En effet, elle spécifie des « modèles générateurs » qui apprennent 101
L’intelligence artificielle
à prédire les causes (les plus probables) des entrées dans le réseau, fournissant ainsi un modèle de ce que Helmholtz a appelé en 1867 « la perception comme une inférence inconsciente ». En d’autres termes, la perception ne consiste pas à recevoir passivement les données des organes sensoriels. Elle implique une interprétation active, et même une prédiction anticipée, de cette entrée. En résumé, la combinaison œil/ cerveau n’est pas une caméra. Hinton a rejoint Google en 2013, donc la rétropropagation y sera bien mise en œuvre. Google utilise déjà l’apprentissage profond dans de nombreuses applications, notamment la reconnaissance vocale et le traitement des images. De plus, en 2014, Google a acheté DeepMind, dont l’algorithme DQN maîtrise les jeux classiques d’Atari en combinant l’apprentissage profond et l’apprentissage par renforcement et dont le programme AlphaGo a battu le champion du monde en 2016 (cf. chapitre 2). IBM privilégie également l’apprentissage profond. WATSON® l’utilise, et il est « emprunté » pour certaines applications spécialisées pour hommes (cf. chapitre 3). Cependant, si l’apprentissage profond est indéniablement utile, cela ne signifie pas qu’il est bien compris. De nombreuses règles d’apprentissage multicouches différentes sont actuellement explorées expérimentalement, mais l’analyse théorique reste confuse. Parmi les innombrables questions sans réponse, il y a celle de savoir si la profondeur est suffisante pour obtenir une performance quasi-humaine. L’unité de la face du chat mentionnée au chapitre 2 résulte d’un système à neuf couches. Le système visuel humain, par exemple, a sept niveaux anatomiques : mais combien sont ajoutés par des calculs dans le cortex cérébral ? Puisque les RNA sont inspirés par le cerveau (un point constamment souligné dans le battage médiatique en faveur de l’apprentissage profond), cette question est naturelle. Mais elle n’est pas aussi pertinente qu’il n’y paraît. La rétropropagation est un triomphe du calcul sur ordinateur. Mais il est hautement non biologique. Aucune « cellule de grand-mère » de la face de chat dans le cerveau (cf. chapitre 2) ne pourrait résulter de processus comme ceux de l’apprentissage profond. Les synapses réelles ne font que 102
Les réseaux de neurones artificiels
s’alimenter, elles ne transmettent pas dans les deux sens. Les cerveaux contiennent des connexions de rétroaction dans différentes directions, mais chacune est strictement unidirectionnelle. Ce n’est là qu’une des nombreuses différences entre les réseaux de neurones réels et artificiels. Une autre est que les réseaux cérébraux ne sont pas organisés selon des hiérarchies strictes – même si le système visuel est souvent décrit de cette façon. Le fait que les cerveaux contiennent à la fois des connexions vers l’avant et vers l’arrière est crucial pour les modèles de codage prédictif du contrôle sensorimoteur, qui suscitent une grande excitation dans le domaine des neurosciences. Ces modèles sont eux aussi largement basés sur les travaux de Hinton. Les niveaux de neurones élevés envoient des messages vers le bas, prédisant les signaux entrants des capteurs et seuls les messages d’« erreur » imprévus sont envoyés vers le haut. Des cycles répétés de ce type permettent d’affiner les réseaux de prédiction, afin qu’ils apprennent progressivement ce à quoi ils doivent s’attendre. Les chercheurs parlent d’un « cerveau bayésien », car les prédictions peuvent être interprétées en termes de statistiques bayésiennes et, dans les modèles informatiques, elles sont en fait basées sur ces statistiques (cf. chapitre 2). Par rapport au cerveau, les RNA sont trop nets, trop simples, trop peu nombreux et trop « secs ». Trop nets, puisque les réseaux construits par l’homme donnent une priorité à l’élégance de la preuve et à la puissance mathématiques, alors que les cerveaux biologiquement évolués ne le font pas. Trop simple, parce qu’un seul neurone – dont il existe une trentaine de types différents – est aussi complexe sur le plan informatique qu’un système TDP complet, ou même qu’un petit ordinateur. Trop peu, parce que même les RNA comprenant des millions d’unités sont minuscules par rapport aux cerveaux humains (cf. chapitre 7). Et trop « secs », parce que les chercheurs en RNA ignorent généralement non seulement les facteurs temporels tels que les fréquences et les synchronisations des pics neuronaux, mais aussi la biophysique des épines dendritiques, les neuro-modulateurs, les courants synaptiques et le passage des ions. 103
L’intelligence artificielle
Chacun de ces défauts s’estompe avec le temps. La puissance accrue des ordinateurs permet aux RNA de comprendre beaucoup plus d’unités individuelles. Des modèles beaucoup plus détaillés de neurones individuels sont en cours de construction, qui traitent déjà les fonctions de calcul de tous les facteurs neurologiques que nous venons de mentionner. La « sécheresse » diminue même dans la réalité, ainsi qu’en simulation (certaines recherches « neuromorphes » combinent des neurones vivants avec des puces de silicium). Et de même que l’algorithme DQN (réseaux Deep-Q) simule des processus dans le cortex visuel et l’hippocampe (cf. chapitre 2), les futurs RNA emprunteront sans doute d’autres fonctions aux neurosciences. Il n’en reste pas moins vrai que les RNA sont différents des cerveaux biologiques à bien des égards importants – dont certains ne sont pas encore connus. LE SCANDALE DES RÉSEAUX
L’enthousiasme suscité par l’arrivée de TDP était dû en grande partie au fait que les RNA (compris dans la connotation du terme « connexionnisme ») avaient été déclarés sans issue vingt ans plus tôt. Comme indiqué au chapitre 1, ce jugement avait été rendu dans une critique sauvage des années 1960 formulée par Marvin Minsky et Seymour Papert, qui avaient tous les deux une excellente réputation au sein de la communauté AI. Dans les années 1980, les RNA semblaient être non seulement moribonds et dans une impasse, mais en fait, ils étaient « morts ». En effet, la cybernétique en général avait été marginalisée (cf. chapitre 1). La quasi-totalité du financement de la recherche s’était plutôt tournée vers l’IA symbolique. Certains des premiers RNA avaient semblé extrêmement prometteurs. Les perceptions auto-organisées de Rosenblatt – souvent observées par des journalistes médusés – pouvaient apprendre à reconnaître des modèles même s’ils partaient d’un état aléatoire. Rosenblatt avait fait des déclarations extrêmement ambitieuses, couvrant toute la 104
Les réseaux de neurones artificiels
psychologie humaine, sur le potentiel de son approche. Il avait souligné certaines limites, pour être sûr. Mais son intrigante « preuve de convergence » garantissait que les simples percepteurs peuvent apprendre à faire tout ce qu’il est possible de leur programmer. C’était du solide. Mais Minsky et Papert, à la fin des années 1960, ont fourni leurs propres preuves. Ils ont montré mathématiquement que les simples perceptrons ne peuvent pas faire certaines choses auxquelles on s’attendrait intuitivement ou capables de faire (et que la GOFAI pourrait faire facilement). Leurs preuves, comme le théorème de convergence de Rosenblatt, ne s’appliquaient qu’aux réseaux monocouches. Mais leur « jugement intuitif » énonçait que les systèmes multicouches seraient vaincus par l’explosion combinatoire. En d’autres termes, les perceptrons ne pourraient pas suivre la progression. La plupart des scientifiques de l’IA étaient persuadés que le connexionnisme ne pourrait jamais réussir. Quelques personnes ont néanmoins poursuivi les recherches sur les RNA, si bien que des progrès très significatifs ont été réalisés dans l’analyse de la mémoire associative (voir les travaux de Christopher Longuet-Higgins et de David Willshaw, et plus tard de James Anderson, Teuvo Kohonen et John Hopfield). Mais ce travail restait caché, invisible et dans l’ombre. Les groupes concernés ne se sont pas identifiés comme des chercheurs en « IA » et ont été généralement ignorés par ceux qui l’étaient. L’arrivée du TDP a battu à plates coutures ce scepticisme. Outre quelques modèles de fonctionnement impressionnants (comme celui de l’apprentissage des verbes au passé), deux nouveaux théorèmes de convergence sont apparus : l’un garantissant qu’un système TDP basé sur les équations de Boltzmann de la thermodynamique atteindrait l’équilibre (bien que peut-être après un très long moment), et l’autre prouvant qu’un réseau à trois couches peut en principe résoudre tout problème qui lui est présenté. (Avertissement : comme c’est également le cas dans l’IA symbolique, représenter un problème d’une manière qui peut être saisie à l’ordinateur est souvent la partie la plus difficile de l’exercice.) Naturellement, l’excitation a suivi l’annonce. Le consensus dans l’IA classique a été brisé. 105
L’intelligence artificielle
L’IA symbolique avait supposé que la pensée intuitive sans effort est exactement comme l’inférence consciente, mais sans la conscience. Or les chercheurs du TDP disaient qu’il s’agissait là de types de pensée fondamentalement différents. Les leaders du mouvement TDP (David Rumelhart, Jay McClelland, Donald Norman et Geoffrey Hinton) ont tous souligné que ces deux types de pensée sont essentiels à la psychologie humaine. Mais la propagande en faveur du TDP – et la réaction du grand public à celle-ci – impliquait que l’IA symbolique, considérée comme l’étude de l’esprit, était une pure perte de temps. Le ver avait bien croqué la pomme et s’en était allé. Le principal bailleur de fonds de l’IA, à savoir le ministère américain de la Défense (le DOD), a lui aussi fait demi-tour. Après une réunion d’urgence en 1988, il a admis que sa négligence antérieure des RNA n’était pas « méritée ». Aujourd’hui, la recherche du TDP est abondamment arrosée d’argent. Quant à Minsky et Papert, ils étaient impénitents. Dans la deuxième édition de leur livre anti-RNA, ils ont admis que « l’avenir des machines d’apprentissage en réseau [est] riche au-delà de tout ce que nous pouvons imaginer ». Cependant, ils ont insisté sur le fait que l’intelligence de haut niveau ne peut provenir du pur hasard, ni d’un système totalement non séquentiel. Par conséquent, le cerveau doit parfois agir comme un processeur en série, et l’IA humaine devra utiliser des systèmes hybrides. Ils ont protesté contre le fait que leur critique avait été le seul facteur conduisant les RNA dans leurs années d’errance. La puissance des ordinateurs avait été insuffisante, et ils ont nié avoir essayé de détourner l’argent de la recherche vers l’IA symbolique. Selon eux, « nous ne pensions pas que notre travail consistait à tuer Blanche-Neige ; nous le considérions comme un moyen pour la comprendre ». C’étaient des arguments scientifiques respectables mais leur critique initiale au vitriol ne pouvait être effacée. (Le texte du projet d’article était encore plus vénéneux, des collègues sympathiques les ont persuadés de l’édulcorer, de donner plus d’importance aux points scientifiques.) Il n’est pas surprenant qu’elle ait suscité l’émotion. Les adeptes persévérants des 106
Les réseaux de neurones artificiels
RNA en voulaient profondément à leur nouvelle invisibilité culturelle. L’engouement furibard suscité par le TDP était encore plus grand. La « mort » et la renaissance des RNA impliquaient de la jalousie, de la rancune, de l’auto-agrandissement et une jubilation non dissimulée dans le style : « On vous l’avait dit ! » Cet épisode fournit un excellent exemple de scandale scientifique – et pas le seul à survenir dans le domaine de l’IA. Les désaccords théoriques étaient mêlés à des émotions personnelles et à des rivalités, et la pensée désintéressée y était rare. Des insultes amères ont été lancées, et la presse aussi. L’IA n’est pas sans passion. LES CONNEXIONS DU RÉSEAU – CELA N’EXPLIQUE PAS TOUT
La plupart des comptes rendus sur les RNA impliquent que la seule chose importante sur un réseau neuronal est son anatomie. Quelles unités sont liées à quelles autres, et quelle est la force des poids ? Il est certain que ces questions sont cruciales. Cependant, les récentes découvertes en neurosciences ont montré que les circuits biologiques peuvent parfois altérer leurs fonctions de calcul (et non pas seulement la rendre plus ou moins probable), en raison des substances chimiques se diffusant dans le cerveau. Le protoxyde d’azote (NO), par exemple, se diffuse dans toutes les directions, et ses effets – qui dépendent de la concentration aux points pertinents – durent jusqu’à sa désintégration. (La vitesse de décomposition peut être modifiée par des enzymes.) Le NO agit donc sur toutes les cellules d’un volume donné du cortex, qu’elles soient ou non reliées entre elles par des synapses. La dynamique fonctionnelle des systèmes neuronaux concernés est très différente de celle des RNA « purs », car la signalisation de volume remplace la signalisation dite « point à point ». Des effets analogues ont été constatés pour le monoxyde de carbone (CO) et le sulfure d’hydrogène (H2S), ainsi que pour des molécules complexes telles que la sérotonine et la dopamine. 107
L’intelligence artificielle
Un sceptique de l’IA pourrait dire : « Tant pis pour les RNA ! » et « Il n’y a pas de chimie dans les ordinateur !! » ajoutant que « l’IA ne peut pas modéliser les humeurs ou les émotions, car celles-ci dépendent des hormones et des neuro-modulateurs ». Cette objection a été exprimée par le psychologue Ulric Neisser au début des années 1960, et quelques années plus tard par le philosophe John Haugeland dans sa critique influente du « cognitivisme ». Selon eux, l’IA peut modéliser le raisonnement, mais jamais l’affect. Cependant, ces découvertes neuroscientifiques ont inspiré certains chercheurs en IA à concevoir des RNA d’un type radicalement nouveau, où les liaisons n’expliquent pas tout. Dans les GasNets, certains nœuds dispersés dans le réseau peuvent libérer des gaz simulés. Ceux-ci sont diffusibles et modulent les propriétés intrinsèques d’autres nœuds et connexions de diverses manières, en fonction de la concentration. La taille du volume de diffusion est importante, tout comme l’est la forme de la source (modélisée comme une sphère creuse, et non comme une source ponctuelle). Ainsi, un nœud donné se comportera différemment à différents moments. Dans certaines conditions gazeuses, un nœud en affectera un autre bien qu’il n’y ait pas de liaison directe. C’est l’interaction entre le gaz et les connexions électriques au sein du système qui est cruciale. Et comme le gaz n’est émis qu’à certaines occasions, et qu’il se diffuse et se désintègre à des vitesses variables, on peut comprendre que cette interaction est dynamiquement complexe. La technologie GasNet a été utilisée, par exemple, pour développer et faire évoluer des « cerveaux » destinés aux robots autonomes. Les chercheurs ont découvert qu’un comportement spécifique pouvait impliquer deux sous-réseaux non connectés, qui travaillaient ensemble en raison des effets modulatoires. Ils ont également découvert qu’un détecteur d’orientation capable d’utiliser un triangle en carton comme aide à la navigation pouvait évoluer sous la forme de sous-réseaux partiellement non connectés. Pour ce faire, ils avaient auparavant développé un réseau entièrement connecté (cf. chapitre 5), mais la version « neuro-modulatoire » a évolué plus rapidement et a été plus efficace.
108
Les réseaux de neurones artificiels
Ainsi, certains chercheurs en RNA sont passés de la prise en compte de l’anatomie seule (connexions) à la reconnaissance de la neurochimie également. Il est désormais possible de simuler différentes règles d’apprentissage et leurs interactions temporelles en ayant à l’esprit la neuro-modulation. La neuro-modulation est un phénomène analogique, et non numérique. Il est important que les concentrations de molécules diffusantes varient constamment. De plus en plus, les chercheurs en IA (utilisant des microprocesseurs VLSI [Very Large Scale Integration] spéciales), conçoivent des réseaux qui combinent des fonctions analogiques et numériques. Les fonctions analogiques ont pour modèles de base l’anatomie et la physiologie des neurones biologiques, y compris le passage des ions à travers la membrane cellulaire. Ce type de calcul, dit « neuro-morphique » est utilisé, par exemple, pour simuler certains aspects de la perception et du contrôle moteur. Certains scientifiques de l’IA prévoient d’utiliser le calcul neuro-morphique dans le cadre de la modélisation du « cerveau entier » (cf. chapitre 7). D’autres vont encore plus loin. Au lieu de modéliser les RNA exclusivement in silico, ils construisent (ou font évoluer, cf. chapitre 5) des réseaux composés à la fois d’électrodes miniatures et de véritables neurones. Par exemple, lorsque les électrodes X et Y sont toutes deux stimulées artificiellement, l’activité qui en résulte dans le réseau « humide » [c’est-à-dire celui des neurones vivants] entraîne l’allumage d’une autre électrode, Z, qui met alors en œuvre une porte ET. Ce type de calcul (envisagé par Donald Mackay dans les années 1940) n’en est qu’à ses débuts. Mais il s’avère être potentiellement passionnant. LES SYSTÈMES HYBRIDES
Les réseaux analogiques/numériques et matériels/logiciels que nous venons d’évoquer peuvent naturellement être décrits comme des systèmes « hybrides ». Mais ce terme est généralement utilisé pour désigner les programmes d’IA qui englobent à la fois le traitement symbolique et le traitement connexionniste de l’information. 109
L’intelligence artificielle
Minsky, dans son manifeste de 1956, avait dit que ces programmes étaient probablement nécessaires, et quelques programmes symboliques anciens combinaient les traitements séquentiels et parallèles. Mais de telles tentatives étaient rares. Comme nous l’avons vu plus haut, Minsky a continué à recommander qu’on se sert d’hybrides symboliques/RNA après l’arrivée du PDP. Cependant, de tels systèmes n’ont pas suivi immédiatement, bien que Hinton ait construit des réseaux combinant le connexionnisme localiste et distribué, pour représenter des hiérarchies partielles/globales telles que les arbres généalogiques. En effet, l’intégration du traitement symbolique et du réseau de neurones est encore peu courante. Les deux méthodologies, logique et probabiliste, sont si différentes que la plupart des chercheurs ne maîtrisent qu’une seule de ces deux approches. Néanmoins, certains systèmes véritablement hybrides ont été développés, dans lesquels le contrôle est passé entre les modules symboliques et TDP selon le cas. Ainsi, le modèle s’appuie sur les points forts des deux approches. Citons par exemple les algorithmes de jeu Atari développés par DeepMind (cf. chapitre 2). Ceux-ci combinent l’apprentissage profond avec la GOFAI pour apprendre à jouer à une suite de jeux informatiques visuellement diversifiés. Ils font appel à l’apprentissage par renforcement : aucune règle artisanale n’est fournie, seuls sont fournis les pixels d’entrée et les scores numériques à chaque étape. De nombreuses règles/plans possibles sont examinés simultanément, et le plus prometteur décide de l’action suivante. Les prochaines versions se concentreront sur les jeux 3D tels que Minecraft, et sur des applications telles que les voitures sans conducteur. Les systèmes de pensée globale ACT-R et CLARION (cf. chapitre 2) et LIDA (cf. chapitre 6) sont d’autres exemples. Ces systèmes sont profondément influencés par la psychologie cognitive, ayant été développés à des fins scientifiques et non technologiques.
110
Les réseaux de neurones artificiels
Certains modèles hybrides prennent également en compte des aspects spécifiques de la neurologie. Par exemple, le neurologue clinicien Timothy Shallice, avec le pionnier du TDP Norman, a publié en 1980 une théorie hybride de l’action familière (« sur-apprise »), qui a ensuite été mise en œuvre. Cette théorie explique certaines erreurs courantes. Par exemple, les patients victimes d’un accident vasculaire cérébral (AVC) oublient souvent que la lettre doit être mise dans l’enveloppe avant que le rabat collant ne soit léché ; ou encore, ils peuvent se mettre au lit en montant à l’étage pour se changer, ou prendre la bouilloire au lieu de la théière. Des erreurs similaires – de séquençage, de saisie et de substitution d’objet – se produisent occasionnellement chez nous tous. Mais pourquoi ? Et pourquoi les patients atteints de lésions cérébrales y sont-ils particulièrement sujets ? La théorie informatique de Shallice affirme qu’une action familière est générée par deux types de contrôle, qui peuvent se rompre ou prendre le dessus à des moments précis. La première, la « programmation des conflits », est automatique. Il implique une concurrence (inconsciente) entre divers schémas d’action organisés hiérarchiquement. Le contrôle va à celui dont l’activation a dépassé un certain seuil. L’autre mécanisme de contrôle (« exécutif ») est conscient. Il implique la supervision délibérative et la modulation du premier mécanisme – y compris la planification et la réparation des erreurs. Pour Shallice, la planification des conflits est modélisée par le TDP, le contrôle exécutif par l’IA symbolique. Le niveau d’activation d’un schéma d’action peut être augmenté par une entrée perceptuelle. Par exemple, un aperçu irréfléchi (reconnaissance de formes) du lit, en arrivant dans la chambre à coucher, peut déclencher le schéma d’action consistant à se mettre au lit, même si l’intention initiale (le plan) était seulement de changer de vêtements. La théorie d’action de Shallice a été initiée en utilisant des idées de l’IA (notamment, des modèles de planification), qui résonnaient avec sa propre expérience clinique. Elle a ensuite été étayée par les résultats d’un scanner cérébral. Et les neurosciences ont récemment découvert d’autres facteurs, notamment des neuro-transmetteurs, impliqués dans 111
L’intelligence artificielle
l’action humaine. Ceux-ci sont maintenant représentés dans les modèles informatiques actuels basés sur la théorie. Les interactions entre l’ordonnancement des conflits et le contrôle exécutif sont également pertinentes pour la robotique. Un agent qui suit un plan devrait pouvoir l’arrêter ou le faire varier, en fonction de ce qu’il observe dans l’environnement. Cette stratégie caractérise les robots qui combinent le traitement situé et le traitement délibératif (cf. chapitre 5). Quiconque s’intéresse à l’AGI doit noter que les quelques scientifiques de l’IA qui ont sérieusement envisagé l’architecture informatique de l’esprit dans son ensemble acceptent l’hybridisme sans réserve. Il s’agit notamment d’Allen Newell et James Anderson (dont le SOAR et l’ACT ont été abordés au chapitre 2), de Stan Franklin (dont le modèle de conscience LIDA est décrit au chapitre 6), de Minsky (avec sa théorie de l’esprit de la société) et d’Aaron Sloman (dont la simulation de l’anxiété a été décrite au chapitre 3). En bref, les machines virtuelles implantées dans notre cerveau sont à la fois séquentielles et parallèles. L’intelligence humaine exige une coopération subtile entre elles. Et l’AGI au niveau humain – si jamais on y arrive – fera de même.
112
5 Les robots et la vie artificielle (A-life) L’A-Life modélise les systèmes biologiques. Comme l’IA en général, elle a des objectifs à la fois technologiques et scientifiques. A-life fait partie intégrante de l’IA, car toute l’intelligence que nous connaissons se trouve dans les organismes vivants. En effet, beaucoup de gens croient que l’esprit ne peut naître que de la vie (cf. chapitre 6). Les technologues intransigeants ne se préoccupent pas de cette question. Mais ils se tournent vers la biologie pour développer des applications pratiques de toutes sortes. Il s’agit notamment de robots, de la programmation évolutive et des dispositifs d’auto-organisation. Les robots sont la quintessence de l’IA, ils ont une grande visibilité et sont extrêmement ingénieux – et aussi crée un monde commercial très prometteur. L’IA évolutive, bien que largement utilisée, est moins connue. Les machines auto-organisatrices sont encore moins connues (à l’exception de l’apprentissage non supervisé que nous avions abordé au chapitre précédent). Néanmoins, dans la quête de compréhension de l’auto-organisation, l’IA a été aussi utile à la biologie que la biologie l’a été à l’IA. LES ROBOTS « SITUÉES » ET DES INSECTES INTÉRESSANTS
Les robots ont été construits il y a des siècles – par Léonard de Vinci, entre autres. Les versions IA sont apparues dans les années 1950. Les « tortues » d’après-guerre de William Grey Walter ont étonné les observateurs, sachant éviter les obstacles et pouvant s’orienter vers une source lumineuse. L’un des principaux objectifs du laboratoire d’IA du 113
L’intelligence artificielle
MIT, nouvellement fondé, était de construire « le robot MIT », intégrant la vision par ordinateur, la planification, le langage et le contrôle des moteurs. D’énormes progrès ont été faits depuis. Aujourd’hui, certains robots peuvent escalader des collines, des escaliers ou des murs ; certains peuvent courir rapidement ou sauter à des hauteurs impressionnantes ; et certains peuvent transporter et jeter de lourdes charges. D’autres peuvent se briser et ensuite réassembler les pièces, adoptant parfois une nouvelle forme, comme un ver (capable de passer par un tuyau étroit), une balle ou une créature multi-pattes (adaptées respectivement aux terrains plats ou accidentés). Ce qui a motivé cette avancée, c’est le passage de la psychologie à la biologie. Les robots d’IA classiques ont imité l’action volontaire de l’homme. S’appuyant sur les théories de la modélisation cérébrale, ils utilisaient des représentations internes du monde et des actions propres de l’agent. Mais ils n’étaient pas très impressionnants. Comme ils s’appuyaient sur une planification abstraite, ils étaient soumis au problème du cadre (cf. chapitre 2). Ils ne pouvaient pas réagir rapidement, car même de légers changements environnementaux nécessitaient une planification anticipée pour redémarrer ; ils ne pouvaient pas non plus s’adapter à des circonstances nouvelles (non modélisées). Les mouvements réguliers étaient difficiles, même sur un terrain plat et dégagé (d’où le surnom de robot SRI, SHAKEY), et les robots une fois tombés ne pouvaient pas se remettre debout. Dans la plupart des bâtiments, ils ne servent strictement à rien – alors sur Mars, parlons-en ! Les robots d’aujourd’hui sont très différents. Ils ne sont plus axés sur les humains, mais plutôt sur les insectes. Les insectes ne sont probablement pas assez intelligents pour modéliser le monde, ou pour planifier. Pourtant, ils y parviennent. Leur comportement, et non leur action, est approprié et adaptatif. Mais c’est plus un réflexe qu’un acte délibéré. Ils réagissent sans réfléchir à la situation, et non à une quelconque possibilité imaginée ou à un état d’esprit. D’où les étiquettes : robotique « située » ou « basée sur le comportement ». Le comportement situé ne se limite pas 114
Les robots et la vie artificielle (A-life)
aux insectes, les psychologues sociaux ont identifié de nombreux comportements liés à la situation chez l’homme. En voulant conférer des réflexes comparables aux machines d’IA, les roboticiens ont privilégié l’ingénierie à la programmation. Si possible, les réflexes sensorimoteurs étaient physiquement incorporés dans l’anatomie du robot, et non fournis sous forme de code logiciel. La question de savoir dans quelle mesure l’anatomie des robots devrait correspondre à celle des organismes vivants est sujette à débat. À des fins technologiques, des astuces d’ingénierie ingénieuses sont acceptables. Les robots d’aujourd’hui intègrent de nombreuses astuces « irréalistes ». Mais, peut-être, les mécanismes biologiques sont-ils particulièrement efficaces ? Ils sont certainement adéquats. Les roboticiens considèrent donc aussi les animaux réels, ce qu’ils peuvent faire (y compris leurs diverses stratégies de navigation), les signaux sensoriels et les mouvements spécifiques qui sont impliqués, ainsi que les mécanismes neurologiques responsables. Les biologistes, à leur tour, utilisent la modélisation IA pour étudier ces mécanismes, un domaine de recherche appelé neuro-éthologie computationnelle. Un exemple est la robotique des cafards de Randall Beer. Les blattes ont six pattes multisegmentées, ce qui leur confère à la fois des avantages et des inconvénients. La locomotion des héxopodes est plus stable que la bipédie (et plus généralement plus utile que les roues). Cependant, la coordination de six membres semble plus difficile que celle de deux membres. En plus de décider quelle patte doit être déplacée ensuite, la créature doit trouver le bon placement, la bonne force et le bon moment. Et comment les jambes doivent-elles interagir ? Elles doivent être largement indépendantes, car il pourrait y avoir un caillou près d’une seule jambe. Mais si cette jambe est levée plus haut, les autres doivent compenser pour ne pas perdre l’équilibre. Les robots de Beer reflètent la neuro-anatomie et les commandes sensorimotrices de vrais cafards. Ils peuvent monter des escaliers, marcher sur un terrain accidenté, escalader des obstacles (au lieu de simplement les éviter) et se remettre debout après une chute. 115
L’intelligence artificielle
La roboticienne Barbara Webb examine des criquets, pas les cafards. Elle ne se concentre pas sur la locomotion (ses robots sont équipés de roues), elle veut que ses appareils identifient, localisent et approchent un modèle sonore particulier. Il est clair qu’un tel comportement (appelée la phonotaxie) pourrait avoir de nombreuses applications pratiques. Les criquets femelles peuvent le faire en entendant le chant d’un mâle spécifique. Cependant, le criquet ne peut reconnaître qu’un seul chant, chanté à une seule cadence et à une seule fréquence. La cadence et la fréquence varient en fonction des différentes espèces de criquet. Mais la femelle ne choisit pas entre différents chants, car elle ne possède pas de détecteurs de caractéristiques codant une gamme de sons. Elle utilise un mécanisme qui n’est sensible qu’à une seule fréquence. Ce n’est pas un mécanisme neural, comme le sont les détecteurs auditifs du cerveau humain. Chez le criquet, il s’agit d’un tube de longueur fixe situé dans son thorax, relié aux oreilles de ses pattes avant et à ses spiracles. La longueur du tube est une proportion exacte de la longueur d’onde de la chanson du criquet mâle. La physique garantit que les annulations de phase (entre l’air dans le tube et l’air extérieur) ne se produisent que pour les chansons ayant la bonne fréquence, et que la différence d’intensité dépend entièrement de la direction de la source sonore. L’insecte femelle est neuronalement câblée pour se déplacer dans cette direction : le mâle chante, la femelle approche. C’est en effet un « comportement localisé ». Webb a choisi la phonotaxie du criquet parce qu’elle avait été étudiée de près par des neuro-éthologues. Mais de nombreuses questions restaient sans réponse. Si (et comment) la direction et le son de la chanson sont traités indépendamment, si l’identification et la localisation sont indépendantes, comment la marche de la femelle est déclenchée et comment sa direction en zigzag est contrôlée ? Webb a conçu le mécanisme le plus simple possible (seulement quatre neurones) qui pourrait générer et reproduire un comportement similaire. Plus tard, son modèle a incorporé plus de neurones (sur la base de données détaillées de la vie réelle), a inclus des caractéristiques neuronales supplémentaires (par exemple, latence, cadence d’allumage et potentiel de membrane) 116
Les robots et la vie artificielle (A-life)
et a intégré l’audition à la vision. Ses travaux ont permis de clarifier de nombreuses questions neuroscientifiques, d’apporter des réponses à certaines et d’en soulever d’autres. Ils ont donc été utiles pour la biologie, ainsi que pour la robotique. Bien que les robots soient des choses physiques, une grande partie de la recherche en robotique se fait en simulation. Les robots de Beer, par exemple, sont parfois développés dans des logiciels avant d’être construits. De même, ceux de Webb sont conçus sous forme de programmes avant d’être testés dans le monde réel. Malgré le recours aux insectes dans la robotique classique, la recherche sur les robots androïdes se poursuit. Certains ne sont que des jouets. D’autres sont les robots « sociaux » ou « compagnons », conçus pour être utilisés à domicile par des personnes âgées et/ou handicapées (cf. chapitre 3). Ces robots sont moins destinés être des esclaves pour « aller chercher et rapporter » qu’à être des assistants personnels autonomes. Certains ont l’air « mignons », ont de longs cils et une voix séduisante. Ils peuvent établir un contact visuel avec les utilisateurs et reconnaître des visages et des voix individuels. Ils peuvent également tenir des conversations non scénarisées, interpréter l’état émotionnel de l’utilisateur et générer et exprimer eux-mêmes des réponses « émotionnelles » (expressions faciales et/ou modèles de discours semblables à ceux de l’homme). Bien que certains robots soient de grande taille (pour manipuler de lourdes charges et/ou traverser des terrains accidentés), la plupart sont petits. Certains – pour une utilisation à l’intérieur des vaisseaux sanguins, par exemple – sont très, très petits. Souvent, ils sont envoyés au travail en grand nombre. Chaque fois que plusieurs robots sont impliqués dans une tâche, des questions se posent sur la façon dont ils communiquent (si tant est qu’ils le fassent) et sur la façon dont cela permet au groupe de faire des choses qui ne pourraient pas être faites individuellement. Pour y répondre, les roboticiens considèrent souvent les insectes sociaux, comme les fourmis et les abeilles. Ces espèces sont des exemples de « cognition distribuée » (cf. chapitre 2), dans laquelle les connaissances 117
L’intelligence artificielle
(et les actions appropriées) sont réparties sur l’ensemble d’un groupe plutôt que d’être accessibles à un seul animal. Si les robots sont extrêmement simples, leurs concepteurs peuvent parler d’« intelligence en essaim » et ils analysent les systèmes robotiques coopératifs comme des automates cellulaires (AC). Un AC est un système d’unités individuelles, chacune adoptant un état possible parmi un nombre fini d’états en suivant des règles simples qui dépendent de l’état actuel de ses voisins. Le schéma global du comportement d’un AC peut être étonnamment complexe. L’analogie de base est celle des cellules vivantes coopérant dans des organismes multicellulaires. Les nombreuses versions de l’IA comprennent les algorithmes de regroupements utilisés pour les rassemblements de chauves-souris ou de dinosaures comme on en voit dans les dessins animés hollywoodiens. Les concepts de cognition distribuée et d’intelligence en essaim s’appliquent également aux êtres humains. Cette dernière est utilisée lorsque la « connaissance » concernée n’est pas quelque chose qu’un individu participant peut posséder (par exemple, le comportement général des grandes foules). La première méthode est plus souvent utilisée lorsque les personnes participantes pourraient posséder toutes les connaissances pertinentes, mais en réalité ne les ont pas. Par exemple, l’anthropologue Edwin Hutchins a montré comment la connaissance de la navigation est partagée entre les membres de l’équipage d’un navire et incorporée dans des objets physiques, telles que des cartes et dans l’emplacement des éphémérides. Parler de la connaissance comme étant incorporée dans des objets physiques peut sembler étrange, ou au mieux métaphorique. Mais nombreux sont ceux qui prétendent aujourd’hui que l’esprit humain est littéralement incarné, non seulement dans les actions physiques des gens, mais aussi dans les objets culturels avec lesquels ils s’engagent dans le monde extérieur. Cette théorie de l’« esprit externe/incarné » est en partie fondée sur les travaux du chef de file de la robotique du passage homme-insecte : Rodney Brooks, à MIT.
118
Les robots et la vie artificielle (A-life)
Brooks est aujourd’hui l’un des principaux développeurs de robots pour l’armée américaine. Dans les années 1980, il était un jeune roboticien frustré par l’impraticabilité des planificateurs de la modélisation du monde de l’IA symbolique. Il s’est tourné vers la robotique située pour des raisons purement technologiques, mais a rapidement développé son approche en une théorie sur le comportement adaptatif en général. Cette théorie va bien au-delà du cas des insectes, même l’action humaine, selon lui, n’implique pas de représentations internes. Ou, comme il l’a parfois laissé entendre, n’implique généralement pas de représentations. Sa critique de l’IA symbolique a enthousiasmé les psychologues et les philosophes. Certains étaient très sympathiques. Les psychologues avaient déjà souligné que beaucoup de comportements humains sont liés à des situations tels que les jeux de rôle dans des environnements sociaux distincts, par exemple. Et les psychologues cognitifs avaient mis en évidence la vision animée, dans laquelle le mouvement corporel de l’agent lui-même est essentiel. Aujourd’hui, les théories de l’esprit incarné ont une influence considérable en dehors de l’IA (cf. chapitre 6). Mais d’autres, comme David Kirsh, y étaient – et le sont encore aujourd’hui – farouchement opposés, soutenant que des représentations compositionnelles sont nécessaires pour les types de comportement qui impliquent des concepts. Par exemple, la reconnaissance de l’invariance perceptuelle, dans laquelle un objet peut être reconnu à partir de nombreux points de vue différents : ré-identification des individus au fil du temps ; maîtrise de soi anticipée (planification) ; négociation et pas seulement programmation, de motifs contradictoires ; un raisonnement contrefactuel ; le langage. Ces critiques admettent que la robotique située montre que le comportement sans concept est plus répandu que ne le croient de nombreux philosophes. Néanmoins, la logique, le langage et l’action humaine réfléchie nécessitent tous un calcul symbolique. De nombreux roboticiens rejettent également les affirmations plus extrêmes de Brooks. Le groupe d’Alan Mackworth, l’un de ceux qui travaillent sur le football robotique, parle de « délibération réactive », ce qui inclut la perception sensorielle, la prise de décision en temps réel, la 119
L’intelligence artificielle
planification, la reconnaissance des plans, l’apprentissage et la coordination. Ils cherchent à intégrer le GOFAI et les perspectives situées. C’est-à-dire qu’ils construisent des systèmes hybrides, cf. chapitre 4. En général, les représentations sont essentielles pour le processus de sélection des actions en robotique, mais moins pour l’exécution d’actions. Ainsi, les plaisantins qui avaient dit que « AI » signifie désormais « insectes artificiels » n’avaient pas tout à fait raison. L’IA ÉVOLUTIONNAIRE
La plupart des gens pensent que l’IA nécessite que l’on adopte une conception méticuleuse. Étant donné la nature impitoyable des ordinateurs, comment pourrait-il en être autrement ? Eh bien, c’est possible. Les robots évolutifs (y compris certains robots situés) par exemple, résultent d’une combinaison de programmation/ingénierie rigoureuse et de variations aléatoires. Ils évoluent de manière imprévisible et ne sont pas conçus avec soin. L’IA évolutive en général possède cette caractéristique. Elle a été initiée dans l’IA symbolique, mais est également utilisée dans le connexionnisme. Ses nombreuses applications pratiques incluent l’art (où l’imprévisibilité peut être la bienvenue) et le développement de systèmes critiques pour la sécurité, tels que les moteurs d’avion. Un programme peut se modifier (au lieu d’être réécrit par un programmeur), et peut même s’améliorer, en utilisant des algorithmes génétiques (AG). Inspirés de la génétique réelle, ceux-ci permettent à la fois une variation aléatoire et une sélection non aléatoire. La sélection requiert un critère de réussite, ou « fonction d’adéquation » (analogue à la sélection naturelle en biologie), en parallèle avec les AG. La définition de la fonction d’aptitude est cruciale. Dans les logiciels évolutifs, le programme initial axé sur la tâche ne peut pas résoudre la tâche efficacement. Il peut ne pas être du tout capable de la résoudre, car il peut s’agir d’une collection incohérente d’instructions ou d’un réseau de neurones connecté de manière aléatoire. 120
Les robots et la vie artificielle (A-life)
Mais le programme global comprend des AG en arrière-plan. Ceux-ci peuvent modifier les règles orientées vers la tâche. Les changements, effectués de manière aléatoire, ressemblent à une mutation ponctuelle et à un croisement en biologie. Ainsi, un symbole unique dans une instruction programmée peut être modifié, ou de courtes séquences de symboles peuvent être « échangées » entre deux instructions. Les différents programmes de tâches d’une même génération sont comparés et les plus réussis sont utilisés pour former la génération suivante. Quelques autres (choisis au hasard) peuvent également être conservés, de sorte que les mutations potentiellement utiles qui n’ont pas encore eu d’effet positif ne soient pas définitivement perdues. Au fur et à mesure que les générations passent, l’efficacité du programme de tâches augmente. Parfois, une solution optimale est trouvée. Dans certains systèmes évolutifs, le problème de l’attribution des crédits – voir, à ce sujet, le chapitre 4 – est résolu par une variante créée par John Holland, de l’algorithme « seau à jetons » qui identifie précisément les parties d’un programme évolutif complexe qui sont les plus responsables de son succès. Certaines IA évolutives sont totalement automatiques : le programme applique la fonction de mise en forme à chaque génération, et est laissé à l’évolution sans surveillance. Ici, la tâche doit être très clairement définie, par la physique des moteurs d’avion, par exemple. L’art évolutif, en revanche, est généralement très interactif (l’artiste sélectionne les meilleurs à chaque génération), car la fonction de mise en forme – le choix des critères esthétiques – ne peut pas être énoncée clairement. La plupart des robots évolutifs sont interactifs par intermittence. L’anatomie du robot (par exemple, les capteurs et les connexions sensorimotrices) et/ou son contrôleur (son « cerveau ») évoluent automatiquement, mais en mode simulation. Pour la plupart des générations, il n’existe pas de robot physique. Mais à chaque 500e génération, par exemple, la conception évoluée peut être testée dans un dispositif réel et physique. Les mutations inutiles ont tendance à ne pas survivre. L’équipe d’Inman Harvey à l’université du Sussex a découvert (en 1993) que l’un des deux « yeux » d’un robot, et toutes ses « moustaches », peuvent perdre 121
L’intelligence artificielle
leurs connexions initiales au réseau de neurones de contrôle si la tâche ne nécessite ni vision en profondeur ni toucher. De même, le cortex auditif chez les sourds congénitaux, ou chez les animaux privés d’entrée auditive, est utilisé pour le calcul visuel, le cerveau évolue au cours d’une vie, et pas seulement à travers les générations. L’IA évolutive peut réserver de profondes surprises. Par exemple, un robot situé dans le Sussex, en cours d’évolution pour générer un mouvement d’évitement d’obstacle vers un but, a développé un détecteur d’orientation analogue à ceux que l’on trouve dans les cerveaux. Le monde (l’environnement physique proche) du robot comprenait un triangle en carton blanc. À la surprise des chercheurs, un mini-réseau connecté de manière aléatoire est apparu dans le contrôleur qui a répondu à un dégradé clair/foncé à une orientation particulière (un côté du triangle). Ce réseau a ensuite évolué pour devenir une partie intégrante d’un mécanisme visio-moteur, ses connexions (initialement aléatoires) à des unités motrices permettant au robot d’utiliser l’objet comme aide à la navigation. Le mécanisme n’a pas fonctionné pour un triangle noir, ni pour le bord opposé. C’était un objet autonome et il n’y avait pas de système complet de détecteurs d’orientation. Il s’est avéré néanmoins utile. Ce résultat surprenant était largement reproductible. En utilisant des réseaux de neurones de différents types, l’équipe du Sussex a constaté que chaque solution réussie a permis l’évolution d’un détecteur d’orientation actif – de sorte que la stratégie comportementale de haut niveau restait identique. Les détails exacts de la mise en œuvre variaient, mais étaient souvent très similaires. À une autre occasion, l’équipe du Sussex utilisait des AG pour concevoir des circuits électriques « en dur ». La tâche consistait à faire évoluer des oscillateurs. Mais le résultat final était un capteur d’ondes radio primitif, qui captait le signal de fond d’un écran de PC voisin. Cela dépendait de paramètres physiques imprévus. Certains étaient prévisibles (les propriétés « antenne » de tous les circuits imprimés), bien que l’équipe n’en ait pas tenu compte auparavant. Mais d’autres étaient accidentels, et apparemment sans importance. Il s’agissait notamment de la proximité 122
Les robots et la vie artificielle (A-life)
dans l’espace d’un écran de PC, de l’ordre dans lequel les interrupteurs analogiques avaient été réglés et du fait qu’un fer à souder laissé sur un établi voisin était branché sur le secteur. Ce résultat n’était pas reproductible : la prochaine fois, l’antenne radio pourrait être influencée par la chimie du papier peint aux murs. Le capteur d’ondes radio est intéressant car de nombreux biologistes (et philosophes) soutiennent que rien de radicalement nouveau ne pourrait émerger de l’IA, puisque tous les résultats d’un programme informatique (y compris les effets aléatoires des AG) doivent se situer dans l’espace des possibilités qu’il définit. Seule l’évolution biologique, disent-ils, peut générer de nouveaux capteurs perceptuels. Ils permettent qu’un capteur visuel faible de l’IA puisse évoluer vers un modèle meilleur. Mais le tout premier capteur visuel, disent-ils, ne pourrait émerger que dans un monde physique régi par la causalité. Une mutation génétique aléatoire impactant une substance chimique sensible à la lumière pourrait introduire la lumière, déjà présente dans le monde extérieur, dans l’environnement de l’organisme. Cependant, le capteur radio inattendu a également produit et propagé des ondes radio dans l’« environnement » de l’appareil. Cela dépendait en partie d’une cause physique (prises, etc.). Toutefois, il s’agissait d’un exercice d’IA, et non de la biologie. La nouveauté radicale en IA nécessite en effet des influences extérieures, car il est vrai qu’un programme ne peut pas dépasser son espace de possibilités. Mais ces influences n’ont pas besoin d’être de nature physique. Un système de GA connecté à l’Internet pourrait faire évoluer des nouveautés fondamentales en interagissant avec un monde virtuel. Une autre surprise, bien plus ancienne, au sein de l’IA évolutionniste a été à l’origine de recherches toujours en cours sur l’évolution en tant que telle. Le biologiste Thomas Ray a utilisé les AG pour simuler l’écologie des forêts tropicales humides. Il a vu l’émergence spontanée de parasites, de la résistance aux parasites et des super-parasites capables de surmonter cette résistance. Il a également découvert que des « sauts » soudains dans l’évolution (phénotypique) peuvent être générés par une succession de mutations (génotypiques) sous-jacentes. Les Darwin orthodoxes y 123
L’intelligence artificielle
croyaient déjà, bien sûr. Mais c’est tellement contre-intuitif que certains biologistes, comme Stephen Jay Gould, ont soutenu que des processus non darwiniens devaient également être impliqués. Aujourd’hui, les taux de mutation simulés sont systématiquement modifiés et suivis, et les chercheurs de l’AG analysent les « paysages d’aptitude », les « réseaux neutres (sic) » et la « dérive génétique ». Ces travaux expliquent comment les mutations « paysages d’aptitude », les « réseaux neutres » et la « dérive génétique » peuvent être préservées même si elles n’ont pas (encore) amélioré la capacité de reproduction. L’IA aide donc les biologistes à développer la théorie de l’évolution en général. L’AUTO-ORGANISATION
La principale caractéristique des organismes biologiques est leur capacité à se structurer. L’auto-organisation est l’émergence spontanée de l’ordre à partir d’une origine qui est ordonnée à un degré moindre. C’est une propriété déroutante, voire quasi paradoxale. Et il n’est pas évident que cela puisse se produire dans des choses non vivantes. D’une manière générale, l’auto-organisation est un phénomène créatif. La créativité psychologique (à la fois « historique » et « individuelle ») a été examinée au chapitre 3 et l’apprentissage associatif auto-organisé (non supervisé) au chapitre 4. Ici, nous nous concentrons sur les types d’auto-organisation étudiés en biologie. Les exemples comprennent l’évolution phylogénétique (une forme de créativité historique), l’embryogenèse et la métamorphose (analogue à la créativité individuelle en psychologie), le développement du cerveau (créativité individuelle suivie de la créativité historique) et la formation des cellules (créativité historique au début de la vie, créativité individuelle par la suite). Comment l’IA peut-elle nous aider à comprendre ces phénomènes ? Alan Turing a expliqué l’auto-organisation en 1952 en nous faisant revenir, en quelque sorte, à l’essentiel. Il a demandé comment quelque chose d’homogène (comme l’ovule indifférencié) pouvait donner naissance à une structure. Il a reconnu que la plupart des développements 124
Les robots et la vie artificielle (A-life)
biologiques ajoutent un nouvel ordre à l’ordre préexistant : comme la séquence des modifications qui ont lieu dans le tube neural de l’embryon, par exemple. Mais l’ordre – issu de l’homogénéité est le cas fondamental (et mathématiquement le plus simple). Les embryologistes avaient déjà avancé l’hypothèse des « organisateurs » : des substances chimiques inconnues qui dirigeraient le développement de manière inconnue. Turing ne pouvait pas non plus identifier ces organisateurs. Il a envisagé plutôt des principes très généraux sur la diffusion des produits chimiques. Il a montré que, si différentes molécules se rencontraient, les résultats dépendraient de leur vitesse de diffusion, de leur concentration et de la vitesse à laquelle leurs interactions détruiraient ou construiraient de nouvelles molécules. Il a fait cela en faisant varier les nombres dans des équations chimiques imaginaires et en étudiant les résultats. Certaines combinaisons de nombres n’ont produit que des mélanges de produits chimiques sans forme. Mais d’autres ont généré de l’ordre, par exemple des pics de concentration réguliers d’une certaine molécule. Ces pics chimiques, avait-t-il dit, peuvent être biologiquement exprimés sous forme de marques de surface (rayures), ou comme l’origine de structures répétées telles que des pétales ou des segments corporels. Les réactions de diffusion en trois dimensions pourraient produire des évidements, comme la gastrulation chez l’embryon précoce. Ces idées ont immédiatement été reconnues comme fort intéressantes. Elles ont résolu l’énigme jusqu’alors insoluble de savoir comment l’ordre peut naître de quelque chose qui soit au départ non ordonné. Mais les biologistes des années 1950 ne pouvaient pas en faire grand-chose. Turing s’était appuyé sur l’analyse mathématique. Il a fait quelques simulations (longues et très fastidieuses) à la main, suivies d’une modélisation sur un ordinateur primitif. Mais sa machine n’avait pas une puissance de calcul suffisante pour faire les sommations pertinentes, ou pour explorer systématiquement les variations des nombres. Il n’y avait pas non plus d’infographie pour convertir les listes de nombres sous des formes intelligibles à l’œil du chercheur. 125
L’intelligence artificielle
L’IA et la biologie ont dû attendre quarante ans avant que les connaissances de Turing puissent être développées. L’expert en infographie, Greg Turk, a exploré les propres équations de Turing en « gelant » parfois les résultats d’une équation avant d’en appliquer une autre. Cette procédure, qui rappelle l’activation et la désactivation de gènes, illustre le modèle que Turing avait mentionné, mais qu’il ne pouvait pas analyser. Dans le modèle d’IA de Turk, les équations de Turing ont généré non seulement des marques et des rayures de dalmatien (comme l’avaient fait ses simulations de main), mais aussi des taches de léopard et de guépard, des réticulations de girafe et des motifs de poisson-lion. D’autres chercheurs ont utilisé des séquences d’équations plus compliquées, obtenant des motifs plus complexes en conséquence. Certains étaient des biologistes du développement, qui en savent maintenant plus sur la biochimie réelle. Par exemple, Brian Goodwin a étudié le cycle de vie de l’algue acetabularia. Cet organisme unicellulaire se transforme d’une tache informe en une tige allongée, il y pousse ensuite un sommet aplati. Puis, se développe un anneau de pédicules autour du bord, ceux-ci germent en un tourbillon de « latéraux », ou branches. Enfin, les latéraux se regroupent pour former un chapeau en forme de parapluie. Les expériences biochimiques montrent que plus de trente paramètres métaboliques sont impliqués (par exemple, les concentrations de calcium, l’affinité entre le calcium et certaines protéines et la résistance mécanique du cytosquelette). Le modèle informatique d’acetabularia de Goodwin a simulé des boucles de rétroaction complexes et itératives dans lesquelles ces paramètres peuvent changer d’un moment à l’autre. Diverses métamorphoses corporelles en ont résulté. Tout comme Turing et Turk, Goodwin a jonglé avec des valeurs numériques pour voir lesquelles généreraient effectivement de nouvelles formes. Il n’a utilisé que des nombres compris dans les fourchettes observées dans l’organisme, mais ceux-ci étaient aléatoires. Il a découvert que certaines formes – par exemple, l’alternance de concentrations élevées/faibles de calcium à l’extrémité d’une tige (la 126
Les robots et la vie artificielle (A-life)
symétrie émergente d’un verticille) – se manifestent de manière répétée. Ils ne dépendaient pas d’un choix particulier de valeurs de paramètres, mais apparaissaient spontanément si les valeurs étaient fixées dans un large intervalle. De plus, une fois que les verticilles ont pris naissance, elles persistaient. Ainsi, selon Goodwin, elles pouvaient devenir le terrain de transformations menant à d’autres caractéristiques fréquentes. Cela pourrait se produire dans la phylogenèse comme dans l’ontogenèse (créativité historique comme créativité individuelle) – dans l’évolution du membre tétrapode, par exemple. Ce modèle n’a jamais généré de casquette de parapluie. Il est possible que cela nécessite des paramètres supplémentaires, représentant des interactions chimiques encore inconnues au sein d’une véritable acétabulaire. Ou peut-être que de tels capuchons se trouvent dans l’espace des possibilités du modèle, et pourraient donc en principe en découler, mais seulement si les valeurs numériques sont si strictement limitées qu’il est peu probable qu’elles puissent être trouvées par une recherche aléatoire. (Les excroissances latérales n’ont pas été générées non plus, mais cela est dû à un manque de puissance de calcul : tout le programme devrait être exécuté à un niveau inférieur, pour chaque « latéral » individuel). Goodwin a dessiné ici une morale théorique intrigante. Il considérait les verticilles comme des formes « génériques », apparaissant – contrairement aux capuchons de parapluie – chez de nombreux animaux et plantes. Cela suggère qu’elles ne sont pas dues à des mécanismes biochimiques très spécifiques dirigés par des gènes évolués de manière contingente, mais plutôt à des processus généraux (comme la diffusion des réactions) que l’on trouve chez la plupart, voire chez tous les êtres vivants. De tels processus pourraient former la base d’une biologie « structuraliste » : une science générale de la morphologie, dont les explications seraient antérieures à la sélection darwinienne, bien qu’elles soient totalement cohérentes avec celle-ci. (Cette possibilité a été sous-entendue par la discussion de Turing, et a été soulignée par D’Arcy Thompson, un biologiste qu’il avait cité ; mais Turing lui-même l’a ignoré.)
127
L’intelligence artificielle
La diffusion des réactions fonctionne par des lois physico-chimiques déterminant les interactions moléculaires locales, c’est-à-dire par des lois « représentables » dans les automates cellulaires. Lorsque John von Neumann a défini les AC, il a souligné qu’elles sont en principe applicables à la physique. Aujourd’hui, les chercheurs de la A-Life utilisent les AC à de nombreuses fins, la génération de modèles biologiques étant particulièrement pertinente ici. Par exemple, des AC très simples, définis sur une seule dimension (une ligne), peuvent générer des modèles remarquablement réalistes, comme ceux des coquillages, par exemple. L’utilisation des AC par A-Life pour tenter de décrire « la vie telle qu’elle pourrait être », et pas seulement « la vie telle que nous la connaissons », est peut-être particulièrement intrigante. Christopher Langton (qui a nommé la « vie artificielle » en 1987) a exploré de nombreux AC définis au hasard, en notant leur propension à générer de l’ordre. Nombre d’entre eux ne produisent que du chaos. D’autres forment des structures ennuyeuses, répétitives, voire statiques. Mais quelques-uns ont généré des modèles subtilement changeants mais relativement stables – caractéristiques, selon Langton, des êtres vivants (et du calcul, dans le même temps). Étonnamment, ces AC partageaient la même valeur numérique sur une simple mesure de la complexité informationnelle du système. Langton a suggéré que ce « paramètre lambda » s’applique à tous les êtres vivants possibles, qu’ils soient sur Terre ou sur Mars. L’auto-organisation façonne non seulement des corps entiers, mais aussi les organes. Le cerveau, par exemple, se développe par des processus évolutifs (au cours d’une vie et à travers les générations), ainsi que par un apprentissage non supervisé. Un tel apprentissage peut avoir des résultats très particuliers (historiquement créatifs). Mais le développement cérébral précoce de chaque individu crée également des structures neurales prévisibles. Par exemple, les singes nouveau-nés possèdent des détecteurs d’orientation qui s’étendent systématiquement sur 360 degrés. Ceux-ci ne peuvent pas avoir été appris par l’expérience du monde extérieur, il est donc naturel de supposer qu’ils sont codés dans les gènes. Mais ce 128
Les robots et la vie artificielle (A-life)
n’est pas le cas. Au lieu de cela, ils surgissent spontanément à partir d’un réseau initialement aléatoire. Cela a été démontré non seulement par la modélisation informatique biologiquement réaliste réalisée par les neuroscientifiques, mais aussi par l’IA « pure ». Le chercheur d’IBM Ralph Linsker a défini des réseaux dits feedforward multicouches (cf. chapitre 4) en montrant que des règles hebbiennes simples, compte tenu d’une activité aléatoire (comme le « bruit » dans le cerveau embryonnaire), peuvent générer des collections structurées de détecteurs d’orientation. Linsker ne s’appuie pas uniquement sur des démonstrations pratiques, ni ne se concentre uniquement sur les détecteurs d’orientation : sa théorie abstraite « infomax » est applicable à tout réseau de ce type. Elle affirme que les connexions de réseau se développent pour maximiser la quantité d’informations préservées lorsque les signaux sont transformés à chaque étape du traitement. Toutes les connexions se forment sous certaines contraintes empiriques, telles que des limitations biochimiques et anatomiques. Toutefois, les mathématiques garantissent l’émergence d’un système coopératif d’unités de communication. La théorie de l’infomax se rapporte également à l’évolution phylogénétique. Elle rend moins contre-intuitif le fait qu’une seule mutation, dans l’évolution d’un système complexe, sera adaptative. Le besoin apparent de plusieurs mutations simultanées s’étiole si chaque niveau peut s’adapter spontanément à une petite altération dans un autre niveau. En ce qui concerne l’auto-organisation au niveau cellulaire, tant la biochimie intracellulaire que la formation des cellules/parois cellulaires ont été modélisées. Ce travail exploite celui de Turing sur la diffusion des réactions. Cependant, il s’appuie davantage sur des concepts biologiques que sur des idées issues de l’A-Life. En résumé, l’IA fournit de nombreuses idées théoriques concernant l’auto-organisation et les artefacts d’auto-organisation abondent.
129
6 Mais, est-ce réellement de l’intelligence ? Imaginons un instant que les futurs systèmes AGI (à l’écran ou chez les robots) fassent jeu égal avec les performances humaines. Auraient-ils pour autant une intelligence réelle, une compréhension et une créativité réelles ? Auraient-ils une personnalité propre, une position morale, un libre arbitre dans leurs choix ? Seraient-ils dotés d’une conscience ? Et si la réponse ici est « non », pourraient-ils avoir l’une des autres propriétés ? Ce ne sont pas des questions scientifiques, mais philosophiques. Beaucoup de gens ont le sentiment intuitif que la réponse, dans chaque cas, est « évidemment, “non” ! » Mais les choses ne sont pas si simples. Nous avons besoin d’arguments prudents, pas seulement d’intuitions non validées. De tels arguments montrent qu’il n’y a pas de réponses incontestables à ces questions. Et la raison en est que les concepts en cause sont eux-mêmes très controversés. Ce n’est que s’ils étaient tous compris de manière satisfaisante que nous pourrions être sûrs que l’AGI hypothétique serait, ou ne serait pas, vraiment intelligent. En bref, personne ne le sait avec certitude ce qu’il en est. Certains pourraient dire que cela n’a aucune importance : ce qui importerait, c’est ce que les AGI feront réellement. Toutefois, nos réponses pourraient avoir une incidence sur la façon dont nous nous y situons, comme nous allons voir par la suite. Ce chapitre n’apportera donc pas de réponses sans équivoque. Mais il suggérera que certaines réponses sont plus raisonnables que d’autres. De plus nous allons voir comment les concepts de l’IA ont été utilisés par (certains) philosophes pour éclairer la nature des vrais esprits. 131
L’intelligence artificielle
LE TEST DE TURING
Dans un article publié dans la revue de philosophie Mind en 1950, Alan Turing décrit ce qu’on appelle le Test de Turing. Il s’agit de savoir si quelqu’un peut distinguer, dans 30 % des cas, s’il interagissait (pendant cinq minutes maximum) avec un ordinateur ou une personne. Si ce n’est pas le cas, a-t-il laissé entendre, il n’y a aucune raison de nier qu’un ordinateur puisse vraiment penser. C’était, bien sûr, une galéjade. Bien qu’il ait été placé dans les premières pages de la revue, le Test de Turing est un additif à un document qui se voulait avant tout être un manifeste pour une forme future d’IA. En effet, Turing l’a décrit à son ami Robin Gandy comme de la « propagande » légère, nous invitant à la rigolade plutôt qu’à une critique sérieuse. Néanmoins, les philosophes s’y sont précipités. La plupart ont fait valoir que même si les réponses d’un programme étaient non différenciables de celles d’un humain, cela ne prouverait pas l’existence de son intelligence. L’objection la plus courante était – et le reste aujourd’hui – que le Test de Turing ne concerne qu’un comportement observable, donc qu’il pourrait être passé par un zombie : quelque chose qui se comporte exactement comme nous, mais qui ne possède pas une conscience. Cette objection suppose que l’intelligence nécessite une conscience et que la création de zombies devient logiquement possible. Nous verrons (dans la section IA et conscience phénoménale) que certains comptes rendus de la conscience impliquent que le concept de zombie est incohérent. S’ils ont raison, alors aucun AGI ne pourrait être un zombie. À cet égard, le Test de Turing serait justifié. Le Test de Turing intéresse beaucoup les philosophes (et le grand public). Mais il n’a pas été jugé important dans le domaine de l’IA. La plupart des IA visent à fournir des outils utiles, et non à imiter l’intelligence humaine – encore moins à faire croire aux utilisateurs qu’ils interagissent avec une personne. Il est vrai que les chercheurs en IA avides de publicité prétendent parfois, et/ou permettent aux journalistes de prétendre, que leur s ystème 132
Mais, est-ce réellement de l’intelligence ?
réussit le Test de Turing. Cependant, ces tests ne correspondent pas à la description donnée par Turing. Par exemple, le modèle PARRY de Ken Colby a « trompé » les psychiatres en leur faisant croire qu’ils lisaient des entretiens avec des paranoïaques – parce qu’ils supposaient naturellement qu’ils avaient affaire à des patients humains. De même, l’art informatique est le plus souvent attribué à des êtres humains s’il n’y a aucun indice qu’une machine puisse être impliquée. Ce qui se rapproche le plus d’un véritable Test de Turing est le concours Loebner (qui se tient désormais chaque année à Bletchley Park). Les règles actuelles prescrivent des interactions de vingt-cinq minutes, à l’aide de vingt questions présélectionnées destinées à tester la mémoire, le raisonnement, les connaissances générales et la personnalité. Les juges examinent la pertinence, l’exactitude, la clarté et la plausibilité de l’expression/la grammaire. Jusqu’à présent, aucun programme n’a réussi à tromper les juges Loebner dans 30 % des cas. En 2014, un programme qui se disait être un garçon ukrainien de 13 ans a trompé 33 % de ses interrogateurs ; mais il est vrai aussi que l’on pardonne facilement des erreurs de langage aux locuteurs non natifs, encore plus s’agissant d’un soi-disant enfant. LES NOMBREUX PROBLÈMES RATTACHÉS À LA NOTION DE L’ÉTAT CONSCIENT
Le problème de la conscience n’existe pas. Au contraire, il y en a beaucoup. Le mot « conscient » est utilisé pour faire de nombreuses distinctions différentes : éveillé/sommeil ; délibéré/pas réfléchi ; dans/hors de l’attention ; accessible/inaccessible ; à signaler/à ne pas signaler ; autoréflexion/non examiné ; et ainsi de suite. Aucune explication unique ne permettra de clarifier tous ces possibles scénarios. Les contrastes que nous venons d’énumérer sont des contrastes d’ordre fonctionnel. De nombreux philosophes admettent qu’ils peuvent en principe être compris en termes de traitement de l’information et/ ou de neurosciences. 133
L’intelligence artificielle
Mais la conscience phénoménale – les sensations (comme les nuances de bleu ou la douleur) ou « qualia » (terme technique employé par les philosophes) – semble être différentes. L’existence même de qualia, dans un univers fondamentalement matériel, est une énigme métaphysique notoire. David Chalmers appelle cela « le problème difficile ». Et, dit-il, il est incontournable : « [Nous devons] prendre la conscience au sérieux… Essayer de redéfinir le problème comme étant celui d’expliquer comment certaines fonctions cognitives ou comportementales sont exécutées » n’est pas acceptable. Diverses solutions très spéculatives ont été proposées. Parmi celles-ci, la version de Chalmers appelée le pan-psychisme, est une théorie qui se veut « scandaleuse, voire folle », selon laquelle la conscience phénoménale est une propriété irréductible de l’Univers, analogue à la masse ou à la charge. Plusieurs autres théoriciens ont fait appel à la physique quantique, utilisant un mystère cosmique pour en résoudre un autre, selon leurs adversaires. Colin McGinn a même affirmé que les humains sont constitutionnellement incapables de comprendre le lien de causalité entre le cerveau et les qualités, tout comme les chiens ne peuvent pas comprendre l’arithmétique. Et Jerry Fodor, un philosophe de premier plan dans le domaine des sciences cognitives, pense et affirme que « personne n’a la moindre idée de la façon dont un objet pourrait être conscient. Personne ne sait même ce que ce serait que d’avoir la moindre idée de la façon dont une matière pourrait être consciente ». En un mot, très peu de philosophes prétendent comprendre la conscience phénoménale – et ceux qui le font ne sont crus par presque personne d’autre. Le sujet est devenu un vrai marasme philosophique. L’ÉTAT CONSCIENT D’UNE MACHINE
Les penseurs favorables à l’IA ont une double approche de la conscience. La première consiste à construire des modèles informatiques de la conscience : c’est ce qu’on appelle la « conscience de la machine » (acronyme en anglais MC). L’autre (qui est caractéristique des hilosophes influencés par l’IA) consiste à l’analyser en termes de calculs généraux, sans faire de modélisation. 134
Mais, est-ce réellement de l’intelligence ?
Un AGI vraiment intelligent posséderait une conscience fonctionnelle. Par exemple, elle se concentrerait sur (ferait attention à, serait consciente de) différentes choses à différents moments. Un système à l’échelle humaine serait également capable de délibérer, de réfléchir tout seul. Il pourrait générer des idées créatives, et même évaluer les choses de manière délibérée. Sans ces capacités, il ne pourrait pas générer des performances apparemment intelligentes. La conscience phénoménale peut peut-être être impliquée lorsque les humains évaluent des idées créatives (cf. chapitre 3). En effet, beaucoup diraient qu’elle assiste à chaque différence « fonctionnelle ». Néanmoins, les chercheurs en MC – qui considèrent tous la conscience fonctionnelle – ignorent généralement la conscience phénoménale. Un projet intéressant de MC est le LIDA (Learning Intelligent Distribution Agent), développé à Memphis par le groupe de Stan Franklin. Cet acronyme traite de deux choses. L’un est un modèle conceptuel – une théorie computationnelle exprimée verbalement – de la conscience (fonctionnelle). L’autre est une implémentation partielle, et simplifiée, de ce modèle théorique. Les deux sont utilisés à des fins scientifiques (le but premier de Franklin). Mais le second a également des applications pratiques. La mise en œuvre du LIDA peut être personnalisée pour s’adapter à des domaines problématiques spécifiques, par exemple, dans la médecine. Contrairement à SOAR, ACT-R et CYC (cf. chapitre 2), il est très récent. La première version (construite pour la Marine américaine (US Navy), pour organiser de nouveaux emplois pour les marins sortant du service actif) est apparue en 2011. La version actuelle couvre l’attention, et ses effets sur l’apprentissage dans différents types de mémoire (épisodique, sémantique et procédurale) ; et le contrôle sensorimoteur est maintenant mis en œuvre pour la robotique. Mais de nombreuses fonctionnalités, dont la langue, font encore défaut. La description qui suit concerne le modèle conceptuel, quels que soient les aspects déjà mis en œuvre. Le LIDA est un système hybride, impliquant une activation par étalement et des représentations éparses (cf. chapitre 4) ainsi que de la 135
L’intelligence artificielle
programmation symbolique. Il est basé sur la théorie neuropsychologique de la conscience de Bernard Baars, la Global Workspace Theory (GWT). La GWT considère le cerveau comme un système distribué (cf. chapitre 2), dans lequel une multitude de sous-systèmes spécialisés, fonctionnant en parallèle, se disputent l’accès à la mémoire de travail (cf. figure 2). Les éléments y apparaissent de manière séquentielle (le flux de la conscience), mais sont « diffusés » à toutes les zones corticales. Si un élément diffusé, dérivé d’un organe sensoriel ou d’un autre sous-système, déclenche une réponse d’une certaine zone du cerveau, cette réponse peut être suffisamment forte pour gagner le concours d’attention, qui contrôle activement l’accès à la conscience. Les nouvelles perceptions/représentations ont tendance à attirer l’attention, tandis que les éléments répétés s’effacent de la conscience. Les sous-systèmes sont souvent complexes. Certains sont imbriqués hiérarchiquement et beaucoup ont des liens associatifs de divers types. Une variété de contextes inconscients (organisés en différents souvenirs) façonne l’expérience consciente, à la fois en évoquant et en modifiant les éléments dans l’espace de travail global. Le contenu de l’attention, à son tour, adapte les contextes durables en provoquant des apprentissages de divers types. Ces contenus, lorsqu’ils sont diffusés, guident la sélection de l’action suivante. De nombreuses actions sont cognitives : construction ou modification de représentations internes. Les normes morales sont stockées (dans la mémoire sémantique) en tant que procédures d’évaluation des actions potentielles. Les décisions peuvent également être influencées par les réactions perçues/ prévues des autres agents sociaux. Pensez à la planification, par exemple (cf. chapitre 2). Les intentions sont représentées comme des structures largement inconscientes mais de niveau relativement élevé, qui peuvent conduire à des images conscientes des objectifs (sélectionnées par des caractéristiques actuellement saillantes de la perception, de la mémoire ou de l’imagination). Celles-ci « recrutent » des sous-objectifs pertinents. Ils « recrutent » les sous-objectifs, car ce sont ces derniers qui décident eux-mêmes de leur 136
Mais, est-ce réellement de l’intelligence ?
Les processeurs d’entrée, en concurrence
L’espace de travail global (la conscience)
Les processeurs de sortie (l’inconscience)
Fig. 2 Un espace de travail global (GWT) dans un système distribué. Le système nerveux implique divers processeurs inconscients spécialisés (analyseurs perceptuels, systèmes de sortie, systèmes de planification, etc.) L’interaction, la coordination et le contrôle de ces spécialistes inconscients nécessitent un échange central d’informations ou « espace de travail global ». Les spécialistes des entrées peuvent coopérer et se faire concurrence pour y accéder. Dans le cas présenté ici, quatre processeurs d’entrée coopèrent pour placer un message global, qui est ensuite diffusé à l’ensemble du système.
pertinence. Comme tous les sous-systèmes corticaux, ils attendent d’être déclenchés par un élément de diffusion – ici, par une image de but appropriée. Le LIDA peut transformer un schéma d’action ciblé sélectionné en actions motrices exécutables de bas niveau, répondant aux caractéristiques détaillées d’un environnement imprévisible et changeant. La théorie de Baars (et la version de Franklin) n’a pas été inventée dans un atelier d’informaticien. Au contraire, elle a été conçue pour prendre en compte une grande variété de phénomènes psychologiques bien connus et un large éventail de preuves expérimentales (cf. figure 3). 137
L’intelligence artificielle
Théorie GWT
Approximations
Contextes
Ensemble d’attentes (Bruner) Dispositions pérennes et intentions momentanées (Kahneman) Mémoire active (Bransford) Schémas « allumés » (actifs) (Norman et Rumelhart) Système d’action dominante (Shallice) Aufgabe (Ecole de Würzburg, Ach)
Contenus conscients
État conscient Attention Capacité centrale limitée Mémoire immediate (court terme) Mémoire fonctionnelle (Baddeley J. Anderson) Processus stratégiques/ contrôlés (Shiffrin et Schneider)
Processeurs non spécialisés de l’inconscient
Composantes de compétences automatiques Mémoire à long terme Compétences Spécialisations adaptatives (Rozin) Modules (Fodor) PDP (Rumelhart et McClelland)
Fig. 3 Les similitudes entre les termes GW et d’autres concepts répandus. Chacune de ces idées familières est définie (par GWT) en termes de fonctionnement inconscient et conscient.
Mais ces auteurs affirment qu’il résout également quelques énigmes psychologiques non résolues jusqu’ici. Par exemple, ils affirment que la loi GWT/LIDA résout le problème, longtemps contesté, de la « contrainte ». Il s’agit de savoir comment plusieurs entrées provenant de différents sens, dans différentes zones du cerveau – par exemple, la sensation, l’apparence, l’odeur et le miaulement d’un chat – sont attribuées à une seule et même chose. Franklin et Baars affirment que cela explique aussi comment l’esprit humain évite 138
Mais, est-ce réellement de l’intelligence ?
le problème du cadre (cf. chapitre 2). Lorsque l’on génère des analogies créatives, par exemple, il n’y a pas de système exécutif central, qui rechercherait les éléments pertinents dans toute la structure des données. Au contraire, si un sous-système reconnaît qu’un élément de diffusion correspond à/s’approche de ce qu’il recherche (en permanence), il entre en concurrence pour être admis dans l’espace de travail global – GWT. Cette approche de l’IA rappelle les « démons » de Pandemonium et les architectures de « tableau noir » utilisées pour mettre en œuvre les systèmes de production (cf. chapitres 1 et 2). Cela ne nous surprendra pas, car ces idées ont inspiré la théorie neuropsychologique de Baars, qui a finalement abouti au LIDA. La roue théorique a ainsi fait un tour complet sur elle-même. L’IA ET L’ÉTAT CONSCIENT PHÉNOMÉNAL
Les praticiens de l’approche MC ignorent le problème « difficile » sousjacent. Mais trois philosophes inspirés par l’IA l’ont abordé de front : Paul Churchland, Daniel Dennett et Aaron Sloman. Dire que leurs réponses sont controversées serait un euphémisme. Mais en ce qui concerne la conscience phénoménale, c’est tout à fait normal. Le « matérialisme éliminatoire » de Churchland nie l’existence de pensées et d’expériences immatérielles. Il les identifie plutôt à des états cérébraux. Il propose une théorie scientifique – en partie informatique (connexionniste), en partie neurologique – définissant un « espace gustatif » 4D, qui cartographie systématiquement les discriminations subjectives (les qualia) du goût sur des structures neuronales spécifiques. Les quatre dimensions reflètent les quatre types de récepteurs du goût sur la langue. Pour Churchland, il ne s’agit pas d’une question de corrélation entre l’esprit et le cerveau : faire l’expérience du goût, c’est tout simplement faire visiter à son cerveau un point particulier de cet espace sensoriel défini de manière abstraite. L’implication est que toute conscience phénoménale est simplement le fait que le cerveau se trouve à un endroit particulier dans un hyperespace empiriquement découvrable. Si c’est le cas, aucun 139
L’intelligence artificielle
ordinateur (à l’exception peut-être d’une émulation du cerveau entier) ne pourrait avoir une conscience phénoménale. Dennett, lui aussi, nie l’existence d’expériences ontologiquement distinctes, au-delà des événements corporels. (Ainsi, une réponse commune à son livre provocateur de 1991 est qu’il ne s’agit « pas de la Conscience expliquée, mais d’une explication qui démontre la non-existence de la conscience »). En faire l’expérience, selon lui, c’est déjà discriminer. Mais en discriminant quelque chose qui existe dans le monde matériel, on ne fait pas naître quelque chose d’autre dans un autre monde, qui lui serait immatériel. Il exprime cela dans une conversation imaginaire : [Otto :] Il me semble que vous avez nié l’existence des phénomènes les plus indubitablement réels qui soient : les apparences réelles dont même Descartes, dans ses Méditations, ne pouvait douter. [Dennet :] Dans un sens, vous avez raison : c’est ce dont je nie l’existence. Considérons le phénomène de propagation des couleurs du néon. Il semble y avoir un anneau lumineux rose sur la jaquette. (Il décrit une illusion visuelle, causée par des lignes rouges et noires sur du papier blanc brillant.) [Otto :] C’est sûr. [Dennett :] Mais il n’y a pas d’anneau rosâtre. Pas vraiment. [Otto :] C’est vrai. Mais on dirait bien qu’il y en a un ! [Dennett :] D’accord. [Otto :] Alors, où est-il ? [Dennett :] Où est quoi ? [Otto :] L’anneau lumineux rose. [Dennett :] Il n’y en a pas ; je pensais que vous l’aviez juste reconnu. [Otto :] Eh bien oui, il n’y a pas d’anneau rose sur la page, mais il semble que ce soit le cas. [Dennett :] Bien. Il semble y avoir une bague rose et brillante. [Otto :] Alors parlons de cette bague. [Dennett :] Laquelle ? [Otto :] Celle qui semble exister.
140
Mais, est-ce réellement de l’intelligence ?
[Dennett :] Cela n’existe pas – un anneau rose qui semble simplement être. [Otto :] Écoutez, je ne dis pas seulement qu’il semble y avoir un anneau lumineux rose ; il semble vraiment y avoir un anneau lumineux rosâtre ! [Dennett :] Je m’empresse d’accepter… Vous le pensez vraiment quand vous dites qu’il semble y avoir un anneau lumineux rose. [Otto :] Voyons. Je ne suis pas seulement sincère. Je ne pense pas seulement qu’il semble y avoir un anneau lumineux rosé ; il semble vraiment y avoir un anneau lumineux rosé ! [Dennett :] Maintenant vous venez de le faire. Vous êtes tombé dans un piège, comme beaucoup d’autres. Vous semblez penser qu’il y a une différence entre penser (juger, décider, être fermement convaincu que) quelque chose vous semble rose et quelque chose qui vous semble vraiment rose. Mais il n’y a pas de différence. Il n’y a pas de phénomène tel que le fait de sembler réellement et de juger d’une manière ou d’une autre que quelque chose est le cas.
En d’autres termes, les demandes d’explication des qualia ne peuvent pas être satisfaites. Rien de tel n’a d’existence. Aaron Sloman n’est pas d’accord. Il reconnaît l’existence réelle des qualia. Mais il le fait d’une manière inhabituelle : il les analyse en tant qu’aspects de machines virtuelles multidimensionnelles que nous appelons l’« esprit » (voir la section suivante). Les qualia, dit-il, sont des états de calcul internes. Elles peuvent avoir des effets de cause à effet sur le comportement (par exemple, des expressions faciales involontaires) et/ou sur d’autres aspects du traitement de l’information par l’esprit. Ils ne peuvent exister que dans des machines virtuelles d’une grande complexité structurelle (il décrit les types de ressources informatiques réflexives nécessaires). Elles ne sont accessibles qu’à certaines autres parties de la machine virtuelle concernée et n’ont pas nécessairement d’expression comportementale. (D’où leur caractère privé.) De plus, elles ne peuvent pas toujours être décrites en termes verbaux, par des niveaux supérieurs d’autosurveillance de l’esprit. (D’où leur ineffabilité.) Cela ne signifie pas que Sloman identifie les qualia avec les processus cérébraux (comme le fait Churchland). Car les états de calcul sont des 141
L’intelligence artificielle
aspects des machines virtuelles : ils ne peuvent pas être définis dans le langage de descriptions physiques. Mais elles ne peuvent exister, et avoir des effets de cause à effet que lorsqu’elles sont mises en œuvre dans un mécanisme physique sous-jacent. Qu’en est-il du Test de Turing ? Les analyses de Dennett et de Sloman impliquent toutes les deux (et Dennett le soutient explicitement) que les zombies sont impossibles. C’est parce que, pour eux, le concept de zombie est incohérent. Si le comportement et/ou la machine virtuelle sont appropriés, la conscience – pour Sloman, même en incluant la qualité – est garantie. Le Test de Turing est donc sauvé de l’objection selon laquelle il pourrait être « réussi » par un zombie. Et qu’en est-il de l’AGI hypothétique ? Si Dennett a raison, elle aurait toute la conscience que nous possédons, nous les humains – ce qui n’inclurait pas les qualias. Si Sloman a raison, elle aurait une conscience phénoménale au même titre que nous. LES MACHINES VIRTUELLES ET LE DILEMME ESPRIT-CORPS
Le « fonctionnalisme » d’Hilary Putnam des années 1960 a utilisé la notion de machines de Turing et la distinction (alors nouvelle) entre logiciel et matériel pour soutenir que l’esprit est ce que fait le cerveau. La division métaphysique (cartésienne) entre deux substances totalement différentes a fait place à une division conceptuelle entre les niveaux de description. L’analogie programme versus ordinateur a permis de constater que « l’esprit » et « le corps » sont en effet très différents. Mais elle était pleinement compatible avec le matérialisme. (La question de savoir si elle pouvait englober les qualia était, et est toujours, très controversée.) Bien que plusieurs programmes d’IA qui nous intriguent encore existaient en 1960 (cf. chapitre 1er), les philosophes fonctionnalistes ont rarement considéré des exemples spécifiques. Ils se sont concentrés sur des principes généraux, tels que le calcul de Turing. Ce n’est qu’au milieu 142
Mais, est-ce réellement de l’intelligence ?
des années 1980, avec l’essor du PDP (cf. chapitre 4), que de nombreux philosophes se sont penchés sur le fonctionnement réel des systèmes d’IA. Même à cette époque, très peu d’entre eux se sont demandé quelles fonctions de calcul exactement pouvaient rendre le raisonnement, ou la créativité (par exemple), possible. La meilleure façon de comprendre ces questions est d’emprunter le concept de machines virtuelles de l’informaticien. Au lieu de dire que l’esprit est ce que fait le cerveau, on devrait dire (en suivant la pensée de Sloman) que l’esprit est la machine virtuelle – ou plutôt l’ensemble intégré de nombreuses machines virtuelles différentes – implantées et implémentées dans le cerveau. (La position de l’esprit en tant que machine virtuelle a cependant une implication très contre-intuitive : voir la section ci-après intitulée « La neuro-protéine est-elle essentielle »). Comme cela a été expliqué dans le chapitre 1er, les machines virtuelles sont réelles et ont des effets réels : il n’y a pas d’interactions esprit-corps métaphysiquement mystérieuses. Ainsi, la signification philosophique de LIDA, par exemple, est qu’il spécifie un ensemble organisé de machines virtuelles qui montre comment les divers aspects de la conscience (fonctionnelle) deviennent possibles. L’approche des machines virtuelles modifie un aspect essentiel du fonctionnalisme : l’hypothèse du système de symboles physiques (avec l’acronyme en anglais PSS). Dans les années 1970, Allen Newell et Herbert Simon ont défini un PSS comme « un ensemble d’entités, appelées symboles, qui sont des modèles physiques pouvant se produire en tant que composants d’un autre type d’entité appelé expression (ou structure de symbole) [au sein] d’une structure de symboles [au sein] des instances (ou jetons) de symboles [sont] liés d’une manière ou d’une autre (par exemple, un jeton est à côté d’un autre) ». Selon ces chercheurs, il existe des processus permettant de créer et de modifier des structures de symboles, à savoir les processus définis par l’IA symbolique. Et ils ont ajouté : « Un PSS dispose de moyens nécessaires et suffisants pour effectuer une action intelligente générale. » En d’autres termes, l’esprit-cerveau est un PSS. Du point de vue de l’esprit en tant que machine virtuelle, ils auraient dû l’appeler l’hypothèse du système de symboles physiques mis en œuvre 143
L’intelligence artificielle
(ne l’exprimons pas sous forme d’acronyme), car les symboles sont des contenus de machines virtuelles, et non de machines physiques. Cela implique que le tissu neural n’est pas nécessaire à l’intelligence, à moins qu’il ne soit le seul substrat matériel capable de mettre en œuvre les machines virtuelles concernées. L’hypothèse du PSS (et la plupart des premières IA) supposait qu’une représentation, ou symbole physique, était une caractéristique clairement isolable et précisément localisable de la machine/du cerveau. Le connexionnisme offrirait un compte rendu très différent des représentations (cf. chapitre 4). Il les envisageait en termes de réseaux entiers de cellules, et non de neurones clairement localisables. Et il voyait les concepts en termes de contraintes partiellement contradictoires, et non en termes de définitions logiques strictes. Cette approche était très séduisante pour les philosophes qui connaissaient bien le récit de Ludwig Wittgenstein sur les ressemblances familiales. Plus tard, les travailleurs de la robotique située ont nié l’idée selon laquelle le cerveau contient des représentations (cf. chapitre 5). Cette position a été acceptée par certains philosophes, mais David Kirsh, par exemple, a soutenu que les représentations compositionnelles (et le calcul symbolique) sont nécessaires pour tout comportement qui implique des concepts, y compris la logique, le langage et l’action délibérative. LE SENS ET SA COMPRÉHENSION
Selon Newell et Simon, tout PSS qui effectuerait les bons calculs est vraiment intelligent. Il dispose « des moyens nécessaires et suffisants pour une action intelligente ». Le philosophe John Searle a qualifié cette affirmation d’« IA forte ». (Les partisans de « l’IA faible » soutenaient que les modèles d’IA peuvent seulement aider les psychologues à formuler des théories cohérentes.) Son argument était que l’IA forte était dans l’erreur. Le calcul symbolique peut continuer dans nos têtes (bien que Searle en ait douté), mais il ne peut à lui seul fournir l’intelligence. Plus précisément, il ne peut pas 144
Mais, est-ce réellement de l’intelligence ?
fournir l’« intentionnalité », le terme technique utilisé par les philosophes pour désigner la signification ou la compréhension. Searle s’est appuyé sur une expérience de pensée encore controversée aujourd’hui. Searle se trouve dans une pièce sans fenêtre, avec une fente par laquelle on fait passer des feuillets de papier portant des « gribouillis » et des « squoggles [sic] ». Il y a une boîte de feuillets portant des gribouillis similaires et un livre de règles disant que si un gribouillis est passé à l’intérieur, alors Searle devrait passer un « blingle-blungle » à l’extérieur, ou peut-être passer par une longue séquence d’appariements de gribouillis avant de passer un feuillet à l’extérieur. À l’insu de Searle, les gribouillis sont des écritures chinoises ; le livre de règles est un programme de TLN chinoise ; et les Chinois à l’extérieur de la salle se servent de Searle pour répondre à leurs propres questions. Cependant, Searle est entré dans la salle sans comprendre le chinois, et il ne le comprendra toujours pas en sortant. Conclusion : le calcul formel seul (ce que fait Searle dans la salle) ne peut pas générer l’intentionnalité. Une IA forte est donc erronée, et une véritable compréhension des programmes d’IA est impossible. (Cet argument, appelé « Chinese Room » (la chambre chinoise), visait à l’origine l’IA symbolique, mais il a été généralisé par la suite pour s’appliquer au connexionnisme et à la robotique.) Searle affirme ici que les « significations » attribuées aux programmes d’IA proviennent entièrement d’utilisateurs/programmeurs humains. Elles sont arbitraires par rapport au programme lui-même, qui est sémantiquement vide. Étant donné qu’il s’agit d’un programme « entièrement syntaxique et non sémantique », le même programme peut être interprété comme un simulateur-calculateur d’impôts ou comme une chorégraphie. Parfois, c’est vrai. Mais souvenez-vous de l’affirmation de Franklin selon laquelle les modèles LIDA fondaient, voire incarnaient, la cognition, au moyen de couplages structurés entre les sens, les actionneurs et l’environnement. Souvenez-vous aussi du circuit de commande qui a évolué comme détecteur d’orientation d’un robot (cf. chapitre 5). Le fait d’appeler cela un « détecteur d’orientation » n’est pas arbitraire. Son existence même dépend de son évolution en tant que détecteur d’orientation, utile pour atteindre le but du robot. 145
L’intelligence artificielle
Ce dernier exemple est pertinent, notamment parce que certains philosophes considèrent l’évolution comme la source de l’intentionnalité. Ruth Millikan, par exemple, affirme que la pensée et le langage sont des phénomènes biologiques, dont la signification dépend de notre histoire évolutionnaire. Si c’est vrai, alors aucune AGI non évolutive ne pourrait avoir une réelle compréhension. D’autres philosophes à l’esprit scientifique (comme Newell et Simon eux-mêmes) définissent l’intentionnalité en termes de causalité. Mais ils ont du mal à rendre compte des déclarations non véridiques : si quelqu’un prétend voir une vache, mais qu’il n’y a pas de vache pour provoquer les mots, comment peuvent-ils signifier « vache » ? En résumé, aucune théorie de l’intentionnalité ne satisfait tous les philosophes. Puisque la véritable intelligence implique la compréhension, c’est une autre raison pour laquelle personne ne sait si notre AGI hypothétique serait réellement intelligente. LES NEURO-PROTÉINES SONT-ELLES NÉCESSAIRES ?
Le rejet de l’IA forte par Searle s’explique en partie par le fait que les ordinateurs ne sont pas faits de neuro-protéines. L’intentionnalité, dit-il, est due à la neuro-protéine tout comme la photosynthèse est due à la chlorophylle. La neuro-protéine n’est peut-être pas la seule substance dans l’Univers qui peut soutenir l’intentionnalité et la conscience. Mais le métal et le silicium, a-t-il dit, ne le peuvent pas, de toute évidence. C’est le pas de trop. Certes, il est, admettons-le, très contre-intuitif de suggérer que les ordinateurs assemblés comme de vulgaires boîtes de conserve pourraient vraiment ressentir le « blues » ou la douleur, ou vraiment comprendre le langage. Mais les qualia créées par la neuro-protéine ne sont pas moins contre-intuitives, ni moins problématiques sur le plan philosophique. Donc, quelque chose qui est contre-intuitif peut néanmoins être vrai. Si l’on accepte l’analyse des qualia par la machine virtuelle de Sloman, cette difficulté particulière disparaît. Cependant, le compte rendu global esprit-machine-virtuelle apporte une autre difficulté mais du même 146
Mais, est-ce réellement de l’intelligence ?
ordre. Si une machine virtuelle qualifiant l’esprit était implémentée dans le matériel d’IA, alors cet esprit même existerait dans la machine – ou peut-être dans plusieurs machines. Ainsi, l’esprit en tant que machine virtuelle implique la possibilité, en principe, d’une immortalité personnelle (multipliée par clonage) dans les ordinateurs. Pour la plupart des gens (voir, cependant, à ce sujet, le chapitre 7), cela n’est pas moins contre-intuitif que les ordinateurs supportant les qualia. Si la neuro-protéine est en fait la seule substance capable de supporter des machines virtuelles à l’échelle humaine, nous pouvons rejeter la suggestion d’une « immortalité clonée ». Mais est-ce bien le cas ? Nous ne le savons pas. Peut-être la neuro-protéine possède-t-elle des propriétés spéciales, peutêtre très abstraites, qui la rendraient capable de mettre en œuvre le large éventail de calculs effectués par l’esprit. Par exemple, elle doit être capable de construire (assez rapidement) des molécules stables (et stockables) mais aussi flexibles. Elle doit être capable de former des structures, et des connexions entre structures, avec des propriétés électrochimiques leur permettant de transmettre des informations entre elles. Il est possible que d’autres substances, sur d’autres planètes, puissent également faire ces choses. PAS SEULEMENT LE CERVEAU, MAIS LE CORPS AUSSI
Certains philosophes de l’esprit sont d’avis que le cerveau reçoit trop d’attention. Le corps tout entier, disent-ils, est un meilleur centre d’intérêt. Leur position s’inspire souvent de la phénoménologie continentale, qui met l’accent sur la « forme de vie » humaine. Cela couvre à la fois la conscience significative (y compris les « intérêts » humains, qui fondent notre sens de la pertinence) et l’incarnation. Être incarné, c’est être un corps vivant dans un environnement dynamique et qui s’y engage activement. L’environnement – et l’engagement – est à la fois physique et socioculturel. Les principales propriétés psychologiques ne sont pas le raisonnement ou la pensée, mais l’adaptation et la communication. 147
L’intelligence artificielle
Les philosophes de l’incarnation ont peu de temps pour l’IA symbolique, la considérant comme trop cérébrale. Seules les approches basées sur la cybernétique sont privilégiées (cf. les chapitres 1 et 5). Et puisque, elon ce point de vue, la véritable intelligence est basée sur le corps, aucune AGI à l’écran ne pourrait être réellement intelligente. Même si le système à l’écran est un agent autonome structurellement couplé à un environnement physique, il ne serait pas considéré comme incarné. Alors, qu’en est-il des robots ? Après tout, les robots sont des êtres physiques ancrés dans le monde réel et qui s’y adaptent. En effet, la robotique située est parfois louée par ces philosophes. Mais les robots ont-ils un corps ? Ou des intérêts ? Ou des formes de vie ? Sont-ils vivants ? Les phénoménologues diraient : « Certainement pas ! » Ils pourraient citer la célèbre remarque de Wittgenstein : « Si un lion pouvait parler, nous ne le comprendrions pas. » La forme de vie du lion est si différente de la nôtre que la communication serait presque impossible. Il est vrai que la psychologie du lion et la nôtre se recoupent suffisamment (par exemple, la faim, la peur, la fatigue, etc.) pour qu’un minimum de compréhension – et d’empathie – soit possible. Mais même cela ne serait pas possible lorsqu’on « communique » avec un robot. (C’est pourquoi la recherche sur les compagnons informatiques est si préoccupante : cf. chapitres 3 et 7). LA COMMUNAUTÉ MORALE
Accepterions-nous une AGI à dimension humaine comme membre de notre communauté morale ? Si nous le faisions, cela aurait des conséquences pratiques importantes, car cela affecterait l’interaction homme-machine de trois façons. Premièrement, l’AGI accueillerait notre préoccupation morale – comme le font les animaux. Nous respecterions ses intérêts, jusqu’à un certain point. Si elle demandait à quelqu’un d’interrompre son repos ou ses mots croisés pour l’aider à atteindre un objectif « hautement prioritaire », il le ferait. (Ne vous êtes-vous jamais levé de votre fauteuil 148
Mais, est-ce réellement de l’intelligence ?
pour promener le chien, ou pour laisser une coccinelle s’échapper vers le jardin ?) Plus on jugeait que ses intérêts comptaient pour elle, plus on se sentait obligé de les respecter. Toutefois, ce jugement dépendrait largement de la question de savoir si nous attribuons une conscience phénoménale (y compris des émotions ressenties) à l’AGI. Deuxièmement, nous considérerions ses actions comme étant moralement évaluables. Les drones tueurs d’aujourd’hui ne sont pas moralement responsables (contrairement à leurs utilisateurs/concepteurs : cf. chapitre 7). Mais peut-être qu’une AGI vraiment intelligente le serait ? Ses décisions pourraient vraisemblablement être influencées par nos réactions à leur égard ; par nos louanges ou par nos reproches. Sinon, il n’y a pas de communauté. Elle pourrait apprendre à être « morale » tout comme un enfant (ou un chien) peut apprendre à bien se comporter, ou un enfant plus âgé à être attentionné. La considération exige le développement de ce que les psychologues cognitifs appellent la théorie de l’esprit, qui interprète le comportement des gens en termes d’agence, d’intention et de croyance. Même une punition peut être justifiée, pour des raisons instrumentales. Et troisièmement, nous en ferions la cible d’une argumentation et d’une persuasion sur les décisions morales. Il pourrait même offrir des conseils moraux aux gens. Pour que nous nous engagions sérieusement dans de telles conversations, nous devrions être convaincus que (outre le fait d’avoir une intelligence de niveau humain) elle se prêterait à des considérations spécifiquement morales. Mais qu’est-ce que cela signifie au juste ? Les éthiciens sont en profond désaccord non seulement sur le contenu de la moralité mais aussi sur ses fondements philosophiques. Plus on considère les implications de la « communauté morale », plus l’idée d’admettre les AGI semble problématique. En effet, la plupart des gens ont la forte intuition qu’évoquer la suggestion même est absurde. LA MORALITÉ, LA LIBERTÉ ET LE SENS DU SOI
Cette intuition est due en grande partie au fait que le concept de responsabilité morale est intimement lié à l’agencement conscient des 149
L’intelligence artificielle
autres, à la liberté et à l’individu, qui contribuent à notre notion d’humanité en tant que telle. La délibération consciente rend nos choix plus responsables moralement (bien que les actions non réfléchies puissent également être critiquées). Les louanges ou les reproches moraux sont attribués à l’agent, ou au « soi », concerné. Et les actions réalisées sous de fortes contraintes sont moins susceptibles d’être blâmées que celles réalisées librement. Ces concepts sont extrêmement controversés, même lorsqu’ils sont appliqués à des personnes. Leur application à des machines semble inappropriée, notamment en raison des implications pour les interactions homme-machine citées dans la section précédente. Néanmoins, l’approche « esprit comme machine virtuelle » de l’esprit humain peut nous aider à comprendre ces phénomènes dans notre propre cas. Les philosophes influencés par l’IA analysent la liberté en termes de types de complexité cognitive et motivationnelle. Ils soulignent que les gens sont clairement « libres » d’une manière qui n’est pas celle du criquet, par exemple. Les criquets femelles trouvent leurs partenaires grâce à une réponse réflexe câblée (cf. chapitre 5). Mais une femme hétérosexuelle à la recherche d’un partenaire mâle dispose de nombreuses stratégies. Elle a également de nombreux motifs autres que l’accouplement, qui ne peuvent pas tous être satisfaits simultanément. Elle y parvient néanmoins grâce à des ressources informatiques (appelées aussi intelligence) qui font défaut aux criquets. Ces ressources, organisées par la conscience fonctionnelle, compren nent l’apprentissage perceptuel, la planification anticipée, l’affectation par défaut, le classement des préférences, le raisonnement contrefactuel et la programmation d’actions guidées par l’émotion. En effet, dans son livre Elbow Roo, Dennett utilise de tels concepts – et une foule d’exemples éloquents et explicites – pour expliquer la liberté humaine. L’IA nous aide donc à comprendre comment notre propre libre choix est possible. Le déterminisme/indéterminisme est en grande partie un leurre. Il y a un certain degré d’indéterminisme dans toute action humaine, mais
150
Mais, est-ce réellement de l’intelligence ?
cela ne peut pas se produire au moment de la décision car cela saperait la responsabilité morale. Il pourrait, cependant, affecter les considérations qui surgissent au cours des délibérations. L’agent peut (ou non) penser à x, ou se rappeler de y – où x et y comprennent à la fois des faits et des valeurs morales. Par exemple, le choix d’un cadeau d’anniversaire peut être influencé par le fait qu’une personne remarque accidentellement quelque chose qui lui rappelle que le destinataire potentiel aime le violet ou soutient les droits des animaux. Toutes les ressources de calcul que nous venons d’énumérer seraient à la disposition d’une AGI de niveau humain. Ainsi, à moins que le libre choix n’implique également une conscience phénoménale (et si l’on rejette les analyses informatiques de cela), il semble que notre AGI imaginaire disposerait de sa liberté. Si nous pouvions comprendre que l’AGI puisse avoir des motivations diverses qui lui importent, nous pourrions même faire des distinctions entre son choix « libre » ou fait « sous contrainte ». Cependant, ce « si » est un très grand « si ». En ce qui concerne le « soi », les chercheurs en IA soulignent le rôle du calcul récursif, dans lequel un processus peut s’opérer sur lui-même. De nombreuses énigmes philosophiques traditionnelles concernant la connaissance de soi (et l’auto-tromperie) peuvent être résolues par cette idée familière de l’IA. Mais qu’est-ce que la connaissance de soi ? Certains philosophes nient la réalité du soi, mais les penseurs influencés par l’IA ne le font pas. Ils la considèrent comme un type spécifique de machine virtuelle. Pour eux, le soi est une structure informatique durable qui organise et rationalise les actions de l’agent, en particulier ses actions volontaires soigneusement étudiées. L’auteur de LIDA, par exemple, le décrit comme « le contexte durable de l’expérience, qui organise et stabilise les expériences dans de nombreux contextes locaux différents ». Elle n’est pas présente chez le nouveau-né, mais est une construction de toute une vie – qui se prête dans une certaine mesure à un « auto-moulage » délibéré. Et son caractère multidimensionnel permet une variation considérable, générant une agence individuelle reconnaissable et une idiosyncrasie personnelle. 151
L’intelligence artificielle
Cela est rendu possible parce que la théorie de l’esprit de l’agent (qui interprète initialement le comportement des autres) est appliquée, de manière réflexive, à ses propres pensées et actions. Elle leur donne un sens en termes de motifs, d’intentions et d’objectifs prioritaires. Ces derniers sont, à leur tour, organisés en fonction des préférences individuelles, des relations personnelles et des valeurs morales/politiques durables. Cette architecture informatique permet de construire à la fois une image de soi (représentant le type de personne que l’on croit être) et une image idéale de soi (le type de personne que l’on voudrait être), ainsi que des actions et des émotions fondées sur les différences entre les deux. Dennett (fortement influencé par Minsky) appelle le moi « le centre de gravité narratif » : une structure (machine virtuelle) qui, en racontant l’histoire de sa propre vie, génère et cherche à expliquer ses actions – en particulier ses relations avec les autres. Cela laisse bien sûr la place à l’auto-déception et à l’auto-invisibilité de toutes sortes. De même, Douglas Hofstadter décrit les soi comme des modèles abstraits d’autoréférence qui proviennent de la base insignifiante de l’activité neuronale et y retournent de manière causale. Ces motifs (machines virtuelles) ne sont pas des aspects superficiels de la personne. Au contraire, pour que le soi existe, il suffit que ce modèle soit « instancié ». En résumé : décider de créditer les AGI d’une véritable intelligence au niveau humain – impliquant la moralité, la liberté et le soi – serait un grand pas, avec des implications pratiques importantes. Ceux dont l’intuition rejette toute l’idée comme étant fondamentalement erronée pourraient bien avoir raison. Malheureusement, leur intuition ne peut pas être étayée par des arguments philosophiques non controversés. Il n’y a pas de consensus sur ces questions, il n’y a donc pas de réponses faciles. L’ESPRIT ET LA VIE
Tous les esprits que nous connaissons se trouvent dans les organismes vivants. Beaucoup de gens, y compris les cybernéticiens (cf. chapitres 1 et 5), pensent qu’il doit en être ainsi. C’est-à-dire qu’ils supposent que l’esprit présuppose nécessairement la vie. 152
Mais, est-ce réellement de l’intelligence ?
Les philosophes professionnels l’affirment parfois explicitement, mais le défendent rarement. Putnam, par exemple, a déclaré que c’est un « fait incontestable » que si un robot n’est pas vivant, il ne peut pas être conscient. Mais il n’a donné aucune raison scientifique, s’appuyant plutôt sur « les règles sémantiques de notre langage ». Même les quelques personnes – comme le philosophe écologiste Hans Jonas et, récemment, le physicien Karl Friston, par le biais de son « principe de la libre énergie » largement cybernétique – qui ont longuement défendu cette hypothèse n’ont pas pu la prouver hors de tout doute. Supposons toutefois que cette croyance commune soit véridique Si c’est le cas, alors l’intelligence réelle ne peut être obtenue par l’IA que si la vie réelle est également obtenue. Nous devons donc nous demander s’il est possible d’avoir une « A-life forte » (une vie distincte, dans le cyberespace). Il n’existe pas de définition universellement acceptée de la vie. Mais neuf caractéristiques sont généralement mentionnées : l’auto-organisation, l’autonomie, l’émergence, le développement, l’adaptation, la réactivité, la reproduction, l’évolution et le métabolisme. Les huit premières peuvent être comprises en termes de traitement de l’information, et pourraient donc en principe être instanciées par l’IA/A-Life. L’auto- organisation, par exemple – qui, au sens large, inclut toutes les autres – a été réalisée de diverses manières (cf. les chapitres 4 et 5). Mais le métabolisme est différent. Il peut être modélisé par les ordinateurs, mais pas instancié par eux. Ni les robots auto-assemblés ni l’A-Life virtuelle (à l’écran) ne peuvent réellement métaboliser. Le métabolisme est l’utilisation de substances biochimiques et d’échanges d’énergie pour assembler et entretenir l’organisme. Il est donc irréductiblement physique. Les défenseurs d’une A-Life forte soulignent que les ordinateurs utilisent de l’énergie, et que certains robots ont des réserves d’énergie individuelles, qui doivent être régulièrement réapprovisionnées. Mais on est loin de l’utilisation flexible de cycles biochimiques imbriqués pour construire le tissu corporel de l’organisme. Donc, si le métabolisme est nécessaire à la vie, alors une A-Life forte devient impossible. Et si la vie est nécessaire à l’esprit, alors une forte IA 153
L’intelligence artificielle
est également impossible. Aussi impressionnantes que soient les performances d’une future IAG, elle n’aurait pas vraiment d’intelligence. LE GRAND FOSSÉ PHILOSOPHIQUE
Les philosophes « analytiques », et les chercheurs en IA également, considèrent comme acquis qu’une certaine psychologie scientifique est possible. C’est une position adoptée tout au long de ce livre – y compris dans ce chapitre. Les phénoménologues, cependant, rejettent cette hypothèse. Ils affirment que tous nos concepts scientifiques découlent d’une conscience significative, et ne peuvent donc pas être utilisés pour l’expliquer. Avant sa mort en 2016, Putnam lui-même avait accepté cette position. Ils affirment même qu’il est absurde de poser l’hypothèse d’un monde réel existant indépendamment de la pensée humaine, dont la science pourrait découvrir les propriétés objectives. L’absence de consensus quant à la nature de l’esprit/intelligence est donc encore plus profonde que ce que j’ai indiqué jusqu’à présent. Il n’y a pas d’argument de poids, de KO possible, contre le point de vue des phénoménologues – ni pour lui non plus. Car il n’y a pas de terrain d’entente à partir duquel on peut en trouver un. Chaque partie se défend et critique l’autre, en utilisant des arguments dont les termes clés ne sont pas mutuellement acceptés ou acceptables. La philosophie analytique et phénoménologique donne des interprétations fondamentalement différentes et même de concepts de base comme la raison et la vérité. (Le scientifique en IA Brian Cantwell Smith a proposé une métaphysique ambitieuse du calcul, de l’intentionnalité et des objets qui vise à respecter les points de vue des deux parties ; malheureusement, son argument intrigant ne convainc guère.) Ce différend n’est pas résolu, et peut-être est-ce même irrémédiable. Pour certaines personnes, la position des phénoménologues est « évidemment » juste. Pour d’autres, elle est « évidemment » absurde. C’est une raison supplémentaire pour laquelle personne ne sait avec certitude si une AGI pourrait être réellement intelligente. 154
7 La Singularité L’avenir de l’IA a été exagéré depuis sa création. Les prédictions trop enthousiastes de (certains) professionnels de l’IA ont enthousiasmé, et parfois terrifié, les journalistes et les commentateurs culturels. Aujourd’hui, l’exemple le plus frappant est la Singularité : le moment où les machines deviendront plus intelligentes que les humains. D’abord, dit-on, l’IA atteindra le niveau d’intelligence des hommes. (On suppose tacitement qu’il s’agirait d’une véritable intelligence, cf. chapitre 6.) Peu après, l’AGI se transformera en ASI – avec « S » pour « Surhumaine » [au lieu de « G » pour « Générale »]. Car les systèmes seront suffisamment intelligents pour se répliquer, donc copier euxmêmes, et ainsi être plus nombreux que nous – et pour s’améliorer, donc nous dépasser. Les problèmes et les décisions les plus importants seront alors traités par les ordinateurs. Cette notion est extrêmement controversée. Les gens ne sont pas d’accord sur la question de savoir si cela pourrait arriver, si cela va arriver, mais quand cela pourrait arriver et si ce serait une bonne ou une mauvaise chose. Les partisans de la Singularité (que nous appellerons les « S-croyants ») soutiennent que les progrès de l’IA rendent la Singularité inévitable. Certains s’en félicitent. Ils prévoient que les problèmes auxquels est confrontée l’humanité seront résolus. La guerre, la maladie, la faim, l’ennui et même la mort personnelle… tous « bannis ». D’autres prédisent la fin de l’humanité – ou du moins, de la vie civilisée telle que nous la connaissons. Stephen Hawking (aux côtés de Stuart Russell, co-auteur du principal texte du monde sur l’AI) a fait des vagues dans le monde entier en mai 2014 en déclarant qu’ignorer la menace de l’AI serait « potentiellement notre pire erreur jamais commise [par l’homme] ». 155
L’intelligence artificielle
En revanche, les sceptiques de la singularité (les « S-sceptiques ») ne s’attendent pas à ce que la Singularité se produise, et certainement pas dans un avenir prévisible. Ils admettent que l’IA est une source de p réoccupation importante. Mais ils n’y voient pas de menace existentielle. LES PROPHÈTES DE LA SINGULARITÉ
L’idée d’une transition AGI → ASI est devenue récemment un lieu commun dans les médias, mais elle est née au milieu du xxe siècle. Les principaux initiateurs en sont « Jack » Good (un collègue cryptologue « briseur de code » d’Alan Turing à Bletchley Park), Vernor Vinge et Ray Kurzweil. (Turing lui-même s’attendait à ce que « les machines prennent le contrôle », mais n’a pas donné de détails). En 1965, Good a prédit une machine ultra-intelligente, qui « surpasserait de loin toutes les activités intellectuelles de tout homme, aussi intelligent soit-il ». Et comme une telle machine pourrait concevoir des machines encore meilleures, elle allait « incontestablement [conduire] à une explosion de l’intelligence ». À l’époque, Good était d’un optimisme prudent : « La première machine ultra-intelligente sera l’ultime invention que l’Homme aura jamais faite – à condition que la machine soit suffisamment docile pour nous expliquer comment la garder sous contrôle. » Plus tard, cependant, il a fait valoir que les machines ultra-intelligentes nous détruiraient. Un quart de siècle plus tard, Vinge a rendu populaire le terme « Singularité » (initié dans ce contexte par John von Neumann en 1958). Il a prédit la « Future Singularité technologique », ce moment dans le temps où toutes les prédictions s’effondreront (à comparer avec l’horizon des événements d’un trou noir). La Singularité elle-même, a-t-il admis, est prévisible, voire inévitable. Mais parmi les nombreuses conséquences (qu’on ne saurait connaître), il pourrait y avoir la destruction de la civilisation, et même de l’Humanité tout entière. Nous nous dirigeons vers « un rejet de toutes les règles précédentes, peut-être en un clin d’œil, une fuite exponentielle au-delà de tout espoir 156
La Singularité
de contrôle ». Même si tous les gouvernements se rendaient compte du danger et essayaient de le prévenir, a-t-il dit, ils n’y parviendraient pas. Le pessimisme de Vinge et (plus tard) de Good est contré par Kurzweil. Il offre non seulement un optimisme à couper le souffle, mais aussi des dates. Son livre, intitulé de façon éloquente The Singularity is Near, suggère que l’AGI sera atteint d’ici 2030 et que d’ici 2045, l’ASI (combinée avec la nanotechnologie et la biotechnologie) aura vaincu la guerre, la maladie, la pauvreté et la mort personnelle. Elle aura également engendré « une explosion de l’art, de la science et d’autres formes de connaissances qui donneront un véritable sens à la vie ». D’ici le milieu du siècle, nous vivrons également dans des réalités virtuelles immersives beaucoup plus riches et satisfaisantes que le monde réel. Pour Kurzweil, la Singularité est vraiment singulière, et « Near [proche] » signifie vraiment proche. Cet hyper-optimisme est parfois tempéré. Kurzweil énumère de nombreux risques existentiels, en grande partie issus de la biotechnologie assistée par IA. Concernant l’IA elle-même, il avance que : « L’intelligence est intrinsèquement impossible à contrôler… Il est aujourd’hui impossible de concevoir des stratégies qui garantiront absolument que l’IA future incarne l’éthique et les valeurs humaines. » L’argument de Kurzweil s’appuie sur la « loi de Moore », l’observation de Gordon Moore, fondateur de la compagnie Intel®, selon laquelle la puissance informatique disponible pour un dollar investi double chaque année. (Les lois de la physique finiront par vaincre la loi de Moore, mais pas dans un avenir prévisible.) Comme le souligne Kurzweil, toute augmentation exponentielle est très contre-intuitive. Ici, dit-il, cela implique que l’IA progresse à un rythme inimaginable. Ainsi, comme Vinge, il insiste sur le fait que les attentes fondées sur l’expérience passée sont presque sans valeur. DES PRÉVISIONS CONCURRENTIELLES
Bien qu’elles soient jugées sans valeur, ou presque, les prévisions post-Singularité sont néanmoins faites fréquemment. On trouve dans 157
L’intelligence artificielle
la littérature une foule d’exemples époustouflants, dont on ne peut citer que quelques-uns ici. Les « S-croyants » se divisent en deux camps : les pessimistes (adeptes de la vision de Vinge) et les optimistes (qui adhèrent aux thèses de Kurzweil). La plupart d’entre eux s’accordent à dire que la transition AGI → ASI se produira bien avant la fin de ce siècle. Mais ils ne s’accordent pas sur le niveau de danger que pourrait représenter l’ASI. Par exemple, certains prévoient que des robots maléfiques feront tout ce qui est en leur pouvoir pour contrecarrer les espoirs et les vies humaines (un trope commun de la science-fiction et des films hollywoodiens). L’idée que nous pourrions « débrancher l’ASI » si nécessaire, est expressément rejetée. Les ASI, nous dit-on, seraient assez malins pour rendre cela impossible. D’autres affirment que les ASI n’auront aucune intention malveillante, mais qu’elles seront malgré tout extrêmement dangereuses. Nous ne leur inculquerions pas la haine des humains, et il n’y a aucune raison qu’ils la développent pour eux-mêmes. Au contraire, ils nous seront indifférents, tout comme nous le sommes pour la plupart des espèces non humaines. Leur indifférence à notre égard – si nos intérêts entrent en conflit avec les leurs – pourrait mener à notre perte : l’Homo sapiens connaîtrait le sort de l’oiseau-dodo. Ou encore, pensez à une stratégie générale parfois suggérée pour se prémunir contre les menaces de la Singularité : l’endiguement. Ici, une ASI est empêchée d’agir directement sur le monde, bien qu’elle puisse percevoir directement le monde. Elle ne sert qu’à répondre à nos questions (ce que Bostrom appelle un « Oracle »). Cependant, le monde comprend l’Internet et les ASI peuvent provoquer des changements indirects en contribuant au contenu – par des faits, des mensonges, virus informatiques… – envoyés vers l’Internet. Une autre forme de pessimisme de la Singularité prédit que les machines nous feront faire le sale boulot à leur place, même si cela va à l’encontre des intérêts de l’Humanité. Ce point de vue méprise l’idée que
158
La Singularité
nous pourrions contenir les systèmes ASI en les coupant du monde. Une machine super-intelligente, dit-on, pourrait utiliser la corruption ou les menaces pour persuader l’un des rares humains auxquels elle est parfois connectée de faire des choses qu’elle est incapable de faire directement. Cette inquiétude particulière suppose que l’ASI en aura appris suffisamment sur la psychologie humaine pour savoir quels pots-de-vin ou quelles menaces seraient susceptibles de marcher, et peut-être aussi quels individus seraient les plus susceptibles d’être vulnérables à une certaine forme de persuasion. La réponse à l’objection que cette hypothèse est inconcevable, serait que les pots-de-vin financiers bruts, ou les menaces de meurtre, fonctionneraient avec presque tout le monde – l’ASI n’aurait donc pas besoin d’une perspicacité psychologique rivalisant avec celle d’Henry James. Nul besoin non plus de comprendre, en termes humains, ce que sont réellement la persuasion, la corruption et la menace. Il lui suffirait de savoir que le fait de faire gober certains textes de TLN dans un être humain est susceptible d’influencer son comportement de manière largement prévisible. Certaines des prévisions optimistes sont encore plus difficiles à réaliser. Les plus saisissantes sont peut-être les prédictions de Kurzweil concernant la vie dans un monde virtuel et l’élimination de la mort de chaque homme. La mort corporelle, bien que très retardée (par les biosciences assistées par l’ASI), se poursuivrait. Mais l’aiguillon de la mort pourrait être retiré en téléchargeant les personnalités et les souvenirs des personnes individuelles dans des ordinateurs. Cette hypothèse philosophiquement problématique, selon laquelle une personne pourrait exister, soit dans le silicium, soit dans les neuro-protéines (cf. chapitre 6), est reflétée dans le sous-titre de son livre de 2005 : Quand les humains transcendent la biologie. Kurzweil y exprime sa vision de « Singulitarien » (sic) – vision également appelée le transhumanisme ou le posthumanisme – d’un monde contenant des personnes partiellement, voire totalement, non biologiques. Ces cyborgs transhumanistes, dit-on, auront divers implants informatisés directement reliés à leur cerveau, et des prothèses de membres 159
L’intelligence artificielle
et/ou d’organes des sens. La cécité et la surdité seront bannies, car les signaux visuels et auditifs seront interprétés par le sens du toucher. Enfin, la cognition rationnelle (ainsi que l’humeur) sera améliorée par des médicaments spécialement conçus à cet effet. Les premières versions de ces technologies d’assistance sont déjà disponibles. Si elles prolifèrent comme le suggère Kurzweil, notre concept d’humanité sera profondément modifié. Au lieu de considérer les prothèses comme des compléments utiles au corps humain, elles seront considérées comme des parties du corps (trans)humain. Les drogues psychotropes, largement consommées, seront répertoriées aux côtés des substances naturelles comme la dopamine, qui est un élément du « cerveau ». Et l’intelligence, la force ou la beauté supérieures des individus génétiquement modifiés seront considérées comme des caractéristiques « naturelles ». Les opinions politiques sur l’égalitarisme et la démocratie seront remises en question. Une nouvelle sous-espèce (ou espèce ?) pourrait même se développer, à partir d’ancêtres humains suffisamment riches pour exploiter ces possibilités. En bref, l’évolution biologique devrait être remplacée par l’évolution technologique. M. Kurzweil voit la Singularité comme « le point culminant de la fusion de notre pensée et de notre existence biologiques avec notre technologie, résultant en un monde [dans lequel] il n’y aura aucune distinction… entre l’homme et la machine ou entre réalités physique et virtuelle ». (Je vous pardonne volontiers si vous avez le sentiment de devoir marquer une pause ici pour prendre une très grande respiration). Le transhumanisme est un exemple extrême de la manière dont l’IA peut changer les idées sur la nature humaine. Il existe aussi une philosophie moins extrême et qui assimile la technologie au concept même de l’esprit, à savoir « l’esprit étendu », qui considère que l’esprit est réparti dans le monde entier pour inclure les processus cognitifs qui en dépendent. Bien que la notion d’esprit étendu ait eu une grande influence, ce n’est pas le cas du transhumanisme. Elle a été approuvée avec enthousiasme par certains philosophes, commentateurs culturels et artistes. Cependant, tous les S-croyants n’y adhèrent pas. 160
La Singularité
LA DÉFENSE DU SCEPTICISME
À mon avis, les S-sceptiques ont raison. La discussion sur l’esprit en tant que « machine virtuelle » au Chapitre 6 implique qu’il n’y a en principe aucun obstacle à l’intelligence artificielle au niveau humain (à l’exception, peut-être, de la conscience phénoménale). La question est ici de savoir si cela est probable dans la pratique. Outre l’invraisemblance intuitive de nombreuses prédictions post-Singularité, et la quasi-absurdité (à mon avis) de la philosophie transhumaniste, les S-sceptiques ont d’autres arguments qui plaident en leur faveur. L’IA est moins prometteuse que ce que beaucoup de gens supposent. Les Chapitres 2 à 5 ont déjà mentionné d’innombrables choses que l’IA actuelle ne peut pas entreprendre. Beaucoup d’entre elles requièrent un sens humain de la pertinence (et supposent tacitement l’achèvement de la toile sémantique : cf. chapitre 2). De plus, l’IA s’est concentrée sur la rationalité intellectuelle tout en ignorant l’intelligence sociale/émotionnelle – sans parler de la sagesse. Une IA qui pourrait interagir pleinement avec notre monde aurait également besoin de ces capacités. Si l’on ajoute à cela la prodigieuse richesse des esprits humains et la nécessité de bonnes théories psychologiques/calculatrices sur leur fonctionnement, les perspectives d’une AGI à l’échelle humaine semblent bien minces. Même si cela était réalisable dans la pratique, on peut douter que le financement nécessaire se concrétise. Les gouvernements consacrent actuellement d’énormes ressources à l’émulation du cerveau (voir la section suivante), mais l’argent nécessaire pour l’assemblage d’esprits humains artificiels serait encore plus important. Grâce à l’énoncé de Moore, on peut certainement s’attendre à d’autres avancées en matière d’IA. Mais l’augmentation de la puissance des ordinateurs et de la disponibilité des données (grâce au stockage dans le « nuage » (cloud) et aux capteurs fonctionnant « 24 sur 24 et 7 sur 7 » sur l’Internet des Choses (IoT –Internet of Things) ne garantira pas une IA de type humain. C’est une mauvaise nouvelle pour les S-croyants, car l’ASI a besoin de l’AGI d’abord. 161
L’intelligence artificielle
Les S-croyants ignorent les limites de l’IA actuelle. Ils ne considèrent tout simplement pas que l’avancée technologique soit en train de réécrire tous les recueils de règles. Cela leur permet de faire des prédictions à volonté. Ils admettent parfois que leurs prédictions de fin de siècle peuvent être irréalistes. Cependant, ils insistent sur le fait que « jamais » est une très lointaine échéance. « Jamais » en effet, est un très long moment. Les sceptiques, dont je fais partie, peuvent donc se tromper. Ils n’ont pas d’arguments à faire valoir, surtout s’ils admettent la possibilité de l’AGI en principe (comme je le fais). Ils peuvent même être persuadés que la Singularité, bien qu’énormément retardée, finira par se produire. Néanmoins, un examen attentif de l’IA de pointe donne de bonnes raisons de soutenir l’hypothèse des sceptiques (ou leur pari, si vous préférez), plutôt que les spéculations absurdes des S-croyants. L’ÉMULATION TOTALE DU CERVEAU
Les partisans de la théorie de la « AG-S » prédisent une avancée technologique exponentielle dans les domaines de l’IA, de la biotechnologie et de la nanotechnologie, ainsi que dans la coopération entre ces domaines. En effet, cela se produit déjà. Les analyses de Big Data sont utilisées pour faire progresser le génie génétique et le développement de médicaments, ainsi que de nombreux autres projets à base scientifique (Ada Lovelace a soutenu cet axe de progrès : cf. chapitre 1er). De même, l’IA et les neurosciences sont combinées dans l’émulation du cerveau entier (en anglais WBE whole-brain emulation). L’objectif de la WBE est d’imiter un vrai cerveau en simulant ses composants individuels (neurones), ainsi que leurs connexions et leurs capacités de traitement de l’information. L’espoir est que les connaissances scientifiques acquises auront de nombreuses applications, y compris des traitements pour des pathologies mentales allant de la maladie d’Alzheimer à la schizophrénie.
162
La Singularité
Cette « ingénierie inverse » nécessitera des calculs neuro-morphiques, qui modélisent les processus infra-cellulaires tels que le passage d’ions à travers la membrane cellulaire (cf. chapitre 4). L’informatique neuro-morphique se basera sur notre connaissance de l’anatomie et de la physiologie des différents types de neurones. Mais la WBE nécessitera également des preuves détaillées sur les connexions et les fonctionnalités neuronales spécifiques, y compris le timing. Pour ce faire, il faudra en grande partie améliorer la scintigraphie du cerveau, avec des sondes neurométriques miniaturisées qui surveillent en permanence les différents neurones. Divers projets de WBE sont actuellement en cours, souvent comparés par leurs promoteurs au projet du génome humain ou à la course à la lune. Par exemple, en 2013, l’Union européenne a annoncé le projet [de dix ans] sur le Cerveau Humain [EU- Human Brain Project ou HBP)], dont le coût est estimé à un milliard de livres sterling [1,12 milliard d’euros]. Plus tard la même année, le président américain Barack Obama a fièrement annoncé BRAIN, un projet étalé sur dix ans, financé par le gouvernement américain à hauteur de 3 milliards de dollars [2,5 milliards d’euros] (plus un montant important de fonds privés). Il vise d’abord à générer une carte dynamique de la connectivité du cerveau de la souris, puis à émuler celui de l’homme. Des tentatives antérieures d’émulation partielle du cerveau ont également été financées par le gouvernement. En 2005, la Suisse a parrainé le projet Blue Brain – initialement pour simuler la colonne corticale d’un rat, mais avec l’objectif à long terme de modéliser le million de colonnes du néocortex humain. En 2008, le DARPA a fourni près de 40 millions de dollars pour SyNAPSE (Systems of Neuromorphic and Plastic Scalable Electronics) ; Avec pour horizon 2014 – et 40 millions de dollars supplémentaires – ce projet utilise des micro-processeurs intégrant 5,4 milliards de transistors, chacun contenant un million d’unités (neurones) et 256 millions de synapses. L’Allemagne et le Japon collaborent également à l’utilisation de la NEST (technologie de simulation neuronale) pour développer l’ordinateur K ; en 2012, il fallait encore quarante minutes 163
L’intelligence artificielle
pour simuler une seconde de 1 % de l’activité cérébrale réelle, impliquant 1,73 milliard de « neurones » et 10,4 millions de milliards de « synapses ». Parce qu’il est si cher, la WBE chez les mammifères est rare. Mais d’innombrables tentatives de cartographie de cerveaux beaucoup plus petits que les nôtres sont en cours dans le monde (dans ma propre université [Sussex, UK], elles sont axées sur les abeilles). Ces travaux pourraient fournir des connaissances neuroscientifiques afin d’aider les projets de WBE à l’échelle humaine. Compte tenu des progrès matériels déjà réalisés (par exemple, les micro-processeurs de SYNAPSE), ainsi que de l’énoncé de Moore, la prédiction de Kurzweil selon laquelle des ordinateurs correspondant à la puissance de traitement brute des cerveaux humains existeront d’ici les années 2020 est plausible. Mais sa conviction qu’ils correspondront à l’intelligence humaine d’ici 2030 est une tout autre affaire. Car c’est la machine virtuelle qui est cruciale ici (cf. chapitres 1er et 6). Certaines machines virtuelles ne peuvent être mises en œuvre que dans des montages de calcul matériels extrêmement puissants. Il se peut donc que des micro-processeurs méga-transistorisés soient nécessaires. Mais quels calculs effectueront-ils au juste ? En d’autres termes, quelles machines virtuelles seront mises en œuvre avec ces micro-processeurs ? Pour correspondre à l’intelligence humaine (ou même à celle de la souris), elles devront être puissantes sur le plan de l’information, d’une manière que les psychologues computationnels ne comprennent pas encore parfaitement. Supposons – même si je pense que c’est peu probable – que chaque neurone du cerveau humain soit, à terme, cartographié. En soi, cela ne nous dira pas ce que ces neurones font. (Le minuscule ver nématode C. elegans ne possède que 302 neurones, dont les connexions sont connues avec précision. Mais nous ne pouvons même pas identifier quelles synapses sont excitatrices/inhibitrices). Pour le cortex visuel, nous disposons déjà d’une cartographie assez détaillée entre la neuro-anatomie et la fonction psychologique. Mais
164
La Singularité
ce n’est pas le cas pour le néocortex en général. En particulier, nous ne savons pas grand-chose sur ce que fait le cortex frontal, c’est-à-dire sur les machines virtuelles qui y sont implantées. Cette question n’est pas très importante pour les WBE à grande échelle. Le projet sur le cerveau humain, par exemple, a adopté une approche résolument ascendante [bottom-up] : il s’agit d’examiner l’anatomie et la biochimie et d’essayer de les imiter. Les questions descendantes [top-down], sur les fonctions psychologiques que le cerveau peut soutenir, sont mises de côté (très peu de neuroscientifiques cognitifs sont impliqués). Même si la modélisation anatomique était entièrement réalisée et la messagerie chimique soigneusement surveillée, ces questions ne trouveraient pas de réponse. Les réponses nécessiteraient une grande variété de concepts de calcul. De plus, un sujet clé est l’architecture informatique de l’esprit (ou esprit-cerveau) dans son ensemble. Nous avons vu au chapitre 3 que la planification d’actions chez les créatures « multi-motifs » nécessite des mécanismes d’ordonnancement complexes – tels que ceux fournis par les émotions. Et la discussion sur le LIDA au chapitre 6 a montré l’énorme complexité du traitement cortical. Même l’activité banale consistant à manger avec un couteau et une fourchette nécessite l’intégration de nombreuses machines virtuelles, certaines traitant des objets physiques (muscles, doigts, ustensiles, divers types de capteurs), d’autres des intentions, des plans, des attentes, des désirs, des conventions sociales et des préférences. Pour comprendre comment toute cette activité est possible, nous avons besoin non seulement de données neuroscientifiques sur le cerveau, mais aussi de théories computationnelles détaillées sur les processus psychologiques impliqués. En bref, considéré comme un moyen de comprendre l’intelligence humaine, la WBE ascendant est susceptible d’échouer. Elle pourrait nous en apprendre beaucoup sur le cerveau. Et elle pourrait aider les scientifiques de l’IA à développer d’autres applications pratiques. Mais l’idée que la WBE d’ici le mi-siècle aura expliqué l’intelligence humaine est une pure illusion.
165
L’intelligence artificielle
CE DONT IL SERAIT LÉGITIME DE SE SOUCIER
Si les S-sceptiques ont vu juste, et qu’il n’y aura pas de Singularité, il n’y a pas de quoi s’inquiéter. L’IA soulève déjà des questions préoccupantes. Les progrès futurs en soulèveront certainement d’autres, de sorte que l’inquiétude concernant la sécurité à long terme de l’IA n’est pas totalement déplacée. Pour être plus pertinents, nous devons également prêter attention à ses influences à court terme. Certaines inquiétudes sont très générales. Par exemple, toute technologie peut être utilisée pour le bien ou le mal. Les personnes malveillantes utiliseront tous les outils – et parfois trouver des fonds pour en financer le développement de nouveaux – pour entreprendre des actions malveillantes. (Le CYC, par exemple, pourrait être utile aux malfaiteurs : ses développeurs réfléchissent déjà à la manière de limiter l’accès au système complet, lors de sa sortie, cf. chapitre 2). Nous devons donc faire très attention à ce que nous inventons. Comme le souligne Stuart Russell, cela signifie plus que d’être simplement attentifs à nos objectifs. S’il y a dix paramètres pertinents pour aborder le problème, et que l’optimisation statistique de l’apprentissage machine (cf. chapitre 2) n’en considère que six, alors les quatre autres peuvent être – et seront probablement – poussés à l’extrême. Nous devons donc également être vigilants quant aux types de données utilisées. Cette préoccupation générale concerne le problème des cadres (cf. chapitre 2). Comme le pêcheur dans le conte de fées, dont le souhait de voir son fils soldat revenir à la maison a été exaucé quand on l’a ramené, dans un cercueil, nous pourrions être méchamment surpris par de puissants systèmes d’IA qui n’ont pas notre compréhension de la pertinence. Par exemple, lorsqu’un système d’alerte de la guerre froide (le 5 octobre 1960) a recommandé une frappe préemptive [riposte] sur l’URSS, le désastre n’a été évité que par le sens de la pertinence des opérateurs chargés de déclencher le lancement des missiles – tant politique qu’humanitaire. Ils ont jugé que les Soviétiques à l’ONU n’avaient pas été particulièrement mal lunés récemment, et ils craignaient les consé 166
La Singularité
quences effarantes et horribles d’une attaque nucléaire. Ainsi, violant les protocoles, ils ont ignoré l’avertissement automatique. Plusieurs autres quasi-accidents nucléaires ont eu lieu, dont certains récemment. Habituellement, l’escalade n’a été empêchée que par le « bon sens » des gens. De plus, l’erreur humaine est toujours possible. Parfois, elle est compréhensible. La catastrophe de Three Mile Island a été aggravée par le fait que des humains ont pris le contrôle, passant outre l’ordinateur, mais les conditions physiques auxquelles ils étaient confrontés étaient très inhabituelles. Cela peut être incroyablement inattendu. L’alerte d’attaque nucléaire imminente de la guerre froide mentionnée dans le paragraphe précédent s’est produite parce que quelqu’un avait oublié les années bissextiles lors de la programmation du calendrier – donc la Lune était dans le « mauvais » endroit. Raison de plus, donc, pour tester et (si possible) démontrer la fiabilité des programmes d’IA avant de s’en servir. D’autres préoccupations sont plus spécifiques. Certains devraient nous inquiéter aujourd’hui. L’une des principales menaces est le chômage technologique. De nombreux emplois manuels et de bureau de bas niveau ont déjà disparu. D’autres suivront (même si les emplois manuels qui exigent de la dextérité et de l’adaptabilité ne disparaîtront pas). La plupart des opérations de « levage », de « collecte » et de « transport » dans un entrepôt peuvent désormais être effectuées par des robots. Et les véhicules sans conducteur signifieront des personnes sans emploi. Les postes d’encadrement intermédiaire sont également menacés. De nombreux professionnels utilisent déjà des systèmes d’IA comme aides. Il ne faudra pas longtemps avant que les emplois (dans le domaine du droit et de la comptabilité, par exemple) qui impliquent de longues recherches sur les réglementations et les précédents puissent être largement repris par l’IA. Des tâches plus exigeantes, dont beaucoup en médecine et en sciences, seront également touchées assez rapidement. Les emplois seront moins qualifiés, même s’ils ne sont pas « perdus ». Et la formation professionnelle en souffrira : comment nos jeunes apprendront-ils à porter des jugements de bon sens ? 167
L’intelligence artificielle
Si certains emplois juridiques sont supprimés, les avocats tireront également profit de l’IA, car une multitude de pièges juridiques les guettent. Si quelque chose tourne mal, qui sera désigné comme « responsable » : le programmeur, le grossiste, le détaillant ou l’utilisateur ? Et un professionnel peut-il parfois être poursuivi en justice pour ne pas avoir utilisé un système d’IA ? S’il avait été démontré (mathématiquement ou empiriquement) que le système était très fiable, de tels litiges seraient très probables. De nouveaux types d’emplois apparaîtront sans doute. Mais on peut douter qu’ils soient équivalents en termes de nombre, d’accessibilité à l’éducation/formation et/ou de capacité à gagner sa vie (comme ce fut le cas après la révolution industrielle). De sérieux défis sociopolitiques se profilent à l’horizon. Les postes de « service » sont moins menacés. Mais même ceux-là sont en danger. Dans un monde idéal, la possibilité de se multiplier, et la mise à niveau des activités de personne à personne, actuellement sous-évaluées, seraient saisies avec enthousiasme. Toutefois, cela n’est pas garanti. Par exemple, l’éducation est ouverte aux aides personnelles et/ou basées sur Internet, y compris les MOOC (Massive Open Online Courses) qui proposent des conférences « en ligne » données par des « stars » académiques, qui font perdre leurs niveaux de compétences à de nombreux autres enseignants humains. Des psychothérapeutes informatiques sont déjà disponibles, à un coût bien inférieur à celui des thérapeutes humains. Certains sont étonnamment utiles pour reconnaître la dépression, par exemple. Cependant, ils ne sont pas du tout réglementés. Et nous avons vu au chapitre 3 que l’évolution démographique encourage la recherche dans le domaine potentiellement lucratif des « soignants » artificiels pour les personnes âgées, ainsi que des « nounous robotisées ». Et, indépendamment des effets sur le chômage, l’utilisation de systèmes d’IA sans empathie dans des contextes essentiellement humains est à la fois pratiquement risquée et douteuse d’un point de vue éthique. De nombreux « compagnons informatiques » sont conçus pour être 168
La Singularité
u tilisés par des personnes âgées et/ou handicapées qui n’ont qu’un contact personnel minimal avec les quelques êtres humains qu’elles rencontrent. Ils sont conçus comme des sources non seulement d’aide et de divertissement, mais aussi de conversation, de convivialité et de confort émotionnel. Même si la personne vulnérable est rendue plus heureuse par cette technologie (comme le sont les Paro-utilisateurs), sa dignité humaine est insidieusement bafouée. Les différences culturelles sont ici importantes : les attitudes envers les robots diffèrent énormément entre le Japon et l’Occident, par exemple. Les utilisateurs âgés peuvent apprécier de discuter de leurs souvenirs personnels avec un compagnon artificiel. Mais s’agit-il vraiment d’une discussion ? Ce pourrait prendre la forme d’un rappel de souvenirs bienvenu, déclenchant des épisodes réconfortants de nostalgie. Toutefois, ce bénéfice pourrait être fourni sans séduire l’utilisateur dans une illusion d’empathie. Souvent, même dans des situations de conseil chargées d’émotion, ce que la personne veut avant tout, c’est une reconnaissance de son courage et/ou de sa souffrance. Mais cela découle d’une compré hension commune de la condition humaine. Nous court-circuitons l’individu en ne lui offrant qu’un simulacre de sympathie superficiel. Même si l’utilisateur souffre modérément de démence, leur « théorie » de l’agent IA est probablement beaucoup plus riche que le modèle de l’agent de l’homme. Que se passerait-il donc si l’agent ne réagissait pas comme cela serait nécessaire, lorsque la personne se souvient d’une perte personnelle angoissante (d’un enfant, peut-être) ? Les expressions classiques de sympathie de la part du compagnon n’aideraient pas – et pourraient faire plus de mal que de bien. En attendant, la détresse de la personne aurait été éveillée sans qu’aucun réconfort ne soit immédiatement disponible. Une autre inquiétude concerne la question de savoir si le compagnon doit parfois se taire ou raconter un « petit » mensonge. Une vérité assénée implacablement (et/ou des silences soudains) pourrait bouleverser l’utilisateur. Mais le tact exigerait un TNL très avancé ainsi qu’un modèle subtil en matière de psychologie humaine. 169
L’intelligence artificielle
En ce qui concerne les robots « nounous » (et en ignorant les questions de sécurité), une utilisation excessive des systèmes d’IA avec les bébés et les nourrissons pourrait fausser leur développement social et/ ou linguistique. Les partenaires sexuels artificiels ne sont pas seulement dépeints dans les films (dans le film Her, par exemple). Ils sont déjà commercialisés. Certains sont capables de reconnaître la parole, et de séduire par leur langage et/ou leurs mouvements. Ils augmentent les influences d’Internet qui, actuellement, rendent l’expérience sexuelle des gens plus grossière (et renforcent la place de femmes-objets). De nombreux commentateurs (dont certains scientifiques de l’IA) ont écrit sur les rencontres sexuelles avec des robots en des termes qui révèlent une conception extraordinairement superficielle de l’amour personnel, proche de la confusion avec la luxure, l’obsession sexuelle et une simple familiarité de confort. Toutefois, de telles observations prudentes ont peu de chances d’être efficaces. Compte tenu de l’énorme rentabilité de la pornographie en général, il y a peu d’espoir d’empêcher de futures « avancées » dans le domaine des poupées sexuelles avec IA. Le respect de la vie privée est un autre sujet épineux. Il devient de plus en plus controversé, car la recherche et l’apprentissage de l’IA se font sur la base de données collectées par les médias personnels et les systèmes d’information à domicile ou à distance des capteurs portables. Google a breveté un « nounours » en peluche robotisé, avec des yeux-caméra, des oreilles-microphones et des haut-parleurs dans la bouche. Il sera capable de communiquer avec les parents ainsi qu’avec les enfants – et, qu’on le veuille ou non, avec des collecteurs de données invisibles également. La cybersécurité est un problème de longue date. Plus l’IA entrera dans notre monde (souvent de manière très peu transparente), plus elle sera importante. Un moyen de défense contre une prise de contrôle de l’ASI serait de trouver des moyens d’écrire des algorithmes qui ne pourraient pas être piratés/altérés (un objectif de l’« IA amicale » : voir la section suivante).
170
La Singularité
Les applications militaires suscitent également des inquiétudes. Les robots démineurs sont les bienvenus. Mais qu’en est-il des soldats robots ou des armes robotisées ? Les drones actuels sont conçus à l’initiative de l’homme, mais même ainsi, ils peuvent accroître les souffrances en augmentant la distance humaine (et pas seulement géographique) entre l’opérateur et la cible. Il faut espérer que les futurs drones ne seront pas autorisés à décider tout seuls qui/quoi doit être une cible. Même le fait de leur faire confiance pour reconnaître une cible (choisie par l’homme) soulève des questions éthiques troublantes. ALORS, QUE FAIT-ON ?
Aucune de ces inquiétudes n’est nouvelle, même si peu de ceux qui travaillent dans (ou avec) l’IA y ont prêté attention jusqu’à présent. Plusieurs pionniers de l’AI ont examiné les implications sociales lors d’une réunion au Lac de Côme en 1972, mais John McCarthy a refusé de se joindre à eux, disant qu’il était trop tôt pour spéculer là-dessus. Quelques années plus tard, l’informaticien Joseph Weizenbaum a publié un livre sous-titré From Judgment to Calculation, dans lequel il déplore l’« obscénité » de la confusion entre les deux concepts. Il a cependant été répudié avec mépris par la communauté de l’IA. Il y a eu quelques exceptions, bien sûr. Par exemple, le premier livre de présentation générale de l’IA (écrit par moi-même et publié en 1977) comprenait un chapitre final sur le « Sens social ». Ou le CPSR (Computer Professionals for Social Responsibility), fondé en 1983 (en partie grâce aux efforts de l’auteur du programme SHRDLU, Terry Winograd, cf. chapitre 3). Mais cela a été fait principalement pour nous mettre en garde contre le manque de fiabilité de la technologie de la saga de la Guerre des Étoiles – l’informaticien David Parnas s’est même adressé au Sénat américain à ce sujet. Alors que les inquiétudes liées à la guerre froide s’estompaient, la plupart des professionnels de l’IA semblaient moins préoccupés par leur domaine. Seuls quelques-uns, comme Noel Sharkey de l’université de Sheffield (un roboticien qui préside le Comité international pour le 171
L’intelligence artificielle
contrôle des armes robotiques), ainsi que certains philosophes de l’IA, par exemple Wendell Wallach de l’université de Yale (Connecticut, US) et Blay Whitby de l’université de Sussex (Brighton, UK), ont continué au fil des ans à se concentrer sur les questions sociales/éthiques. Aujourd’hui, en raison de la pratique et des promesses de l’IA, les doutes sont devenus plus pressants. Sur le terrain (et, dans une certaine mesure, au-delà), les implications sociales font l’objet d’une attention accrue. Certaines réponses importantes n’ont rien à voir avec la Singularité. Par exemple, les Nations unies et Human Rights Watch préconisent depuis longtemps un traité (pas encore signé) interdisant les armes totalement autonomes, telles que les « drones à sélection de cible ». Et certains organismes professionnels établis de longue date ont récemment revu leurs priorités de recherche et/ou leurs codes de conduite. Mais le discours sur la Singularité a amené d’autres intervenants dans le débat. De nombreuses personnes – tant les S-croyants que les S-sceptiques – affirment que même si la probabilité de la Singularité est extrêmement faible, les conséquences possibles sont si graves que nous devrions commencer à prendre nos précautions dès aujourd’hui. Malgré l’affirmation de Vinge selon laquelle rien ne peut être fait contre la menace existentielle, plusieurs institutions ont été fondées pour s’en prémunir. Il s’agit notamment du Centre for the Study of Existential Risk (CSER) du Royaume-Uni à Cambridge et du Future of Humanity Institute (FHI) à Oxford, ainsi que du Future of Life Institute (FLI) des États-Unis à Boston et du Machine Intelligence Research Institute (MIRI) à Berkeley. Ces organisations sont largement financées par des philanthropes de l’AI. Par exemple, CSER et FLI ont été co-fondés par Jaan Tallinn, le co-développeur de Skype. Ces deux institutions, en plus de communiquer avec les professionnels de l’IA, tentent d’alerter les décideurs politiques et d’autres membres influents du public sur les dangers. Le président de l’Association américaine pour l’IA (Eric Horwitz) a réuni un petit panel en 2009 pour discuter des précautions à prendre 172
La Singularité
pour guider, voire retarder, les travaux d’IA jugés socialement problématiques. Cette réunion a eu lieu à Asilomar, en Californie, où des généticiens professionnels avaient décidé quelques années auparavant d’un moratoire sur certaines recherches génétiques. Cependant, en tant que membre de ce groupe, j’ai eu l’impression que tous les participants n’étaient pas sérieusement préoccupés par l’avenir de l’IA. Le rapport qui a suivi n’a pas bénéficié d’une large couverture médiatique. Une réunion à but similaire, mais plus importante (selon les règles de Chatham House, et en l’absence de journalistes) a été organisée par le FLI et le CSER à Porto Rico en janvier 2015. L’organisateur, Max Tegmark, avait cosigné la lettre comminatoire avec Russell et Hawking six mois plus tôt. Il n’est donc pas surprenant que l’ambiance ait été sensiblement plus urgente qu’à Asilomar. Elle s’est immédiatement traduite par un nouveau financement généreux (du millionnaire d’Internet Elon Musk) pour la recherche sur la sécurité et l’éthique de l’IA, ainsi que par une lettre ouverte de mise en garde, signée par des milliers de travailleurs de l’IA et largement diffusée dans les médias. Peu après, une deuxième lettre ouverte rédigée par Tom Mitchell et plusieurs autres chercheurs de premier plan mettait en garde contre le développement d’armes autonomes qui sélectionneraient et attaqueraient des cibles sans intervention humaine. Les signataires espéraient « empêcher le lancement d’une course aux armements de l’AI à l’échelle mondiale ». Présenté lors de la conférence internationale d’AI en juillet 2015, ce document a été signé par près de 3 000 scientifiques d’AI et par 17 000 personnes travaillant dans des domaines connexes, et a bénéficié d’une large couverture médiatique. La réunion de Porto Rico a également donné lieu à une lettre ouverte (en juin 2015) des économistes du MIT, Erik Brynjolfsson et Andy McAfee. Cette lettre était destinée aux décideurs politiques, aux entrepreneurs et aux hommes d’affaires, ainsi qu’aux économistes professionnels. Mettant en garde contre les implications économiques potentiellement radicales de l’IA, ils ont émis quelques recommandations de politique publique qui pourraient améliorer – mais pas annuler – les facteurs de risque. 173
L’intelligence artificielle
En janvier 2017, une deuxième réunion (sur invitation seulement) a eu lieu sur l’IA bénéfique. Organisée par Tegmark, elle s’est déroulée dans le cadre emblématique d’Asilomar. Ces efforts de la communauté de l’IA persuadent les bailleurs de fonds gouvernementaux transatlantiques de l’importance des questions sociales/éthiques. Le ministère américain de la Défense (DOD) et la National Science Foundation (NSF) ont tous deux déclaré récemment qu’ils étaient prêts à financer de telles recherches. Mais ce soutien n’est pas entièrement nouveau : l’intérêt gouvernemental s’accroît depuis quelques années. Par exemple, deux conseils de recherche britanniques ont parrainé une « Retraite robotique » interdisciplinaire en 2010, en partie pour rédiger un code de conduite pour les roboticiens. Cinq « principes » ont été adoptés, dont deux répondent aux préoccupations évoquées précédemment : « (1) Les robots ne doivent pas être conçus comme des armes, sauf pour des raisons de sécurité nationale » et « (4) Les robots sont des objets manufacturés : l’illusion des émotions et des intentions ne doit pas être utilisée pour exploiter les utilisateurs vulnérables ». Deux autres ont mis la responsabilité morale sur les épaules des humains : « (2) Les humains, et non les robots, sont des agents responsables… » et « (5) Il devrait être possible de savoir qui est [légalement] responsable de tout robot ». Le groupe s’est abstenu d’essayer d’actualiser les « Trois lois de la robotique » d’Isaac Asimov (en résumé, un robot ne doit pas faire de mal à un être humain, et doit obéir aux ordres de l’homme et protéger sa propre survie, sauf si ceux-ci sont en conflit avec la première loi). Ils ont insisté sur le fait que toute « loi » doit être suivie par le concepteur/ constructeur humain, et non par le robot. En mai 2014, une initiative universitaire financée par la marine américaine (7,5 millions de dollars pour cinq ans) a été saluée par les médias. Il s’agit d’un projet de cinq universités (Yale, Brown, Tufts, Georgetown et l’Institut Rensselaer), visant à développer la « compétence morale » des robots. Il implique des psychologues cognitifs et sociaux et des philosophes moraux, ainsi que des programmeurs et des ingénieurs en IA. 174
La Singularité
Ce groupe interdisciplinaire n’essaie pas de fournir une liste d’algorithmes moraux (comparable aux lois d’Asimov), ni de donner la priorité à une méta-éthique particulière (par exemple l’utilitarisme), ni même de définir un ensemble de valeurs morales non concurrentes. Elle espère plutôt développer un système informatique capable de raisonner moralement (et de discuter de la morale) dans le monde réel. En effet, les robots autonomes prendront parfois des décisions délibératives et ne se contenteront pas de suivre des instructions (et encore moins de réagir de manière rigide à des indices « situés » : cf. chapitre 5). Si un robot est engagé dans une opération de recherche et de sauvetage, par exemple, qui doit-il évacuer ou secourir en premier ? Ou s’il fournit un accompagnement social, quand – si jamais – doit-il éviter de dire la vérité à son utilisateur ? Le système proposé intégrerait la perception, l’action motrice, le TNL, le raisonnement (tant déductif qu’analogique) et l’émotion. Cette dernière inclurait la pensée émotionnelle (qui peut signaler des événements importants et prévoir des objectifs contradictoires : cf. chapitre 3), les manifestations robotisées de « protestation et de détresse », qui pourraient influencer les décisions morales prises par les personnes qui interagissent avec elle, et la reconnaissance des émotions chez les humains qui l’entourent. L’annonce officielle précise que le robot pourrait même « dépasser » la compétence morale ordinaire (c’est-à-dire humaine). Compte tenu des obstacles à l’AGI mentionnés aux chapitres 2 et 3, ainsi que des difficultés liées spécifiquement à la moralité (cf. chapitre 6), on peut douter que cette tâche soit réalisable. Mais le projet pourrait néanmoins en valoir la peine. En effet, en considérant les problèmes du monde réel (comme les deux exemples très différents donnés plus haut), il peut nous alerter sur les nombreux dangers de l’utilisation de l’IA dans des situations moralement problématiques. Outre ces efforts institutionnels, un nombre croissant de scientifiques spécialisés dans l’IA visent ce qu’Eliezer Yudkowsky appelle l’« IA conviviale ». Il s’agit d’une IA qui a des effets positifs pour l’humanité, étant à la fois sûre et utile. Elle impliquerait des algorithmes intelligibles, fiables et 175
L’intelligence artificielle
robustes, et qui échoueraient « avec grâce », s’ils échouaient. Elle devrait être transparente, prévisible et non vulnérable aux manipulations des pirates informatiques. Et si leur fiabilité peut être prouvée par la logique ou les mathématiques, par opposition à des tests empiriques, ce sera tant mieux. Les 6 millions de dollars donnés par Musk lors de la réunion de Porto Rico ont immédiatement conduit à un appel à propositions sans précédent de la part du FLI (six mois plus tard, trente-sept projets avaient été financés). Cet appel s’adressait aux experts en « politique publique, droit, éthique, économie ou éducation et sensibilisation » ainsi que des experts en IA : « Des projets de recherche visant à maximiser les bénéfices sociétaux futurs de l’intelligence artificielle tout en évitant les dangers potentiels » et « limités à la recherche qui se concentre explicitement non pas sur l’objectif standard de rendre l’IA plus performante, mais sur celui de rendre l’IA plus robuste et/ou bénéfique… » Cet appel bienvenu en faveur de l’IA conviviale aurait peutêtre pu se produire de toute façon. Mais l’empreinte de la Singularité était visible : « Priorité sera donnée, y lit-on, à la recherche visant à maintenir la robustesse et les avantages de l’IA, même si elle vient à dépasser largement les capacités actuelles… » En résumé, les visions quasi-apocalyptiques de l’avenir de l’IA sont illusoires. Mais, en partie à cause d’elles, la communauté de l’IA – et les décideurs politiques et le grand public, aussi – se réveille aujourd’hui face à des dangers très réels. Et il était grand temps, à mon avis.
176
Références NB : L’acronyme MasM, dans les références des chapitres servent à repérer les sections les plus pertinentes du livre de l’auteure Margaret Boden, Mind as Machine [L’esprit vu comme une machine]. Pour accéder à la table analytique du contenu de MasM, le lecteur peut consulter la rubrique Key Publications sur mon site web : www.ruskin.tv/margaretboden Chapitre 1 : Qu’est-ce au juste que l’intelligence artificielle ? MasM les chapitres 1.i.a, 3.ii–v, 4, 6.iii–iv, 10–11. Les citations attribuées à Ada Lovelace proviennent de : Lovelace, A. A. (1843), Notes du traducteur. Réimpression dans R. A. Hyman (dir.) (1989), Science and Reform : Selected Works of Charles Babbage (Cambridge : Cambridge University Press), 267–311. Blake, D. V., et Uttley, A. M. (dir.) (1959), The Mechanization of Thought Processes, vol. 1 (London : Her Majesty’s Stationery Office). Cet ouvrage présente plusieurs articles qui remontent aux débuts de l’IA, y compris des descriptions de Pandemonium et perceptrons, plus une analyse de l’IA et ses liens avec le bon sens. McCulloch, W. S., et Pitts, W. H. (1943), « A Logical Calculus of the Ideas Immanent in Nervous Activity », Bulletin of Mathematical Biophysics, 5 : 115–33. Réimpression dans S. Papert (dir) (1965), Embodiments of Mind (Cambridge, MA : MIT Press), 19–39. Feigenbaum, E. A., et Feldman, J. A. (dir.) (1963), Computers and Thought (New York : McGraw-Hill). Un fonds important d’articles initiaux sur l’IA. Chapitre 2 : Avec l’intelligence artificielle générale pour Graal MasM, sections. 6.iii, 7.iv, et les chapitres 10, 11, 13. Boukhtouta, A. et al. (2005), Description and Analysis of Military Planning Systems (Quebec : Canadian Defence and Development Technical Report). Cet article montre comment la planification avec l’IA a progressé depuis les premiers temps. 177
L’intelligence artificielle
Mnih, V., et D. Hassabis et al. (2015), « Human-Level Control Through Deep Reinforcement Learning », Nature, 518 : 529–33. Cet article collectif (équipe de DeepMind) décrit le joueur d’Atari. Silver, D., et D. Hassabis et al. (2017), « Mastering the Game of Go Without Human Knowledge », Nature, 550 : 354–9. Cet article collectif décrit sur la dernière version de DeepMind (2016), d’AlphaGo (pour la version antérieure, se référer à Nature, 529 : 484–9). La citation de Allen Newell et Herbert Simon se trouve dans leur livre (1972) Human Problem Solving (Englewood-Cliffs, NJ : Prentice-Hall). La citation « new paradigms are needed » [on a besoin de nouveaux paradigmes] vient de LeCun, Y., Bengio, Y., et Hinton, G. E. (2015), « Deep Learning », Nature, 521 : 436–44. Minsky, M. L. (1956), « Steps Toward Artificial Intelligence ». Publié d’abord comme un rapport technique au MIT, intitulé : Heuristic Aspects of the Artificial Intelligence Problem, il a été publié de nombreuses fois depuis. Laird, J. E., Newell, A., et Rosenbloom, P. (1987), « Soar : An Architecture for General Intelligence », Artificial Intelligence, 33 : 1–64. Chapitre 3 : Langage, créativité et émotions MasM, chaps. 7.ii, 9.x–xi, 13.iv, 7.i.d–f. Baker, S. (2012), Final Jeopardy : The Story of WATSON, the Computer That Will Transform Our World (Boston : Mariner Books). Un livre plaisant à lire, quoique non critique, d’un système de Big Data. Graves, A., Mohamed, A.-R., et Hinton, G. E. (2013), « Speech Recognition with Deep Recurrent Neural Networks », Proc. Int. Conf. on Acoustics, Speech, and Signal Processing, 6645–49. Collobert, R. et al. (2011), « Natural Language Processing (Almost) from Scratch », Journal of Machine Learning Research, 12 : 2493–537. La citation relative à la syntaxe vue comme quelque chose à la fois superficielle et redondante vient de Wilks, Y. A. (dir.) (2005), Language, Cohesion and Form : Margaret Masterman (1910–1986) (Cambridge : Cambridge University Press), p. 266. Bartlett, J., Reffin, J., Rumball, N., et Williamson, S. (2014), Anti-Social Media (Londres : DEMOS).
178
Références
Boden, M. A. (2004, 2e éd.), The Creative Mind : Myths and Mechanisms, (Londres : Routledge). Boden, M. A. (2010), Creativity and Art : Three Roads to Surprise (Oxford : Oxford University Press). Un recueil de douze articles consacrés largement à l’art informatisé. Simon, H. A. (1967), « Motivational and Emotional Controls of Cognition », Psychological Review, 74 : 39–79. Sloman, A. (2001), « Beyond Shallow Models of Emotion », Cognitive Processing : International Quarterly of Cognitive Science, 2 : 177–98. Wright, I. P., et Sloman, A. (1997), MINDER : An Implementation of a Protoemotional Architecture, disponible sur le site http://www.bham.ac.uk ; et https:// www.cs.bham.ac.uk/research/projects/cogaff/96-99.html Chapitre 4 : Les réseaux de neurones artificiels MasM les chapitres 12, 14. Rumelhart, D. E. et J. L. McClelland (dir.) (1986), Parallel Distributed Processing : Explorations in the Microstructure of Cognition, vol. 1 : Foundations (Cambridge, MA : MIT Press). L’ouvrage est tout à fait pertinent ici, mais en particulier s’y trouve le programme d’apprentissage du temps passé des verbes écrit par Rumelhart et McClelland et décrit aux pp. 216-71. Clark, A. (2016), Surfing Uncertainty : Prediction, Action, and the Embodied Mind (Oxford : Oxford University Press). Revue des approches bayésiennes en sciences cognitives. On peut également consulter l’article par Le Cun et al., et les deux ouvrages cités plus haut au chapitre 2 de l’équipe de Demis Hassabis. Les deux citations sur le scandale des réseaux sont de Minsky, M. L., et Papert, S. A. (1988, 2e éd.), Perceptrons : An Introduction to Computational Geometry, (Cambridge, MA : MIT Press), viii–xv et 247–80. Philippides, A., Husbands, P., Smith, T., et O’Shea, M. (2005), « Flexible Couplings Diffusing Neuromodulators and Adaptive Robotics », Artificial Life, 11 : 139–60. Un descriptif de GasNets. Cooper, R., Schwartz, M., Yule, P., et Shallice, T. (2005), « The Simulation of Action Disorganization in Complex Activities of Daily Living », Cognitive Neuropsychology, 22 : 959–1004. Cet article décrit un modèle informatique de la théorie hybride de Shallice relative à l’action. 179
L’intelligence artificielle
Dayan, P., and Abbott, L. F. (2001), Theoretical Neuroscience : Computational and Mathematical Modelling of Neural Systems (Cambridge, MA : MIT Press). Cet ouvrage ne traite pas de l’IA technologique mais il montre comment les idées sous-jacentes influencent nos études sur le cerveau. Chapitre 5 : Les robots et la vie artificielle (A-life) MasM les chapitre 4.v–viii et 15. Beer, R. DS. (1990), Intelligence as Adaptive Behavior : An Experiment in Computational Neuroethology (Boston : Academic Press). Webb, B. (1996), « A Criquet Robot », Scientific American, 275(6): 94–9. Brooks, R. A. (1991), « Intelligence without Representation », Artificial Intelligence, 47 : 139–59. L’article de référence sur la robotique « située ». Kirsh, D. (1991), « Today the Earwig, Tomorrow Man ? », Artificial Intelligence, 47 : 161–84. Une réponse sceptique à la robotique située. Harvey, I., Husbands, P., and Cliff, D. (1994), « Seeing the Light : Artificial Evolution, Real Vision », From Animals to Animats 3 (Cambridge, MA : MIT Press), 392–401. Description de l’évolution d’un détecteur d’orientation chez un robot. Bird, J., et Layzell, P. (2002), « The Evolved Radio and its Implications for Modelling the Evolution of Novel Sensors », Proceedings of Congress on Evolutionary Computation, CEC-2002, 1836–41. Turk, G. (1991), « Generating Textures on Arbitrary Surfaces Using Reaction-Diffusion », Computer Graphics, 25 : 289–98. Goodwin, B. C. (1994), How the Leopard Changed Its Spots : The Evolution of Complexity (Princeton University Press). Langton, C. G. (1989), « Artificial Life », dans C. G. Langton (dir.), Artificial Life (Redwood City : Addison-Wesley), 1–47. Version révisée dans M. A. Boden (dir.) (1996), The Philosophy of Artificial Life (Oxford : Oxford University Press), 39–94. L’article qui a défini la vie artificielle « artificial life ». Chapitre 6 : Mais, est-ce réellement de l’intelligence ? MasM les chapitres 7i, g, et 16. Turing, A. M. (1950), « Computing Machinery and Intelligence », Mind, 59 : 433–60. Les citations relatives au « hard problem » [le problème épineux] viennent de Chalmers, D. J. (1995), « Facing up to the Problem of Consciousness », Journal of Consciousness Studies, 2 : 200–19. 180
Références
La citation de J. A. Fodor vient de son ouvrage (1992), « The Big Idea : Can There Be a Science of Mind ? », Times Literary Supplement, 3 juillet : 5-7. Franklin, S. (2007), « A Foundational Architecture for Artificial General Intelligence », dans B. Goertzel et P. Wang (dir.), Advances in Artificial General Intelligence : Concepts, Architectures, and Algorithms (Amsterdam : IOS Press), 36–54. Dennett, D. C. (1991), Consciousness Explained (Londres : Allen Lane). Sloman, A., et Chrisley, R. L. (2003), « Virtual Machines and Consciousness », dans O. Holland (dir.), Machine Consciousness (Exeter Imprint Academic), Journal of Consciousness Studies, special issue, 10(4): 133–72. Putnam, H. (1960), « Minds and Machines », dans S. Hook (dir.), Dimensions of Mind : A Symposium (New York : New York University Press), 148–79. La citation relative au Physical Symbol Systems est de Newell, A., et Simon, H. A. (1972), Human Problem Solving (Englewood-Cliffs, NJ : Prentice-Hall). Gallagher, S. (2014), « Phenomenology and Embodied Cognition », dans L. Shapiro (dir.), The Routledge Handbook of Embodied Cognition (Londres : Routledge), 9–18. Dennett, D. C. (1984), Elbow Room : The Varieties of Free Will Worth Wanting (Cambridge, MA : MIT Press). Millikan, R. G. (1984), Language, Thought, and Other Biological Categories : New Foundations for Realism (Cambridge, MA : MIT Press). Une théorie de l’évolution de l’intentionalité. Chapitre 7 : La Singularité Kurzweil, R. (2005), The Singularity is Near : When Humans Transcend Biology (Londres : Penguin). Kurzweil, R. (2008), The Age of Spiritual Machines : When Computers Exceed Human Intelligence (Londres : Penguin). Bostrom, N. (2005), « A History of Transhumanist Thought », Journal of Evolution and Technology, 14(1): 1–25. Shanahan, M. (2015), The Technological Singularity (Cambridge, MA : MIT Press). Ford, M. (2015), The Rise of the Robots : Technology and the Threat of Mass Unemployment (Londres : Oneworld Publications). 181
L’intelligence artificielle
Chace, C. (2018), Artificial Intelligence and the Two Singularities (Londres : Chapman and Hall/CRC Press). Bostrom, N. (2014), Superintelligence : Paths, Dangers, Strategies (Oxford : Oxford University Press). Wallach, W. (2015), A Dangerous Master : How to Keep Technology from Slipping Beyond Our Control (Oxford : Oxford University Press). Brynjolfsson, E. et McAfee, A. (2014), The Second Machine Age : Work, Progress, and Prosperity in a Time of Brilliant Technologies (New York : W. W. Norton). Wilks, Y. A., (dir.) (2010), Close Engagements with Artificial Companions : Key Social, Psychological, Ethical, and Design Issues (Amsterdam : John Benjamins). Boden, M. A. et al. (2011), « Principles of Robotics : Regulating Robots in the Real World », disponible sur le site web de l’EPSRC : www.epsrc.ac.uk/ research/ourportfolio/themes
182
Lectures complémentaires Boden, M. A. (2006), Mind as Machine : A History of Cognitive Science, 2 vols. (Oxford : Oxford University Press). À l’exception du deep learning et de la Singularité, chaque sujet mentionné dans cette très courte introduction est analysé plus longuement dans Mind as Machine. Russell, S., et Norvig, P. (2013), Artificial Intelligence : A Modern Approach, 3e éd. (London : Pearson). Ouvrage de référence sur l’IA. Frankish, K., et Ramsey, W. (dir.) (2014), Cambridge Handbook of Artificial Intelligence (Cambridge : Cambridge University Press). Ce livre décrit les différents domaines de l’IA, d’un point de vue moins technique que Russell et Norvig (2013). Whitby, B. (1996), Reflections on Artificial Intelligence : The Social, Legal, and Moral Dimensions [Réflexions sur l’intelligence artificielle] (Oxford : Intellect Books). Une discussion sur certains aspects de l’IA trop souvent ignorés. Husbands, P., Holland, O., et Wheeler, M. W. (dir). (2008), The Mechanical Mind in History (Cambridge, MA : MIT Press). Les quatorze chapitres (et cinq entretiens avec des pionniers de l’AI/A-Life) décrivent les premiers travaux en matière d’AI et de cybernétique. Clark, A. J. (1989), Microcognition : Philosophy, Cognitive Science, and Parallel Distributed Processing (Cambridge, MA : MIT Press). Un compte rendu des différences entre l’IA symbolique et les réseaux de neurones. Les réseaux de neurones d’aujourd’hui sont beaucoup plus complexes que ceux dont il est question ici, mais les principaux points de comparaison restent valables. Minsky, M. L. (2006), The Emotion Machine : Commonsense Thinking, Artificial Intelligence, and the Future of the Human Mind (New York : Simon & Schuster). Ce livre, écrit par l’un des pionniers de l’IA, utilise les idées sous-jacentes à l’IA pour éclairer la nature de la pensée et de l’expérience quotidiennes.
183
L’intelligence artificielle
Hansell, G. R., et Grassie, W. (dir.) (2011), H +/−: Transhumanism and Its Critics (Philadelphia : Metanexus). Déclarations et critiques de la philosophie transhumaniste soutenue, et de l’avenir transhumaniste prédit, par certains visionnaires d’AI. Dreyfus, H. L. (1992, 2e éd.), What Computers Still Can’t Do : A Critique of Artificial Reason (New York : Harper and Row). L’attaque classique, basée sur la philosophie Heideggérienne, du concept même de l’IA. (Ou, comment apprendre à connaître vos ennemis !)
184
Index A AARON 83 ACT-R 62, 63, 65, 110, 135 Adaline 31 Agents 55, 88, 112, 114, 119, 148, 150, 151, 152, 169 Agrégation, assemblage 64, 161 Algorithme du « sac de mots » 59 Algorithmes génétiques 120 A-Life 113, 128, 129, 153, 183 AlphaGo/AlphaZero 61 Analogies 45, 58, 80, 139 Analyse conversationnelle 77 Analyse des sentiments 76 Anderson, James 105, 112 Anderson, John 62, 63 Apprentissage 18, 21, 24, 27, 29, 30, 32, 33, 40, 46, 47, 51, 52, 57, 58, 59, 60, 61, 63, 64, 65, 70, 73, 75, 83, 91, 92, 93, 97, 98, 99, 100, 101, 102, 105, 106, 109, 110, 113, 120, 124, 128, 135, 150, 166, 170, 179 Apprentissage non-supervisé 57, 58, 59, 97, 101, 113, 124, 128 Apprentissage par renforcement 57, 58, 102, 110
Apprentissage profond (deep learning) 32, 60, 61, 73, 91, 92, 93, 99, 101, 102, 110, 183 Apprentissage supervisé 57, 58, 59, 97, 100 Architectures au tableau noir 43, 139 Art informatisé 14, 179 Ashby, William Ross 26, 27, 29 Asimov (lois de) 174, 175 Aspects « privatifs » des qualia 141 Atari (le joueur) 61, 178 Attribution de crédits 58, 99 Automates cellulaires (AC) 18, 19, 27, 118, 128 Auto-organisation 25, 27, 113, 124, 128, 129, 153
B Baars, Bernard 136, 137, 138, 139 Bach, Joscha 67, 82 Bateson, Gregory 26, 28 Beer, Randall 115, 117, 180 Berners-Lee, Timothy 50 Beurle, Raymond 25, 27 Big Data 20, 44, 46, 57, 75, 76, 162, 178 185
L’intelligence artificielle
Binsted, Kim 47 Blagues 47, 81 Bletchley Park 21, 133, 156 Boltzmann (machines) 98, 101, 105 Bon sens ; voir aussi physique naïve 34, 54, 65, 66, 74, 167, 177 Bostrom, Nick 158, 181, 182 Brynjolfsson, Erik 173, 182
C Cadre (le problème des) 54, 166 Calcul neuro-morphique 109 CALO 66 Challenge « Reconnaissance visuelle » à grande échelle 44, 52 Chalmers, David 134, 180 Chambre chinoise 145 Chomsky, Noam 93 Churchland, Paul 139, 141 CLARION 66, 110 Codage prédictif 103 CogAff 87 Cognition distribuée 55, 56, 117, 118 Colby, Kenneth 84, 133 Collecte d’information 170 Colton, Simon 83 Compagnons 46, 84, 86, 117, 148, 168 Compréhension 15, 17, 19, 41, 50, 52, 65, 69, 71, 75, 113, 131, 144, 145, 146, 148, 166, 169 Concours Loebner 133 Connaissance de soi 151 Connexionnisme, voir réseaux de neurones 18, 24, 25, 28, 31, 94, 104, 105, 110, 120, 144, 145 186
Conscience 15, 28, 32, 43, 56, 66, 79, 87, 89, 106, 112, 131, 132, 133, 134, 135, 136, 139, 140, 142, 143, 146, 147, 149, 150, 151, 154, 161 Contexte 72, 76, 87, 151, 156 Contrôle exécutif 42, 111, 112 Contrôle hiérarchique 56 Cope, David 82 Craik, Kenneth 26 Créativité 15, 34, 69, 79, 80, 81, 82, 83, 84, 124, 127, 131, 143, 178 CSER 172, 173 Cybernétique 25, 29, 104, 148, 153, 183 CYC 45, 48, 64, 65, 74, 82, 135, 166
D data mining 57, 75, 76 Davey, Anthony 70 Deep Blue 36, 37, 78 Dégradation 95 Délibération réactive 119 Dennett, Daniel 139, 140, 141, 142, 150, 152, 181 Détecteurs d’orientation 122, 128, 129 Diffusion des réactions 127, 128, 129 Dorner, Dietrich 67 DQN (l’algorithme) 60, 102, 104
E Edmonds, Ernest 83 Elman, Jeff 101
Index
Émotion 14, 34, 40, 67, 69, 84, 85, 86, 87, 88, 89, 106, 107, 108, 149, 150, 152, 165, 169, 174, 175, 178 Émulation du cerveau entier (WBE) 162, 163, 164, 165 Équilibre 27, 98, 99, 105, 115 Erreurs de prédiction 100 Espace de recherche 35, 36, 38, 40, 59 Esprit-corps (problème du) 15, 142, 143 Esprit étendu 160 Esprit incarné 119 Évolution 15, 19, 27, 36, 39, 70, 88, 97, 100, 121, 122, 123, 124, 127, 129, 145, 146, 153, 160, 168, 180, 181 Expérience sexuelle 170 Explosion combinatoire 48, 105
F Facebook 59 FHI Future of Humanity Institute à Oxford 172 fire together, wire together 98 FLI 172, 173, 176 Fodor, Jerry 134, 181 fonctionnalisme 142, 143 Force brute 36 Formes de vie 148 Fourmi de Simon 62 Franklin, Stan 66, 112, 135, 137, 138, 145, 181 Friston, Karl 153
G GasNets 84, 108, 179 General Problem Solver 24 Gibson, James 51 Global Workspace Theory 136 Goertzel, Ben 66, 181 GOFAI 18, 24, 25, 28, 35, 37, 41, 57, 72, 105, 110, 120 Good, Jack 156 Goodwin, Brian 126, 127, 180 Google 14, 41, 50, 51, 52, 60, 71, 74, 77, 102, 170 Gould, Stephen Jay 124 Grey Walter, William 26, 27, 29, 31, 113
H Harvey, Inman 121, 180 Haugeland, John 108 Hawking, Stephen 155, 173 Hebb, Donald 98 Helmholtz, Hermann von 102 Heuristique 24, 35, 36, 37, 40 Hiérarchie 43, 92, 101 Hiérarchisation des objectifs 38 Hinton, Geoffrey / passim, 99, 101, 102, 103, 106, 110, 178 Hofstadter, Douglas 152 Holland, John 121, 181, 183 Hopfield, John 105 Horwitz, Eric 172 Humanité 15, 156, 158 Hutchins, Edwin 118 Hypothèse 40, 58, 59, 97, 125, 143, 144, 153, 154, 159, 162 Hypothèses simplificatrices 35, 40 187
L’intelligence artificielle
I IA conviviale 36, 175, 176 IA évolutionnaire 120 IAG 56, 154 IA symbolique 23, 28, 30, 31, 35, 45, 56, 57, 81, 91, 92, 96, 97, 98, 99, 104, 105, 106, 111, 119, 120, 143, 145, 148, 183 Immortalité 147 Ineffabilité (des qualia) 141 Insectes 113, 114, 117, 119, 120 Intentionnalité 145, 146, 154 Interaction homme-machine 64, 148
Latham, William 83 Lenat, Douglas 64, 65 Libre arbitre 15, 49, 131 Libre énergie (principe de) 153 LIDA 28, 56, 66, 67, 87, 110, 112, 135, 137, 138, 139, 143, 145, 151, 165 Linsker, Ralph 129 Logic propositionnelle 22, 48 Logique du prédicat 48 Logique floue [fuzzy] 49 Logique modale 48 Logique non monotonique 53 Loi de Moore 157 Longuet-Higgins, Christopher 105 Lovelace, Ada 19, 20, 21, 44, 162, 177
J
M
JAPE 47 Jeopardy! 77, 78, 178 Jonas, Hans 153
K Kirsh, David 119, 144, 180 Kohonen, Teuvo 105 Kurzweil, Ray 156, 157, 158, 159, 160, 164, 181
L Langages de programmation 16, 17, 23 Langage, voir TLN 16, 22, 29, 30, 33, 34, 47, 48, 63, 69, 70, 71, 72, 73, 75, 76, 114, 119, 133, 142, 144, 146, 153, 170 Langton, Christopher 128, 180 188
Machine de la Théorie Logique 23, 24, 37 Machines Helmholtz 59 Machines virtuelles 16, 17, 18, 23, 32, 33, 91, 112, 141, 142, 143, 144, 147, 152, 164, 165 Mackay, Donald 29, 109 Mackworth, Alan 119 Marr, David 51 Masterman, Margaret 72, 75, 178 McAfee, Andy 173, 182 McCarthy, John 30, 34, 49, 54, 65, 171 McClelland, Jay 106, 179 McCormack, Jon 83 McCulloch, Warren 21, 22, 24, 25, 27, 28, 29, 177 McGinn, Colin 134 Mémoire associative 46, 63, 105
Index
Métabolisme 25, 153 Métaphysique 134, 142, 154 MicroPsi 67 Millikan, Ruth 146, 181 MINDER 67, 87, 88, 179 Minsky, Marvin 30, 31, 67, 87, 104, 105, 106, 112, 152, 178, 179, 183 MIRI 172 Mitchell, Tom 65, 173 Modèles cérébraux 26 Moralité 48, 66, 149, 152, 175 Moteur de recherche Google 75 Motifs 67, 87, 88, 119, 126, 150, 152, 165 Musk, Elon 173, 176
NEIL 66 Neisser, Ulric 108 NELL 65, 66 Neuro-éthologie par ordinateur 115 Neuro-modulateurs 84, 103, 108 Neuro-protéine 143, 146, 147, 159 Newell, Allen 42, 62, 65, 112, 143, 144, 146, 178, 181 Norman, Donald 106, 111
Paramètre lambda 128 Parnas, David 171 Paro 86, 169 Pask, Gordon 26, 28 Perceptrons 31, 91, 92, 93, 105, 177 Pertinence 28, 54, 72, 75, 76, 77, 78, 79, 80, 81, 83, 133, 137, 147, 161, 166 Phénoménologie 50, 147 Philosophie de l’esprit 31, 97 Physique naïve 45, 65 Picard, Rosalind 87 Pitts, Walter 21, 22, 24, 25, 27, 177 Planification 13, 18, 23, 24, 35, 37, 38, 39, 42, 54, 60, 63, 67, 88, 111, 114, 119, 120, 136, 137, 150, 165, 177 Post, Emil 42 Probabilité 22, 40, 41, 46, 57, 58, 59, 63, 64, 73, 78, 92, 93, 95, 96, 98, 172 Probabilité bayésienne 57 Programme d’apprentissage des verbes au passé 105 Psychologie 19, 22, 36, 37, 42, 51, 57, 59, 66, 87, 93, 94, 105, 106, 110, 114, 124, 148, 154, 159, 169 Putnam, Hilary 142, 153, 154, 181
O
Q
N
OpenCog 66 OpenCyc 64
Quillian, Ross 46
P Pandemonium 28, 31, 60, 139, 177 Papert, Seymour 31, 104, 105, 106, 177, 179
R Ray, Thomas 123, 156 Recherche pondérée 75 Reconnaissance des formes 63
189
L’intelligence artificielle
Règles logique SI-ALORS 22, 41, 42, 43, 44, 62 Répondre aux questions 14 Représentation des connaissances 35, 40, 41, 42, 44, 45, 46, 47, 48, 50, 52, 58, 59, 60, 69 Représentations 26, 41, 46, 48, 51, 53, 57, 62, 66, 74, 96, 97, 114, 119, 120, 135, 136, 144 ResearchCyc 64 Réseaux constructifs 97 Réseaux de neurones 18, 19, 21, 22, 24, 29, 31, 34, 41, 47, 51, 56, 57, 91, 92, 94, 97, 103, 122, 179, 183 Réseaux distribués 95 Réseaux multicouches 52, 60, 100, 101 Réseaux neutres 124 Réseaux récurrents 101 Réseaux sémantiques 41, 45, 46, 47, 63, 64 Ressemblances familiales 94, 144 Rétroaction [feedback] 26, 28, 63, 96, 103, 126 Rétropropagation 40, 99, 100, 101, 102 Ritchie, Graeme 47 RNA, voir réseaux de neurones 91, 92, 93, 94, 95, 98, 99, 101, 102, 103, 104, 105, 106, 107, 108, 109 Robotique en essaim 56, 118 Robotique située 39, 56, 119, 144, 148, 180 Robot(s) 14, 16, 17, 18, 27, 28, 39, 42, 52, 53, 54, 66, 71, 84, 85, 86, 108, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 131, 145, 148, 153, 158, 167, 169, 170, 171, 174, 175, 180 190
Robots Mars Rover 52 Rosenblatt, Frank 30, 31, 91, 93, 104, 105 Rumelhart, David 106, 179 Russell, Bertrand 22 Russell, Stuart 155, 166
S Samuel, Arthur 23 Schmidhuber, Jurgen 101 Scripts 45, 46, 69 Searle, John 144, 145, 146 Selfridge, Oliver 26, 28 Sémantique compositionnelle de pertinence 48 Shallice, Timothy 111, 179 Sharkey, Noel 171 Sherrington, Charles 22, 27 SHRDLU 71, 72, 171 Simon, Herbert 42, 62, 83, 84, 87, 143, 144, 146, 178, 179, 181, 183 Singularité 155, 156, 157, 158, 160, 161, 162, 166, 172, 176, 181, 183 Siri 41, 50, 66, 71, 76, 77, 78 Skype 75, 172 Sloman, Aaron 66, 67, 87, 112, 139, 141, 142, 143, 146, 179, 181 Smith, Brian Cantwell 154 SOAR 62, 63, 64, 65, 112, 135 Social 75, 79, 170, 171, 175 STAND UP 47 Statistique 18, 73, 78, 80, 166 Stockfish 61 Support Vector Machines 60 Supposition i.i.d. 40 Syntaxe 72, 73, 74, 83, 178
Index
Système de symboles physiques 143 Systèmes de production 63, 139 Systèmes dynamiques 18, 19 Systèmes experts 43, 44, 49 Systèmes hybrides 63, 106, 109, 120 SYSTRAN 74
T Tallinn, Jaan 172 Tegmark, Max 173, 174 Théorie de l’Esprit 112, 149, 152 Théorie « Infomax » 129 Thermodynamique 25, 98, 105 Thompson, D’Arcy 127 TLN voir Langage 48, 50, 64, 65, 69, 70, 72, 73, 75, 76, 79, 83, 85, 145, 159 Traduction 17, 46, 50, 71, 72, 73, 74, 75 Traitement de la parole 70 Traitement parallèle distribué voir aussi PDP 31, 143 Transhumanisme 159, 160 Turing, Alan 20, 21, 22, 23, 26, 27, 29, 30, 34, 124, 125, 126, 127, 129, 132, 133, 142, 156, 180 Turing (machine de) 20, 22 Turing (Test de) 21, 81, 132, 133, 142 Turk, Greg 126, 180
U Unités cachées 95, 98, 100
V Vecteurs de mots 45, 46, 74 Vie 15, 18, 29, 33, 39, 40, 49, 79, 86, 113, 116, 122, 124, 126, 128, 147, 148, 151, 152, 153, 155, 157, 159, 168, 170, 180 Vinge, Vernor 156, 157, 158, 172 Vision 13, 33, 47, 50, 51, 52, 53, 60, 65, 114, 117, 119, 122, 158, 159 Vision animée 52, 119 von Neumann, John 16, 26, 27, 91, 128, 156
W Wallach, Wendell 172, 182 WATSON 50, 76, 77, 78, 79, 102, 178 WBE, whole brain emultion 162, 163, 164, 165 Webb, Barbara 116, 117, 180 Weizenbaum, Joseph 171 Werbos, Paul 99 Whitby, Blay 172, 183 Widrow 31 Wiener, Norbert 26 Willshaw, David 105 Winograd, Terry 71, 171 Wittgenstein, Ludwig 144, 148 WolframAlpha 77 WordNet 46, 95 World Wide Web 50
Y Yudkowsky, Eliezer 175
191