237 21 11MB
French Pages 178 [176] Year 2018
Dans la même collection : Newton en images, 2017, ISBN : 978-2-7598-2097-9 La consciences en images, 2017, ISBN : 978-2-7598-1766-5 La philosophie des sciences en images, 2017, ISBN : 978-2-7598-2096-2 La linguistique en images, 2017, ISBN : 978-2-7598-1768-9 Les fractales en images, 2016, ISBN : 978-2-7598-1769-6 Les statistiques en images, 2016, ISBN : 978-2-7598-1770-2 L' infini en images, 2016, ISBN : 978-2-7598-1771-9 Stephen Hawking en images, 2016, ISBN : 978-2-7598-1966-9 L' intelligence artificielle en images, 2015, ISBN : 978-2-7598-1772-6 Les mathématiques en images, 2015, ISBN : 978-2-7598-1737-5 La génétique en images, 2015, ISBN : 978-2-7598-1767-2 La logique en images, 2015, ISBN : 978-2-7598-1748-1 La relativité en images, 2015, ISBN : 978-2-7598-1728-3 Le temps en images, 2014, ISBN : 978-2-7598-1228-8 La théorie quantique en images, 2014, ISBN : 978-2-7598-1229-5 La physique des particules en images, 2014, ISBN : 978-2-7598-1230-1 La psychologie en images, 2014, ISBN : 978-2-7598-1231-8
Translation from the English language edition of: "Game theory: a graphic guide", © Ivan Pastine, Tuvana Pastine & Tom Humberstone Traduction : Alan Rodney - Relecture : Gaëlle Courty Imprimé en France par Présence Graphique, 37260 Monts Mise en page de l’édition française : studiowakeup.com ISBN (papier) : 978-2-7598-2168-6 ISBN (ebook) : 978-2-7598-2244-7 Tous droits de traduction, d’adaptation et de reproduction par tous procédés, réservés pour tous pays. La loi du 11 mars 1957 n’autorisant, aux termes des alinéas 2 et 3 de l’article 41, d’une part, que les « copies ou reproductions strictement réservées à l’usage privé du copiste et non destinés à une utilisation collective », et d’autre part, que les analyses et les courtes citations dans un but d’exemple et d’illustration, « toute représentation intégrale, ou partielle, faite sans le consentement de l’auteur ou de ses ayants droit ou ayants cause est illicite » (alinéa 1er de l’article 40). Cette représentation ou reproduction, par quelque procédé que ce soit, constituerait donc une contrefaçon sanctionnée par les articles 425 et suivants du code pénal. © EDP Sciences, 2018
2
Qu’est-ce que la théorie des jeux ? La théorie des jeux désigne un ensemble d’outils destinés à faciliter l’analyse de situations où la meilleure conduite à adopter pour un individu dépendra de ce que d’autres font ou de ce que l’on attend qu’ils fassent. La théorie des jeux permet de comprendre comment les gens se comportent dans des situations où ils interagissent. Ces interactions émergent dans toutes sortes de situations. Parfois, une coopération avec autrui nous permet de réaliser plus que ce que nous ne pourrions en agissant seul. À d’autres moments, il se crée un conflit quand un individu tire profit de la situation au détriment d’autres. Dans de nombreuses situations, la coopération apporte des bénéfices, mais des éléments de conflit existent aussi.
Nous ne gagnerons qu’en travaillant ensemble, mais pour l’heure chacun essaie ici de jouer les stars.
3
Dans la mesure où la théorie des jeux peut aider à analyser tout environnement où la meilleure initiative pour un individu dépendra du comportement des autres, elle s’est avérée utile dans une grande variété de disciplines. En économie, les décisions prises par les entreprises sont conditionnées par leurs prévisions sur les concurrents en matière de produit, de prix et de publicité. En science politique, le programme électoral d’un candidat est influencé par les déclarations des candidats rivaux. En biologie, les animaux sont en compétition pour se procurer des ressources qui se raréfient, mais peuvent être blessés s’ils se montrent trop agressifs avec un rival plus fort qu’eux. En informatique, les ordinateurs connectés en réseau sont en compétition pour la bande passante. En sociologie, les manifestations publiques d’attitudes non conformistes sont influencées par le comportement des autres, lui-même modulé par la culture sociale.
Zut ! Et moi qui allais promettre une réforme du système de santé comme élément clef de mon programme électoral. Je vais devoir trouver autre chose.
4
La théorie des jeux s’avère utile chaque fois qu’il y a une interaction stratégique, dès lors que votre niveau de réussite dépend à la fois des actions des autres et de vos propres choix. Dans ces cas, les actions des personnes sont influencées par leurs prévisions des actions des autres.
Le père Noël t’a apporté un jeu.
Ce n’est pas un jeu ! Il n’y a aucune interaction stratégique. Les coups des autres joueurs n’influencent pas ma meilleure option d’action. La guerre thermonucléaire globale, ça c’est un jeu. En situation de guerre, les choix des autres joueurs influencent ma meilleure réaction ; et inversement, mes actions influencent leurs comportements.
On n’aurait jamais dû lui acheter ce livre sur la théorie des jeux.
5
D’où vient l’expression « théorie des jeux » ? La théorie des jeux est l’étude des interactions stratégiques. Celles-là constituent les éléments clefs de la plupart des jeux de plateau, desquels elle tire son nom. Votre décision affecte les actions des autres joueurs et réciproquement. D’ailleurs, la plupart du jargon de la théorie des jeux est emprunté directement aux jeux de société. Ceux qui prennent des décisions sont appelés les joueurs. Ces derniers jouent un coup chaque fois qu’ils prennent une décision.
J’en arrive à oublier, par moments, que je ne suis pas en train de jouer aux échecs.
6
Travailler avec des modèles Dans le monde réel, les interactions stratégiques peuvent être très complexes. Dans le cas des interactions entre des êtres humains, par exemple, non seulement nos décisions, mais aussi nos expressions, notre tonalité de voix et notre langage corporel influencent les décisions des autres. Chacun apporte un vécu et des points de vue différents dans ses rapports avec les autres. Cette variété infinie avec les autres peut mener à des situations extrêmement complexes à analyser. Il nous est possible de contourner cette complexité en créant des structures simplistes, que nous appelons des modèles. Ces derniers sont assez simples à analyser, mais saisissent néanmoins une caractéristique importante du problème du monde réel. Si nous choisissons intelligemment un modèle simple, cela peut nous aider à apprendre quelque chose d’utile sur le problème réel.
Qu’est-ce que tu fais ?
J’apprends l’ingénierie.
7
Le jeu d’échecs est utile pour comprendre la complexité qu’apporte la variété au jeu (et aux prévisions des coups) et aux dénouements. Il existe des règles bien définies aux échecs. Pour chaque coup, le nombre d’options est limité. Pourtant, la complexité intrinsèque de ce jeu est redoutable, bien qu’il soit bien plus simple que la plus élémentaire des interactions humaines.
Il y a 1040 coups* possibles sur un échiquier, bien plus que le nombre de grains de sable sur Terre.
Mais alors, comment je peux prédire ce que tu vas faire et préparer mes coups ?
* En fait le nombre de coups est bien plus élevé. Le mathématicien Claude Shannon est parvenu à aller jusqu’au bout des calculs. Ses conclusions donnent le tournis : 10120 parties différentes possibles ! 8
« Match nul » L’une des caractéristiques des jeux de plateau complexes comme les échecs est que plus les joueurs sont expérimentés, plus il y a de chances que la partie finisse par un match nul. Comment expliquer ce phénomène ? Puisque le jeu d’échecs est trop complexe pour être analysé complètement, utilisons un modèle simple qui renferme certaines caractéristiques importantes des échecs : le morpion. Échecs et morpion présentent tous deux des plateaux et des conditions de victoire bien définies. Tour à tour, les joueurs choisissent leur coup parmi un nombre restreint de possibilités. De nombreuses manœuvres propres au jeu d’échecs n’existent pas au morpion. Mais du fait que les deux jeux partagent certaines caractéristiques importantes, la pratique du morpion peut nous aider à mieux comprendre pourquoi les joueurs chevronnés tendent à finir la partie sur un match nul.
En jouant au morpion, j’apprends des choses sur les échecs.
Arrête de tergiverser et joue !
9
Le morpion est un jeu amusant pour les enfants. Tandis que des parties entre joueurs inexpérimentés tendent à désigner un vainqueur, avec un peu de pratique, vous apprenez rapidement à raisonner de manière rétrograde : vous arrivez à anticiper la réaction de votre adversaire à vos possibles coups et la prenez en compte avant de jouer. Dès lors que les joueurs ont appris le raisonnement rétrograde, toutes les parties du morpion tendent à se terminer par un match nul. De cette façon, le morpion sert de modèle simple pour le jeu d’échecs, dans lequel il y a bien plus de coups possibles, mais où, entre joueurs expérimentés, les parties ont tendance également à se terminer par un match nul.
Il est grand temps que je passe à quelque chose de plus compliqué.
10
Comment aborder la complexité : un art et une science La préoccupation principale de la théorie des jeux ne concerne pas les jeux de plateau comme les échecs. Elle vise plutôt à améliorer notre compréhension des interactions entre personnes, entreprises, pays, animaux, etc., dès lors que les problèmes réels sont trop complexes pour être pleinement compris. Pour y parvenir, dans le cadre de la théorie des jeux, nous créons des modèles très simplifiés, qui sont appelés jeux. La création d’un modèle utile s’apparente aussi bien à un art qu’à une science. Un bon modèle doit être suffisamment simple pour nous permettre de comprendre complètement ce qui motive les joueurs dans leurs choix. Dans le même temps, le modèle doit tenir compte de certaines caractéristiques importantes de la réalité, ce qui implique que l’analyste possède une perception créative associée à un jugement afin de déterminer quels sont les éléments les plus pertinents.
Il n’existe pas un seul modèle exact pour chaque situation rencontrée. Il peut y avoir de nombreux modèles, chacun étant capable de mettre en lumière un aspect différent d’une interaction stratégique réelle.
11
La rationalité La théorie des jeux suppose d’ordinaire rationalité et connaissance commune de la rationalité. La rationalité fait référence à la compréhension qu’ont les joueurs du jeu et à faire usage de leur capacité à raisonner. La nécessité d’une connaissance commune de la rationalité est une notion plus subtile. Nous devons être non seulement rationnels, mais de plus je dois savoir que vous êtes rationnel. J’ai besoin aussi d’un second niveau de connaissances : je dois savoir que vous savez que je suis rationnel. J’ai besoin également d’un troisième niveau de connaissances : je dois savoir que vous savez que je sais que vous savez que je suis rationnel. Et ainsi de suite jusqu’à des niveaux de plus en plus profonds. La connaissance commune de la rationalité requiert que cette chaîne de connaissances puisse se poursuivre indéfiniment.
Je sais que tu sais que je sais que tu es rationnelle.
Ça, je le sais.
12
Le concours de beauté de Keynes Les critères de connaissance commune de la rationalité sont difficiles à interpréter et prêtent à confusion. Mais pire, elles peuvent échouer dans la réalité, surtout dans les jeux avec beaucoup de joueurs. Un exemple classique est celui du concours de beauté de Keynes, au cours duquel l’économiste britannique John Maynard Keynes [1883-1946] avait fait le rapprochement entre l’investissement dans des marchés financiers et un concours dans la presse où les lecteurs auraient à choisir le « plus joli visage » ; ceux qui choisissent le visage le plus souvent choisi sont déclarés vainqueurs.
« Il ne s’agit pas de choisir de son mieux quels visages sont les plus jolis, ni même ceux que l’opinion publique pense sincèrement être les plus jolis… Nous devons focaliser notre intelligence sur l’anticipation de ce que l’opinion publique attend comme opinion publique. »
John Maynard Keynes
13
De prime abord, le concours de beauté de Keynes n’a que peu de lien avec les marchés financiers : il n’y a pas de prix de vente, ni d’acheteurs ou vendeurs. Il y a, cependant, une caractéristique commune. Le succès dans les marchés financiers dépend de l’avance par rapport à la masse. Si vous parvenez à prédire le comportement de l’investisseur moyen, vous pouvez toucher le jackpot. De même pour le concours de beauté, si vous parvenez à prédire le choix moyen des lecteurs du journal, vous pouvez gagner le concours.
Personnellement, je trouve les brunes plus jolies, mais comme la plupart des gens préfèrent les blondes, je pense que ces dernières seront les plus populaires. Je vais donc opter pour la blonde.
Ces actions sont trop chères. Mais je vais en acheter parce que je pense que d’autres vont faire de même et que, par conséquent, leur prix va encore augmenter.
14
Le jeu de devinettes de Thaler En 1997, l’économiste comportemental américain Richard Thaler [né en 1945] mena une expérience dans les colonnes du Financial Times, un jeu de devinettes, variante du concours de beauté de Keynes.
Devinez le nombre !
Les lecteurs sont invités à choisir un nombre entre 0 et 100. Le gagnant sera celui ou celle qui choisira le nombre le plus proche des 2/3 de la moyenne de tous les nombres proposés au concours.
Quel nombre choisiriez-vous ?
15
Si chaque lecteur choisit au hasard un nombre entre 0 et 100, la moyenne sera de 50.
2/3 x 50 = 33
Mais je sais aussi que tout le monde sait que tout le monde est rationnel, alors d’autres vont probablement choisir, comme moi, 22. Donc je devrais opter pour 2/3 de 22, soit environ 15. Mais…
16
Mais d’autres lecteurs vont faire comme moi, car tout le monde est rationnel. Dans ce cas, je m’attends à voir une moyenne de 33, aussi je choisirais 2/3 de 33, soit 22.
Pour cette expérience, le Financial Times enregistra plus de mille propositions. Le nombre le plus fréquemment choisi fut 33, suivi de 22. Cela suggère que beaucoup de personnes ont raisonné selon la première étape. Mais bien d’autres ont pensé que les autres lecteurs s’arrêteraient là et ont essayé de garder un coup d’avance en misant sur 22 (qui correspond aux 2/3 de 33).
Si vous croyez que les autres vont s’arrêter à la première étape du raisonnement, il est rationnel, de votre point de vue, de vous arrêter à la seconde étape.
Richard Thaler
Toutefois, s’il existe une connaissance commune de la rationalité, vous savez que d’autres ne vont pas s’arrêter à la première étape. Vous pouvez donc continuer ce raisonnement itératif à l’infini – un processus de raisonnement qui implique la répétition de ce même processus, le résultat du premier tour étant pris comme point de départ du tour suivant.
17
Les théoriciens des jeux résolvent le jeu de devinettes d’une manière similaire, en se servant d’une élimination itérative des stratégies dominées. Rappelez-vous que vous cherchez les 2/3 du nombre moyen proposé pour le concours. Si tous les participants devaient choisir le nombre le plus élevé, en l’occurrence 100, la moyenne serait de 100. Par conséquent, quelle que soit la valeur attendue pour la moyenne, il ne servira à rien de choisir un nombre plus grand que les 2/3 de 100, soit 67. En d’autres termes, toute stratégie qui donne une valeur plus grande que 67 est dominée par 67. Une stratégie est dominée si elle est jugée pire (dans notre cas, toute valeur supérieure à 67) que n’importe quelle autre stratégie (supposons 67), quelles que soient les valeurs choisies par les autres. Par conséquent, même si aucun des autres joueurs n’est rationnel, on peut éliminer toutes les stratégies proposant une valeur supérieure à 67.
18
Si tous les autres joueurs sont rationnels, alors chacun peut avancer, en raisonnant, que personne ne va proposer une valeur plus grande que 67. De ce fait, toute les valeurs supérieures à 45 (qui est le nombre entier le plus proche des 2/3 de 67) seront également éliminées. Et puisque chaque joueur sait que les autres savent que tout le monde est rationnel, ils peuvent chacun être certain que personne ne va choisir un nombre plus grand que 45, et donc ils ne choisiront pas un nombre plus grand que 30, qui est égal aux 2/3 de 45.
Dans le jeu de devinettes, un raisonnement itératif mène à des nombres de plus en plus petits, jusqu’à ce que tous les nombres supérieurs à zéro aient été éliminés en tant que stratégies dominées. Ainsi, des gens rationnels avec une connaissance commune de la rationalité vont choisir zéro.
19
Les problèmes liés à la rationalité et à la connaissance commune de la rationalité Cependant, pour cette expérience dans le Financial Times, zéro ne fut pas le numéro gagnant. La valeur moyenne s’avéra être 19 et donc le gagnant fut celui ou celle qui avait proposé 13.
Le nombre gagnant était bien plus élevé que la valeur prédite par les théoriciens. Alors où la théorie des jeux s’était-elle trompée ? Ne possédait-elle pas de pouvoir prédictif ?
Dans ce cas, les suppositions sur la rationalité et sa connaissance commune n’étaient pas satisfaites. Par exemple, de nombreux participants avaient proposé 100, ce qui n’est pas un choix rationnel. Même si l’on devait s’attendre par erreur à ce que tout le monde choisisse 100, la réponse optimale aurait été 67. Soit ces concurrents n’avaient pas totalement compris les règles du jeu, soit ils étaient incapables de calculer les 2/3 de 100.
20
Le concept de rationalité nécessite des capacités cognitives sans limites. Une personne pleinement rationnelle connaît les solutions de tous les problèmes mathématiques et est capable d’exécuter tous les calculs sur le champ, indépendamment de leur niveau de difficulté. Une meilleure approche approximative du comportement humain s’obtient par rationalité limitée. C’est-à-dire que la rationalité humaine est limitée par la tractabilité du problème décisionnel (la facilité à gérer le problème), par les limites cognitives de notre cerveau, par le temps imparti au processus de décision et par l’importance que nous accordons au résultat de la décision.
Il n’existe aucun problème ne pouvant pas être résolu par une application du raisonnement.
J’ignore par où commencer pour résoudre ce problème et je n’ai qu’une semaine pour y travailler. Alors essayons l’approche suivante…
21
Si en plus de notre rationalité limitée, il y a un grand nombre de participants (comme pour le concours de devinettes), il devient difficile d’imaginer que la connaissance commune de la rationalité résistera. Même si tous les joueurs sont rationnels, vous n’allez pas choisir le zéro si vous pensez que les autres joueurs ne savent pas que vous êtes rationnel. Par conséquent, vous allez proposer un nombre plus grand que zéro.
Savent-ils que je sais qu’ils savent que tous les autres joueurs sont rationnels ?
S’ils ne le savent pas, ils vont nécessairement choisir un nombre plus grand que zéro. Alors, vous devriez vous aussi choisir un nombre plus grand que zéro.
22
Explosions et krachs boursiers – une application de la rationalité aux marchés financiers Le jeu de devinettes et le concours de beauté de Keynes peuvent expliquer pourquoi nous observons des bulles spéculatives sur les marchés financiers – des prix excessivement gonflés – même si tous les participants sont rationnels. La raison en est un manque de connaissance commune de la rationalité.
Un gestionnaire de fonds peut très bien savoir que la cotation en bourse actuelle des actions d’une société ne reflète pas la vraie valeur de cette société. Cependant, il serait rationnel pour lui d’acheter des actions dans l’espoir de pouvoir les revendre à un prix plus élevé dans le futur, s’il s’attend à ce que les autres anticipent encore une hausse de prix. La décision d’achat entraînerait immédiatement une hausse du prix des actions, créant ainsi une bulle spéculative, même si tous les traders sont rationnels.
23
Jeux à coups simultanés Il arrive souvent que les joueurs ignorent les actions des autres joueurs quand ils prennent leurs propres décisions. On appelle de tels jeux des jeux à coups simultanés. Dans certains cas, les joueurs prennent leurs décisions littéralement simultanément (en même temps). Dans d’autres cas, les décisions peuvent intervenir à des moments différents. Mais tant que les joueurs ne connaissent pas les décisions des autres au moment où ils prennent leurs propres décisions, nous pouvons considérer que les coups sont joués simultanément. Prenons l’exemple suivant : Rabbit Films a réalisé un film de super-héros sur Noël. Le film peut sortir dans les salles de cinéma soit en octobre, soit en décembre. L’un des concurrents sérieux de Rabbit Films, Weasel Studios, a réalisé un très mauvais film, avec un budget colossal. Le couple de vedettes du film ne se supportaient pas et ont très mal joué leurs rôles respectifs. Weasel Studios a également la possibilité de sortir son film soit en octobre, soit en décembre.
24
Nous savons que la plupart des gens vont au cinéma en décembre plutôt qu’en octobre, ce qui fait de décembre le mois le plus avantageux pour les deux studios. Mais les deux films visent le même public. S’ils sont projetés en salle le même mois, ils vont se voler le public l’un de l’autre. Le revenu de chaque producteur dépend à la fois de sa date de sortie, mais aussi de celle du studio concurrent. Par conséquent, les studios font face à une interaction stratégique. Les gains que peut espérer chacun des studios selon la date de sortie choisie dépendront de celle choisie par le concurrent.
25
La forme stratégique du jeu Nous pouvons analyser ce jeu en listant les actions possibles des joueurs (sortie en octobre ou en décembre) et les gains (revenus) dans un tableau, appelé la forme stratégique (ou normale) du jeu. La forme stratégique du jeu est une table que l’on appelle également la matrice des gains.
RABBIT FILMS (R)
Weasel Studios (W) Octobre
Décembre
Octobre
R : 50, W : 5
R : 70, W : 10
Décembre
R : 120, W : 7
R : 90, W : 8
Chaque rangée représente un choix possible pour Rabbit Films – sortie du film en octobre ou en décembre – et chaque colonne représente les choix possibles de Weasel Studios. À chaque intersection de colonne et de rangée, nous inscrivons les gains pour chaque joueur : dans cet exemple, les gains représentent les revenus des chaque studio. La matrice donne toutes les issues possibles du jeu et précise le gain que recevra chaque joueur pour chacune. Les deux studios comprennent la matrice des gains et sont conscients du fait qu’ils se trouvent tous deux face à la même matrice.
26
Les gains Le sens qu’il convient d’attribuer aux chiffres des gains dépend de la nature du problème que l’on veut analyser. Dans l’exemple de la sortie d’un film, les chiffres des gains représentent les revenus escomptés (en millions d’euros) des entrées pour chacune des options possibles. Pour d’autres applications, les chiffres des gains peuvent avoir d’autres interprétations. En biologie, ils concernent souvent la « forme physique » du joueur, où cette aptitude est liée aux chances qu’a un animal de se reproduire et perpétuer son espèce. Dans bien d’autres applications en économie, en sociologie, etc., les chiffres des gains représentent le niveau de « bonheur » ou d’« utilité » des joueurs.
Je me soucie du nombre de sièges que mon parti politique va gagner aux prochaines élections.
Je me soucie du nombre de mes interventions chirurgicales réussies.
Ma préoccupation est de devenir chef de meute.
27
Cela peut paraître bizarre d’affecter des valeurs numériques au bonheur ou à la forme physique. Toutefois, ce qui compte pour la prise de décision des joueurs n’est pas tant la valeur des nombres, mais comment ils sont liés les uns aux autres. Tout ce qui compte pour l’interaction stratégique entre les studios concerne les préférences des spectateurs. Tout ce que nous devons savoir ici est lequel des résultats sera le meilleur et lequel sera le pire pour chaque joueur. Les nombres facilitent simplement la représentation des préférences par rapport aux résultats.
Si Weasel Studios prévoit de sortir son film en octobre, tout ce qui compte pour moi est la colonne d’octobre de la matrice des gains. J’ai manifestement intérêt à sortir mon film en décembre, puisque R : 120> R : 50.
RABBIT FILMS (R)
Weasel Studios (W)
28
Octobre
Décembre
Octobre
R : 50, W : 5
R : 70, W : 10
Décembre
R : 120, W : 7
R : 90, W : 8
Il existe, bien entendu, de nombreuses situations importantes où les gens se préoccupent des gains des autres autant que des leurs. Les familles et les amis peuvent vouloir rendre les autres heureux. Des couples qui divorcent ou des rivaux commerciaux peuvent vouloir se nuire. La théorie des jeux permet d’analyser facilement de telles situations dans la mesure où elle tient compte de tous les désirs, aussi bien pour prendre soin de nous-mêmes ou venir en aide ou au contraire nuire aux autres, quand nous notons les gains. Les chiffres des gains dans le tableau représentent le gain total que peut espérer chaque joueur pour chaque issue. Il se peut qu’un joueur profite soit directement, soit indirectement d’une certaine issue, en aidant ou en nuisant aux autres. Les chiffres des gains incluent toutes les préoccupations des joueurs. Une fois le jeu traduit sous forme stratégique, la seule préoccupation d’un joueur sera de maximiser ses gains.
Vous allez avoir peur en entendant mon nom. Ah, ah, ah, ah ! Je vais empocher 10 millions d’euros en dévalisant la banque et terroriser la ville me rapporte 2 millions, donc mes gains seront de 12 millions.
29
L’équilibre de Nash Dès lors que nous avons défini formellement le jeu en l’écrivant sous forme stratégique, nous pouvons commencer à réfléchir à ce qui pourrait se passer. L’un des concepts fondamentaux de la théorie des jeux est l’équilibre de Nash, nommé d’après l’économiste américain John Nash [1928-2015]. En réalité, Nash n’a pas inventé le concept d’équilibre de Nash, mais il l’a appliqué à l’analyse mathématique des jeux en général, plutôt qu’à des exemples spécifiques, comme ce qui avait été le cas précédemment.
Nous devrions nous attendre à ce que chaque joueur fasse de son mieux, sachant ce que font les autres joueurs.
John Nash
30
L’idée qui sous-tend l’équilibre de Nash est à la fois simple et puissante : l’équilibre dans le jeu implique que chaque joueur rationnel choisisse sa meilleure réponse par rapport au choix de l’autre joueur. C’est-à-dire que son choix porte sur la meilleure action en fonction de ce que l’autre joueur fait. La meilleure réponse de Rabbit Films • Si Rabbit s’attend à ce que Weasel sorte son film en octobre, sa meilleure réponse est de sortir son film en décembre, puisque R : 120 > R : 50. Souligner R : 120. • Si Rabbit s’attend à ce que Weasel sorte son film en décembre, sa meilleure réponse est de sortir son film en décembre, puisque R : 90 > R : 70. Souligner R : 90. La meilleure réponse de Weasel Studios • Si Weasel s’attend à ce que Rabbit sorte son film en octobre, sa meilleure réponse est de sortir son film en décembre, puisque W : 10 > W : 5. Souligner W : 10. • Si Weasel s’attend à ce que Rabbit sorte son film en décembre, sa meilleure réponse est de sortir son film en décembre, puisque W : 8 > W : 7. Souligner W : 8. À l’équilibre, les deux studios sortent leur film en décembre. C’est la seule issue où les deux studios ont la meilleure réponse l’un vis-à-vis de l’autre. Si l’un des studios sort son film en décembre, la réponse optimale pour l’autre est de sortir son film en décembre.
RABBIT FILMS
{Décembre, Décembre} est la seule case où les deux valeurs inscrites sont soulignées. Aucune autre paire d’actions ne Weasel Studios (W) constitue la meilleure réponse l’un par rapport Octobre Décembre à l’autre. Octobre
R : 50, W : 5
R : 70, W : 10
Décembre
R : 120, W : 7
R : 90, W : 8
31
L’une des caractéristiques de l’équilibre de Nash est qu’il est sans regret. Aucun des studios ne profiterait de la situation s’il déviait de la stratégie d’équilibre qui consiste à sortir son film en décembre. L’équilibre de Nash est aussi un équilibre des attentes rationnelles. À l’équilibre, Rabbit Films sort son film en décembre en s’attendant à ce que Weasel sorte le sien en décembre. En effet, Weasel Studios choisit décembre comme date de sortie. Par conséquent, les attentes de part et d’autre sont justes.
C’est exactement ce que nous attendions.
32
Le dilemme du prisonnier Le paradoxe le plus connu de la théorie des jeux est le dilemme du prisonnier. C’est le mathématicien canadien Albert Tucker [1905-1995] qui lui a donné ce surnom. Le jeu du dilemme du prisonnier du professeur Tucker sort tout droit d’un scénario hollywoodien d’une fiction de procédure criminelle où deux prisonniers reçoivent chacun une offre de remise de peine s’il dénonce l’autre. Ce jeu illustre combien il est difficile d’agir de concert par intérêt commun ou mutuel dans la mesure où chacun privilégie ses intérêts personnels. Les motivations que le jeu du dilemme du prisonnier représente sont générales et ont servi à analyser des problèmes dans une large gamme de domaines, de la concurrence commerciale entre entreprises à l’établissement de normes sociales en sociologie, en passant par la prise de décision en psychologie, la compétition entre animaux pour se procurer des ressources rares en biologie, ou encore les ordinateurs connectés en réseau rivalisant pour l’attribution de bande passante en ingénierie.
33
Alan et Ben ont été appréhendés pour avoir volé conjointement une voiture. La police les soupçonne d’être également impliqués dans un délit de fuite, mais manque de preuves pour les inculper. Les deux prisonniers sont interrogés dans deux salles d’interrogatoire séparées. Alan et Ben ont chacun deux options : soit garder le silence, soit passer aux aveux. Par conséquent, le jeu a quatre issues possibles : • Alan garde le silence et Ben aussi • Alan passe aux aveux mais Ben garde le silence. • Alan garde le silence et Ben passe aux aveux. • Alan passe aux aveux et Ben aussi.
La prise de décision se complique par le fait que le temps passé en prison pour un prisonnier ne dépend pas seulement de son plaidoyer, mais aussi du fait que l’autre prisonnier avoue ou non.
Albert Tucker
34
Le dilemme du prisonnier peut être représenté sous forme stratégique, où chaque rangée de la matrice des gains représente un choix possible d’Alan et chaque colonne un choix possible de Ben. Nous inscrivons à l’intersection de chaque rangée et chaque colonne les gains pour chacun des joueurs : dans le cas présent le temps passé en prison.
ALAN
Ben Silencieux
Avoue
Silencieux
A : -1, B : -1
A : -15, B : 0
Avoue
A : 0, B : -15
A : -10, B : -10
Si Alan et Ben gardent tous deux le silence, alors ils iront l’un comme l’autre en prison pendant 1 an pour le vol de voiture. C’est une mauvaise chose, donc leurs gains sont négatifs (Alan : –1, Ben : –1). Si tous deux passent aux aveux, ils iront chacun 10 ans en prison (Alan : –10, Ben : –10).
Pour obtenir des aveux pour le délit de fuite, nous proposons un arrangement. Si l’un des prisonniers passe aux aveux et témoigne contre l’autre, il sera libre et l’autre aura 15 ans de prison.
Les prisonniers comprennent la matrice des gains et sont conscients qu’ils sont l’un et l’autre face à la même matrice. 35
Ce jeu entre dans la catégorie des jeux à coups simultanés : même si les décisions des prisonniers ne sont pas réellement simultanées, nous pouvons considérer qu’elles le sont dans la mesure où les joueurs se trouvent dans des salles d’interrogatoire séparées et, par conséquent, chacun ignore la décision de l’autre quand il prend sa propre décision. Notons qu’en écrivant le jeu sous forme stratégique, nous n’annonçons rien quant à ce qu’il peut se passer. Nous avons simplement inscrit les issues potentielles, qu’elles soient raisonnable ou non, et nous avons noté les gains des joueurs si cette issue survenait. Maintenant que le problème est écrit sous forme stratégique, nous pouvons commencer à analyser ce qui pourrait arriver par la suite.
Avouer ou garder le silence !
36
C’est là, la question !
Il est clair que si Alan et Ben pouvaient s’entendre sur une réponse commune, en l’occurrence que tous deux gardent le silence, ils n’iraient en prison que pour un an seulement. Mais cela n’est pas la situation d’équilibre. Pour ce qui concerne Alan, la stratégie « avouer » domine strictement la stratégie « garder le silence » : ce sera toujours mieux d’avouer, quelle que soit la réaction à laquelle il s’attend de la part de Ben.
Si Ben avoue, le mieux pour moi sera d’avouer puisque 10 ans de prison est mieux que 15. Si Ben garde le silence, ce sera toujours mieux pour moi d’avouer, puisque sortir libre est mieux que d’aller en prison pendant 1 an.
De manière similaire, quelle que soit l’attente de Ben concernant la réaction possible d’Alan, la meilleure réponse de Ben sera d’avouer. 37
Dans le dilemme du prisonnier, les deux joueurs avouent dans l’équilibre de Nash. Il existe une manière standard d’écrire cette issue : {avouer, avouer} Elle donne en premier le choix du joueur de la rangée (Alan), suivi du choix du joueur de la colonne (Ben). Dans l’équilibre de Nash, les deux prisonniers sont condamnés à 10 ans de prison.
Nous avons été condamnés à 10 ans de prison parce que nous avons avoué tous les deux. Si nous ne l’avions pas fait, nous aurions eu 1 an de prison seulement.
Ouais ! Mais si je t’avais dit que je n’avouerais pas, tu aurais quand même avoué pour éviter la prison. Et moi, j’en aurais pris pour 15 ans. Au final, je suis content d’avoir avoué.
38
Optimum de Pareto Une question intéressante à se poser est si l’équilibre de Nash dans le cas du dilemme du prisonnier est un optimum de Pareto. On dit qu’une issue est un optimum de Pareto s’il n’existe pas d’autre issue potentielle où quelqu’un se trouve mieux sans que personne y perde. Cette notion d’efficacité doit son nom à l’économiste italien Vilfredo Pareto [1848-1923].
Si une issue n’est pas un optimum de Pareto, cela signifie que quelqu’un est dans une meilleure situation sans nuire à personne.
Vilfredo Pareto
La situation d’équilibre de Nash du dilemme du prisonnier n’est pas un optimum de Pareto puisque chaque prisonnier s’en serait mieux sorti en gardant le silence : d’où le surnom de « dilemme du prisonnier ». Cependant, dans bien d’autres jeux, l’équilibre de Nash est un optimum de Pareto. Par exemple, dans le jeu des studios cinématographiques, il n’y a pas d’issue alternative à la situation d’équilibre de Nash qui est mieux pour l’un des studios sans nuire à l’autre.
39
L’ingénieur réseau Les motivations illustrées dans le jeu du dilemme du prisonnier se retrouvent dans bien des situations. En effet, dès que l’on commence à regarder le monde au travers de ce prisme, il devient difficile de ne pas voir un dilemme du prisonnier partout. Par exemple, quand des routeurs réseau sans fil, tels que des routeurs Wi-Fi ou des antennes relais, utilisent les mêmes fréquences et sont à portée les uns des autres, cela produit des interférences, ralentissant le débit de chacun des routeurs. Une solution à ce problème consiste à diminuer la puissance d’émission de chaque routeur, de façon à ce qu’ils soient hors de portée les uns des autres. Mais si un seul des routeurs émet à faible puissance, alors son signal sera englouti par celui du routeur plus puissant.
40
La situation des routeurs réseau peut être représentée par cette matrice de gains.
ROUTEUR A
Routeur B Forte puissance
Basse puissance
Forte puissance
A : 5, B : 5
A : 15, B : 2
Basse puissance
A : 2, B : 15
A : 10, B : 10
Les ingénieurs de chaque routeur doivent décider s’ils émettent à forte ou à faible puissance et les gains se mesurent en vitesse de transmission de données (Mbit/s). Dans ce jeu, émettre à forte puissance donne au routeur un avantage aux dépens de l’autre, comme dans le cas des aveux dans le jeu du dilemme du prisonnier. Chaque routeur trouve qu’émettre à forte puissance fournit le plus grand débit, quelle que soit l’option choisie par l’autre routeur : le choix de la « forte puissance » est une stratégie dominante. Dans l’équilibre de Nash, les deux routeurs émettent à forte puissance et atteignent un débit de transmission de données de 5 Mbit/s seulement – comme dans le dilemme du prisonnier où les deux prisonniers avouent et vont en prison pendant un long moment.
Qu’elle est lente cette connexion !
41
Si les deux routeurs émettaient à « basse puissance », ils afficheraient un débit de 10 Mbit/s chacun. Toutefois, quand la puissance d’émission de chaque routeur est réglée indépendamment, ni l’un ni l’autre ne va opter pour la basse puissance, car chaque routeur peut faire mieux individuellement en augmentant sa puissance d’émission. Si les deux routeurs font partie du même réseau, il est possible de les forcer tous deux à utiliser le mode basse puissance, afin de minimiser les conflits de débit. La plupart des routeurs ont des paramètres « avancés », installés pour les forcer à coopérer avec d’autres routeurs présents sur leur réseau, plutôt que de se concurrencer âprement pour s’approprier les ressources disponibles. Les paramètres avancés sont là pour aider l’administrateur réseau à surmonter les problèmes de type dilemme du prisonnier.
Une part importante de mon travail d’ingénieur réseau consiste à faire en sorte que les machines de mon réseau coopèrent les unes avec les autres plutôt que se concurrencer pour s’approprier les ressources.
42
La tragédie des biens communs Le problème des routeurs réseau ressemble fortement à la tragédie des biens communaux, un concept élaboré par William Forster Lloyd [1794-1852], bien avant la conception du dilemme du prisonnier. Dans un essai sur le surpâturage chez les vaches, Lloyd avance que les fermiers agissent peut-être dans leur propre intérêt, contraire à l’intérêt du groupe, et épuisent le potentiel alimentaire des terrains communaux. Dans la littérature économique, le terme « commun » s’est élargi pour inclure toute ressource partagée. Dans le problème des routeurs réseau, les biens communs correspondent à la bande passante sans fil pour laquelle les routeurs sont en compétition. Dans cet exemple, la consommation excessive de la ressource ne crée pas de dommage à long terme ni de raréfaction de la ressource naturelle, comme c’est le cas dans l’exemple de surpâturage de Lloyd. Néanmoins, les motivations individuelles de consommation excessive des ressources, au détriment du groupe, sont identiques.
43
La course à l’armement nucléaire Le jeu du dilemme du prisonnier a été conçu initialement en 1950 par deux mathématiciens Melvin Dresher [1911-1992] et Merrill Flood [1908-1991] alors qu’ils travaillaient sur un projet de l’US Air Force. À l’époque, le but était d’améliorer notre compréhension de la stratégie nucléaire globale. Dans la formulation originale que Dresher et Flood avaient donnée du dilemme du prisonnier, les deux joueurs étaient les États-Unis et l’URSS (bien qu’au plus fort de la guerre froide dans les années 1980, le nombre de joueurs s’était accru de façon significative). Chaque pays devait décider d’augmenter ou non son arsenal nucléaire. Si un pays renonçait à augmenter son arsenal, il faisait des économies et écartait le risque implicite d’accident. Mais chaque pays a tout intérêt à augmenter son arsenal pour renforcer sa position géopolitique. Il est dans l’intérêt propre de chaque pays d’investir dans des armes nucléaires, quelles que soient les décisions des autres. L’équilibre de Nash du jeu conduit par conséquent à la course à l’armement nucléaire.
« Une guerre nucléaire ne peut être gagnée et ne doit jamais arriver. Le seul intérêt que nos deux pays ont à posséder des armes nucléaires est de s’assurer qu’elles ne soient jamais utilisées. Mais alors, ne serait-il pas bien mieux que nous y renoncions complètement ? »
Ronald Reagan, président des États-Unis, discours sur l’état de l’Union de 1984
44
« Un monde sans armes nucléaires peut être une utopie, mais vous ne pouvez pas fonder votre politique de défense nationale sur un rêve. »
Margaret Thatcher, Premier ministre du Royaume-Uni, 1987
La situation d’équilibre de Nash dans la course à l’armement nucléaire n’est pas un optimum de Pareto car les deux pays se porteraient bien mieux si aucun d’eux ne s’était engagé dans cette course. Cependant, comme l’ont souligné Dresher et Flood, cela ne constituerait pas un équilibre. Si les ÉtatsUnis avaient arrêté la course, l’URSS aurait continué à augmenter son propre arsenal afin de devenir la première des « superpuissances ». Et cela n’aurait pas été rationnel pour les États-Unis d’arrêter la course en premier.
45
La coopération Dans le dilemme du prisonnier, bien qu’il y ait un intérêt à adopter un comportement coopératif, les motivations personnelles encouragent le conflit. Dans l’exemple de l’ingénierie réseau, il est possible d’éviter ce problème si une personne contrôle les deux routeurs. Mais, dans le cas d’une interaction humaine, réussir à coopérer peut s’avérer plus difficile. Les psychosociologues étudient la coopération et le conflit afin de comprendre comment les comportements individuels sont influencés par des groupes sociaux. Une variante du dilemme du prisonnier s’appelle le jeu des colocataires. Ce jeu souligne les grandes applications de la théorie et offre un cadre pour réfléchir à la manière dont les normes sociales peuvent aider à vaincre les motivations individuelles de conflit excessif.
Ça va être super d’être colocataires !
46
Alice et Beth sont colocataires d’un appartement. Elles aiment toutes deux que la cuisine soit propre, mais ni l’une ni l’autre n’aiment faire la vaisselle. Chaque jeune femme a le choix entre nettoyer ou non. Elles sont impliquées dans une interaction stratégique puisque le bonheur d’Alice (gain) sera affecté par le choix d’action de Beth, et réciproquement.
La vaisselle sale est en train de s’empiler.
En effet, c’est le cas.
47
Si aucune des filles n’entreprend de faire la vaisselle, Alice, tout comme Beth, a un gain de 10 (A : 10, B : 10) : ces valeurs de gain de « bonheur » ne sont là que pour illustrer quelle issue chaque jeune femme préfère. Si Beth est la seule à faire la vaisselle, le gain d’Alice passe à 20, mais le fait de faire la vaisselle réduit le gain de Beth à 8 (A : 20, B : 8). Si Alice est seule à faire la vaisselle, la réciproque est vraie (A : 8, B : 20). Si elles se partagent la tâche, leur gain sera de 14. Beth et Alice sont tout à fait conscientes de la manière dont chaque issue affectera leur bonheur.
ALICE
Beth Ne pas faire la vaisselle
Faire la vaisselle
Ne pas faire la vaisselle
A : 10, B : 10
A : 20, B : 8
Faire la vaisselle
A : 8, B : 20
A : 14, B : 14
L’équilibre de Nash du jeu est {ne pas faire la vaisselle, ne pas faire la vaisselle}, car si chacune s’attend à ce que sa colocataire ne nettoie pas, sa meilleure réponse est de ne pas nettoyer.
Ce serait génial, n’est-ce pas, si ma colocataire faisait la vaisselle ?
48
Dans le Jeu du colocataire, il y a un problème du passager clandestin. Alice a le gain le plus élevé si elle se repose et laisse Beth faire la vaisselle. La réciproque est vraie pour Beth. Par conséquent, à l’équilibre, les deux jeunes femmes ont une cuisine sale, avec chacune un gain de 10. Si elles décidaient de coopérer, elles auraient un gain plus élevé de 14 chacune. Cependant, maintenir une cuisine propre en coopérant n’est pas une issue d’équilibre. Au moment où l’on s’attend à ce que l’autre colocataire nettoie, l’envie de profiter de la situation refait surface.
C’est une telle profiteuse. Je me serais sentie mieux si j’avais simplement laissé la vaisselle sale pour aller regarder la télévision.
49
Éducation Une manière de résoudre le problème du passager clandestin est de changer la valeur attribuée aux gains dans la matrice des gains. Une implication parentale forte dès le plus jeune âge de l’enfant et l’instruction peuvent imposer un coût moral quand on adopte un comportement non coopératif (par exemple, laisser les assiettes sales dans l’évier).
Je me sens vraiment coupable quand je vois s’empiler de la vaisselle sale dans l’évier.
Imposer un coût moral peut sembler, de prime abord, être une mauvaise chose pour les deux jeunes femmes. Après tout, qui aime se sentir coupable ? Mais dans leur interaction sociale, un coût moral peut changer l’équilibre et inciter les deux jeunes femmes à se comporter de manière plus coopérative. Alice et Beth peuvent se sentir mieux si toutes deux ont des valeurs morales, car cela leur permet d’engranger les bénéfices d’une coopération qu’elles ne pouvaient espérer atteindre précédemment. 50
Supposons qu’il existe un coût moral associé au fait de ne pas faire sa part des tâches. Si aucune des jeunes femmes ne nettoie, elles se sentiront coupables et leur bonheur diminuera de 7 dans le jeu des colocataires. L’équilibre de Nash s’écrirait {nettoyer, nettoyer} avec un gain de 14 à chaque jeune femme. Dès lors que les joueurs optent pour une coopération, à l’équilibre, ils n’ont pas à supporter de coût moral. Il existe une amélioration au sens de Pareto au résultat du jeu des colocataires due aux valeurs morales ; les gains des joueurs à l’équilibre grimpent de 10 à 14.
ALICE
Beth Ne pas nettoyer
Nettoyer
Ne pas nettoyer
A : 10, B : 10 A : 3, B : 3
A : 20, B : 8 A : 13
Nettoyer
A : 8, B : 20 B : 13
A : 14, B : 14
Finalement, ce n’était pas si dur que ça !
Et je ne me suis pas sentie coupable, puisque l’on a enfin décidé de coopérer.
51
Politique environnementale et coopération La coopération internationale en matière de protection environnementale ressemble grosso modo au jeu des colocataires poussé à l’extrême. Chaque pays préfère rester passif, laissant aux autres le soin d’adopter des technologies coûteuses pour réduire les émissions de CO2. Une solution à ce problème du passager clandestin consiste à signer un accord international qui oblige légalement les pays à payer des amendes monétaires si leurs émissions de CO2 dépassent les limites convenues. Mais il est extrêmement difficile de convaincre les principaux pays pollueurs – la Chine, l’Inde et les États-Unis – de ratifier un tel traité international.
Les négociations internationales en matière de politique environnementale se rapprochent du cas des colocataires sales. Chacun veut que les autres nettoient !
52
Pourquoi est-ce si difficile de parvenir à un accord international sur la réduction des émissions quand on sait qu’elle serait bénéfique pour tous ? Si la coopération était en effet bénéfique pour tous les pays, l’issue préférée par les États-Unis serait de voir les autres pays signer un traité international avec des amendes monétaires, tandis que les États-Unis ne le signeraient pas. C’est toujours plus agréable de profiter sans se sacrifier.
Pourquoi ne peux-tu pas être le meilleur de nous deux, de sorte que je n’ai pas à l’être ?
L’activisme environnemental peut être vu comme l’effort fourni pour changer les normes sociales. La pression politique peut imposer un coût aux politiciens qui ne favorisent pas les politiques en faveur de la protection de l’environnement. Cela peut changer les gains des décideurs politiques nationaux, un peu comme le coût moral du sentiment de culpabilité modifiait les gains dans le jeu des colocataires. Une pression politique peut mener potentiellement à une meilleure issue si elle crée un équilibre dans lequel les pays décident de coopérer.
53
Multiplicité d’équilibres Jusqu’ici, nous avons examiné des jeux avec un seul équilibre de Nash. Dans ces jeux, l’équilibre de Nash ne fournit qu’une seule prédiction du comportement de chaque joueur. Toutefois, les gens se retrouvent fréquemment dans des environnements comportant de nombreux équilibres de Nash. Dans ces jeux avec de multiples équilibres de Nash, le concept d’équilibre de Nash ne nous procure pas les outils suffisants pour prédire ce qui va se passer. Lorsqu’il y a de nombreux équilibres, quel équilibre les joueurs vont-ils réellement jouer ? En recherchant une solution à cette question, le prix Nobel de 2005 Thomas Schelling [1921-2016], économiste américain et professeur de politique étrangère, a redéfini le cadre des sciences économiques et leur relation avec les sciences sociales.
Deux personnes arrivant « à l’heure » à une réunion constitue un équilibre. Mais deux personnes se présentant avec « une demi-heure de retard » constitue aussi un équilibre. Si je m’attends à ce que vous arriviez avec une demi-heure de retard, la meilleure option pour moi est également d’arriver avec une demi-heure de retard.
Thomas Schelling
John Nash
54
Je suis d’accord. Mais quel choix vont faire réellement les joueurs ? Et pourquoi ?
Multiplicité d’équilibres : la Guerre des sexes Le jeu classique de la Guerre des sexes nous fournit une excellente compréhension des motivations dans un jeu avec plusieurs équilibres de Nash. Ce jeu peut paraître assez banal et basé sur des stéréotypes désuets, mais il est utile pour illustrer les mêmes types de motivations qui apparaissent dans de nombreuses situations différentes. Au petit déjeuner, Amy et Bob, en couple, décident de passer une soirée ensemble, mais chacun veut participer à une activité différente. Ils se mettent d’accord pour s’appeler dans la journée et décider, à ce moment-là, du lieu de sortie.
Ce soir, on pourrait aller danser !
Ou… on pourrait aller au match de foot !
55
Bob Match de foot
Cours de danse
A : 5, B : 10
A : 0, B : 0
Cours de danse
A : 0, B : 0
A : 10, B : 5
AMY
Match de foot
La matrice affiche les gains de « bonheur ». Ces chiffres servent simplement à nous montrer l’issue que préfère chaque joueur. Par exemple, si Amy et Bob vont au match de foot ensemble, le gain d’Amy sera de 5 (A : 5). S’ils vont ensemble au cours de danse, le gain d’Amy sera de 10 (A : 10). Les chiffres exacts n’ont pas d’importance ; ils servent simplement de raccourci pour nous montrer qu’Amy préférerait qu’ils aillent danser plutôt qu’assister au match ensemble, puisque 10 > 5. S’il est vrai qu’Amy et Bob affichent des préférences différentes pour leur activité de premier choix, ils adorent passer du temps ensemble. Le pire qui pourrait leur arriver, à l’un comme à l’autre, serait de passer la soirée seul(e) à la maison. S’ils finissent par aller chacun à leur activité préférée, leur gain, pour l’un comme pour l’autre, sera de zéro.
J’aime le foot, mais surtout je veux être avec Amy.
56
Pendant la journée, le réseau téléphonique tombe en panne. Amy et Bob ont besoin de décider où sortir sans communiquer entre eux et sans connaître la décision de l’autre. Il s’agit donc d’un jeu à coups simultanés. C’est un équilibre de Nash pour tous deux d’aller au match de foot.
Je pense que Bob ira voir le match. Je vais donc aller au match aussi.
Je pense qu’Amy s’attend à ce que j’aille au match. Par conséquent, elle ira au match. Je vais donc y aller aussi. Mais, s’ils décident tous les deux d’aller au cours de danse, il s’agit également d’un équilibre de Nash.
Je pense que Bob s’attend à ce que j’aille au cours de danse. Il va donc y aller. Donc je vais aller danser.
Je pense qu’Amy ira au cours de danse. Donc, je vais aller danser. 57
Dans le jeu de la Guerre des sexes, il y a deux équilibres de Nash dans lesquels les joueurs choisissent une activité donnée avec certitude : l’équilibre du match de foot et celui du cours de danse. Mais au final, que vont décider Amy et Bob ?
L’existence de multiples équilibres est une caractéristique omniprésente de la vie qui nécessite d’être prise en compte et comprise, et non ignorée.
58
Il est vraisemblable que le couple dans le jeu de la Guerre des sexes se termine par un échec de coordination du fait des attentes mal interprétées. Dans ce cas, le théoricien des jeux observerait une issue « déséquilibrée », où chaque partenaire passe la soirée seul, chacun de son côté : ni l’un ni l’autre des deux équilibres de Nash possibles ne se réalise.
Je m’attendais à ce que Bob soit au match de foot, mais il n’est pas là ! Il a dû penser que j’irais danser.
Je pensais qu’Amy irait danser. Mais elle n’est pas là ! Elle a dû s’attendre à ce que j’aille au match de foot.
Il existe des moyens d’éviter un échec de coordination dans des jeux comportant plus d’un équilibre de Nash… 59
Les normes sociales Dans les environnements avec de multiples équilibres, les joueurs peuvent coordonner leurs attentes sur un seul équilibre en se basant sur des normes sociales. Par exemple, si Bob tend à n’en faire qu’à sa tête dans sa relation avec Amy, les deux pourraient supposer que l’équilibre préféré de Bob prévaudra chaque fois que se présente une multiplicité d’équilibres. Dans ce cas, non seulement Bob sera heureux qu’Amy l’accompagne au match de foot, mais Amy aussi sera heureuse puisqu’elle sera avec Bob et ne passera pas la nuit toute seule.
C’est plus simple de faire comme Bob la plupart du temps. Cela ne me gêne en rien.
Comme ça, nous savons que nous finirons par passer nos soirées ensemble et c’est ce que nous préférons, l’un et l’autre.
60
Le jeu de la Guerre des sexes ne donne pas les conditions qui font que les sociétés évoluent vers le patriarcat (une société structurée autour de l’intérêt masculin), mais il donne une idée des bénéfices potentiels d’une domination basée sur le sexe. Cela peut expliquer en partie pourquoi il est si difficile de faire évoluer la société vers un système plus équitable.
Quand un jeu présente plus d’un équilibre, l’environnement ou l’histoire du jeu peut faire concentrer les attentes des joueurs sur un équilibre en particulier ; dans ce cas de figure, la réponse rationnelle serait de miser sur celui-là. Cet effet du point focal signifie que notre culture et notre histoire peuvent influencer notre comportement rationnel.
61
Les dispositifs de coordination Dans des jeux comportant de multiples équilibres, si une norme sociale n’intervient pas, les joueurs peuvent avoir recours à un dispositif de coordination, à savoir une observation partagée ou une histoire commune pour aider à coordonner leurs attentes d’un même équilibre. Par exemple, le studio de danse peut faire beaucoup de publicité à la radio préférée d’Amy et de Bob. Il est rationnel pour le studio de danse d’investir dans la publicité si le studio s’attend à ce que la publicité coordonne les attentes des consommateurs vis-à-vis de l’équilibre qui sera choisi. Amy et Bob peuvent supposer que le studio fait de la publicité car les auditeurs se servent de la publicité pour coordonner leurs attentes. Ainsi, en l’absence de communication directe, ils peuvent se baser sur un spot entendu pendant la journée comme moyen de coordonner leurs attentes et choisir l’équilibre du cours de danse.
Venez danser ce soir…
62
Amy écoute sans doute la même station que moi, donc je pense qu’elle ira au cours de danse.
Opérations bancaires et prévisions : la panique bancaire Les banques font du profit en se servant de nos dépôts et en prêtant une partie de l’argent aux entreprises et aux consommateurs qui payent des intérêts à la banque. C’est une bonne chose pour la banque, et cela permet aux personnes d’acheter des maisons et aux entreprises d’investir. Mais ce système implique que tout le monde ne peut pas vider son compte en même temps. La majeure partie de l’argent a été prêté et ne sera disponible à nouveau que lorsque les emprunts immobiliers auront été remboursés. Par conséquent, même si son état financier est prospère, n’importe quelle banque coulera si elle est confrontée à un retrait massif des dépôts (quand tout le monde tente de retirer son argent en même temps).
Je suis désolé, Madame, nous sommes à court de liquidités, donc vous ne pouvez pas faire de retrait.
63
Comme dans le jeu de la Guerre des sexes, il existe aussi de multiples équilibres de Nash dans le monde bancaire. Selon les attentes des clients, nous pouvons observer des transactions habituelles ou des retraits massifs. Si des déposants s’attendent à ce que les autres ne retirent pas leur argent, ils vont attendre que leurs comptes arrivent à maturation pour percevoir leurs intérêts. Mais il existe un second équilibre de Nash. Si les déposants anticipent le fait que les autres déposants vont retirer leur argent plus tôt, ils vont tous se précipiter à la banque pour retirer leur argent avant que le guichetier ne ferme son guichet. Croire qu’il va se produire un retrait massif des dépôts est une anticipation autoréalisatrice : c’est l’attente elle-même qui génère la panique bancaire.
Notre banque est parfaitement sûre.
64
Sauf si nos clients paniquent. La panique elle-même peut entraîner la faillite de la banque.
L’une des principales fonctions d’une banque centrale est de réduire le risque de retrait massif des dépôts autoréalisateur. Dans la plupart des pays industrialisés, les banques centrales endossent le rôle de prêteur en dernier recours : elles se tiennent prêtes à prêter de l’argent à une banque pour qu’elle se relève des retraits massifs autoalimentés par l’attente des clients. De plus, une assurance de dépôt est fournie aux petits déposants, de sorte que tout le monde est assuré de récupérer son argent si la banque coule. De ce fait, les gens n’ont aucune raison de se précipiter pour retirer leur argent, même s’ils s’attendent à ce que les autres retirent leur argent.
Mervyn King était le directeur de la Banque d’Angleterre de 2003 à 2013, période pendant laquelle la Northern Rock devint la première banque du Royaume-Uni depuis 150 ans à subir une panique bancaire.
Toutefois, même avec un prêteur en dernier recours et une assurance des dépôts, les retraits massifs des dépôts ne sont pas totalement évitables. Des déposants individuels peuvent supposer raisonnablement qu’il y aura un certain délai après un retrait massif des dépôts avant que l’assurance des dépôts ne les rembourse. 65
La Banque d’Angleterre n’abandonnera pas la Northern Rock. Vos dépôts y seront en sécurité.
Il n’aurait pas fait une annonce comme celle-là s’il n’y avait pas de problème. Je ferais mieux de sortir mon argent de là maintenant !
Puisqu’il y a toujours de multiples équilibres dans le monde bancaire, ce sont les attentes des clients qui déterminent l’issue. Même les annonces positives ou les actions faites ou prises par les banquiers ou les politiciens peuvent se retourner contre eux si les gens les prennent comme un signe de faiblesse. 66
L’équilibre de Nash en stratégies mixtes Jusqu’ici, nous avons examiné le cas de jeux comportant un équilibre de Nash en stratégies pures, où les joueurs font un choix particulier. Il s’agit d’un équilibre avec certitude. Mais tous les jeux ne possèdent pas un tel équilibre. Souvenez-vous du jeu de notre enfance « pierre-papier-ciseaux ». Les « ciseaux » coupent le « papier », la « pierre » casse les « ciseaux » et le « papier » enveloppe la « pierre ». On appelle cela un jeu de somme nulle : si l’un gagne, l’autre perd. Ce qui amuse les enfants dans le jeu, c’est le caractère imprévisible de son issue. Ce qui rend « pierre-papier-ciseaux » intéressant du point de vue de la théorie des jeux, c’est qu’il ne possède pas d’équilibre où les joueurs se comportent de manière prévisible. Si l’un d’eux devient prévisible, l’autre va en profiter et gagner. Ainsi, les joueurs tentent d’être imprévisibles ; ce jeu ne possède pas d’équilibre de Nash en stratégies pures.
Je pense qu’elle va choisir les ciseaux, alors je vais prendre la pierre.
Je pense qu’il va choisir la pierre, alors je vais prendre le papier.
Mais si elle choisit le papier, je devrais choisir les ciseaux.
67
Bien que « pierre-papier-ciseaux » n’ait pas d’équilibre de Nash en stratégies pures, il possède néanmoins un équilibre de Nash en stratégies mixtes. Cela signifie qu’à l’équilibre, les joueurs vont choisir de manière aléatoire parmi plusieurs stratégies pures possibles : « pierre », « papier », « ciseaux ».
Pour gagner, je dois être imprévisible
Cependant, tous les jeux aléatoires ne sont pas des équilibres de Nash en stratégies mixtes. Faire des choix aléatoires n’est pas une condition suffisante ; les stratégies mixtes des joueurs doivent représenter leurs meilleures réponses vis-à-vis des autres joueurs pour former un équilibre de Nash. 68
Analysons le cas d’une stratégie qui ne peut pas être poursuivie dans un équilibre de Nash. Supposons que la stratégie de Jack consiste à annoncer papier avec une probabilité de 10 %, pierre avec une probabilité de 80 % et ciseaux avec une probabilité de 10 %. La meilleure réponse de Susan à la stratégie de Jack est d’annoncer papier avec certitude, ce qui lui donne 80 % de chances de gagner, la probabilité que Jack annonce pierre.
Pourquoi gagnes-tu la plupart du temps, même si je joue selon une stratégie mixte aléatoire ?
Même si tu joues de manière aléatoire, tu choisis pierre tellement souvent que je vais très probablement gagner simplement en choisissant papier.
Les stratégies adoptées par Jack et Susan ne constituent pas un équilibre de Nash : les choix de joueurs ne sont pas leurs meilleures réponses vis-àvis l’un de l’autre. Étant donné la stratégie de Susan, la meilleure réponse pour Jack serait de choisir les ciseaux avec certitude, plutôt que suivre sa stratégie aléatoire. 69
Le jeu de « pierre-papier-ciseaux » ne possède qu’un équilibre : chaque joueur adopte une stratégie mixte en choisissant chacune des trois options possibles (pierre, papier ou ciseaux) avec une probabilité égale. La stratégie aléatoire de Jack à probabilités égales signifie que Susan n’a pas de préférence parmi ses trois choix possibles. Si elle choisit de jouer les ciseaux, elle a une chance sur trois de gagner (ce qui arrive si Jack choisit le papier), une chance sur trois de perdre (ce qui arrive si Jack choisit la pierre) et une chance sur trois de faire match nul (ce qui arrive si Jack choisit aussi les ciseaux). Mais tout autre choix que les ciseaux lui procurerait les mêmes gains.
Je suis indifférente entre pierre, papier ou ciseaux. Puisque chacun me donne le même gain, je suis prête à randomiser lors de ma décision.
Le même raisonnement tient pour Jack. Dès lors que Susan choisit chacune des options possibles avec la même probabilité, Jack obtient le même gain escompté en choisissant n’importe laquelle des trois options. Donc il est prêt à randomiser. 70
Le jeu de spéculation monétaire L’équilibre de Nash avec une stratégie mixte a des applications dans une large gamme de domaines. Il peut mettre en évidence l’élément de surprise dans les jeux où les joueurs se montrent imprévisibles. Par exemple, il peut améliorer notre compréhension des attaques spéculatives, qui sont typiquement soudaines et inattendues. Le « mercredi noir » – le 16 septembre 1992 –, lors d’une attaque spéculative soudaine, les investisseurs de la Bourse ont vendu des quantités phénoménales de livres sterling, anticipant sa dévaluation (une chute de la valeur de la livre par rapport aux autres monnaies). À cette époque, la valeur de la livre sterling par rapport aux autres devises de l’Union européenne était fixée par la Banque d’Angleterre. Ce jour-là, la Banque d’Angleterre a dû acheter 4 milliards de livres pour empêcher la livre de perdre de la valeur. Mais, le lendemain, incapable de résister aux forces des marchés financiers, la banque a laissé chuter la valeur de la livre de plus de 10 %. Les spéculateurs qui avaient vendu des livres et acheté des deutschemarks un jour plus tôt firent d’énormes bénéfices. La banque subit des pertes colossales. L’un de ces grands spéculateurs, le milliardaire américain d’origine hongroise George Soros [né en 1930], s’est fait connaître comme « l’homme qui a fait sauter la Banque d’Angleterre ».
Vendez ! Vendez ! Vendez !
71
Quel sens donner à ce « mercredi noir » ? Pourquoi la Banque d’Angleterre n’a-t-elle pas dévalué la livre un jour avant l’attaque afin d’éviter des pertes massives ? Pour un investisseur, le mieux est d’être imprévisible quant au moment précis de lancer une attaque spéculative. Si la banque centrale pouvait prédire l’attaque, la banque dévaluerait de manière préventive sa monnaie un jour avant l’attaque pour éviter les pertes. Il serait alors trop tard pour que les spéculateurs profitent de la dévaluation.
« Les marchés financiers sont généralement imprévisibles… L’idée selon laquelle on peut prévoir réellement ce qui peut se passer est à l’opposé de ma vision du marché. »
George Soros
72
Il n’y a pas d’équilibre de Nash en stratégies pures dans le jeu de la spéculation monétaire. Tout comme dans le jeu pierre-papier-ciseaux, le seul équilibre dans le jeu de la spéculation se trouve dans les stratégies mixtes. Les spéculateurs rendent aléatoire le moment choisi pour lancer une attaque spéculative, de sorte que la banque centrale est incapable de prédire sa date exacte. Cela explique pourquoi la Banque d’Angleterre fut incapable de prévoir l’attaque spéculative du fameux mercredi noir.
L’élément de surprise est dans la nature même des attaques spéculatives.
73
Le jeu de la poule mouillée L’équilibre de Nash en stratégies mixtes est intuitivement attrayant quand il n’existe pas d’équilibre de Nash en stratégies pures, car les joueurs ont décidé d’être imprévisibles. Un équilibre de Nash en stratégies mixtes est également intéressant dans des environnements avec de multiples équilibres de Nash en stratégies pures, où chaque joueur préfère une issue avec un équilibre différent. Un exemple bien connu est le jeu de la poule mouillée : deux adolescents roulent l’un vers l’autre dans un concours de courage pour voir qui restera en ligne droite le plus longtemps. Il existe un équilibre de Nash en stratégies pures où l’un des jeunes continue tout droit, tandis que l’autre décroche, et il existe un autre équilibre où les rôles sont inversés. Il va de soi que chacun préfère l’équilibre où il est le « rebelle » et l’autre la « poule mouillée ».
S’il continue tout droit, je ferais mieux de décrocher. Mais si c’est lui qui décroche, je ferais mieux de continuer tout droit.
74
Le jeu de la poule mouillée est excitant car un accident peut se produire si aucun des jeunes ne se dégonfle. Cependant, l’accident n’est pas une issue d’équilibre possible si nous nous focalisons exclusivement sur des équilibres de Nash en stratégies pures. Bien sûr, si l’un continue de foncer tout droit, la meilleure réponse pour l’autre est de décrocher afin d’éviter la collision. Pour sentir toute l’excitation du jeu de la poule mouillée, nous devons prendre en compte l’équilibre en stratégies mixtes où les deux joueurs choisissent de manière aléatoire entre poursuivre tout droit ou s’écarter. Dans l’équilibre de Nash en stratégies mixtes, une collision frontale figure parmi les issues possibles d’équilibre.
Tous les deux veulent être le rebelle. Mais que se passera-t-il si aucun ne se dégonfle ? Quelle chance ont-ils de survivre à cette folie ?
75
Le jeu du « Partira ? Partira pas ? » Une application du jeu de la poule mouillée en économie est le jeu du « Partira ? Partira pas ? ». Il illustre fort bien comment trouver les probabilités d’un équilibre dans un équilibre de Nash en stratégies mixtes. Smallville possède deux commerces de fruits et légumes, Kalemart et Carrotco. Ces derniers temps, la population de la ville a baissé considérablement. La ville est à présent trop petite pour permettre aux deux commerces de faire des bénéfices s’ils continuent tous deux à opérer à Smallville. En revanche, si un seul des deux reste ouvert, il peut être rentable. Par conséquent, chaque commerçant préfère que ce soit l’autre qui quitte le marché, tandis que celui qui reste aura le monopole à Smallville.
Cette ville n’est pas assez grande pour nous deux.
76
Tu es libre de partir !
La matrice des gains montre les profits ou pertes pour Kalemart et Carrotco pour chaque issue possible. Si Kalemart (K) et Carrotco (C) restent tous deux en ville, ils subiront chacun une perte, K : –20 et C : –50. Il s’agit de chiffres fictifs qui représentent des chiffres de profit plus réalistes, tels que –20 000 € et –50 000 €. Si l’un et l’autre décident de quitter le marché, le profit pour chacun sera de zéro. Si Kalemart reste tandis que Carrotco quitte le marché, Kalemart fait un bénéfice de K : 80, tandis que Carrotco n’en fait pas, C : 0. Si Carrotco reste et profite du monopole, il fait un profit de C : 100, tandis que le bénéfice de Kalemart est K : 0.
Carrotco
KALEMART
Rester
Partir
Rester
K : -20, C : -50
K : 80, C : 0
Partir
K : 0, C : 100
K : 0, C : 0
Nous avons deux équilibres de Nash en stratégies pures : soit Kalemart reste et Carrotco part, soit Carrotco reste et Kalemart part.
77
Les commerces vont lutter probablement pour leur position préférée sur le marché de Smallville, puisque chacun veut être le seul épicier en ville. L’équilibre de Nash en stratégies mixtes reflète la nature de cette lutte. Ni l’un ni l’autre ne veut abandonner la partie, de même que les adolescents ne veulent pas être la « poule mouillée » dans le jeu du même nom. Et tout comme dans ce dernier, où chaque adolescent a la possibilité d’être le rebelle, dans le jeu « Partira ? Partira pas ? », chaque commerce reste en ville, avec une certaine probabilité mais pas avec certitude.
Dans le jeu pierre-papier-ciseaux, un joueur peut annoncer pierre, papier, ciseaux avec une probabilité de 1/3 pour chaque. Qu’en est-il du jeu « Partira ? Partira pas ? » à Smallville ? Quelle est la probabilité d’équilibre que Carrotco reste ? De même pour Kalemart ?
78
La clé qui permet de calculer les probabilités dans un équilibre de Nash en stratégies mixtes consiste à se rendre compte qu’un commerce n’agit de façon aléatoire que s’il est indifférent entre ces actions. Et le commerce est indifférent si le profit escompté en « restant » est égal au profit escompté en « partant ». Si le profit escompté d’une action est supérieur à celui de l’autre action, le commerce préférerait l’action avec le profit escompté plus élevé, et il choisirait cette action avec certitude. À l’équilibre, il y a de l’aléatoire et par conséquent de l’incertitude par rapport à l’action du magasin seulement si le magasin est indifférent, quand le profit escompté est identique quelle que soit l’action.
Que faire ? Il y a d’excellentes raisons aussi bien pour rester en ville que pour partir.
79
Si Carrotco part, son profit escompté est de zéro, quelle que soit la décision de Kalemart :
Profit escompté en « partant » = 0 A contrario, si Carrotco reste, le profit escompté dépend de la probabilité que Kalemart reste aussi. Posons k, la probabilité que Kalemart reste. Si k = 0, il n’y a aucune chance que Kalemart décide de rester. Si k = 1/2, il y a 50 % de chance que Kalemart reste. Et k = 1 signifie que Kalemart reste avec 100 % de chance. (1 – k) est la probabilité que Kalemart quitte la ville. Si c’est Carrotco qui reste, il subira une perte de –50 si Kalemart décide de rester aussi, ce qui se produira avec une probabilité de k. Le gain de Carrotco sera de 100 si Kalemart s’en va, ce qui se produira avec une probabilité de (1 – k). Il s’ensuit que pour Carrotco :
Profit escompté en « restant » = –50 (k) + 100 (1 – k) Profit si Kalemart reste × probabilité Kalemart reste que
Profit si Kalemart s’en va × probabilité que Kalemart s’en aille
Carrotco est indifférent quant au choix « rester » ou « partir » si ses profits escomptés dans les deux cas sont égaux :
Profit de Carrotco s’il quitte la ville
=
profit escompté de Carrotco s’il reste
0
=
–50 (k) + 100 (1– k)
Afin de déterminer la probabilité de rester de l’équilibre de Kalemart, il suffit de calculer k, ce qui donne k = 2/3.
Le choix entre « rester » ou « partir » m’indiffère, car Kalemart restera avec une probabilité de 2/3 et partira avec une probabilité de 1/3.
80
La probabilité de rester de l’équilibre de Carrotco est de 4/5. Cette valeur peut être calculée de la même manière qu’en cherchant la probabilité faisant que Kalemart est indifférent entre rester ou partir. Si Kalemart reste, il fera une perte de –20 si Carrotco reste aussi, ce qui arrivera avec une probabilité de 4/5. Kalemart fera un profit de 80 si Carrotco quitte la ville, ce qui se produira avec une probabilité de 1/5. Pour Kalemart, dans une situation d’équilibre, le profit escompté en partant (qui est de zéro) est identique à celui qu’il aurait en restant.
0 = –20 (4/5) + 80 (1/5) Profit escompté de Kalemart s’il part
Profit escompté de Kalemart s’ilreste
Je veux vraiment être le seul à rester à Smallville. Mais Carrotco est si déterminé à rester que rester en ville me rapporte le même gain escompté qu’en partant.
81
Puisqu’en situation d’équilibre, Kalemart reste avec une probabilité de 2/3 et que Carrotco reste avec une probabilité de 4/5, nous pouvons calculer la probabilité de chacune des issues possibles à Smallville. Les deux commerces quittent le marché de Smallville avec une probabilité de 1/15, qui est la probabilité que Kalemart quitte la ville multipliée par la probabilité que Carrotco parte, soit (1/3 × 1/5) = 1/15. Les deux commerces restent ouverts avec une probabilité de 8 sur 15, qui est la probabilité que Kalemart reste multipliée par la probabilité que Carrotco reste, soit (2/3 × 4/5) = 8/15. Dans ce dernier cas de figure, les deux commerces enregistrent des pertes. Cette issue est semblable à celle dans le jeu de la poule mouillée, dans lequel les deux adolescents agissent comme des rebelles et meurent dans la collision de leurs voitures.
Je savais que tu pouvais rester ouvert. J’ai tenté ma chance et à présent je n’ai plus un sou.
La probabilité que Kalemart finisse par être le seul commerce en activité ouvert et la probabilité que Carrotco prenne la position de monopole peuvent se calculer de la même façon. 82
Mais il est possible également de mettre sur pied une variante du jeu « Partira ? Partira pas ? » dans laquelle les deux joueurs, s’ils restent en ville, ont toujours l’option de partir plus tard. Dans ce cas, la lutte peut durer un certain temps, avec d’énormes pertes accumulées au cours du temps. Nous appelons cette variante une guerre d’usure. Le terme est emprunté à la stratégie militaire. De longues et préjudiciables luttes peuvent avoir lieu dans ce type de jeu, même si la récompense est petite en regard des coûts accumulés.
83
Critique et défense des stratégies mixtes Parmi tous les sujets en théorie des jeux, l’équilibre de Nash en stratégies mixtes est probablement celui qui fait naître les sentiments les plus forts. Les partisans des stratégies mixtes soulignent que de nombreux jeux, tels que pierre-papier-ciseaux ou le jeu de spéculation monétaire, ne possèdent pas d’équilibre de Nash en stratégies pures, mais possèdent cependant un équilibre intéressant de Nash en stratégies mixtes. Ils soulignent aussi que même dans des jeux comme celui de la poule mouillée ou « Partira ? Partira pas ? » qui ont bien un équilibre de Nash en stratégies pures, l’équilibre de Nash en stratégies mixtes est souvent le plus intuitif, dans la mesure où il peut capter l’incertitude dans ces environnements. Toutefois, les critiques des stratégies mixtes avancent que la randomisation ne fournit pas une description raisonnable du comportement humain. Les gens font-ils réellement de la randomisation quand ils prennent une décision ? De plus, étant donné que les gens se montrent indifférents entre différentes actions qui se trouvent en équilibre, qu’est-ce qui les motive à choisir les probabilités exactes telles que les autres joueurs restent indifférents ?
Je vais lancer un dé. Si je fais un 6, on passe à l’attaque. Sinon, on décampe.
84
Un argument puissant en faveur des stratégies mixtes est l’interprétation dite de la « purification » de l’équilibre de Nash en stratégies mixtes. Elle a été élaborée par un économiste hungaro-australien naturalisé américain, John Charles Harsanyi [1820-2000], qui a partagé le prix Nobel d’économie avec John Nash et l’économiste allemand Reinhard Selten [né en 1930]. Harsanyi souligne que même si les joueurs adoptent des stratégies pures, s’ils éprouvent un peu d’incertitude quant aux gains escomptés par les autres joueurs, vus de l’extérieur, ils sembleront faire des choix aléatoires entre les actions possibles.
J’aimerais voir Sam partir à l’école, mais j’ignore s’il compte prendre le train ou le bus. Il a l’habitude de prendre le train quand son cartable est lourd et le bus s’il ne l’est pas. Mais je ne sais pas si son cartable est lourd aujourd’hui. Il y a une chance qu’il prenne le train, ou alors il pourrait prendre le bus. Donc de mon point de vue, c’est aléatoire !
85
Le remarquable argument de « purification » de Harsanyi prouve que si les joueurs sont presque, mais pas tout à fait, certains quant aux gains des autres joueurs, d’un point de vue individuel, les chances que l’autre joueur choisisse une action en particulier correspondent exactement à la probabilité que nous aurions dans un équilibre de Nash en stratégies mixtes sans certitude quant aux gains. Cela signifie que l’équilibre de Nash en stratégies mixtes est pertinent même si vous ne croyez pas qu’il est dans la nature humaine de prendre des décisions de façon aléatoire.
Si l’ennemi est courageux, il va lancer une attaque à l’aube.
Je ne suis jamais totalement sûr du degré de bravoure de leur général.
86
L’évasion fiscale Les joueurs randomisant entre les actions possibles est une interprétation de l’équilibre de Nash en stratégies mixtes. Une deuxième interprétation est une petite incertitude relative aux gains des autres joueurs. L’équilibre de Nash en stratégies mixtes peut aussi être interprété d’une troisième manière, comme l’illustre le jeu de l’évasion fiscale entre les contribubables et l’administration fiscale. Prenons le cas d’une contribuable professionnelle qui doit déclarer le montant de ses impôts. Pour simplifier, supposons qu’elle ait deux options : se conformer à la loi ou frauder. Supposons de plus qu’il n’y ait pas d’implications morales à pratiquer l’évasion fiscale.
Je suis certaine de subir un contrôle fiscal. Dans ce cas, je préfèrerais me conformer à la loi. Mais s’il n’y a aucune chance que je sois contrôlée, je préfère l’évasion fiscale.
L’administration fiscale peut attraper à coup sûr un fraudeur s’il paye un contrôle qui a un coût élevé. Toutefois le contrôle ne servira à rien si le contribuable paie ses impôts correctement. 87
Il n’existe pas d’équilibre de Nash en stratégies pures dans le jeu de l’évasion fiscale. Un citoyen se conformera certainement à la loi si le contrôle est assuré. Cela ne peut être un équilibre de Nash : s’il ne fait aucun doute que le contribuable est en règle, alors le fisc n’a pas besoin d’effectuer un contrôle. Une citoyenne évitera sûrement de payer ses impôts si elle est certaine de ne pas avoir de contrôle fiscal. Il est clair que ce n’est pas non plus un équilibre de Nash : si la contribuable décide de frauder, alors le receveur des impôts préférerait la contrôler. Le seul équilibre possible réside dans les stratégies mixtes : les contribuables randomisent entre respect de la loi et évasion fiscale, et le receveur des impôts choisit aléatoirement entre faire des contrôles ou non.
Nous n’allons pas contrôler les déclarations de tout le monde, donc la probabilité d’être contrôlé est inférieure à 100 %, mais je peux vous assurer que cette probabilité est supérieure à zéro.
88
Si un grand nombre de citoyens jouent au jeu de l’évasion fiscale, une interprétation alternative irrésistible de l’équilibre de Nash en stratégies mixtes est que chaque citoyen adopte individuellement une stratégie pure, « être conforme à la loi » ou « évasion fiscale », mais les probabilités de l’équilibre de Nash en stratégies mixtes donnent la proportion de tous les citoyens qui adoptent la stratégie pure « être conforme à la loi » et la proportion de tous ceux qui jouent la stratégie pure « évasion fiscale ». Le fisc connaît le ratio fraudeurs sur contribuables en règle, mais ignore qui précisément est en règle ou qui fraude.
Bien que je ne fraude pas, j’ai un contrôle. Du fait qu’il y a des fraudeurs, du point de vue du gouvernement je pourrais par hasard en faire partie, statistiquement.
89
Interaction répétée Déjà en 1883, l’économiste français Joseph Louis François Bertrand [1822-1900] avait étudié la concurrence des prix entre un petit nombre de sociétés vendant des produits identiques. Dans son analyse, les motivations des entreprises sont similaires dans l’esprit à celles dans le jeu du dilemme du prisonnier.
Il est dans l’intérêt de chaque entreprise de « casser » les prix pratiqués par l’autre afin de s’approprier le marché tout entier. À l’équilibre, les entreprises font peu de bénéfices. Si elles s’entendaient pour afficher des prix plus élevés, chacune pourrait faire des profits considérables.
Bénéfices
Collusion
Compétition
Société 1
Société 2
Société 1
Société 2
Équilibre
Joseph Louis François Bertrand
90
Bertrand a prédit que les entreprises, à l’équilibre, pratiqueraient des prix inférieurs à ceux de la concurrence, semblable à l’issue {passer aux aveux, passer aux aveux} dans le dilemme du prisonnier. Malgré cette prévision, dans des marchés avec un petit nombre de entreprises, nous observons des prix collusifs élevés. La plupart des démocraties occidentales ont une règlementation « antitrust » afin d’éviter ce type de collusion (coopération entre entreprises) et pour encourager la concurrence. Afin de comprendre à quel moment les joueurs s’entendent dans une situation du type dilemme du prisonnier, nous devons aller au-delà des jeux à un seul coup (où les joueurs ne jouent qu’une partie puis le jeu est terminé) et réfléchir à des paramètres plus réalistes avec une interaction répétée, où les joueurs jouent au même jeu encore et encore.
Cela fait longtemps que nous sommes l’un et l’autre sur le marché. N’existe-t-il pas un moyen d’être fairplay plutôt que de s’engager dans cette concurrence féroce ?
91
Est-ce que nous observerions une coopération à l’équilibre dans le dilemme du prisonnier si les joueurs interagissaient de façon répétitive ? Imaginons que les deux joueurs savent qu’ils vont joueur au jeu du dilemme du prisonnier non pas une seule fois mais deux. Pour trouver l’équilibre du jeu avec une interaction répétée, nous devons d’abord prédire l’équilibre du jeu au dernier tour. Et ensuite, nous raisonnons quant à l’équilibre du premier tour. Ce type de raisonnement est appelé raisonnement rétrograde.
Faites-moi confiance.
92
Je sais qu’au prochain trimestre, elle fera tout ce qui est dans son intérêt. Je devrais trouver ce qu’elle fera maintenant afin que je puisse décider quoi faire aujourd’hui.
À la fin du jeu Lors de la seconde partie, les joueurs savent que ce sera la dernière, donc il n’y a plus besoin d’essayer de changer le résultat futur. Par conséquent, la dernière partie du jeu revient à jouer au dilemme du prisonnier à un seul coup : personne ne coopère. Le raisonnement des joueurs peut les conduire à penser qu’il n’y aura aucune coopération lors de la seconde partie, quel que soit le déroulement de la première. Par conséquent, du point de vue des joueurs, la première partie du jeu n’est pas différente du dilemme du prisonnier à un seul coup non plus. Donc à l’équilibre, il n’y a aucune coopération à chaque étape du jeu. De fait, même si l’on faisait de nombreuses parties du jeu du dilemme du prisonnier, nous n’observerions jamais de coopération, à quelque partie que ce soit, tant que le jeu présente une ultime partie déterminée. Le raisonnement rétrograde dénoue le jeu, en partant de la dernière partie.
Je pense que nous n’avons jamais coopéré pour faire la vaisselle puisque nous savions très bien que nous nous séparerions à la fin de l’année universitaire en mai.
93
Et s’il n’y a pas de dernière étape définie ? Le mathématicien américano-israélien Robert John Aumann [né en 1930], colauréat du prix Nobel d’économie en 2005 avec Thomas Shelling, a étudié la coopération en tant que résultat d’équilibre quand un jeu possède un horizon infini, ce qui signifie que le jeu se répète à l’infini. Avec un horizon infini, le raisonnement rétrograde ne peut dénouer la coopération à partir de la dernière partie, puisqu’il n’y a pas de dernière partie certaine. La première condition pour qu’une coopération soit un résultat d’équilibre est que les stratégies des joueurs intègrent un élément de punition pour un mauvais comportement dans le passé (actions non coopératives). Afin d’éviter de futures punitions, les joueurs devraient choisir de coopérer.
Dans des jeux compétitifs en continu, l’intérêt individuel peut dicter une forme de comportement coopératif, nourrie par la peur d’être puni par les autres joueurs si l’on ne coopère pas.
Robert John Aumann
94
Dans un jeu de dilemme du prisonnier à horizon infini, où le jeu est joué de manière répétée, sans cesse, considérons ce que l’on appelle la stratégie donnant-donnant : le joueur commence par une action de coopération (qui pourrait être, selon le jeu, un prisonnier qui garde le silence, une colocataire qui fait la vaisselle, ou une société qui fixe un prix haut, collusif). Dans les parties qui suivent, le joueur coopère si l’autre joueur a toujours coopéré. Mais le joueur fait défection (un prisonnier qui passe aux aveux, une colocataire qui cesse de faire la vaisselle, ou une société qui fixe un prix inférieur au prix collusif) si l’autre joueur a déjà fait défection par le passé.
Comment faites-vous, vous et votre concurrent, pour maintenir vos prix élevés au lieu de vous lancer dans une concurrence féroce ?
Nous coopérons parce que nous avons peur tous deux de ce qui arriverait autrement.
95
Deux joueurs jouant la stratégie donnant-donnant peuvent constituer un équilibre de Nash dans un jeu de type dilemme du prisonnier répété si les joueurs se montrent assez patients (s’ils sont capables de résister à la tentation d’un gain élevé immédiat afin d’être en mesure de toucher des gains coopératifs dans le futur). Dans ce cas de figure, une punition pour défection peut dissuader les joueurs d’agir de manière non coopérative. Toutefois, si les joueurs sont impatients, ils vont être tentés de faire défection dès à présent, malgré le risque qu’une punition ne leur soit infligée dans le futur. Sachant cela, le rival ne se comporterait pas de manière coopérative dès le début. Donc, si nous avons affaire à des joueurs impatients, une coopération ne peut être concevable en situation d’équilibre.
Je connais bien mon concurrent. Il a un besoin urgent d’argent ! Il va me battre sur les prix ce trimestre et faire de gros bénéfices en volant mes clients. Je ne peux pas me le permettre. Je vais fixer des prix bas comme lui, afin de garder ma clientèle.
96
Si les joueurs se montrent patients, il faut, pour que la menace d’une punition soit dissuasive vis-à-vis de la défection, qu’elle soit crédible. La stratégie suicidaire peut ne pas être crédible si le joueur qui inflige la punition ne reçoit que de faibles gains, du fait même de cette punition. Par conséquent, si la collusion échoue, les deux joueurs ont une motivation pour renégocier, ignorer l’écart et simplement établir une nouvelle entente. Mais si les joueurs s’attendent à pouvoir renégocier rapidement, leur entente ne sera guère durable, et ce, dès le début.
Je ferais bien de proposer aussi des prix inférieurs à ceux de mon concurrent. Je sais que nous pourrons faire un marché à nouveau pour nous associer dans le futur.
Je pense qu’elle va passer outre notre entente cette semaine avec l’espoir de conclure une affaire dans le futur. Je ferais mieux de faire défection aussi cette semaine.
Cependant, si les deux concurrents s’attendent à ce qu’une renégociation prenne du temps, alors la menace peut avoir un effet dissuasif et mener à une issue collusive à l’équilibre.
97
Même si le jeu n’est pas répété indéfiniment, si les joueurs sont incertains quant à la fin de la partie, leur coopération peut être maintenue à l’équilibre tant qu’ils croient qu’il y a une grande chance que le jeu se prolonge par une nouvelle partie. Si c’est le cas, il y a de fortes chances que la défection soit punie à l’avenir et, par conséquent, la coopération peut être maintenue. Cependant, s’il y a de fortes chances que le jeu s’arrête à la partie suivante, l’un des joueurs peut très bien agir dans son intérêt propre et faire défection pour obtenir des gains élevés lors de la partie en cours. Mais sachant cela, le rival ne va pas coopérer non plus. L’entente n’aura pas lieu.
J’ignore combien de temps encore je peux garder ma place dans l’entreprise. Je vais donc vendre tout ce que je peux cette année, même si cela conduit à des prix bas et énerve mes concurrents. À bien y réfléchir, il se peut que je ne sois pas là l’an prochain pour en subir les conséquences.
98
L’expérience du dilemme du prisonnier Reinhard Selten [1930-2016] (colauréat du prix Nobel 1994 d’économie avec John Nash et John Charles Harsanyi), l’un des fondateurs de l’économie expérimentale, a mis sur pied une expérience avec des participants qui jouaient à une version du dilemme du prisonnier répété pour de l’argent. Les joueurs ignoraient le nombre de répétitions, mais savaient que l’expérience ne durerait pas plus qu’un certain laps de temps. Les résultats de cette expérience étaient grosso modo cohérents avec la théorie des jeux. Des résultats coopératifs étaient souvent observés tant que la fin du jeu n’était pas en vue. Mais, le temps passant et la fin de jeu approchant, les joueurs commençaient à passer outre leurs ententes et la coordination mutuelle s’effondrait.
« Le comportement typique des sujets expérimentés implique une coopération, jusqu’à peu de temps avant la fin du jeu. »
Reinhard Selten
99
La théorie des jeux évolutionnaires Une grande partie de la théorie des jeux implique de considérer les gens, les entreprises et les pays prenant des décisions rationnelles. Elle analyse ensuite les décisions qu’ils prennent quand ils interagissent avec d’autres joueurs qui, eux aussi, prennent des décisions rationnelles. Toutefois, de nombreux économistes et biologistes comportementaux, comme le biologiste évolutionniste britannique John Maynard Smith [1920-2004] ou le biologiste évolutionniste américain George Price [1922-1975], ont examiné les interactions avec une autre perspective. Ils tendent à voir les gens ou les animaux comme étant programmés socialement ou génétiquement à adopter certains comportements, qui peuvent être basés ou non sur la raison.
La question n’est pas tant de savoir quels choix seront faits par des individus, mais plutôt quels programmes génétiques ou sociaux vont perdurer sur le long terme. John Maynard Smith
Quels modèles comportementaux seront éliminés par les forces évolutives ? George Price
100
Le jeu faucon/colombe Un outil utile pour l’analyse des résultats de programmation génétique ou sociale est le jeu faucon/colombe. Il est largement utilisé en biologie évolutive comme point de départ pour des réflexions sur les modèles comportementaux animaux et a été introduit par John Maynard Smith et George Price. Le jeu souligne l’importance de la stabilité évolutive, qui analyse quels types comportementaux vont probablement survivre aux forces évolutives. Pour simplifier, le jeu suppose qu’il existe deux sortes d’animaux au sein d’une espèce : les « faucons » et les « colombes ». Le faucon se bat si besoin quand il y a une concurrence pour une récompense, telle qu’une opportunité d’accouplement ou pour une ressource rare. La colombe entame une démonstration agressive, mais ne répond pas à un conflit non cérémonial.
Colombe Faucon
101
Il est utile d’assigner des chiffres de gain arbitraires pour chaque issue potentielle. En biologie évolutive, ces gains servent à nous montrer chaque type de valeur sélective évolutive animale. L’accès à une récompense en compétition améliore les perspectives de reproduction ou de survie de l’animal (si la récompense est une opportunité d’accouplement ou une ressource rare). Plus le gain est élevé, plus la valeur sélective évolutive de l’animal est meilleure. Si un faucon entre en conflit avec une colombe, cette dernière va battre en retraite et reçoit un gain de zéro, tandis que le faucon obtient un gain de 20, soit la valeur de la récompense. Si les deux animaux sont de type colombe, ils ont autant de chances l’un que l’autre d’avoir la récompense. Donc chacun aura 50 % de chance d’obtenir la récompense pour un gain escompté de 20/2 = 10.
Quand je rencontre une autre colombe comme moi, je réussis à l’écarter une fois sur deux.
102
Si les deux animaux sont de type faucon, il y a un conflit physique entre les deux. Chaque animal a une chance sur deux de s’approprier la récompense, qui présente une valeur de 20. L’animal qui perd le combat est blessé et souffre d’une perte de valeur sélective évolutive de –C. Ainsi chaque animal a un gain escompté de :
20 /2 – C /2 (20 – C) /2 Ces issues potentielles peuvent s’écrire dans une matrice des gains.
LOUP A
Loup B Type faucon
Type colombe
Type faucon
A : (20 - C )/2 B : (20 - C )/2
A : 20, B : 0
Type colombe
A : 0, B : 20
A : 10, B : 10
Quand je rencontre un autre type faucon, nous nous battons et j’ai des chances d’être blessé !
103
Le jeu faucon/colombe avec un faible coût de conflit Examinons le jeu faucon/colombe quand le coût d’un conflit est inférieur à la valeur de la récompense – supposons que le coût (C) du conflit soit égal à 8.
LOUP A
Loup B Type faucon
Type colombe
Type faucon
A : 6, B : 6
A : 20, B : 0
Type colombe
A : 0, B : 20
A : 10, B : 10
Si les animaux devaient choisir leur comportement de manière rationnelle, alors la stratégie dominante serait le comportement du type faucon – quoi que fasse l’autre animal, il sera toujours plus avantageux d’adopter un comportement de type faucon.
Si les animaux étaient rationnels et capables de choisir leur type, l’unique équilibre de Nash serait pour les deux animaux d’adopter un comportement de type faucon, aboutissant à un conflit excessif. L’esprit du jeu serait identique à celui du dilemme du prisonnier.
104
Revenons à un principe clef de la théorie des jeux évolutionnaires et supposons que les animaux ne font pas de choix rationnels, mais qu’ils obéissent simplement à un conditionnement génétique ou social.
John Maynard Smith
Supposons qu’il existe une large population d’animaux, certains génétiquement ou socialement conditionnés pour adopter un comportement de type faucon et d’autres un comportement de type colombe. Les individus de cette population sont confrontés ensuite de façon aléatoire les uns aux autres pour jouer le jeu. Un animal conditionné en colombe reçoit un gain de zéro s’il est confronté à un faucon ou de 10 s’il est confronté à une colombe. Un animal conditionné en faucon a un gain de 6 s’il est confronté à un faucon ou de 20 s’il est confronté à une colombe. Quand le coût du conflit est inférieur à la valeur de la récompense, les animaux qui se comportent agressivement s’en sortent mieux que les moins agressifs, quel que soit le type avec lequel ils ont été confrontés.
105
Le jeu faucon/colombe peut donner un aperçu de l’évolution des espèces. L’accès à un partenaire sexuel convoité ou à de la nourriture augmente les chances de reproduction ou de survie de l’animal et la perte suite à un conflit diminue ses chances. Les animaux dotés d’une valeur sélective évolutive plus forte (gains plus élevés) ont plus de chances de survivre et se reproduire.
Si le coût d’un conflit est faible, les animaux agressifs de type faucon s’en sortent mieux que les types colombe plus pacifiques de la même espèce. Donc la survie du plus fort prédit que l’espèce tout entière sera finalement composée uniquement de types faucon.
Charles Darwin
106
Les forces évolutives chassent tout comportement de colombe. Chaque membre de l’espèce reçoit un gain de 6 seulement. Si tous les animaux étaient conditionnés pour se comporter au contraire en colombe, ils recevraient chacun un gain de 10. Ainsi, le comportement de faucon n’est pas optimal pour l’espèce prise dans son ensemble. Les forces évolutives n’induisent pas nécessairement la meilleure issue pour une espèce. La compétition pour des ressources rares implique souvent que les bénéfices individuels et du groupe se trouvent en opposition. Quand c’est le cas, l’espèce évoluera de manière à maximiser les bénéfices individuels aux dépens des bénéfices du groupe.
Sans colombes dans les parages, je rencontre toujours d’autres faucons. Il y a altercation physique chaque fois qu’il y a confrontation.
107
La tension entre les bénéfices du groupe et ceux individuels est présente dans les caractéristiques physiques autant que dans les modèles comportementaux. Des forces évolutives similaires peuvent aussi influencer l’évolution des traits physiques. Un exemple est celui de la règle de Cope, ainsi nommée d’après le paléontologue américain Edward Drinker Cope, [1840-1897] qui disait que la taille d’une espèce augmente généralement avec le temps.
Si les grands éléphants mâles ont plus de chances de se reproduire que les petits, les éléphants seront plus grands au fil du temps. Ils peuvent même devenir excessivement grands, diminuant la valeur sélective évolutive de l’espèce. Les scientifiques ont découvert aussi que les animaux marins sont devenus plus grands de manière générale au cours des 500 millions d’années écoulées, bien que les raisons exactes soient toujours sujettes à controverse.
Un frein à ce processus évolutif est l’émergence d’une espèce rivale qui se dispute les mêmes ressources écologiques : si une espèce se montre moins efficace en raison de sa grande taille, elle sera évincée par une espèce plus efficace et compétitive. Mais le cycle peut se reproduire, la nouvelle espèce faisant face à son tour à un conflit entre bénéfices individuels et du groupe, devenant potentiellement de moins en moins efficace au fil du temps.
108
Le jeu faucon/colombe à coût de conflit élevé Le processus évolutif devient encore plus intéressant dans les cas où le coût du conflit (C) est très élevé comparé à la valeur attribuée à la récompense en compétition. Supposons que C = 24 et que la valeur de la récompense reste à 20.
LIONNE A
Lionne B Type faucon
Type colombe
Type faucon
A : -2, B : -2
A : 20, B : 0
Type colombe
A : 0, B : 20
A : 10, B : 10
Le coût élevé si un individu perd un combat physique change de manière significative les chances du succès reproductif évolutif du type faucon. Supposons qu’au départ une fraction « p » de la population soit conditionnée pour se comporter de manière agressive, adoptant ainsi un comportement de faucon. La fraction de la population qui reste « (1 – p) » est conditionnée pour adopter un comportement de colombe. La fraction « p » peut être comprise entre zéro (aucun faucon dans la population) et 1 (tous les individus de la population sont des faucons).
109
Puisque les colombes ne s’engagent jamais dans un combat coûteux pour s’approprier des ressources, leur cas est équivalent à celui quand le coût du conflit était faible. Mais il sera utile d’examiner dans le détail leur valeur sélective évolutive. Une colombe entre en conflit avec un membre aléatoire de la même population. La probabilité que son rival soit un faucon est « p ». Dans ce cas, le rival obtient la récompense et la colombe reçoit un gain de zéro. Mais il y a aussi la probabilité (1 – p) que le rival soit également une colombe. Dans ce cas, il n’y a pas de conflit physique et les animaux ont les mêmes chances d’obtenir la récompense. La colombe reçoit un gain de 10.
Il s’ensuit que la valeur sélective évolutive attendue du type colombe est la somme de ses chances de rencontrer chaque type de rival multipliée par la valeur du gain si cette rencontre a lieu :
p Probabilité du type faucon
× ×
0
+
Gain résultant
Probabilité × du type colombe
= 10 - 10p 110
(1 - p) × 10 Gain résultant
Considérons la situation d’un type faucon : cet animal se bat avec agressivité au point de risquer de sérieuses blessures. Avec la probabilité « p » que le faucon se trouve confronté à un autre type faucon et qu’ils se battent. Le coût du conflit est si élevé qu’il l’emporte sur le bénéfice de s’emparer de la récompense et tous deux obtiennent un gain escompté de –2. Avec une probabilité de (1 – p), notre faucon est confronté à un type colombe. Ce rival se dérobe face au comportement agressif, donc notre faucon s’empare de l’entière récompense, sans confrontation physique, et obtient un gain de valeur sélective évolutive de +20.
Ainsi, la valeur sélective escomptée d’un faucon est la somme des ses chances de rencontrer chaque type de rival multipliée par le gain s’il rencontre ce type :
p (-2) Probabilité de rencontrer un faucon
×
+
Gain résultant
(1 - p) 20
Probabilité + de rencontrer une colombe
×
Gain résultant
= 20 - 22p 111
Si la valeur sélective évolutive des lionnes de type faucon est plus grande que celle des lions de type colombe, alors en moyenne, les faucons survivront et se reproduiront plus rapidement que les colombes. Par conséquent, au fil du temps, la proportion de faucons dans une population augmentera.
En se servant des calculs des deux dernières pages, la valeur sélective évolutive escomptée d’un faucon est plus grande que celle d’une colombe dès lors que : 20 – 22p > 10 – 10p Ce qui peut être réécrit de la manière suivante : 10 > 12p 10/12 > p 5/6 > p
Si la proportion de faucons (p) dans une population est inférieure à 5/6, alors la probabilité qu’un faucon soit confronté à un autre faucon et se batte est suffisamment petite pour qu’elle soit éclipsée par le bénéfice d’obtenir la totalité de la récompense quand il est confronté à une colombe. Ainsi au fil du temps, la proportion des faucons (p) va augmenter sous l’influence des forces évolutives.
112
Si la proportion des types faucon dans la population est supérieure à 5/6 (c’est-à-dire quand p > 5/6), alors les colombes survivront et se reproduiront plus rapidement que les faucons et la proportion de faucons (p) dans la population diminuera.
S’il y a assez de colombes dans la population, ma nature agressive à haut risque sera payante. Mais s’il y a trop d’autres faucons, je serai confrontée à tant de combats que je ne pourrai maintenir ma valeur sélective évolutive.
Sur le long terme, les forces évolutives vont faire que la proportion des types faucon dans la population va tendre vers 5/6 et celle des types colombe vers 1/6. Ces proportions précises découlent des nombres spécifiques utilisés dans la matrice des gains. Mais, chaque fois que le coût d’un conflit physique est supérieur à la valeur de la récompense, les forces évolutives vont pousser la population jusqu’à un point où faucons et colombes coexistent. 113
Sur le long terme, faucons et colombes coexisteront au sein de la population dans un rapport relatif de 5 contre 1 et, en moyenne, s’en sortiront aussi bien les uns que les autres. Les faucons s’accapareront toutes les ressources quand ils sont confrontés à des colombes, mais auront une grande probabilité d’être sérieusement blessés s’ils sont confrontés à d’autres faucons. Les colombes perdront les ressources quand elles sont confrontées à des faucons, mais ne seront pas blessées. Cet « état stationnaire » évolutif sur le long terme avec la proportion de faucons dans la population égale à 5/6 est appelé équilibre évolutivement stable. Il s’agit d’un équilibre qui est stable dans le sens où si nous ajoutons un petit nombre d’animaux conditionnés autrement, les forces évolutives rétabliront finalement l’équilibre.
Faucons
114
Colombes
En règle générale, les jeux évolutionnaires sont riches en issues possibles. Dans notre jeu faucon/colombe, il n’y a qu’un équilibre évolutivement stable et cet état stationnaire à long terme se rétablira finalement au fil du temps, quel que soit le nombre d’animaux avec des conditionnements différents que nous avons ajoutés. Mais certains jeux possèdent plusieurs équilibres évolutivement stables. Dans ces jeux, les forces évolutives rétabliront les proportions d’équilibre s’il y a de petits changements de la population. Mais de gros changements de la composition de la population peuvent conduire au fait que les forces évolutives mènent la population vers un autre équilibre.
Si un autre troupeau d’éléphants devait se joindre à nous, nous pourrions finir dans un équilibre évolutivement stable différent. Dans les futures générations, cela pourrait introduire des caractéristiques physiques très différentes.
Certains jeux n’ont aucun équilibre évolutivement stable. Dans ces jeux, la population n’atteindra jamais un état stable. Elle connaîtra plutôt des cycles, où les proportions des différents types d’animaux présents vont croître et décroître sans cesse.
115
La stabilité évolutionnaire comme amélioration de l’équilibre Aussi bizarre que cela puisse paraître, la proportion évolutivement stable du type faucon (5/6) est égale aussi à la probabilité d’équilibre dans l’équilibre de Nash en stratégies mixtes du jeu si les animaux choisissaient leurs stratégies de manière rationnelle. Ce n’est pas une coïncidence. Pour calculer les probabilités d’équilibre dans l’équilibre de Nash en stratégies mixtes, nous recherchons les probabilités où les joueurs sont simplement indifférents entre les stratégies de faucon et de colombe. À l’équilibre, les valeurs attendues pour chaque stratégie sont égales. Dans le jeu faucon/colombe, nous avons le même niveau de valeur sélective évolutive attendue pour les deux types d’animaux sur les ratios d’équilibre évolutivement stable. Si leurs valeurs sélectives étaient différentes, les forces évolutives feraient prospérer l’un des types et dépérir l’autre jusqu’à atteindre un autre état stable.
D’un point de vue mathématique, ces deux problèmes, celui des décideurs rationnels…
116
… et celui des animaux génétiquement conditionnés qui subissent les forces évolutives, sont identiques.
Dans le jeu faucon/colombe, l’équilibre évolutivement stable donne la proportion de faucons et colombes dans la population. Cela est similaire à l’interprétation de l’équilibre en stratégies mixtes dans le jeu d’évasion fiscale. Dans ce cas, l’équilibre donne la fraction de fraudeurs dans la population quand les joueurs font des choix rationnels. Dans un environnement évolutif, une manière raisonnable d’éliminer des équilibres qui ne pourront pas survivre, même si les changements de la population sous-jacente sont mineurs, est de se focaliser sur les équilibres évolutivement stables.
Salut, les amis !
Ne l’inquiète pas, le nouveau. Ce troupeau a déjà atteint un équilibre évolutionnaire stable. Nous retrouverons notre ancienne proportion de faucons et de colombes d’ici quelques générations.
117
Les jeux séquentiels Souvent, les joueurs peuvent observer les actions des autres avant de jouer leurs propres coups. Dans certains jeux, il y a un ordre dans les actions des joueurs. Ces jeux sont appelés jeux séquentiels. La plupart des jeux de plateau, tels que les échecs, se jouent par coups alternés séquentiels. Par exemple, une entrepreneuse songeant à ouvrir (ou à ne pas ouvrir) un café à un endroit donné peut observer quels autres magasins sont déjà installés et prendra en considération le fait que d’autres commerçants pourraient venir au même endroit si elle lançait une entreprise à cet endroit.
Ils m’ont coupé l’herbe sous le pied ! Je n’aurais sans doute pas dû ouvrir mon café ici.
118
Les jeux séquentiels sont dynamiques dans le sens où les joueurs peuvent prendre leurs décisions en fonction de leurs observations des actions précédentes et sur leur anticipation des actions à venir. Les joueurs font des conjectures sur ce que les autres joueurs feraient en réponse à leurs choix possibles, puis avancent à reculons depuis la fin du jeu pour décider quoi faire.
Je savais qu’installer deux magasins allait faire peur à la concurrence. C’est pour cette raison que je les ai ouverts l’an dernier.
119
Une Guerre des sexes dynamique Nous pouvons analyser les issues d’un jeu séquentiel en créant une version dynamique d’un jeu à coups simultanés. Le jeu de la Guerre des sexes est un exemple utile. Dans le jeu de la Guerre des sexes standard, Bob et Amy décident, séparément et simultanément, où sortir le soir. Ils aimeraient bien être ensemble, mais ont chacun une activité préférée différente. Vous souvenezvous de la forme stratégique du jeu original de la Guerre des sexes à coups simultanés ?
AMY
Bob Match de foot
Cours de danse
Match de foot
A : 5, B : 10
A : 0, B : 0
Cours de danse
A : 0, B : 0
A : 10, B : 5
Maintenant, modifions un peu l’histoire. Supposons qu’Amy sorte de son travail une heure avant Bob. Elle se rend à l’un des deux lieux possibles et appelle Bob pour lui dire qu’elle est là. Une fois l’appel passé, il est trop tard pour qu’Amy change de lieu, mais Bob peut encore choisir entre les deux lieux possibles.
Je suis la première arrivée. C’est moi qui décide avant Bob.
120
Jeu sous forme extensive Amy est la première à jouer et Bob le second, en ayant observé le choix d’Amy. La représentation sous forme stratégique du jeu n’est plus aussi utile qu’elle ne l’avait été quand les joueurs jouaient leurs coups simultanément, puisque la forme stratégique ne prend pas en compte l’ordre des choix. Pour cela, nous avons besoin d’un nouveau diagramme pour représenter le jeu séquentiel : la représentation sous forme extensive. On l’appelle aussi l’arbre du jeu.
Amy [A]
Football cours de danse Bob [B]
Bob [B]
Cours de danse Cours de danse
Football
Football
A : 10, B : 5 A : 5, B : 10
A : 0, B : 0
A : 0, B : 0
121
La forme extensive introduit l’ordre des choix par le biais de nœuds de décision, des points qui représentent un moment où une décision peut être prise.
C’est moi qui prends la première décision, donc mon nœud de décision est tout en haut de l’arbre. Je peux choisir entre le foot (branche de gauche) ou le cours de danse (branche de droite). Amy [A]
Football cours de danse Bob [B]
Bob [B]
Cours de danse Cours de danse
Football
Football
A : 5, B : 10
A : 0, B : 0
A : 0, B : 0
J’ai deux nœuds de décision. Mais une fois qu’Amy me dit où elle se trouve, un seul de ces nœuds reste pertinent. Si elle m’appelle depuis la salle de danse, alors je me trouve à ce nœud de décision.
Quand Amy prend sa décision, elle sait que Bob sera en mesure de noter son choix avant de faire le sien. De plus, elle sait que sa décision va influer sur le choix de Bob. Elle va donc essayer de deviner comment Bob réagirait à chacun de ses possibles choix.
122
La perfection en sous-jeux Si Amy appelait Bob depuis le stade de foot, alors pour Bob uniquement le nœud de décision en bas à gauche serait pertinent. Donc nous pouvons considérer le jeu à partir de ce moment-là comme un jeu en lui-même. Ce qui est connu sous le nom de sous-jeu. À partir de là, Bob fera simplement de son mieux.
Si Amy m’appelle depuis le stade de foot, je pourrai choisir entre aller au match (et recevoir un gain de 10) ou aller au cours de danse (et recevoir un gain de zéro).
Si j’appelle Bob depuis le stade de foot, Bob viendra aussi : j’aurai donc un gain de 5 si je choisis le foot.
Bob
Cours de danse Football
A : 5, B : 10
A : 0, B : 0 123
Amy va aussi prendre en considération ce que Bob ferait si elle avait décidé d’aller au cours de danse. Si elle appelait Bob depuis le studio de danse, Bob serait confronté à un autre sous-jeu (la partie droite de la forme extensive du jeu).
Amy se trouve au cours de danse. Donc, si je vais au match de foot, je serai seul et j’aurai un gain de zéro. Mais si je vais danser, au moins je serai avec Amy et j’obtiendrai un gain de 5. Je vais aller danser.
Si je vais danser, Bob suivra et mon gain sera de 10.
Bob
Cours de danse Football
A : 10, B : 5 A : 0, B : 0 124
Le jeu dynamique d’Amy et Bob est résolu par raisonnement rétrograde. En effet, Amy fait une hypothèse sur ce qui se passera à la fin du jeu et avance à reculons pour déterminer son meilleur choix. Il est rationnel pour Amy de choisir d’aller danser, puisqu’elle sait que Bob la suivra au cours de danse. C’est un équilibre de Nash parfait en sous-jeux : les joueurs ont les meilleures réponses l’un par rapport à l’autre pour chaque sous-jeu du jeu original. La perfection en sous-jeux implique que les joueurs soient prévoyants. Ils font de leur mieux à chaque nœud de décision qu’ils rencontrent sans rancune ou coopération par rapport aux actions passées. Dans ce jeu, on voit que l’équilibre de Nash parfait en sous-jeux est particulièrement avantageux pour Amy, l’avantage provenant du fait que ce soit elle qui a commencé le jeu.
Je savais que Bob me suivrait n’importe où, alors autant aller à mon activité préférée. C’est parfait.
Eh bien, oui, c’est parfait en sous-jeux au moins.
Ce jeu confère un avantage au premier joueur, mais tous les jeux séquentiels ne possèdent pas cette caractéristique. Il existe de nombreux jeux où jouer en premier constitue un désavantage. 125
Les menaces non crédibles La plupart des gens trouvent que l’équilibre de Nash parfait en sous-jeux, où les deux joueurs se rendent au cours de danse est le plus plausible, mais ce n’est pas le seul possible. Par exemple, Bob pourrait annoncer qu’il ira toujours au stade de foot, indépendamment de ce que choisira Amy. Si Amy croit cela, elle pourrait s’attendre à finir toute seule si elle va danser. Donc elle choisirait le foot, car elle préfère toujours la compagnie de Bob plutôt que de se retrouver seule. Cela constitue aussi un équilibre de Nash, mais il repose sur le fait qu’Amy croit que Bob mettra sa menace à exécution et ira au foot même quand Amy l’appelle depuis le studio de danse. Ce ne serait pas dans l’intérêt de Bob ; de ce fait, sa menace n’est pas crédible. La perfection en sous-jeux élimine les équilibres de Nash qui dépendent de joueurs faisant des promesses ou des menaces non crédibles.
Je vais aller au stade de foot quoi qu’il arrive.
Je sais que tu préfères être avec moi au cours de danse, plutôt qu’être seul au stade de foot. Je choisis donc la danse – et je sais que toi aussi !
126
Les marchés du crédit Les interactions entre prêteurs et emprunteurs peuvent être modélisées sous la forme d’un jeu séquentiel. Cela peut s’avérer utile pour comprendre pourquoi certains bons projets n’arrivent pas à se faire financer. La forme extensive du jeu donne les chiffres de gain (bénéfices en millions d’euros) pour un demandeur de prêt (A) et une banque (B). Pour simplifier, supposons que la banque et le demandeur disposent de toutes les informations sur l’arbre du jeu et connaissent les gains escomptés pour chaque projet.
Banque
Demande de prêt accordée
Demande de prêt rejetée
Demandeur A : 0, B : 0
Investir dans un projet sûr
A : 1, B : 2
Investir dans un projet à risque
A : 10, B : -1
Il y a un potentiel pour faire de bonnes affaires ici ! Si le demandeur de prêt l’investit dans le projet sûr, la banque peut s’attendre à faire un gros bénéfice de 2 millions d’euros.
127
Le demandeur a le choix d’investir soit dans un projet sûr, soit dans un projet à risque, mais seulement si la banque lui accorde le prêt.
Je suis convaincue qu’en choisissant un projet sûr, je ferai un modeste profit de 1 million d’euros et pourrai alors rembourser la banque.
L’autre projet est très risqué. Il y a de grandes chances qu’il échoue et, dans ce cas, je ne pourrai pas rembourser le prêt. En revanche, si ça marche, je serai super-riche. Mon gain escompté avec le projet risqué est de 10 millions d’euros.
Elle promet de me payer avec un taux d’intérêt fixe. Si elle choisit le projet à risque, je ne tirerai pas de bénéfice supplémentaire de son succès et je ne serai pas remboursé du tout si ça échoue. Pour ce qui me concerne, le projet à risque est une mauvaise affaire.
128
La banque aimerait que la demandeuse de prêt investisse dans le projet sûr. Cependant, elle ne peut pas surveiller les décisions professionnelles quotidiennes de cette dernière ; par conséquent, elle ne peut pas dicter à la demandeuse dans quel projet investir. Dans l’équilibre de Nash parfait en sous-jeux, le banquier refuse la demande de prêt, même si la banque et la demandeuse auraient pu tirer des bénéfices d’une affaire profitable en optant pour le projet sûr.
Je refuse le prêt que vous demandez car je sais que vous l’investiriez dans le projet à risque si je vous l’accordais. Dans ce cas, mon gain escompté serait négatif. Simple raisonnement rétrograde !
Mais alors notre gain à tous les deux est de zéro !
129
La demandeuse peut promettre au banquier qu’elle investira dans le projet sûr. De plus, elle peut être sincère en disant cela. Après tout, elle aura un gain de zéro si sa demande de prêt est refusée, mais un gain de 1 million d’euros avec le projet sûr si sa demande est acceptée. Cependant, si la banque lui accordait le crédit, une fois que la demandeuse aurait reçu les fonds, elle comparerait son gain escompté avec le projet sûr au gain escompté avec le projet à risque. Elle choisirait donc le projet à risque et ne tiendrait pas sa promesse. On appelle ce cas de figure le problème d’incohérence temporelle : le décideur ne trouve plus optimal de suivre le plan d’action initial.
Dès que l’argent est sur votre compte, vous ne pourrez résister à l’appel des gains potentiels que procurerait le projet à risque. Et je ne veux certainement pas financer une affaire à risque.
J’aimerais pouvoir faire une promesse crédible en m’en tenant au projet sûr.
L’équilibre de Nash parfait en sous-jeux où la banque refuse la demande de prêt n’est pas un optimum de Pareto. La banque et la demandeuse de prêt percevraient des gains escomptés plus élevés si le projet sûr avait été financé. 130
Et si la demandeuse trouvait le moyen de s’engager de manière crédible dans le projet sûr, à tel point que même si elle pouvait se lancer dans le projet à risque, elle choisirait de ne pas le faire ? Les marchés financiers utilisent souvent la caution comme dispositif d’engagement. Par exemple, la demandeuse pourrait utiliser sa propriété familiale comme caution. Tant que la perspective de perdre sa propriété familiale est suffisamment coûteuse (financièrement et/ou psychologiquement parlant), la caution modifie le gain escompté du projet à risque pour la demandeuse. Elle choisirait donc le projet sûr. Par conséquent, la banque lui accorderait son prêt.
La maison n’a plus de valeur pour la banque à partir du moment où les frais de justice pour liquidation ont été déduits si elle échoue dans son projet. Alors pourquoi lui avez-vous accordé son prêt ?
La maison est sans valeur pour la banque, mais c'est un bien précieux pour elle. C’est son domicile familial et elle ne prendra pas le risque de le perdre. Elle se lancera dans le projet sûr.
131
Les microcrédits Si les demandeurs de prêt peuvent fournir une caution afin de s’engager de manière crédible dans un projet sûr, ils gagnent l’accès aux marchés du crédit pour financer leur affaire. Cependant, ceux qui n’ont pas de biens existants pouvant servir de caution verront leur demande de prêt refusée dans l’équilibre parfait de Nash en sous-jeux à cause du problème d’incohérence temporelle. Étant donné les difficultés de se présenter avec un dispositif d’engagement, les pauvres restent pauvres tandis que les riches s’enrichissent. Le manque d’accès aux marchés du crédit peut priver les pauvres d’une ascension sociale, ce qui peut engendrer des troubles sociétaux et de la violence. L’économiste bangladais Muhammad Yunus [né en 1940] s’est vu attribuer le prix Nobel de la paix en 2006 pour sa solution à ce problème : fonder la Grameen Bank (banque des villages) et le concept pionnier du microcrédit pour aider les pauvres à accéder aux marchés financiers.
« Vous ne pouvez pas créer une banque des pauvres sur la même base que celle des riches. »
132
Pour permettre l’accès aux marchés du crédit, Yunus a résolu le problème d’absence de dispositif d’engagement en accordant aux pauvres un microcrédit (de petits prêts) de manière groupée – des prêts attribués à un groupe connecté de personnes plutôt qu’à un individu. Chaque demandeur du groupe s’assure alors que les autres demandeurs investissent dans des projets sûrs.
Cette pauvre villageoise n’a pas de caution. Si vous lui accordez un crédit, comment pouvez-vous être certain qu’elle n’ira pas tout flamber au casino ce soir ?
Son prêt est lié aux prêts que j’accorde à deux de ses voisins dans le même village. S’il lui est impossible de rembourser ce prêt, les deux autres savent que plus jamais je ne leur accorderai de crédit. Ils vont donc faire en sorte qu’elle fasse bon usage de cet argent.
133
La dissuasion nucléaire Depuis la Seconde Guerre mondiale, les deux superpuissances nucléaires, les États-Unis et la Russie, ont adopté une politique de dissuasion nucléaire, basée sur la destruction mutuelle assurée. Le principe est que si l’un attaque, l’autre peut riposter avec une force écrasante, anéantissant l’agresseur. Par conséquent, ni l’un ni l’autre n’attaquera en premier. Jusqu’à présent, le monde n’a pas connu de guerre nucléaire mondiale, donc cette politique a été efficace. Toutefois, les critiques avancent que l’équilibre souhaité peut ne pas être parfait en sous-jeux. Il peut être basé sur des menaces non crédibles. Si tel est le cas, il pourrait y avoir des problèmes à l’avenir.
134
La stratégie de la destruction mutuelle assurée se base sur l’idée que si des missiles ennemis arrivaient, les décideurs politiques du pays visé riposteraient, détruisant l’agresseur. Toutefois, la riposte ne change rien à la situation du pays visé : son sort est scellé par l’arrivée des missiles.
Ils nous ont attaqués et ont tout détruit. Qu’ils en paient le prix !
Le chef d’État du pays attaqué voudra certainement se venger. Dans ce cas, la riposte sera le meilleur choix dans le sous-jeu quand ils décideront s’il faut contre-attaquer ou non. Si c’est le cas et que l’ennemi le sait, alors l’équilibre désiré où il n’y a aucune attaque dès le début est parfait en sous-jeux. La guerre nucléaire n’aura pas lieu.
Si l’ennemi riposte, je ne devrais pas attaquer en premier.
135
La riposte ne résoudra rien. Elle va juste causer la mort de millions de gens innocents.
Cependant, la personne qui décide s’il faut riposter ou non peut avoir des réserves morales sur le fait de tuer des millions de civils. Après tout, une fois les missiles de l’adversaire lancés, il n’y a rien à gagner à riposter. De ce fait, dans le sous-jeu de la riposte, un décideur soucieux moralement choisira de ne pas contre-attaquer. Dans ce cas, la menace de la riposte n’est pas crédible. L’équilibre désiré quand il n’y a pas d’attaque initiale n’est pas parfait en sous-jeux. Il n’y a aucune raison qui empêche de lancer une attaque préventive, car l’ennemi sait que le pays attaqué ne ripostera pas.
S’ils ne ripostent pas, les attaquer en premier pourrait être une bonne idée.
136
Si le décideur politique s’inquiète des implications morales qu’entraînerait la mort de millions d’innocents, que faire pour éviter qu’ils deviennent la cible d’une attaque nucléaire ? Une possible solution à ce problème est de déléguer la décision d’une riposte à quelqu’un qui serait vraisemblablement motivé soit par une soif de vengeance, soit tenu de respecter une procédure préétablie. Cela assurera que la riposte est une menace crédible.
Prenez les codes de lancement avec vous. Aussi étrange que cela puisse paraître, nous serons plus en sécurité ainsi.
137
Une autre manière de rendre la menace d’une riposte crédible est de donner à plusieurs personnes la possibilité de lancer l’attaque destructrice. C’est la solution de prolifération. Ainsi, quand l’ennemi envisage d’attaquer, il doit mesurer la probabilité qu’au moins l’une de ces personnes soit motivée par la vengeance. Plus il y a de personnes qui ont la possibilité de lancer une contre-attaque, plus la probabilité qu’elle se produise sera élevée. Si la riposte devient probable, alors il n’y aura pas de première attaque.
Chacun de vous dispose des codes pour lancer une contre-attaque !
138
Dans la pratique, on se sert de la délégation et de la prolifération pour rendre la riposte crédible et, par conséquent, pour s’assurer qu’aucune attaque initiale ne fasse partie d’un équilibre parfait en sous-jeux. Les réalisateurs de Hollywood ont suggéré une troisième option pour résoudre ce problème : rendre la décision d’une riposte totalement automatique, garantissant une contre-attaque. C’était la prémisse de « La Machine infernale » dans Docteur Folamour, du « Plan de riposte opérationnel de guerre » dans Wargames et de « Skynet » dans les films Terminator. Déterminer dans quelle mesure une telle approche s’inspire de la réalité n’est pas évident. Toutefois, comme il est indiqué dans Docteur Folamour, une Machine infernale n’est utile comme dissuasion que si l’attaquant potentiel connaît son existence. Dès qu’elle a besoin d’être utilisée, elle a déjà manqué son objectif. Il n’y a donc aucune raison de garder secrète l’existence d’un tel dispositif et toutes les raisons de le faire connaître. Par conséquent, nous pouvons être relativement sûrs que ce n’est pas encore une approche envisagée jusqu’ici par les principales superpuissances.
Les systèmes de riposte automatique ont quand même des désavantages…
139
Des problèmes liés à l’information Dans les jeux à forme extensive que nous avons examinés jusqu’ici, les joueurs avaient une connaissance complète de l’arbre du jeu. Cependant, des situations où les joueurs n’ont qu’une connaissance incomplète apparaissent souvent : ils peuvent ne pas connaître toutes les stratégies disponibles de tous les autres joueurs ou les gains escomptés. Les joueurs peuvent ne pas être sûrs du genre de personne à qui ils ont affaire, ni savoir quelles sont ses motivations.
J’essaie de décider si nous devons accepter son offre de nous associer à son affaire, mais je n’arrive pas à savoir si elle est fiable ou non. Imaginons que j’accepte son offre et qu’il s’avère qu’elle est une tricheuse ?!
140
Il existe également des situations où les joueurs ont une connaissance imparfaite de l’arbre du jeu : les actions des joueurs dans le passé peuvent être inobservables ou quasi inobservables. Cela signifie que les joueurs ne savent pas précisément sur quel nœud de décision ils se trouvent dans l’arbre du jeu.
Ennemi
Descendre dans la forêt
Général
Enfumez-les !
Grimper dans les collines Général
Leur couper la route
Je sais quelles sont mes options, mais j’aimerais bien savoir où se trouvent les forces ennemies.
Tous les jours et partout, des gens prennent des décisions sur la base d’informations imparfaites ou incomplètes, ou les deux à la fois. Cela a de grandes implications vis-à-vis des interactions stratégiques entre les joueurs, surtout quand l’un deux est mieux informé que l’autre. 141
Information asymétrique Les économistes américains George Akerlof [né en 1940], Michael Spence [né en 1943] et Joseph Stiglitz [né en 1943] ont reçu le prix Nobel 2001 pour leurs analyses des marchés avec information asymétrique : quand l’un des joueurs possède des informations meilleures par rapport aux autres. Par exemple, dans le marché des assurances automobiles, un conducteur a des informations privées sur ses propres habitudes de conduite. La compagnie d’assurance a des informations incomplètes : elle ne connaît pas les habitudes de conduite du conducteur, donc elle ne peut pas connaître les gains qu’elle aura en lui vendant une police d’assurance. Un manager peut avoir des informations imparfaites quant aux habitudes d’un employé. Si cet employé ne progresse pas dans une tâche donnée, le manager ne sait pas s’il doit sanctionner l’employé ou penser que la tâche en question est particulièrement difficile.
Je te donnerais jusqu’à 6 000 € si j’étais certain que cette voiture était fiable, mais je n’en suis pas sûr. Désolé, 2 000 € est ma dernière offre.
142
J’aurais accepté 6 000 € et nous aurions été tous les deux satisfaits, car ma voiture est en effet très fiable. Comme je ne vais pas en tirer un bon prix, je ferais mieux de la retirer du marché et la garder au cas où.
Information asymétrique et chômage Les macroéconomistes, qui s’intéressent aux modèles et effets économiques à large échelle, étudient souvent le problème du chômage persistant, une situation où des personnes aimeraient bien travailler mais ne trouvent aucun emploi. Le chômage persistant est un mystère quand il est soumis à une analyse économique classique : s’il y a du chômage, il devrait y avoir alors pour chaque emploi libre un grand nombre de demandeurs. Dans ce cas, les sociétés pourraient offrir des salaires plus bas et toujours combler tous les postes vacants. Quand les salaires sont plus bas, embaucher coûte moins cher et les sociétés emploient plus de travailleurs. Il semble que les salaires devraient finalement s’ajuster à la baisse jusqu’au point où le nombre de personnes qui souhaitent travailler est égal au nombre d’emplois disponibles.
Étant donné ce modèle attendu, pourquoi y a-t-il du chômage persistant ? Pourquoi les salaires ne baissent-ils pas jusqu’au point où il n’y a plus de chômage ?
EMPLOIS
143
Joseph Stiglitz, colauréat du prix Nobel, et l’économiste américain Carl Shapiro [né en 1955] ont démontré qu’une des causes à l’origine du chômage persistant est l’action cachée sur le lieu du travail – où les actions des employés ne sont pas parfaitement observables. Prenons le cas d’un employé à salaire fixe. Il peut soit travailler dur, soit être paresseux et fuir ses responsabilités. Les efforts du travailleur ne sont pas parfaitement observables. La manager congédierait le travailleur si elle le surprenait en train de tirer au flanc, mais elle ne peut le surveiller que de manière imparfaite, donc elle ne pourra pas toujours surprendre un travailleur tire-au-flanc.
Je ne peux pas dire s’il parle avec sa copine ou avec un client.
Quand l’employé décide de tirer au flanc ou non, il compare le bénéfice avec le coût de sa fainéantise. Le bénéfice est une journée de travail plus agréable. Le coût est la probabilité d’être attrapé combinée à la valeur de ce qu’il perdra s’il est congédié.
144
S’il n’y a pas de chômage et que la société offre le même salaire d’équilibre que d’autres sociétés, alors l’employé tentera sa chance et tirera au flanc.
Ne t’en fais pas ! Ma patronne ne peut pas dire si j’envoie un texto à toi ou à un client. Et même si je suis pris, il y a plein d’offres de travail auxquelles je peux postuler. Je n’ai pas grand-chose à perdre. Je pourrais aussi lever le pied.
Comment suis-je censée motiver mes employés à travailler dur s’ils peuvent tout simplement trouver un autre travail ?
145
Pour encourager les employés à travailler dur, une société doit mettre en avant une perte potentielle s’ils sont surpris en train de tirer au flanc. Elle peut le faire en offrant des salaires plus élevés que chez la concurrence. Ces salaires d’efficience plus élevés peuvent entraîner une production plus efficace du personnel.
Pour persuader les employés de ne pas tirer au flanc, la société tente de proposer plus que le salaire moyen.
Joseph Stiglitz 146
Cependant, les salaires d’efficience posent problème, en ce sens que toutes les sociétés sont tentées d’offrir des salaires plus élevés afin d’encourager l’efficacité. Mais si chaque société offre un salaire plus élevé, les salaires augmentent sur le marché. Puisque plus de personnes voudront travailler pour ces salaires plus élevés, et dans la mesure où le nombre de postes libres n’augmente pas, il en résultera du chômage. Dans ce cas, les employés ne seront pas motivés à travailler dur, car s’ils perdent leur emploi, ils mettront du temps avant d’en retrouver un.
Si ma patronne me surprend en train de tirer au flanc et que je perds mon travail,
Je pourrais rester au chômage pendant des mois.
Ça ne vaut pas le coup de prendre ce risque, donc je ferais mieux de retourner à ma liste de choses à faire.
J’ai peut-être encore un niveau d’information imparfait, mais le taux de chômage élevé incite mes employés à être plus efficaces.
147
Davantage sur l’information asymétrique Il survient souvent des situations où les gens ne sont pas trop sûrs de la personne à qui ils ont affaire. Ce sont des jeux à information incomplète, où les joueurs ne sont pas certains quant aux caractéristiques de l’autre joueur, de même que des gains des différentes issues possibles du jeu. Cette situation est souvent représentée en attribuant un type à chaque joueur. On associe chaque type à différents gains selon les issues possibles. Typiquement, chaque joueur connaît son propre type, mais les autres joueurs l’ignorent. Par conséquent, l’information est asymétrique.
Nous disposons d’une nouvelle technologie formidable qui fait que nos voitures n’auront pas besoin d’assistance technique pendant 20 ans. Je propose qu’on l’introduise sur le marché dès l’an prochain.
Nos clients ne vont pas savoir que notre voiture améliorée est si fiable. Nous ne pourrons donc pas fixer un prix suffisamment haut pour compenser les coûts de cette nouvelle technologie. Met de côté les plans de production pour le moment.
148
Signaler la qualité d’un produit Il est difficile pour un consommateur individuel de percevoir la qualité d’un produit avant de l’acheter. Cependant, l’entreprise sait bien si son produit a des chances de durer ou non. Le vendeur connaît son type (haute ou basse qualité), mais pas l’acheteur. Ce dont les consommateurs ont besoin, c’est une manière de déduire quelles entreprises offrent des produits de haute qualité et celles qui ne le font pas. Il va de soi qu’une entreprise a toutes les raisons de déclarer que son produit est de haute qualité, que cela soit vrai ou non. Pour cette raison, les déclarations provenant directement des entreprises n’ont aucune valeur.
La meilleure ingénierie au monde
Extrêmement
fiable
Tous les fabricants ont les mêmes arguments, quelle que soit la qualité des voitures qu’ils vendent.
149
Pour certains produits, les entreprises peuvent contourner le problème de l’information asymétrique en offrant des échantillons gratuits. Mais pour d’autres, cela ne sera pas possible.
Nous accueillons ces foires aux fromages régulièrement. Dès que les consommateurs ont goûté à mon fromage, ils savent que le prix demandé est justifié. J’offre aussi des échantillons gratuits à des supermarchés.
Je fabrique des pneus pour voitures. Je ne peux pas donner d’échantillons gratuits. Je dois trouver un moyen d’informer indirectement les consommateurs de la haute qualité de mon produit.
Si une entreprise fabriquant des produits de haute qualité n’est pas en mesure de donner des informations crédibles, directes sur la qualité de son produit, elle peut avoir besoin de trouver un système afin de signaler sa qualité aux consommateurs. Pour que cela fonctionne, cette indication doit être une mesure observable que peut prendre une entreprise offrant de la haute qualité, mais qui ne serait pas rentable pour une entreprise offrant de la basse qualité. 150
Des garanties en guise de signalement Même si le consommateur ne compte pas garder la preuve de son achat, l’existence d’une garantie peut le convaincre d’acheter le produit, car la garantie signale une qualité. Le consommateur peut se dire que seule une entreprise avec un produit fiable pourrait offrir une garantie de longue durée puisqu’il y aurait un nombre relativement limité de réclamations. Une entreprise avec un produit bas de gamme non fiable réaliserait qu’elle recevrait beaucoup de réclamations, et qu’une garantie de longue durée serait trop coûteuse.
Nous pouvons offrir une garantie sur nos téléviseurs pour attirer davantage de clients.
Il n’en est pas question. Nos téléviseurs ne sont pas très fiables. Cela nous obligerait à embaucher une douzaine de techniciens uniquement pour réparer les postes défectueux. On y perdrait plus que l’on y gagnerait.
151
Dans un équilibre de séparation, le choix que fait une entreprise en termes de garantie dépend du type de produit (haute ou basse qualité). Une entreprise proposant un produit de haute qualité choisit d’offrir une garantie, tandis qu’une entreprise proposant un produit de basse qualité choisit de ne pas en offrir. Par autosélection, la garantie permet à une entreprise de haute qualité de se différencier d’une entreprise de basse qualité. Les deux types de entreprises se distinguent par leur comportement.
S’ils offrent une garantie de 3 ans, c’est qu’il est certainement plus fiable que ces autres modèles sans garantie. Si c’était un modèle de basse qualité, il y aurait trop de retours, de sorte qu’ils n’offriraient jamais une garantie aussi longue.
Garantie 3 ans !
152
Tentez votre chance !
La publicité comme dispositif de signalement La publicité peut également signaler la qualité du produit si l’entreprise vend un produit à achat répété, comme le shampooing. C’est parce que le retour sur investissement d’une campagne publicitaire diffère selon la qualité des produits. Si les consommateurs ignorent la qualité d’un produit avant le premier achat, ils peuvent juger de sa qualité après une seule utilisation. Si l’entreprise vend un produit de basse qualité, les nouveaux clients ayant vu une publicité pour le produit ne vont l’acheter qu’une seule fois. Ils se rendront compte alors que la qualité n’est pas bonne et ne l’achèteront pas à nouveau. En revanche, si l’entreprise vend un produit de qualité, les nouveaux clients renouvelleront leur achat.
Il est affreux ce shampooing. Je n’en rachèterai jamais !
153
La publicité sert de signalement de qualité en raison d’une simple analyse coût-bénéfices. Le coût de la publicité reste inchangé quelle que soit la qualité des produits que l’entreprise vend. Mais les bénéfices d’une campagne publicitaire sont plus élevés pour une entreprise qui propose un produit de qualité puisque les nouveaux acheteurs renouvelleront leur achat. Pour une même dépense publicitaire, une entreprise vendant un produit de basse qualité ne pourra compter que sur des achats uniques de primoacheteurs. Ainsi, une forte publicité ne peut être profitable que pour une entreprise proposant des produits de bonne qualité. Les consommateurs ayant remarqué une campagne publicitaire coûteuse peuvent supposer que l’entreprise n’agit de la sorte que parce qu’elle sait que son produit déclenchera un renouvellement d’achat. Ainsi, les consommateurs se servent de la publicité comme un signalement de qualité.
S’ils dépensent autant d’argent en publicité, le produit doit être de qualité pour mériter ces louanges.
154
Un rituel religieux comme dispositif de signalement L’économiste israélo-britannique Gilat Levy [né en 1970], et l’économiste israélite Ronny Razin [né en 1969] ont démontré qu’un rituel religieux peut servir de signe d’une authentique croyance religieuse. De nombreuses religions favorisent la création d’un lien entre croyance spirituelle et comportement social. Les membres de communautés religieuses font souvent preuve d’un comportement plus coopératif avec les autres membres de la communauté qu’avec des non-croyants. Cela procure un bénéfice matériel, ainsi que spirituel, d’être membre d’une telle communauté. Mais cela ne marche que si les membres de la communauté savent qu’ils partagent des croyances comme base de leur interaction. Puisque le fait d’être membre d’une communauté confère des bénéfices matériels, les non-croyants ont tout intérêt à prétendre être de vrais croyants.
Je peux prétendre aimer Jésus pour un hamburger.
155
Ronny Razin
Pour empêcher les faux signaux des non-croyants, les groupes religieux développent des rituels auxquels il est difficile d’adhérer, par exemple des vêtements distinctifs, des prières publiques, des restrictions alimentaires. Comme les vrais croyants reçoivent à la fois des bénéfices matériels et spirituels de leur appartenance au groupe, pour eux cela vaut la peine d’adhérer à ces rituels difficiles.
Les non-croyants ne reçoivent que les bénéfices matériels d’appartenance au groupe. Donc si les rites sont trop difficiles, cela ne vaudra pas la peine de continuer selon eux. La pratique des rituels peut signaler aux membres de la communauté qu’une personne est un vrai croyant.
Gilat Levy
156
La prise de décision dans les groupes Jusqu’ici, nous avons analysé des situations où chaque joueur est seul décideur de son action. Cependant, les décisions sont souvent prises par un groupe de joueurs. Alors qu’un joueur contribue à la décision du groupe, tous ses membres ne sont pas forcément d’accord sur le meilleur plan d’action. Si personne ne voit son premier choix satisfait, alors il peut s’avérer difficile de déterminer la préférence du groupe.
Je ne suis pas convaincu que la meilleure façon de concilier les préférences de chacun dans le groupe soit de…
L’étude du comportement d’un groupe représente un défi pour la théorie des jeux car le groupe dans son ensemble peut paraître irrationnel même si chaque membre du groupe est rationnel. 157
Les décideurs rationnels ont des préférences transitives. Cela signifie que si l’un des décideurs préfère l’alternative A à l’alternative B, et B l’alternative C, il ou elle doit nécessairement préférer A par rapport à C (le symbole « > » signifie « préféré à ») : Ainsi, A > B et B > C implique que A > C. Toutefois, même si tous les membres du groupe sont rationnels, les préférences du groupe peuvent être non transitives. Il s’ensuit pour les groupes que A > B et B > C n’implique pas nécessairement que A > C.
Vous êtes un homme logique. Donc nous le sommes tous.
158
Alors comment expliquer que quand nous sommes ensemble, les préférences de notre groupe paraissent insensées ?
Nous pouvons observer des préférences non transitives dans un groupe dans l’exemple d’une ville propriétaire d’un terrain vacant. Il existe trois propositions d’aménagement de ce terrain. Il peut être utilisé pour un parc, pour un centre de recyclage ou pour une nouvelle école. Le conseil municipal doit décider quelle option choisir. Il y a trois membres au conseil. Chaque membre du conseil préfère individuellement une alternative différente comme premier choix.
Mr Peters
Mme Reynolds
Mr Singh
Premier choix
Parc
Recyclage
École
Second choix
Recyclage
École
Parc
Troisième choix
École
Parc
Recyclage
Notre avenir, ce sont les enfants ! Nous devons faire construire une école.
Nous devons assurer l’avenir de notre planète, c’est pourquoi il devient urgent d’installer un centre de recyclage.
Votons pour voir quelle proposition recueille le maximum de suffrages.
159
Dans une série de votes, le comité compare deux propositions à la fois. Supposons que chaque membre du conseil vote pour la proposition qu’il ou elle préfère réellement : ce que l’on appelle un vote sincère.
Qu’est-ce qui est mieux, un parc ou une école ? Je préfère l’idée du parc, alors je vote pour le parc.
Je pense que le parc est la pire idée. Je vote pour l’école.
Je préfère l’idée de l’école, alors je vote définitivement pour une école.
Le comité aboutit à un vote de 2 pour l’école contre 1 pour le parc. En tant que groupe, leur préférence va à l’école plutôt qu’au parc, donc ils ne devraient en fin de compte pas construire de parc. Pour le groupe : École > Parc Il leur reste à décider s’ils devraient faire construire une école ou une usine de recyclage.
160
Nous avons décidé de ne pas construire de parc. À présent, nous devons décider ce qui est le mieux, une école ou une usine de recyclage ? L’école est le pire choix selon moi, donc je vote pour le recyclage.
Mon premier choix est le centre de recyclage. Je vote pour le recyclage.
Mon premier choix est l’école. Je vote pour l’école.
Il est clair que le comité estime que le centre de recyclage est le meilleur choix et le parc le pire choix. Sommes-nous d’accord ?
Le comité aboutit à un vote de 2 en faveur du centre de recyclage contre 1 pour la construction d’une école. Pour le groupe : Centre de recyclage > École L’affaire est réglée : le comité estime qu’une école serait mieux qu’un parc et qu’un centre de recyclage serait mieux qu’une école.
161
Mais attendez un peu. Je ne comprends pas pourquoi mon projet favori a été rejeté. Nous n’avons à aucun moment voté pour comparer le parc à l’usine de recyclage.
Bon sang ! Nous avons décidé qu’une usine de recyclage est mieux qu’une école, et qu’une école est mieux qu’un parc. Cela ne signifie-t-il pas qu’une usine de recyclage est mieux que le parc ?
Je suis d’accord avec Mr Peters. Moi aussi, je préfère un parc à un centre de recyclage. Votons entre ces deux options.
Dans le vote entre un centre de recyclage et un parc, Mr Peters vote pour le parc (son premier choix), Mme Reynolds vote pour le recyclage (son premier choix) et Mr Singh pour le parc, puisque le recyclage est l’option qu’il aime le moins. Le comité estime que le parc est mieux que le recyclage à 2 contre 1. Parc > Centre de recyclage Chaque membre du comité a des préférences transitives et a voté sincèrement. Mais en agissant en tant que groupe, les préférences du comité sont non transitives – quel que soit son choix, le groupe pensera toujours qu’une autre option est meilleure.
Mieux que
École
Recyclage
Parc Mieux que 162
Mieux que
L’économiste américain Kenneth Arrow [1921-2017] a reçu le prix Nobel d’économie en 1972 avec John Hicks pour un résultat mathématique connu sous le nom de « théorème d’impossibilité d’Arrow ». Il montre que, pour des groupes non dirigés par un dictateur, des situations où les préférences du groupe sont non transitives seront toujours possibles, où on rejette un choix qui pourrait être meilleur pour tout le monde ou des options non pertinentes modifient notre choix. Ce sont là des problèmes inhérents à tout groupe prenant une décision.
« Des tentatives pour former des jugements sociaux en regroupant des préférences exprimées individuellement mènent toujours à l’éventualité d’un paradoxe. »
163
Le théorème d’impossibilité d’Arrow rend plus compréhensibles les comportements étranges que l’on peut observer lors de réunions de comité et dans les parlements. Par exemple, en comité de travail, nous voyons souvent le même problème qui ne cesse de revenir.
Revotons la question du terrain vacant.
La semaine dernière, nous avons déjà décidé d’y faire installer un centre de recyclage.
Il se rend compte que le groupe prendra des décisions contradictoires, selon l’ordre dans lequel les options ont été votées. Et il sait que bien que rien ne soit différent aujourd’hui, si nous votons entre le parc et le centre de recyclage, alors nous choisirions le parc comme étant la meilleure option.
164
Il y a plusieurs manières d’organiser la prise de décision en groupe. Cela va de l’autocratie, où une seule personne décide de tout en fonction de ses préférences personnelles, à la démocratie ordinaire où chaque membre du groupe a le même droit de parole au sujet de la prise de décision – avec une gamme infinie de systèmes entre ces deux extrêmes. Le théorème d’impossibilité d’Arrow montre qu’en dehors du cas d’une autocratie, quel que soit le système que nous utilisons pour faire le meilleur choix en groupe, il existe toujours la possibilité que le groupe se comporte de façon incohérente.
À l’attaque !
Il est peut-être autocrate, mais au moins il est cohérent.
165
D’où venons-nous… Tandis que la théorie des jeux s’est établie comme un domaine d’étude dans les années 1940, ses thèmes centraux de coopération et de conflit remontent aux origines de la société humaine. Par exemple, Thomas Hobbes [1588-1679], philosophe britannique, avance dans son ouvrage Léviathan que :
Sans gouvernement fort, la vie serait « pénible, brutale et courte ».
Son argument, pour l’essentiel, relève de la théorie des jeux par nature : sans gouvernement assez fort pour faire respecter les conventions, la coopération s’effondrerait car chaque personne craindrait que l’autre soit immoral. Cela mènerait aussi à la violence.
S’il revient sur sa promesse, il va s'attendre à une revanche. Dans ce cas, il va vouloir me tuer avant que je ne prenne ma revanche. Je devrais peut-être le tuer maintenant.
S’il doute que je vais tenir parole, il pourrait chercher à me blesser maintenant. Je devrais me tenir prêt à me défendre. 166
Des exemples de raisonnement de la théorie des jeux se trouvaient déjà dans les écrits de Platon, qui rapporte un souvenir de Socrate de la bataille de Délion, en l’an 424 avant notre ère.
Si notre camp gagne demain, nos actions à tous les deux n’auront guère d’importance. Alors pourquoi risquer notre vie en nous battant ?
Si notre camp perd demain, nous serons certainement tués si nous nous battons !
Si tous les soldats athéniens pensaient de la sorte, ils déserteraient et toute coopération serait impossible. Nous perdrions sûrement.
167
… et où allons-nous maintenant ? Le développement de la théorie des jeux comme discipline à part entière nous a donné une boîte à outils complète qui nous permet d’analyser le conflit et la coopération en profondeur. Nous pouvons à présent répondre à des questions qu’il était difficile, voire impossible, de résoudre auparavant, telles que :
Dans le jeu faucon/ colombe (p. 101-115), si le réchauffement climatique global rend les ressources pour lesquelles une espèce est en compétition plus rares, avec le temps, y aura-t-il plus ou moins d’animaux agressifs ?
168
Dans le jeu de la spéculation monétaire (p. 71-73), est-ce qu’un taux de change plus élevé augmente ou diminue la probabilité d’une attaque spéculative ?
Dans le jeu de l’évasion fiscale (p. 87-89), si les taux d’imposition augmentent, quelles seront nos chances d’être contrôlés par le fisc ?
Le contexte et la présentation mathématiques d’une grande partie de la théorie des jeux rendent difficile l’accès à ce domaine à des novices et l’acquisition d’outils qui pourraient leur être utiles. Par conséquent, dans cet ouvrage, nous avons volontairement évité des complications mathématiques, préférant nous concentrer sur les idées centrales de la théorie des jeux. Nous avons pris des exemples où les joueurs n’ont qu’un nombre limité de choix. Cependant, les joueurs doivent souvent choisir parmi des options en continu. Dans ces cas-là, la logique de la théorie des jeux reste identique, mais la présentation devient plus mathématique. Prenons le cas d’une entreprise qui doit décider si elle doit ou non faire de la publicité. Avec cette représentation simple, elle choisit l’option qui offre le meilleur gain. Son choix est binaire : faire ou ne pas faire de la publicité. En réalité, elle doit décider généralement combien elle va investir en publicité. Le choix de l’entreprise peut se décliner en un niveau variable de publicité.
Donc, comme précédemment, je choisis simplement la quantité de publicité qui m’assure le meilleur profit.
Exactement ! Vous voulez être tout en haut de la courbe, où la pente est nulle. Nous pouvons déterminer facilement cette pente en passant par le calcul différentiel. Quand vous avez affaire à des choix en continu, le calcul différentiel offre le moyen le plus facile d’identifier la meilleure option.
169
Si vous travaillez avec les outils que vous avez acquis dans ce livre, vous rencontrerez par hasard un jour ou l’autre des situations où des connaissances plus approfondies seraient utiles. Ou vous pouvez être intéressé par l’apprentissage d’outils additionnels de la théorie des jeux. Dans ce cas, une bonne source est :
Les exemples dans l’ouvrage de Gibbons sont surtout économiques, mais les outils sont utiles dans n’importe quelle autre discipline.
* Aux États-Unis, ce livre a pour titre Game Theory for Applied Economics et il est publié par Princeton University Press.
170
Au cours des soixante-dix dernières années, une large gamme d’outils de la théorie des jeux a été développée pour l’analyse de la pensée stratégique. Et en effet, bon nombre de ces outils sont de nature assez technique. Mais vous n’aurez pas besoin de la totalité des outils pour vous engager dans des travaux intéressants et utiles en théorie des jeux. De même que vous n’avez pas besoin de tous les outils en vente dans un magasin de bricolage pour monter une étagère, vous n’avez pas besoin non plus de tous les outils de la théorie des jeux pour mieux comprendre de nouvelles situations avec des opportunités de coopération ou de conflit. Les outils que vous avez découverts dans ce livre sont plus que suffisants pour fournir des renseignements utiles.
Capitaine, soyez raisonnable ! La logique impose que nous devons trouver un point fixe dans l’espace de Banach.
Vous, les officiers adeptes de la théorie des jeux, il vous faut toujours trouver un point fixe. Si besoin, nous pouvons explorer l’espace de Banach, mais nous savons déjà comment utiliser l’hyperdrive. Nous pouvons d’ores et déjà faire du travail utile. Allumez les moteurs : en avant toute !
171
À propos des auteurs Le Dr Ivan Pastine a abandonné ses études au lycée et à l’université. Ses explications par la théorie des jeux sur les crises financières figurent sur la liste des lectures obligatoires des programmes des doctorants à Harvard et à la London School of Economics (LSE). Il a été homme à tout faire, maître d’équipage dans la marine de guerre des États-Unis et, plus récemment, enseignant à la University College Dublin.
Le Dr Tuvana Pastine est une économiste turque travaillant à l’université nationale d’Irlande à Maynooth. Elle est spécialiste d’applications de la théorie des jeux et a publié sur une grande variété de sujets, analysant la publicité croisée et la dynamique des prix, le financement des campagnes politiques, la discrimination positive en éducation, le défaut de souveraineté, la migration des travailleurs et le commerce international.
Tom Humberstone est un dessinateur primé de bandes dessinées et un illustrateur basé à Édimbourg. Il a contribué pendant trois ans à une série de caricatures politiques hebdomadaires pour le New Statesman et continue à produire des bandes dessinées et des illustrations pour The Nib, The Guardian, Vice et Image Comics, entre autres. Il écoute un nombre insensé de podcasts.
172
Index
A
D
Actions cachées 144-146 Akerlof, George 142 Anticipations autoréalisatrices 64-66 Applications 71-83 Arrow, Kenneth 163 Arsenal nucléaire 44-45 Aumann, Robert John 94 Avantage au premier joueur 125
Défection 95-99 Délégation 137, 139 Dilemme du prisonnier 33-39, 44 Dilemme du prisonnier (situations) 40-42 Dispositifs d’engagement 131-133 Dissuasion nucléaire 134-139 Dresher, Melvin 44-45
B Banque d’Angleterre 65-66, 71-73 Banques centrales 65, 72-73 Bertrand, Joseph Louis François 90-91 Biens communs (tragédie) 43 Bonheur comme gain 27-29, 47-48 Bulles 23
C
E Économie (applications) 4, 27, 33, 54, 76, 143, 170 Éducation 50-51 Élimination itérative des stratégies dominées 18-19 Émissions de CO2 52-53 Équilibre (probabilités) 89 Équilibre de Nash 30-32, 38-39 Équilibre de Nash en stratégies mixtes 67-70 Équilibre évolutivement stable 101, 114-117 Équilibres multiples 54-62 Évasion fiscale (jeu) 87-89, 117 Évolution (état) 27-28, 102-103, 106, 108-113 Expérience 99
Caution 131-132 Chiffres de gain 27-29 Chômage 143-147 Collusion 90-91, 97-98 Communaux (terrains) 43 Complexité (comment l’aborder) 7-9, 11 Comportement non coopératif 50, Concurrence (prix) 90-91, 95-98 Conflit (coût élevé de) 109-114 Conflit (faible coût de) 104-107 Conflits 3, 166, 168 Connaissance commune de la rationalité 12-13, 16-17, 19 Connaissance commune de la rationalité (problèmes) 20-23 Coopération 3, 46-53, 93-98, 166, 168 Coordination (dispositifs) 62 Coordination (échec) 59 Cope, Edward Drinker 108 Coups 6 Coût moral 50-51, 53 Critique/défense 84-86
F Flood, Merrill 44-45
G Garanties (signalétique) 151-152 Grameen Bank 132 Groupes (prise de décisions) 157-165 Guerre d’usure 83
173
Index
H Harsanyi, John Charles 85-86 Hobbes, Thomas 166 Horizon infini 94
I Imprévisibilité 67, 71-72, 74 Incertitude 79, 84-87, 98-99, 148 Incohérence (temporelle) 130 Indifférence 79, 84 Information (problèmes) 140-156 Information asymétrique 142, 148 Information asymétrique et chômage 143-147 Information asymétrique et signalement 149-156 Information imparfaite 141-142 Information incomplète 140-141 Information privée 142 Interactions répétées 91-92 Interactions stratégiques 5-7, 25 Interprétation de purification 85-86 Interprétations 87, 89, 117
J Jeu (forme stratégique) 26-29 Jeu d’échecs 8-11 Jeu « faucons/colombe » 101-103 Jeu « faucon/colombe » à bas coût 104-107 Jeu « faucon/colombe » à coût élevé 109-117 Jeu Guerre des sexes 55-62 Jeu Guerre des sexes, version dynamique 120-126 Jeu de la poule mouillée 74-75 Jeu « Partira ? Partira pas ? » 76-83 Jeu pierre-papier-ciseaux 67-70 Jeu de spéculation monétaire 73-75 Jeu des colocataires 46-51 Jeu des studios cinématographiques 24-26, 28, 31-32, 39
174
Jeu du morpion 9-10 Jeux 11 Jeux à coups simultanés 24-25 Jeux à somme nulle 67 Jeux à un seul coup 91 Jeux séquentiels 118-119 Joueurs 6
K Keynes, John Maynard 14 Keynes, concours de beauté 13-14 King, Mervyn 65-66
L L’arbre du jeu 121-122, 127, 140-141 La banque et ses attentes 63-66 Levy, Gilat 155 Lloyd, William Forster 43
M Machine infernale 139 Marchés du crédit 127-133 Marchés financiers 13-14, 131-132 Matchs nuls 9-10 Matrice des gains 26 Meilleure réponse 31, 68-69, 75, 125 Menace crédible 97, 137-139 Menace de riposte 135-139 Menaces / promesses non crédibles 126, 134, 136 Mercredi noir 71-73 Microcrédit 132-133 Modélisation 7-11
N Nash, John 30, 85 Nœuds de décision 122-125, 141 Normes sociales 60-61 Northern Rock 65-66
Index
O
S
Outils de la théorie de jeux 168-171
Salaires d’efficience 146-147 Schelling, Thomas 54 Sélection naturelle 152 Selten, Reinhard 85, 99 Shapiro, Carl 144 Signalement (dispositifs) 149-156 Smith, John Maynard 100-101 Socrate 167 Soros, George 71-72 Sous-jeux 123 Spéculation (jeu de) 71-73 Spence, Michael 142 Stabilité (évolution) 116-117 Stiglitz, Joseph 142, 144 Stratégie donnant-donnant 95-97 Stratégie pure 67-68, 74-75, 77 Stratégies aléatoires 68-70, 79 Stratégies dominées 18, 37
P Panique bancaire 63-66 Pareto (amélioration) 51 Pareto (optimum de) 39, 45, 130 Pareto, Vilfredo 39 Passager clandestin 49-50, 52 Patience 96-97 Patriarcat 61 Perfection en sous-jeux 125-126, Platon 167 Politique environnementale et coopération 52-53 Préférences non transitives 158159, 162-163 Préférences transitives 158, 162 Prêteur en dernier recours 65 Price, George 100-101 Produit (qualité) 149-154 Prolifération 138-139 Publicité comme élément de coordination 62 Publicité comme élément de signalement 153-154, 169 Purification 85-86
R Raisonnement itératif 16-17, 19 Raisonnement rétrograde 10, 92-94, 119, 125 Rationalité 12 Rationalité (applications) 23 Rationalité limitée 21-22 Razin, Ronny 155 Reagan, Ronald 44 Règle de Cope 108 Renégociation 97 Représentation sous forme extensive 121-122, 127,140-141 Réseau (ingénierie) 40-42, 43 Rituels religieux 155-156
T Thaler (jeu de devinettes) 15-22 Thaler, Richard 15 Thatcher, Margaret 45 Théorème d’impossibilité (Arrow) 163-165 Théorie des jeux (évolution) 100-117 Tucker, Albert 33 Types 148-149, 152
V Vote sincère 160
Y Yunus, Muhammad 132-133
175
176