Complexité et coopération : la « bulle tit-for-tat » (1/2)

C.H.

La publication en 1981 d’un article co-écrit par le biologiste William Hamilton et le politiste Robert Axelrod intitulé « The Evolution of Cooperation », suivi, trois ans plus tard, de la parution sous le même titre du livre de Robert Axelrod sont deux moments clés dans la chronologie des travaux portant sur l’évolution de la coopération. C’est dans ces deux publications que Robert Axelrod va populariser la règle du « tit-for-tat » (donnant-donnant) en suggérant, simulations informatiques à l’appui, que cette simple règle de réciprocité est évolutionnairement viable et qu’elle permet ainsi l’évolution de la coopération dans le cadre d’un dilemme du prisonnier. Le succès des travaux d’Axelrod a été tel que la plupart des affirmations de ce dernier sur les propriétés du tit-for-tat (TFT) ont été reprises sans discussion critique, à tel point qu’un auteur comme Ken Binmore a pu parler à ce sujet de « tit-for-tat bubble ». Dans ce billet en deux parties, je vais revenir sur cette supposée « bulle » d’une part pour son intérêt intrinsèque, et d’autre part pour les enseignements qu’elle permet de tirer sur les différentes formes de modélisation.

Commençons déjà par donner une définition générique du dilemme du prisonnier, qui est le cadre dans lequel Axelrod a étudié l’évolution de la coopération :

  C D
C R ; R S ; T
D T ; S P ; P

 En définissant les gains tels que T > R > P > S, on obtient le dilemme du prisonnier avec la défection comme stratégie dominante. On ajoute généralement la condition R > (T + S)/2 de façon à rendre la coopération mutuelle préférable à l’exploitation alternée d’un joueur par l’autre dans le cadre d’un dilemme du prisonnier répété.

Dans le DP à un coup, la défection généralisée est le seul résultat possible. Idem si le jeu est répété un nombre fini de fois comme on peut le voir si on raisonne par induction à rebours (à la dernière période, tout le monde fait défection, sachant cela tout le monde fait défection à l’avant-dernière période, etc.). En revanche, si le jeu est répété un nombre indéfini de fois, d’autres stratégies deviennent accessibles aux joueurs. On peut le voir en posant par exemple T = 5, R = 3, P = 1 et S = 0 et avec p la probabilité qu’une itération du jeu soit la dernière (si le jeu est répété un nombre infini de fois, p peut aussi correspondre au facteur d’actualisation des joueurs). Imaginons un joueur qui joue la stratégie conditionnelle suivante (que l’on reverra plus tard sous le nom de GRIM) : « je coopère au début et tant que l’autre coopère je fais de même ; je fais défection pour le reste du jeu si l’autre fait défection ». Un joueur qui fait face à une stratégie GRIM a le choix entre coopérer ou faire défection. Faire défection lui rapporte un gain de

Πd = 5 + p + p²… = 5 + p/(1 – p)

A l’inverse, coopérer rapporte un gain de

Πc = 3 + 3p + 3p²… = 3/(1 – p)

Pour conséquent, face à une stratégie GRIM, un joueur aura intérêt à coopérer si

Πc > Пd soit p > ½

Autrement dit, si la probabilité que le jeu se poursuive une période de plus est supérieur à ½, la coopération est la meilleure réponse face à un joueur qui joue la stratégie GRIM. La stratégie TFT est similaire à la stratégie GRIM, la seule différence étant qu’elle « pardonne » puisqu’elle retourne à la coopération si l’autre joueur se met à coopérer. Le raisonnement est donc peu ou prou le même que précédemment (dans la mesure où R > (T + S)/2) , ce qui signifie que face à un joueur qui utilise TFT, la coopération est la meilleure réponse si p est suffisamment élevé. Ce résultat n’est pas nouveau, même à l’époque ou Hamilton et Axelrod écrivent leur article. Dix ans avant, le biologiste Robert Trivers a avancé le concept « d’altruisme réciproque » à partir du même argument. Trivers a lui-même était largement précédé par les théoriciens des jeux qui, dans les années 50 et 60, ont développé le « folk theorem » (le théorème de tout le monde) qui énonce le principe suivant : dans le cadre d’un jeu répété, si la probabilité que le jeu se répète est suffisamment élevée (ou si les joueurs sont suffisamment patients), il existe une multitude d’équilibres possibles garantissant aux joueurs un gain égal ou supérieur à leurs gains minimax. Une stratégie minimax (à ne pas confondre avec le concept de maximin) est la stratégie qui minimise le gain maximum de l’adversaire. Dans le dilemme du prisonnier, chaque joueur peut empêcher son adversaire d’avoir un gain supérieur à P mais ne peut pas le forcer à avoir un gain inférieur. Si les deux joueurs jouent leur stratégie minimax, le résultat est donc celui qui correspond à la paire de stratégies (P, P). On peut donner une représentation graphique qui contribue à clarifier les choses :

 

Si le jeu n’est joué qu’une seule fois, le seul résultat possible est la défection mutuelle. Si le jeu est répété, l’ensemble des résultats accessibles est compris dans la région ABCD qui correspond à la région « coopérative », dans le sens où ce sont les résultats accessibles dans le cadre d’un jeu coopératif (dans lequel les joueurs peuvent conclure des engagements contraignants). La thèse d’Axelrod n’est donc pas nouvelle sur ce plan. L’innovation d’Axelrod a été de suggérer, à l’aide de simulations informatiques restées célèbres, que la stratégie TFT possède un certain nombre de caractéristiques lui procurant une viabilité et une robustesse particulières. L’histoire des deux « tournois » organisés par Axelrod autour du DP répété est assez connue et je ne la reprendrai pas ici (voir cet article d’Axelrod qui fait le point). On peut juste rappeler qu’Axelrod avait sollicité un grand nombre de chercheurs provenant de multiples disciplines pour qu’ils proposent chacun un programme pour jouer le DP répété dans le cadre d’un tournoi les mettant en compétition. L’idée était de voir quel programme serait le plus performant dans le cadre d’un tournoi où chaque programme jouerait un « match » face à chacun des autres participants. Le premier tournoi comprenait 16 participants et a eu comme vainqueur le programme proposé par Anatol Rapoport, lequel jouait précisément la stratégie TFT. Surpris par ce résultat, Axelrod a organisé un second tournoi ; 63 programmes ont été proposé et c’est à nouveau le programme de Rapoport qui s’est imposé, en dépit de la grande simplicité (relativement à d’autres programmes) de la stratégie qu’il mettait en place. L’ouvrage d’Axelrod paru en 1984 est largement basé sur ce résultat à partir duquel Axelrod à tiré plusieurs conclusions.

Parmi les leçons tirées par Axelrod, il y a d’abord l’idée que la coopération est possible et est surtout mutuellement bénéfique même dans un environnement hostile (il faut savoir que tout le programme de recherche d’Axelrod découlait de son souhait de pacifier les relations est-ouest durant la guerre froide). Une deuxième idée, particulièrement intéressante, est que les résultats de ces simulations peuvent se généraliser à n’importe quel type d’interaction, des interactions cellulaires aux conflits géopolitiques en passant par le comportement des soldats britanniques et allemands dans les tranchées durant la première guerre mondiale. A ce sujet, il est intéressant de noter que dans leur article de 1981, Hamilton et Axelrod en restent à des suggestions d’application au niveau biologique ; ce n’est que dans son ouvrage qu’Axelrod va plus loin dans la généralisation. Troisième idée développée par Axelrod : la supériorité de la stratégie TFT s’expliquerait par le fait qu’elle est « nice, retaliating, forgiving and non-envious » : en clair, c’est une stratégie qui recherche la coopération (au premier coup, le joueur coopère), elle sanctionne la défection de l’autre joueur, elle pardonne la défection en retournant à l’état de coopération si l’autre joueur se remet à coopérer, enfin elle ne cherche pas à exploiter à court termes des opportunités de gains. Axelrod considère que ses travaux démontrent à la fois la viabilité et l’efficacité de ces caractéristiques : l’efficacité est liée au fait qu’elles rendent la coopération possible, la viabilité signifie que ces caractéristiques peuvent évoluer. Pour établir ce dernier point, Axelrod à emprunter à Maynard Smith et Price le concept de stratégie évolutionnairement stable en affirmant que TFT est une stratégie évolutionnairement stable dans le DP répété. Cette affirmation a été à la source d’une grande confusion et est largement à l’origine de la « bulle TFT », ce que l’on verra dans la seconde partie de ce billet, laquelle discutera plus généralement de la manière de rendre compte des mécanismes de réciprocité au-delà du seul TFT.   

Poster un commentaire

Classé dans Non classé

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s