Complexité et coopération : la « bulle tit-for-tat » (2/2)

C.H.

L’affirmation d’Axelrod selon laquelle la stratégie TFT est évolutionnairement stable est particulièrement importante du point de vue de la problématique de l’évolution de la coopération. Pour comprendre pourquoi, il faut revenir rapidement sur le concept de stratégie évolutionnairement stable (SES) tel que définit par Maynard Smith et Price. Selon ces auteurs, une SES est une stratégie x qui, pour n’importe quelle autre stratégie y, satisfait aux deux conditions suivantes :

1)      U(x, x) > U(y,x)

2)      Si U(x, x) = U(y, x), alors U(x, y) > U(y, y)

La condition 1 indique que la stratégie x opposée à elle-même doit faire mieux que n’importe quelle stratégie y opposée à la stratégie x. La condition 2 indique que s’il y a au moins une stratégie y qui fait aussi bien contre x que x contre elle-même, alors il faut que x opposée à y fasse mieux que y opposée à elle-même. Si ces deux conditions sont vérifiées, alors une population composée entièrement d’individus utilisant la stratégie x ne peut pas être envahie par une petite fraction ε d’individus jouant une stratégie y. Puisque une SES est une meilleure réponse face à elle-même, toutes les SES sont des équilibres de Nash mais la réciproque n’est pas vraie ; une fois qu’une population a convergé vers une SES, elle restera dans cet état dans la mesure où le taux de « mutation » est suffisamment faible. Par conséquent, si TFT est une SES, cela signifie qu’une population d’individus utilisant TFT ne peut pas être envahie, permettant ainsi l’évolution de la coopération.

Il semble à première vue que TFT soit bien évolutionnairement stable puisque, comme on l’a vue dans la première partie de ce billet, la meilleure réponse à TFT est la coopération. Cependant, il n’est pas difficile de voir que les choses ne sont pas aussi simples. En effet, une multitude de stratégies font aussi bien contre TFT que TFT contre elle-même. C’est le cas de toutes les stratégies qui coopèrent quand l’autre coopère. Imaginons par exemple une population de TFT dans laquelle apparaissent quelques mutants coopérant de manière inconditionnelle. On voit que ni la condition 1 ni la condition 2 ne sont satisfaites puisque les deux stratégies vont strictement réaliser les mêmes gains. Conséquence, la coopération inconditionnelle va progressivement pouvoir se répandre. Imaginons maintenant l’apparition d’un second mutant faisant défection de manière inconditionnelle. Face à une population entièrement composée de TFT, la défection inconditionnelle ne peut envahir (cf. condition 1) ; mais si la proportion p de coopérateurs inconditionnels dans la population devient suffisamment élevée, alors la défection inconditionnelle va commencer à être rentable, pour éventuellement rapporter plus que TFT. Il en découle alors que la défection inconditionnelle, sans pour autant envahir la population, va atteindre une proportion significative. En fait, il apparait que dès lors que l’on autorise les mutations et que l’on ne restreint pas arbitrairement l’ensemble de stratégies disponibles, TFT n’est pas évolutionnairement stable, pas plus qu’aucune autre stratégie d’ailleurs.

Plusieurs travaux utilisant des simulations ont confirmé que le processus d’évolution dans le cadre du DP répété ne débouchait jamais sur une population monomorphique. Autrement dit, les simulations ne convergent jamais vers un état avec une seule stratégie ; plusieurs stratégies coexistent toujours à l’équilibre, induisant des taux de coopération plus ou moins élevés. Ces travaux reposent tous sur des modèles fonctionnant à partir d’automates finis, appelés aussi « machines de Moore » dans le cadre de jeux répétés. Une machine de Moore est tout simplement un algorithme générant une réponse (un output) en fonction des informations (des inputs) à disposition. Dans le cas le plus simple, l’input correspond à la stratégie utilisée par l’adversaire au coup précédent. Le nombre d’automates différents dans le cadre du DP répété est infini. Les plus simples sont les automates à un seul état, c’est-à-dire qui ne peuvent jouer qu’une seule et même stratégie. En l’occurrence, il y en deux : la coopération inconditionnelle et la défection inconditionnelle. Il existe par ailleurs 24 automates à deux états, dont font partis GRIM et TFT. On peut utiliser une représentation graphique pour décrire les différents automates. Un automate jouant GRIM sera décrit ainsi :

Le schéma se lit de la manière suivante : le premier cercle indique que l’automate débute dans un état de coopération. La flèche au-dessus indique que tant que l’adversaire coopère, l’automate reste dans l’état de coopération. La flèche qui lie les deux ronds indiquent qu’à partir du moment où l’adversaire fait défection, alors l’automate passe dans un état de défection dont il ne sort jamais, comme l’indique la flèche au dessus du second rond. Dans la même logique, on peut décrire la stratégie TFT ainsi :

On voit que TFT se différencie de GRIM par le fait qu’elle « pardonne » on revenant à un état de coopération si l’adversaire se remet à coopérer. Il est pour ainsi dire impossible d’étudier de manière analytique les propriétés d’un système où interagissent plus de deux stratégies, ce qui rend nécessaires le recours à des simulations. La difficulté de ces simulations est de savoir quand les arrêter, c’est-à-dire à partir de quel nombre de périodes peut-on considérer que l’état du système est stable. La question est cruciale car bien qu’Axelrod ait développé par la suite plusieurs simulations en utilisant la technique des algorithmes génétiques pour simuler les mécanismes de mutation au sein d’une population, ses résultats (montrant à nouveau la domination de TFT) ont été contesté au motif que les simulations s’arrêtaient à un état non stable. Dans la plupart des simulations conduites par les chercheurs s’intéressant au sujet, il apparait qu’un mix comprenant les stratégies GRIM et TFT ainsi que d’autres stratégies de coopération conditionnelles émerge au bout d’un certain temps. Il en ressort deux résultats intéressants : d’une part, la composition spécifique de la population est très dépendante des conditions de départ et des paramètres de la simulation ; d’autre part, TFT n’est jamais la stratégie dominante, le trophée revenant le plus souvent à la stratégie GRIM. Bref, ces travaux indiquent qu’il est peu probable que TFT soit le moyen principal par le biais duquel la coopération ait évolué.

Un second problème apparait concernant la viabilité de la stratégie TFT si l’on rend possible l’occurrence de « trembles », c’est-à-dire d’erreurs. Imaginez deux joueurs qui s’affrontent en utilisant TFT et posons q > 0 la probabilité qu’un joueur joue l’action inverse de celle préconisée par sa stratégie. Normalement, deux joueurs utilisant TFT doivent en permanence coopérer mais puisque q > 0, il est probable qu’un joueur fasse défection par erreur avant la fin du jeu. Cela va alors amorcer un cycle où chaque joueur va à tour de rôle exploiter l’autre puisque les deux joueurs vont alterner de manière désynchronisée entre la défection et la coopération. Par conséquent, TFT ne peut plus être considérée comme favorable à l’évolution de la coopération. C’est alors que des stratégies plus complexes peuvent avoir un avantage. Par exemple, la stratégie « tit-for-two-tat » (TFTT) est une stratégie plus tolérante que TFT :

TFTT a l’avantage d’être plus efficace que TFT en cas de probabilité non nulle d’erreur, mais elle a pour inconvénient d’être davantage exploitable par des stratégies agressives. Tout ce qui a été dit jusqu’ici montre en tout cas à quel point les résultats issus de simulations doivent être maniés avec précautions. Au contraire des modèles résolus de manière analytique et dont le lien entre hypothèses du modèle et résultats est non ambigu, les simulations donnent des résultats extrêmement dépendants des caractéristiques du modèle sous-jacent et des paramètres de départ, à un point tel qu’il est souvent difficile de savoir si le résultat est strictement la conséquence des caractéristiques du modèle où s’il est généralisable.

La « bulle TFT » a eu par ailleurs pour conséquence de conduire les chercheurs à ne s’intéresser à l’évolution de la coopération que par le biais de la réciprocité directe, c’est-à-dire où les deux mêmes individus interagissent de manière répétée. En fait, si la réciprocité est un mécanisme ayant favorisé l’évolution de la coopération, c’est aussi et surtout par le biais de la réciprocité indirecte, c’est-à-dire lorsque les membres d’une population interagissent de manière répétée mais sans jamais rencontrer le même adversaire à chaque itération. Il s’avère que le folk theorem fonctionne tout aussi bien dans ce cadre : prenez trois individus A, B et C ; à chaque période, deux individus sont sélectionnés au hasard pour jouer au DP. Il est facile de voir qu’une stratégie comme TFT ou GRIM débouche sur un équilibre : si A et B utilisent GRIM, alors C à intérêt à coopérer. En effet, s’il fait défection contre A, alors A fera défection dans les futures interactions, ce qui amènera B à son tour à faire défection. Les biologistes et les économistes ont développé différents modèles de « good-standing » montrant comment l’effet de réputation permet de maintenir la coopération (voir ici ou ). Une stratégie de type « je coopère si mon adversaire à une bonne réputation, je fais défection dans le cas contraire » et où la bonne réputation est acquise en ne faisant pas défection face à quelqu’un qui a bonne réputation peut en effet constituer un équilibre.

Les divers folk theorem démontrant l’efficacité des mécanismes de réciprocité indirecte ont toutefois deux limites : d’une part, ils tendent à rendre nécessaire la possession par les individus de capacités cognitives développées afin de pouvoir discriminer les « tricheurs » des « honnêtes ». La plupart du temps, il va falloir que les joueurs possèdent une mémoire suffisante pour se rappeler des résultats des interactions précédentes. Ces contraintes cognitives font que des biologistes tels que Peter Hammerstein estiment que la réciprocité indirecte joue un rôle marginal chez les animaux. D’autre part, même au niveau des populations humaines, les mécanismes de réciprocité indirecte sont limités parce qu’ils nécessitent que des conditions exigeantes en termes d’information soient satisfaites. Pour être clair, la réciprocité indirecte peut permettre l’évolution de la coopération s’il existe des dispositifs rendant public le statut des individus (« honnête » ou « tricheur »). Dans le cas contraire, si l’information reste essentiellement privée, la coopération a peu de chance d’évoluer. Ce récent article de Peter Vanderschraaf fait la démonstration de ce dernier point.

Ces dernières considérations indiquent que si la réciprocité (directe et indirecte) a été un facteur dans l’évolution de la coopération, d’autres mécanismes ont nécessairement joué un grand rôle, à commencer par la sélection de parentèle et éventuellement (au moins au niveau culturel) la sélection de groupe. 

Advertisements

Poster un commentaire

Classé dans Non classé

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s