A-t-on trouver la stratégie « imbattable » dans le dilemme du prisonnier répété ?

Le dilemme du prisonnier répété est certainement l’un des jeux parmi les plus étudiés par les théoriciens des jeux. Comme dans tous les jeux répétés, la possibilité de stratégies conditionnelles (c’est à dire qui sont fonction des choix de l’autre joueur lors des périodes précédentes) conduisent à l’existence d’un très grand nombre d’équilibres. L’un des « passe-temps » favoris des théoriciens des jeux depuis Axelrod et ses tournois qui avaient mis en avant la stratégie tit-for-tat (voir ici et ) est d’examiner les stratégies évolutionnairement robustes. L’un des résultats les plus importants est que si certaines stratégies font mieux que d’autres, aucune n’est évolutionnairement stable. Il y a quelques mois, William Press et Freeman Dyson ont publié un article dans lequel ils annoncent avoir découvert une stratégie « ultimatum », c’est à dire une stratégie qui permet à son utilisateur « d’exploiter » son adversaire, c’est à dire de s’assurer un gain correspondant à l’écart entre leur score respectifs.

Le papier est pour le moins complexe mais une présentation de l’idée a été proposé par William Poundstone sur Edge avec un commentaire de Martin Nowak et Karl Sigmund. Brad DeLong vient également tout juste d’en parler sur son blog. Dans le modèle de Press et Dyson, les deux joueurs qui s’affrontent ne sont pas identiques : l’un est un joueur de type adaptatif similaire à ceux que l’on retrouve dans les jeux évolutionnaires classiques. Il utilise la stratégie qui a fonctionné le mieux par le passé suivant une simple heuristique. Le second joueur est plus « intelligent » et ressemble plutôt aux joueurs de la théorie des jeux classiques. Il met en oeuvre la stratégie d’extorsion de Press et Dyson. Dans cette configuration, le joueur utilisant la stratégie d’extorsion va être en mesure de forcer une répartition inégale des gains, dans le sens où il sera optimal pour le joueur évolutionnaire d’accepter cette répartition. Le DP prend en fait alors la forme d’un jeu de l’ultimatum où le joueur intelligent propose d’abord un partage que le joueur évolutionnaire ne peut rationnellement refuser.

Quelques commentaires : sur un plan strictement technique, le résultat de Press et Dyson est totalement nouveau. Les auteurs ont tout simplement découvert une nouvelle classe de stratégies dans le cadre des jeux répétés. Sur un plan plus général, il faut nuancer. Tout d’abord, les stratégies d’extorsion ne fonctionnent que dans un cadre où les joueurs ne sont pas du même niveau de complexité. Sur un plan strictement évolutionnaire, si en raison de son efficacité les stratégies d’extorsion se diffusent dans la population, elles finiront pas se neutraliser, de sorte que d’autres stratégies pourront probablement envahir la population à leur tour. Pour qu’elles se maintiennent, il faudrait imaginer que les interactions se font toujours entre deux joueurs d’un niveau inégal de complexité, l’un intelligent et l’autre seulement adaptatif.  C’est la raison pour laquelle il est trompeur de dire que les stratégies d’extorsion « trompe l’évolution » : la complexité des joueurs est elle-même un produit de l’évolution et si seuls les joueurs les plus complexes peuvent utiliser les stratégies optimales, alors à terme la totalité de la population sera composée de joueurs complexes utilisant les stratégies d’extorsion. Il ne faut pas confondre adaptation/évolution au niveau populationnel (celle du type de joueurs et de stratégies) et adaptation/évolution au niveau individuel (celle de la stratégie des joueurs évolutionnaires). Ce que la découverte de Freeman et Dyson vient surtout nous rappeler, c’est que des individus plus clairvoyants et mieux informés peuvent tirer avantage du manque d’information et de connaissance du reste de la population. De manière un peu surprenante, l’étude de Dyson et Freeman est peut être plus significative pour les philosophes moraux que pour les théoriciens des jeux !

Advertisements

3 Commentaires

Classé dans Non classé

3 réponses à “A-t-on trouver la stratégie « imbattable » dans le dilemme du prisonnier répété ?

  1. Pingback: A-t-on trouver la stratégie “imbattable” dans le dilemme du prisonnier répété ? | Philosophie en France | Scoop.it

  2. Pingback: A-t-on trouvé la stratégie “imbattable” dans le dilemme du prisonnier répété ? | continental philosophy | Scoop.it

  3. Titan

    En lisant votre billet, et sachant que dès le départ, l’un aura l’avantage sur l’autre puisque l’agent évolutionniste acceptera la répartition inégalitaire de l’autre modèle, je me demande quelle utilité a t’on à engager le combat pour savoir qui sera le gagnant? Ou dit plus théoriquement, comment en fixant le gagnant-perdant sur les agents et comme critère de distinction à la phase finale pour les départager , une stratégie pourrait-elle les différencier? C’est plus de la science prédicative que prédictive, non?

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s