Archives de Tag: dilemme du prisonnier

Maximisation et Pareto-optimalité

Le philosophe David Gauthier vient de publier dans la revue (librement accessible) Rationality, Markets and Morals un article intitulé « Achieving Pareto-Optimality: Invisible Hands, Social Contracts, and Rational Deliberation » dans lequel il revient sur l’opposition en économie (et en particulier en théorie des jeux) entre optimisation et maximisation. Cette opposition était déjà au cœur de la théorie de la justice de Gauthier, dont j’ai parlé ici. Sur la base du dilemme du prisonnier, Gauthier part du fait que les comportements maximisateurs des agents (au sens maximisation de l’utilité espérée) ne débouchent pas nécessairement sur un résultat optimal au sens de Pareto :

     

B

 
   

Construire

 

Ne pas construire

 

Construire

3/4 ; 3/4

 

0 ; 1

A

       
 

Ne pas construire

1 ; 0

 

1/4 ; 1/4

Gauthier défend l’idée dans son article que la rationalité pratique doit, dans ce type de reconfiguration, recommander aux joueurs de coopérer (« construire »), ce qu’il appelle la « condition P-O ». Comme la théorie standard de la rationalité fait une recommandation contraire, elle doit être rejetée :

The orthodox theory of practical rationality, embraced by economists and theorists of rational choice, must treat cooperation as in itself irrational. But everyone may expect to benefit from cooperative interaction. The orthodox theory is therefore mistaken. It should be superceded by a theory based on Pareto-optimality and cooperation (p. 196).

En clair, Gauthier considère que la théorie de la rationalité dans un contexte d’interaction stratégique doit être fondée sur le critère de Pareto et non sur celui de la maximisation de l’utilité espérée, parce qu’il débouche sur une disposition à la coopération dont « tout le monde peut s’attendre à bénéficier ». Il est important de noter que l’argument de Gauthier porte sur les modes de raisonnement des agents dans un jeu. A ce titre, il semble très proche de l’approche développée par Michael Bacharach dans le cadre de ce que ce dernier appelle le « raisonnement en Mode-P » et qui se décline de la manière suivante :

P1. Le joueur i ordonne tous les profils stratégiques (combinaisons de stratégies) s sur la base du critère de Pareto.

P2. Le joueur i considère qu’il a une raison valable de jouer la stratégie constitutive du profil le mieux classé.

Un joueur qui adopte un raisonnement en mode-P dans le cadre du dilemme du prisonnier peut être amené ainsi à coopérer. C’est toutefois une condition non-suffisante : dans le dilemme du prisonnier, les profils stratégiques où un joueur coopère et l’autre ne coopère pas sont également optimaux au sens de Pareto ! Pour que la coopération mutuelle soit l’unique résultat recommandé par une théorie de la rationalité pratique, il faut compléter le raisonnement en Mode-P d’une règle de transformation des gains des joueurs. La règle utilitariste consistant à définir une fonction d’utilité collective comme la somme des utilités individuelles est une possibilité. Dans ce cas, la coopération mutuelle est optimale. Mais cela suppose 1) que les agents s’accordent sur une fonction d’utilité unique U représentant un ordre de préférences commun à tous les joueurs et 2) que les agents raisonnent à partir de cet ordre commun et que cela est connaissance commune. La définition d’une fonction d’utilité collective U et le fait qu’un joueur prenne ses décisions à partir de cette dernière correspond à ce que l’on peut appeler un raisonnement collectif. Le fait que les joueurs adoptent ce raisonnement collectif et le fait que cela soit connaissance commune est une condition suffisante pour garantir la coopération dans le dilemme du prisonnier.*

Gauthier rejette toutefois l’idée que la coopération repose sur l’identification d’un « bien commun » ou d’une utilité collective : « cooperation does not require any common good, or sense of common purpose, beyond the demand that each cooperator benefit in his own terms » (p. 197). Le problème à ce stade est qu’il lui est alors impossible d’expliquer pourquoi la coopération mutuelle serait rationnelle dans le dilemme du prisonnier, sauf à poser de manière artificielle un principe de symétrie selon lequel si le raisonnement d’un joueur l’amène à coopérer, alors l’autre joueur utilisant le même raisonnement doit arriver à la même conclusion. Le problème, bien sûr, c’est que la théorie de Gauthier ne recommande précisément pas aux joueurs de nécessairement coopérer !

Une autre difficulté à laquelle est confrontée l’argumentation de Gauthier est que sa condition P-O va, dans le cadre du dilemme du prisonnier, à l’encontre du principe de dominance. En effet, autant le principe de maximisation de l’utilité espérée dans le cadre d’interactions stratégiques peut être discutés, autant rejeter le principe de dominance semble excessif. En clair, la théorie de la rationalité défendue par Gauthier recommande aux joueurs de jouer des stratégies strictement dominées, ce qui semble contraire à tout principe de rationalité minimum. Ici encore, pour donner un fondement à cette recommandation, il me semble inévitable de poser l’existence de préférences collectives attribuées au groupe de joueurs, et non aux joueurs eux-mêmes. La seule autre possibilité serait la suivante : faire l’hypothèse que les modes de raisonnement des joueurs sont corrélés. Autrement dit si moi, joueur i, je raisonne selon la théorie de Gauthier (j’agi selon la condition P-O), ce fait devrait m’indiquer avec certitude que le joueur j raisonne de la même manière. Mais ce n’est rien de plus qu’une variante de la « pensée magique » qui consiste, dans le cadre d’interactions stratégiques, à faire l’hypothèse que les actions et les croyances des autres joueurs sont causalement déterminées par mes croyances et mes actions. Ici, il est intéressant d’ailleurs de noter que l’on peut inverser le raisonnement de Gauthier : ce dernier pose que le contrat social est fondé sur le fait que les joueurs raisonneraient de la manière dont le recommande Gauthier. On peut penser au contraire que le mode de raisonnement proposé par Gauthier n’est possible et rationnel que dans une société où un « contrat social » ayant institutionnalisé la coopération est déjà solidement ancré !

* Dans ce papier, je montre que la clause de la connaissance commune du raisonnement collectif n’est pas nécessaire, ainsi que l’accord explicite autour d’une fonction U. Il suffit que les joueurs aient connaissance commune du fait qu’ils ont un intérêt commun à coopérer pour que leur coopération puisse être représentée par une fonction d’utilité collective utilitariste. Toutefois, une condition préalable est que les joueurs s’identifient à un groupe et raisonnent explicitement du point de vue de ce groupe, condition que ne pose pas Gauthier.

Poster un commentaire

Classé dans Non classé

A-t-on trouver la stratégie « imbattable » dans le dilemme du prisonnier répété ?

Le dilemme du prisonnier répété est certainement l’un des jeux parmi les plus étudiés par les théoriciens des jeux. Comme dans tous les jeux répétés, la possibilité de stratégies conditionnelles (c’est à dire qui sont fonction des choix de l’autre joueur lors des périodes précédentes) conduisent à l’existence d’un très grand nombre d’équilibres. L’un des « passe-temps » favoris des théoriciens des jeux depuis Axelrod et ses tournois qui avaient mis en avant la stratégie tit-for-tat (voir ici et ) est d’examiner les stratégies évolutionnairement robustes. L’un des résultats les plus importants est que si certaines stratégies font mieux que d’autres, aucune n’est évolutionnairement stable. Il y a quelques mois, William Press et Freeman Dyson ont publié un article dans lequel ils annoncent avoir découvert une stratégie « ultimatum », c’est à dire une stratégie qui permet à son utilisateur « d’exploiter » son adversaire, c’est à dire de s’assurer un gain correspondant à l’écart entre leur score respectifs.

Le papier est pour le moins complexe mais une présentation de l’idée a été proposé par William Poundstone sur Edge avec un commentaire de Martin Nowak et Karl Sigmund. Brad DeLong vient également tout juste d’en parler sur son blog. Dans le modèle de Press et Dyson, les deux joueurs qui s’affrontent ne sont pas identiques : l’un est un joueur de type adaptatif similaire à ceux que l’on retrouve dans les jeux évolutionnaires classiques. Il utilise la stratégie qui a fonctionné le mieux par le passé suivant une simple heuristique. Le second joueur est plus « intelligent » et ressemble plutôt aux joueurs de la théorie des jeux classiques. Il met en oeuvre la stratégie d’extorsion de Press et Dyson. Dans cette configuration, le joueur utilisant la stratégie d’extorsion va être en mesure de forcer une répartition inégale des gains, dans le sens où il sera optimal pour le joueur évolutionnaire d’accepter cette répartition. Le DP prend en fait alors la forme d’un jeu de l’ultimatum où le joueur intelligent propose d’abord un partage que le joueur évolutionnaire ne peut rationnellement refuser.

Quelques commentaires : sur un plan strictement technique, le résultat de Press et Dyson est totalement nouveau. Les auteurs ont tout simplement découvert une nouvelle classe de stratégies dans le cadre des jeux répétés. Sur un plan plus général, il faut nuancer. Tout d’abord, les stratégies d’extorsion ne fonctionnent que dans un cadre où les joueurs ne sont pas du même niveau de complexité. Sur un plan strictement évolutionnaire, si en raison de son efficacité les stratégies d’extorsion se diffusent dans la population, elles finiront pas se neutraliser, de sorte que d’autres stratégies pourront probablement envahir la population à leur tour. Pour qu’elles se maintiennent, il faudrait imaginer que les interactions se font toujours entre deux joueurs d’un niveau inégal de complexité, l’un intelligent et l’autre seulement adaptatif.  C’est la raison pour laquelle il est trompeur de dire que les stratégies d’extorsion « trompe l’évolution » : la complexité des joueurs est elle-même un produit de l’évolution et si seuls les joueurs les plus complexes peuvent utiliser les stratégies optimales, alors à terme la totalité de la population sera composée de joueurs complexes utilisant les stratégies d’extorsion. Il ne faut pas confondre adaptation/évolution au niveau populationnel (celle du type de joueurs et de stratégies) et adaptation/évolution au niveau individuel (celle de la stratégie des joueurs évolutionnaires). Ce que la découverte de Freeman et Dyson vient surtout nous rappeler, c’est que des individus plus clairvoyants et mieux informés peuvent tirer avantage du manque d’information et de connaissance du reste de la population. De manière un peu surprenante, l’étude de Dyson et Freeman est peut être plus significative pour les philosophes moraux que pour les théoriciens des jeux !

3 Commentaires

Classé dans Non classé