Paradoxe(s) de la rationalité, raisonnements pratiques et théorie des jeux

C.H.

La théorie des jeux est pleine d’intéressants paradoxes, notamment lorsque l’on s’intéresse aux jeux dynamiques. Ces paradoxes sont souvent donnés en exemple pour suggérer qu’il y a un problème avec la théorie des jeux, et plus particulièrement avec l’hypothèse de rationalité « parfaite » des agents, c’est-à-dire le fait que les choix des agents sont cohérents et qu’ils maximisent leur utilité espérée.

En voici quelques exemples afin de donner une intuition du problème. Le paradoxe le plus connu est celui du jeu du mille-pattes (« centipede game »). Soit deux joueurs, Bob et John, qui à tour de rôle ont le choix entre continuer le jeu en ajoutant une somme S dans un pot commun initialement doté d’une somme de X, ou bien ne pas rajouter d’argent et arrêter le jeu en prenant ce qu’il y a dans le pot, soit X + nS avec n le nombre de fois où le pot a été alimenté. Les joueurs savent qu’au bout d’un certain nombre de coups n*, le jeu s’arrête et chacun gagne (X + n*S)/2. Admettons que Bob joue le dernier coup. Quel va être son raisonnement : s’il choisit d’alimenter le pot au dernier coup, il sait alors qu’il gagnera (X + n*S)/2 ; s’il choisit d’arrêter le jeu, il gagne X + (n*-1)S. Il est clair que à partir du moment où S est positif et que n* > 2 et que Bob est rationnel, il choisira d’arrêter le jeu. Comment John va-t-il alors raisonner, si on fait l’hypothèse qu’il est rationnel et qu’il sait que Bob est rationnel ? Si John sait que Bob est rationnel, il connait le raisonnement de Bob présenté ci-dessus et donc il sait que Bob arrêtera le jeu au dernier coup. John a donc le choix entre continuer le jeu et donc gagner 0 ou bien arrêter et gagner X + (n*-2)S. Clairement, il choisira la seconde option si S > 0 et n* > 2. Mais si Bob sait que John est rationnel, alors il fait également ce raisonnement et au coup n*-3, il décide d’arrêter le jeu. Ce raisonnement conduit le joueur jouant en premier à décider d’arrêter le jeu au coup n = 1 pour gagner X, même si X est à peine supérieur à 0. Notons que le raisonnement reste le même, même si le perdant (celui qui subit l’arrêt du jeu par son adversaire) a un gain positif (il faut juste que ce gain soit inférieur à celui qu’il retire en arrêtant le jeu).

Ce résultat est largement contre-intuitif et, d’ailleurs, il n’est pas retrouvé lorsque l’on fait jouer ce jeu à de vrais joueurs. Plus contre-intuitif encore est le résultat du jeu connu sous le nom de « dilemme du voyageur » proposé par Kaushik Basu. L’histoire est la suivante : une compagnie aérienne a égaré les valises de deux voyageurs dans lesquelles se trouvait exactement le même contenu. Afin de déterminer le montant de l’indemnisation, le responsable de la compagnie demande à chaque voyageur de formuler indépendamment une demande d’indemnisation comprise en 2 et 100 euros. Il précise la clause suivante : si les deux voyageurs demandent la même somme, le responsable considérera qu’il s’agit de la vraie valeur du contenu de la valise et versera cette somme aux deux voyageurs. Si les deux voyageurs i et j demandent respectivement x et y avec x > y, alors j recevra y + 2 euros et i recevra y – 2 euros. Dans l’hypothèse où chaque voyageur est rationnel et que chacun sait que l’autre est rationnel, quelle somme un voyageur doit-il demander ?

Une rapide réflexion nous indique que chaque voyageur ne peut demander mieux que 2 euros. En effet, considérons le voyageur A qui envisage de demander 100 euros en anticipant que B va faire de même. Il s’aperçoit toutefois qu’en demandant 99 euros ; il gagnera en vertu des règles du jeu la somme plus élevée de 99 + 2 = 101 euros, tandis que B ne touchera plus que 99 – 2 = 97 euros. Mais comme A sait que B est rationnel, il se dit alors que B, en raisonnant de la même manière, va demander 98 euros, puisqu’il gagnera alors 100 euros, A ne gagnant plus que 96 euros. A a alors intérêt à demander 97 euros, puisque son gain sera alors de 99 et celui de B de 95, mais donc B va demander 96 etc. Ce raisonnement mène inexorablement chaque joueur à ne demander que 2 euros.

Le résultat du dilemme du voyageur est contre-intuitif et parait peu plausible. Une manière de retrouver un résultat plus intuitif dans ce jeu ainsi que dans celui du mille-pattes serait de faire l’hypothèse que les joueurs sont partiellement altruistes et qu’ils accordent une certaine valeur aux gains de l’autre joueur. Mais cette solution n’est pas satisfaisante car elle revient à changer le jeu et ne résout donc pas le paradoxe qui est que, dans les deux jeux tels qu’ils sont décrits, on ne s’attend pas aux résultats qui sont logiquement déduits. Une autre solution est suggérée par Basu lui-même, en ce qui concerne le dilemme du voyageur en tout cas : elle consiste à supposer que les joueurs ne sont pas capables de définir précisément les offres qui peuvent être formulées, autrement dit que l’ensemble de stratégies disponible est mal définit. Par exemple, plutôt que de se dire « John va réclamer 100 euros », Bob se dira « John va réclamer une somme élevée », sans qu’il soit capable de définir précisément le montant de cette somme. Admettons par exemple que pour Bob la stratégie « demander une somme élevée » soit l’ensemble des offres allant de 90 à 100 euros, alors il devient évident que si Bob pense que John va demander une somme élevée, alors il a tout intérêt à faire de même : demander 89 euros n’a par exemple plus aucune justification puisque John peut très bien demander 95 ou 99 euros, auquel cas Bob devrait demander 94 ou 98 euros. Si les deux joueurs se représentent le jeu de la sorte, alors il est clair que « demander une somme élevée » est un équilibre de Nash doté d’une saillance particulière.

Un raisonnement similaire doit pouvoir s’appliquer au jeu du mille-pattes, notamment dans le cas où S est positif mais petit. Une solution plus radicale est toutefois envisageable. Dans les deux jeux, il est évident que les résultats contre-intuitifs ne sont pas le produit de l’hypothèse de rationalité en tant que telle, mais plutôt de celle de connaissance commune de la rationalité (common knowledge of rationality – CKR). Une proposition P est common knowledge si :

(a)    Chacun connait P

(b)   Chacun connait (a)

(c)    Chacun connait (b)

(d)   Chacun connait (c) et ad infinitum

L’hypothèse de connaissance commune de la rationalité est généralement considérée comme acquise. De fait, elle est nécessaire (mais non suffisante) pour affirmer que les joueurs joueront un équilibre de Nash puisqu’elle permet d’éliminer les stratégies strictement dominées. Toutefois, il est bien connu qu’elle pose tout un ensemble de difficultés et génère notamment les paradoxes mentionnés. Dans le cadre des jeux séquentiels comme le jeu du mille-pattes, elle conduit par exemple les joueurs à raisonner à rebours (en partant de la fin du jeu) et à définir ce qu’ils feraient à des nœuds qui ne peuvent pas être atteints par définition si la rationalité est connaissance commune.

Il peut être intéressant alors de faire ce que les théoriciens des jeux ne font généralement pas : ne pas faire de la connaissance commune de la rationalité une hypothèse mais un résultat. Autrement dit, faire de la CKR non pas une primitive mais un évènement. Ce qui est ironique, c’est que le fondateur du concept de common knowledge, le philosophe David Lewis, a justement dans ce sens entrepris de définir les conditions permettant la connaissance commune d’une propriété. L’analyse de Lewis concernant cette question tient en quelques pages et consiste à définir quel type d’évènement peut générer des croyances d’ordre élevé ou infini du genre « je sais que tu sais que je sais… ». Selon Lewis, évènement E peut engendrer la connaissance commune d’une proposition P entre deux individus X et Y s’il satisfait trois conditions :

1)      X et Y ont une raison de croire que E est effectif

2)      E indique à X et Y que X et Y ont une raison de croire que E est effectif

3)      E indique P à X et Y

Prenons un exemple : imaginons deux individus (Bob et John toujours) qui viennent de se parler au téléphone pour convenir de se retrouver dans 30 minutes à un endroit précis. Appelons cela l’évènement E. Clairement, les deux individus ont des raisons de croire que E s’est produit. Le fait que E se soit produit donne une bonne raison à chacun de croire que l’autre a conscience de E : si Bob a parlé avec John au téléphone, Bob a de bonnes raisons de penser que John sait qu’il a parlé avec Bob au téléphone. Par conséquent, si lors de leur conversation Bob et John ont convenu de la proposition P (on se retrouve dans 30 minutes à n endroit précis), Bob a de bonnes raisons de penser que John va suivre P, que John a de bonnes raisons de penser que Bob va suivre P, que John a de bonnes de penser que Bob a de bonnes raison de penser que John va suivre P etc. Bref, P devient connaissance commune.

Il est important de noter que les prémisses 1), 2) et 3) ne suffisent pas en elle-même à rendre P connaissance commune. L’expression « raison de croire » n’est pas innocente : elle indique explicitement que les individus raisonnent de manière inductive. Notamment, dans notre exemple, E n’implique nullement de manière logique que chacun va tenir compte de la conversation et donc suivre P. Le passage de E à P est uniquement raisonnable d’un point de vue inductif, mais ne peut en rien être déduit logiquement. De manière plus générale, la seconde condition donnée par Lewis est irréductible aux caractéristiques des individus eux-mêmes et ne peut se comprendre qu’une fois que l’on resitue l’interaction dans le contexte culturel et institutionnel au sein duquel elle se déroule.

Cela nous indique que la rationalité des joueurs, au même titre que n’importe quelle autre caractéristique d’une interaction (les stratégies disponibles, les gains), ne peut être connaissance commune que dans des conditions bien particulières dont il importe de déterminer si elles sont réunies. Il est évident que l’hypothèse de CKR ne peut se justifier que dans des cadres très restrictifs, comme par exemple une rencontre entre deux grands maitres d’échecs lors d’un tournoi. Autrement dit, la CKR est notamment le produit du contexte institutionnel. Pour autant, dans les nombreux cas où les conditions ne permettent pas la CKR, nous ne faisons pas pour autant n’importe quoi. En fait, dans la plupart des cas, les individus adoptent un raisonnement pratique consistant à inférer inductivement ce que les autres vont faire en considérant comme connaissance commune certaines caractéristiques (autres que la rationalité) de l’interaction.

Imaginons que je réfléchisse à une heure à laquelle partir au travail le matin de manière à éviter la circulation. La plupart du temps, je vais me baser sur une inférence inductive basique : le trafic aux différentes heures sera le même ce matin que celui des jours précédents. Cette inférence n’a aucune validité logique, il s’agit juste d’une règle heuristique qui fonctionne plus ou moins bien et dont la validité est basée sur la prémisse qu’il est connaissance commune que tout le monde continuera à partir à la même heure. Elle est basée sur un raisonnement de type « j’ai de bonnes raisons de penser que… ». Plus généralement, le phénomène de saillance décrit par Schelling repose sur le même type de raisonnement pratique. Ce raisonnement est de la forme : « x me semble évident (saillant), donc j’ai de bonnes raison de penser que x semble évident aux autres, donc j’ai de bonnes raisons de penser que les autres ont de bonnes raisons de penser que x me semble évident, etc. ». Revenons sur notre exemple du dilemme du voyageur. Il semble évident que le raisonnement à rebours est absurde et ne correspond pas à la manière dont les individus raisonnent en pratique dans ce genre de situation. On peut imaginer que suivant le contexte précis dans lequel se déroule l’interaction, chacun des voyageurs peut adopter une grande variété de raisonnements pratiques non seulement sur ce que l’autre va demander, mais surtout sur la manière dont l’autre va raisonner. Par exemple, il est possible que Bob et John aient chacun de bonnes raisons de penser que chacun estime la valeur v du bagage compris dans l’intervalle [v – x ; v + x] auquel cas l’intervalle devient un point focal dans le sens où il devient raisonnable de penser que l’autre ne fera pas une demande inférieure à cet intervalle. Evidemment, il n’est plus question ici d’une quelconque connaissance commune de la rationalité.

Abandonner l’hypothèse de CKR a un coût : la théorie des jeux perd tout pouvoir prédictif puisque un raisonnement pratique n’est subordonné à aucun validité logique. Tout au plus peut-on conjecturer que certains raisonnements ont moins de chance que d’autres de survivre en raison de leurs insuffisances. En même temps, l’indétermination était déjà un problème pour la théorie des jeux même avec l’hypothèse de CKR. D’un autre côté, si la théorie des jeux se veut être une théorie positive de la manière dont les individus se comportent dans des interactions stratégiques, il semble indispensable de partir de la manière dont ils raisonnent. C’est clairement dans ce sens que tant Lewis que Schelling envisageaient l’utilisation de cet outil. Fondamentalement, la perspective à la Lewis/Schelling amène le théoricien à réfléchir au jeu auquel joue réellement les agents. Notamment, s’il y a toujours des éléments qui sont connaissance commune dans une interaction stratégique, il importe d’être en mesure de déterminer quels sont ces éléments. La conséquence est que le jeu n’est alors plus auto-suffisant, dans le sens où son étude va nécessiter de tenir compte de caractéristiques qui ne sont pas formellement définies… à moins  de trouver un moyen de les intégrer dans le cadre formel.

Quoiqu’il en soit, mon sentiment est que si la théorie des jeux est un outil que doivent s’approprier tous les chercheurs en sciences sociales (ce que je crois), c’est dans cette perspective là qu’elle a le plus de chance d’être acceptée. Une fois que l’on abandonne l’hypothèse de CKR ainsi que celle indiquant que les joueurs ont des croyances communes sur la manière dont le jeu est joué, tant la manière dont les joueurs raisonnent que la manière dont ils forment leurs croyances deviennent des questions auxquelles les sociologues ou les socio-psychologues ont certainement des réponses à apporter.

Advertisements

1 commentaire

Classé dans Non classé

Une réponse à “Paradoxe(s) de la rationalité, raisonnements pratiques et théorie des jeux

  1. fatemeh

    bonjour, il me semble que Jon Foster fourni quelque éléments de réponse à l’essaie de D. Davidson sur les causes de l’akrasie . Davidson étudie l’akrasie de point de vu logique déductif or ….Il me semble que il complète sa propre conférence sur matrise de soi au CDF.

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s