Conceptualiser l’individu comme un méta programme : Binmore et « l’homme-machine » (1/3)

C.H.

J’ai achevé la lecture d’un article en deux parties de Ken Binmore paru en 1987, « Modeling Rational Player » (encore merci au lecteur qui me les a envoyé). Il s’agit de 80 pages denses et complexes qui proposent une nouvelle manière de conceptualiser l’individu dans le cadre de la théorie des jeux. Si je discute de ce papier, c’est parce qu’il est d’une part symptomatique de l’orientation prise par la science économique depuis 30 ans (orientation que certains déploreront, mais pas moi) et aussi parce qu’il aborde des thèmes essentiels relatifs à la perspective évolutionnaire en économie.

La réflexion de Binmore s’inscrit dans un contexte bien particulier : celui de « l’impasse » programmatique dans laquelle la théorie des jeux se trouvait à la fin des années 80 concernant l’entreprise théorique et axiomatique du raffinement du concept d’équilibre. Les théoriciens des jeux se posent depuis longtemps la question de la pertinence du concept d’équilibre de Nash dont la « rationalité » n’est évidente qu’en présence d’une stratégie strictement dominante. La situation est particulièrement sensible en situation d’information incomplète/imparfaite où l’action d’un joueur est susceptible de contenir des informations pour les autres joueurs. On peut facilement citer de mémoire une demi-douzaine de concepts d’équilibre se voulant plus restrictif que l’équilibre de Nash : équilibre parfait en sous-jeux, équilibre avec « main tremblante », équilibre parfait, équilibre séquentiel, etc. Aucun d’eux n’est totalement satisfaisant et incontestable.  Cette difficulté est indissociable des limites de l’hypothèse de common knowledge sur la rationalité des joueurs qui est traditionnellement faite en théorie des jeux classique (que Binmore appelle « eductive », j’y reviens plus bas). Dans un jeu séquentiel, un équilibre spécifie les actions des joueurs hors du sentier d’équilibre, autrement dit leurs décisions concernant une situation qu’ils ne devraient normalement jamais rencontrer si les autres joueurs sont rationnels. Les jeux séquentiels, et notamment la méthode de l’induction à rebours, reposent ainsi sur une idée étrange : les joueurs prévoient des stratégies pour des situations par principe impossibles (c’est-à-dire un nœud non atteignable dans un arbre) et, si jamais cette situation devait se rencontrer, ces mêmes joueurs n’infèrent aucune information de cette déviation « irrationnelle ». C’est l’idée sous-jacente au concept d’équilibre avec main tremblante de Selten : les déviations du sentier d’équilibre sont considérées comme des erreurs aléatoires ; un équilibre avec main tremblante est un équilibre lorsque la probabilité des ces erreurs tend vers 0. Or, en prenant l’exemple des échecs, Binmore considère qu’il s’agit d’une solution insatisfaisante : si lors d’une partie d’échecs vous atteignez un nœud (une position) a priori hors équilibre parce que votre concurrent a joué des coups irrationnels, vous allez avoir tendance à inférer que ses erreurs ne sont pas aléatoires mais bien systématiques et, donc, adapter votre stratégie future en conséquence.

Un autre exemple un peu plus complexe permet de prolonger la réflexion. Soit le jeu séquentiel suivant :

  

Nous somme ici dans une situation d’information imparfaite. Le joueur 1 (en rouge), s’il décide de joueur « D », ne peut observer la décision du joueur 2 (en bleu) au nœud y. Cela est symbolisé par les traits en pointillés qui relient les deux nœuds z et qui indiquent qu’il s’agit d’un seul et même ensemble d’informations. Ce jeu a plusieurs équilibres séquentiels (c’est-à-dire un ensemble de stratégies associé à un profil de croyances pour chaque joueur, les deux devant être mutuellement consistants). Ici, le profil stratégique [(A, R), r] est un équilibre séquentiel si le joueur 1 croit que le joueur 2 jouera r avec une probabilité de 1 au nœud y. Si les croyances sont inverses (le joueur 1 croit que le joueur 2 jouera l avec une probabilité de 1), le profil stratégique [(D, L), l] est un équilibre séquentiel. La seconde situation ne pose pas de problème puisque les croyances du joueur 1 au nœud z peuvent être déduites de sa prédiction que le joueur 2 jouera l (et on peut voir que le joueur 2 n’a pas intérêt à dévier, ce qui confirmera la croyance). En revanche, le premier cas pose un problème : la décision du J1 de jouer A est fondée sur croyance que le J2 jouera r au nœud y… mais ce nœud n’est jamais atteint à l’équilibre ! Cela veut dire que ces croyances au nœud z sont basées sur un événement dont la probabilité est 0, ce qui d’un point de bayésien pose problème. Une solution est alors de supposer que la probabilité d’atteindre le nœud y tend vers 0 mais est strictement positive (ce qui revient à admettre la possibilité d’erreurs), ce qui alors permet d’appliquer la règle de Bayes. Mais est-ce raisonnable de supposer que jouer D est une erreur de la part du J1 ? Le J2 ne peut-il pas tirer quelque chose du fait que le J1 joue D, n’est ce pas une indication sur le type de joueur qu’est J1 ? On remarquera qu’il ne s’agit pas à proprement parler d’un problème de rationalité (le joueur 1 est rationnel au sens bayésien), mais de « type » de rationalité que chaque joueur peut inférer de l’autre. Ici, si le J1 joue D, c’est peut être qu’il croit que le J2 jouera l au nœud y, avec dans ce cas l’intention de jouer L au nœud z… Dans ce cas, J2 a intérêt à jouer l au nœud y et donc jouer D n’est nullement une erreur du J1 !!!

Cet exemple sert à montrer le problème de l’hypothèse de connaissance commune de la rationalité des joueurs. Dans la première partie de son article, Binmore montre de manière définitive qu’il y a une irréductible incomplétude de la rationalité des joueurs. En fait, l’hypothèse de common knowledge revient à supposer que chaque joueur est capable de se modéliser lui-même : je modélise le comportement de l’autre joueur (ce qui me permet de prédire ce qu’il va faire), mais comme l’autre joueur me modélise également, cela revient à dire que je modélise, et ceci ad finitum ! C’est un problème incomputable par une machine de Turing universelle tout simplement parce qu’il implique une régression infinie. Si l’on modélise les joueurs comme des machines de Turing (ce que fait Binmore dans la seconde partie de l’article), alors on peut supposer que ces machines disposent d’une règle qui prévoit d’arrêter les calculs au bout d’un temps donné et qu’un algorithme « d’intuition » permet la production d’un output se traduisant par une prédiction approximative du comportement des autres joueurs. Des erreurs sont donc possibles et le problème est celui de la convergence des intuitions des joueurs. Binmore traite de ce problème dans la seconde partie de son article. C’est à cet endroit qu’il introduit une perspective évolutionnaire qui va lui permettre de proposer une solution. Je discuterai de cette solution, et de ses limites, dans la seconde partie de ce billet. 

Poster un commentaire

Classé dans Non classé

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s