Conceptualiser l’individu comme un méta-programme : Binmore et l’homme machine (2/3)

C.H.

Suite du précédent billet. Initialement prévu en deux parties, celui-ci en comportera finalement trois.

Si la rationalité parfaite est impossible, comment rendre compte d’une situation d’équilibre vers laquelle convergent les représentations et les actions des joueurs ? Comment les individus parviennent-ils à stabiliser leurs anticipations et à stopper la régression infinie du raisonnement « je pense que tu penses que je pense que tu penses que je pense » ? Comment finalement les individus arrivent-ils chacun à interpréter le comportement des autres, à donner un sens aux décisions prises par les autres joueurs ? Ces questions reviennent toutes au même problème : celui de la socialisation, celui du processus par lequel les individus acquiert des représentations communes. Ce problème du sens de l’action, on pourrait penser que seule une approche interprétative ou phénoménologique pourrait le traiter. Binmore part dans la direction opposée en proposant une conceptualisation de l’individu comme machine, ou plus exactement comme « méta-programme ».

Dans un cadre standard de jeu séquentiel, tout profil stratégique d’équilibre implique que chaque joueur prévoit ses choix hors du sentier d’équilibre. Autrement dit, cela revient à adopter un raisonnement contrefactuel. Cependant, un tel raisonnement contrefactuel implique que chaque joueur ait un « modèle » lui permettant d’interpréter les comportements hors équilibre. Ce modèle, la théorie des jeux classique (ou « éductive », comme l’appelle Binmore) ne peut le fournir pour les raisons évoquées dans la première partie. La solution de Binmore ait d’introduire une dose de raisonnement évolutionnaire en mobilisant de manière informelle un cadre de jeu évolutionnaire (ou théorie des jeux « évolutive »). La position de Binmore sur ce point est assez originale : à le lire, on croit comprendre qu’il pense que l’approche évolutive pure résout plus ou moins d’emblée le problème présenté dans la première partie. Cependant, cette approche conceptualise les agents comme des machines d’un très faible niveau de complexité, réduit à des automates comprenant un nombre d’état minimum (un stimulus, une réponse). Il n’y a donc aucun processus de délibération interne, l’adaptation est purement externe. Binmore ne rejette pas cette perspective mais veut suivre autant que possible les théoriciens des jeux sur leur route, qui est celle de conceptualiser des agents complexes, capables de mener un raisonnement élaboré conduisant à un processus d’adaptation interne. Le terme « eductive » en anglais vient d’ailleurs de « educative » et transcrit l’idée que les agents peuvent apprendre.

Binmore propose donc de voir les individus comme des machines. Ces machines interagissent les unes avec les autres aux travers de leurs « programmes » (leurs algorithmes) et doivent intégrer, dans le cadre de leurs calculs, le coût même de ces calculs. En raison du problème de régression infinie, ces machines vont souvent être obligées de stopper leurs calculs avant d’avoir trouver la « solution » (si tant est qu’il en existe une), ce qui revient à incorporer des heuristiques dans le mécanisme de décision. Ces heuristiques prennent la forme « d’algorithme d’intuition ». D’où viennent ces programmes ? D’un « méta-joueur » qui a le même statut que le commissaire-priseur walrassien : il s’agit en fait d’une une métaphore pour désigner un processus évolutionnaire par lequel vont rentrer en concurrence les différents programmes dans une même population. Binmore assimile les programmes à des mèmes au sens de Dawkins : ce sont des stratégies (des algorithmes) qui ont la propriété de se répliquer à l’identique par imitation (par le biais de l’éducation notamment, d’où le choix du terme « eductive »). Il s’agit là d’un portrait tout ce qu’il y de plus classique d’un point de vue de théorie des jeux évolutive/évoutionnaire. Toutefois, dans un contexte éductif, les individus sont des programmes complexes qui ne peuvent se réduire à un mème. De plus, les individus jouent plusieurs jeux différents simultanément et doivent développer des stratégies spécifiques à chaque jeu. Binmore propose donc de conceptualiser les individus comme des « méta-programmes » (master-program). Les méta-programmes sont des softwares fonctionnant sur le hardware que constitue l’individu biologique (déterminé par l’évolution génétique) ; ils ont la propriété de générer des programmes pour chaque jeu spécifique. Ce sont donc, selon les termes de Dawkins, des « mèmes générateurs de mèmes ». En utilisant le vocabulaire du darwinisme généralisé, on peut reformuler les choses ainsi : les programmes et les méta-programmes sont des réplicateurs, mais les méta-réplicateurs ont la capacité de générer de la complexité en se répliquant (ils crées une nouvelle information en créant de nouveaux programmes), ce sont donc des réplicateurs génératifs. Un individu est ainsi décrit comme une machine programmée pour écrire des programmes pour jouer à des « jeux ».

Partant de là, on peut commencer à imaginer les implications d’une telle conceptualisation. Soit une population d’individus biologiques (les hardwares) tous identiques. Ces individus vont aller piocher au hasard dans une « loterie de mèmes », les méta-programmes et, équipés de ces réplicateurs génératifs, vont commencer à programmer des stratégies pour les diverses situations qu’ils vont rencontrer. Les méta-programmes vont ainsi interagir dans le cadre de différents jeux. Très rapidement, les méta-programmes les moins performants vont être éliminés, soit parce que leurs porteurs vont disparaître, soit parce qu’ils vont progressivement se modifier et s’adapter. Ce processus va se poursuive jusqu’à qu’un équilibre évolutionnaire stable soit atteint : a ce stade, la population des méta-programmes va se stabiliser (elle sera résistante à l’apparition de méta-programmes « mutants »), ce qui a deux implications : d’une part, chaque individu va avoir la possibilité de connaître le profil de la population et donc va pouvoir développer des croyances sur le type de joueur auquel il a à faire ; d’autre part, un équilibre évolutionnairement stable, s’il n’est pas nécessairement monomorphique (il peut y avoir plusieurs types de méta-programmes à l’équilibre), fait que la probabilité pour un méta-programme de se rencontrer lui-même est forte. Le processus évolutionnaire rend alors possible une forme d’introspection : une machine va pouvoir acquérir de l’information sur les autres machines en observant son propre fonctionnement (avec toutefois la limite qu’une machine complexe ne peut pas modéliser de manière complète son propre fonctionnement – Gödel oblige).

Dans le cadre d’un jeu, chaque joueur-machine va ainsi pouvoir bénéficier de deux ensembles d’informations qui serviront d’input : une information objective sur l’état de la population (proportion de chaque « type » de machine) et sur la manière dont ces différents types ont joué les différents jeux par le passé ; une information subjective que chaque machine acquiert en observant son propre fonctionnement. Si le nombre de données objectives est très important, la situation est assez simple : les seuls méta-programmes qui survivront sont ceux qui sont capables d’écrire les programmes optimisant l’utilité espérée en fonction de ces données. La complexité est traitée de manière externe et il n’y a pas lieu de s’intéresser à la manière dont « raisonnent » les machines (c’est le cas par exemple lorsqu’il s’agit de conduire à droite ou à gauche : nous ne menons pas un raisonnement complexe pour nous décider, on se contente d’optimiser étant donnée nos observations passées). Les choses sont plus intéressantes si la quantité de données objectives est faible. Il devient alors nécessaire pour les machines de développer un raisonnement interne complexe. C’est ici que « l’introspection » prend une importance fondamentale, avec toutefois cette difficulté supplémentaire que les machines sont capables d’apprendre : le méta-programme est capable de se modifier lui-même, rendant ainsi l’introspection incertaine et des erreurs possibles… et faisant revenir sur le devant de la scène le problème de la régression infinie. Nos machines doivent donc toujours être dotés d’une règle d’arrêt et d’un algorithme d’intuition. Comme le fait remarquer Binmore, il ne sert à rien de chercher à définir ces règles de manière axiomatique : elles sont forcément en partie arbitraires et proviennent « d’accidents historiques ». Qui plus est, elles sont elles-mêmes susceptibles d’être révisées par la machine.

Par conséquent, l’introduction d’un processus évolutionnaire ne supprime pas l’incomplétude et l’incertitude. Mais il permet néanmoins aux machines de se doter de « modèles » pour interpréter les « déviations » des autres joueurs lors d’un jeu spécifique. Autrement dit, parce que le processus évolutionnaire va conférer des informations objectives et subjectives (mêmes imparfaites) aux individus, ces derniers vont avoir la capacité d’interpréter les déviations du sentier d’équilibre autrement que comme des erreurs aléatoires de type « main tremblante ». A ce stade, le raisonnement de Binmore devient plus dur à suivre mais on peut facilement comprendre l’idée en reprenant le jeu séquentiel donné dans la première partie :

Comme on l’a indiqué dans la première partie du billet, deux équilibres séquentiels sont ici possibles : [(A,R), r] et [(D, L), l]. Imaginons qu’il subsiste dans la population deux types de machines lesquels, sur ce jeu spécifique, jouent chacun un équilibre lorsqu’elles sont en position de premier joueur. Appelons le premier équilibre A et le second D. Appelons les machines qui jouent l’équilibre A, machine de type 1 et celles qui jouent l’équilibre D machine de type 2. Les joueurs vont chacun bénéficier d’une information objective et d’une information subjective qui va les amener à inférer le type de joueur auquel ils sont confrontés. Une machine en position de joueur 2 peut être programmée pour jouer l’équilibre A ; de son point de vue, il s’agit de la façon « correcte » de jouer le jeu. Elle sait cependant qu’il existe des machines de type 2. Par conséquent, s’il s’avère que le premier joueur joue D, la machine en seconde position ne va pas nécessairement interpréter ce coup comme une erreur aléatoire mais va l’utiliser comme information pour actualiser ses croyances sur le type de joueur auquel elle a à faire à partir de la règle de Bayes : P[2/D] = P[D/2].P[2]/P[D] (en français : la probabilité que la machine soit de type 2 sachant qu’elle a joué D est égale au produit de la probabilité de jouer D quand on est de type 2 et la probabilité d’avoir à faire à une machine de type 2, le tout diviser par la probabilité que D soit joué). Par exemple, si les informations dont disposent le deuxième joueur sont telles que P[D/2] = 1, P[2] = 0,1 (i.e. il y a 10% de machines de type 2 dans la population] et P[D] = 0,15 (il est possible que le coup soit une erreur commise par une machine de type 1), alors P[2/D] = 0,66. On voit alors que le joueur 2 sera rationnellement incité à jouer l au nœud y. Le problème qui semblait insoluble dans la première partie vient d’être résolu grâce au processus évolutionnaire qui permet à chaque joueur d’interpréter les actions des autres. Autrement dit, l’évolution produit signification et, in fine, socialisation.

Cette approche a une propriété que je ne développerai pas mais qui est très importante : c’est de conférer une nouvelle légitimité au concept d’équilibre corrélé. Binmore montre en effet que le processus qu’il décrit va rendre possible la sélection d’équilibres corrélés dans une large classe de jeu, y compris lorsque ces équilibres ne sont pas des équilibres de Nash. Or, qu’est ce qu’un équilibre corrélé ? C’est un équilibre qui est atteint lorsque les joueurs se basent sur une information exogène pour prendre leur décision et qu’aucun d’entre eux n’est incité à dévier. Autrement dit, l’environnement et le contexte dans lequel le jeu est joué donnent un repère aux individus pour permettre la coordination. Il parait tout à fait approprié de voir dans les normes sociales et les institutions des équilibres corrélés, lesquels proviennent de données objectives produites par un processus évolutionnaire.

La dernière partie du billet discutera de manière critique l’approche proposée par Binmore. 

1 commentaire

Classé dans Non classé

Une réponse à “Conceptualiser l’individu comme un méta-programme : Binmore et l’homme machine (2/3)

  1. elvin

    Ce billet est très intéressant, mais avant même de lire la troisième partie, il me vient quelques remarques :

    1. (une remarque qui dépasse largement le travail de Binmore)
    Pourquoi être hypnotisé par l’équilibre, alors qu’on ne l’observe qu’exceptionnellement dans la réalité, et que donc il ne fait pas partie des phénomènes que la science économique vise à expliquer ? Certes, ça peut être un outil d’analyse utile, mais si on a du mal à l’utiliser, vaut mieux amha l’abandonner et utiliser un autre outil, par exemple l’ABM qui est moins restrictif quant à la forme et à la substance des modèles d’agents.

    2. Sur l’incomplétude, je suis bien d’accord, mais pas sur la nécessité d’une régression infinie. Chaque joueur (acteur) modélise les autres, mais de façon incomplète, imparfaite et évolutive. Il n’y a pas régression infinie du raisonnement (qui est effectivement impossible et pas observée) mais une évolution permanente des bases du raisonnement et du raisonnement lui-même (qui est bien ce qu’on observe). A mon avis, c’est une donnée de fait que toute modélisation doit reconnaître et non tenter de contourner.

    3. (variante du pb numéro un) Pourquoi les représentations des joueurs devraient-elles converger alors que rien n’indique qu’elles le font systématiquement dans la réalité ? Il se peut qu’à un instant donné, les représentations d’un ensemble de joueurs aient une partie commune, et que cette partie commune reste stable un certain temps. Je veux bien qu’on appelle ça un « équilibre », mais il est partiel et éphémère, et son étude ne doit pas constituer l’alpha et l’oméga de la discipline économique.

    4. « on croit comprendre qu’il [Binmore] pense que l’approche évolutive pure résout plus ou moins d’emblée le problème »
    Ma propre thèse est que cette approche ne résout évidemment pas le problème d’emblée, mais que toute autre approche n’a d’emblée aucune chance de le résoudre, ce qui suffit pour justifier l’approche évolutive. Je n’ai pas lu Binmore et je me contente du résumé qu’en fait Cyril, mais compte tenu de la qualité du raisonnement de Binmore j’espère que là, ce résumé est inexact.

    5. « Cependant, cette approche conceptualise les agents comme des machines d’un très faible niveau de complexité »
    Alors, amha, c’est à cette limitation qu’il faut s’attaquer en complexifiant le modèle, même si ça conduit à exclure l’idée d’équilibre.

    6. « D’où viennent ces programmes ? D’un « méta-joueur » qui a le même statut que le commissaire-priseur walrassien »
    Alors là, non. Dans la réalité observable, ils sont (donc doivent être dans le modèle) internes à chaque acteur, et donc ils peuvent différer d’un acteur à l’autre, et sont eux-mêmes soumis à évolution et sélection.
    Ça semble être ce que dit Binmore dans la suite (« les méta-programmes les moins performants vont être éliminés, soit parce que leurs porteurs vont disparaître, soit parce qu’ils vont progressivement se modifier et s’adapter. »), mais il semble se contredire un peu plus loin (« La complexité est traitée de manière externe et il n’y a pas lieu de s’intéresser à la manière dont « raisonnent » les machines »)

    J’attends avec intérêt la troisième partie.

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s