Qu’est ce que suivre une règle (en théorie des jeux) ?

J’ai déjà écrit ici un certain nombre de billets sur la notion de règles et sur la manière dont cette dernière peut être appréhendée dans un cadre de théorie des jeux. La lecture d’un récent papier de Giacomo Sillari m’amène à revenir sur le sujet. Comme je l’ai expliqué récemment, les économistes, en particulier lorsqu’ils utilisent la théorie des jeux, ont tendance à développer une approche « éliminativiste » des institutions et plus généralement des règles. L’idée est simple : la règle est assimilée à une simple régularité comportementale auto-renforçante, autrement dit à un équilibre dans un jeu. Le point notable est que la règle n’existe qu’au travers du regard du théoricien mais pas des agents eux-mêmes.

Notons R la règle en question, correspondant donc à un certain comportement (une pratique). La seule raison pour laquelle les individus se conforment à R (à sa manifestation comportementale) c’est parce qu’ils s’attendent que les autres adoptent un certain comportement et que, étant donné cette croyance, il est rationnel/optimal pour eux d’adopter le comportement se conformant à R. Cependant, la règle en elle-même ne joue aucun rôle dans le processus de décision des agents, ni même dans la formation de leur croyance. C’est la raison pour laquelle je parle d’approche éliminativiste : parler de règle n’apporte rien à l’explication, on introduit un objet social qui est en fait redondant avec le pattern comportemental que l’on modélise. Cependant, il me semble possible et nécessaire de développer une conception plus « épaisse » de la règle dans un cadre de théorie des jeux. Voici une ébauche de ce que cela peut donner.

Pour donner un peu de corps à l’analyse, partons d’un type particulier de règles, celles qui régissent un langage. Parler un langage, ce n’est rien d’autre que suivre un ensemble de règles constitutives de ce langage. Le philosophe analytique David Lewis a proposé un cadre d’analyse particulièrement pertinent pour étudier les règles de langage fondé sur les jeux de signalement (voir ce court papier pour une très bonne synthèse). Dans la forme la plus simple, le jeu comporte deux joueurs, un émetteur E et un receveur R : le premier observe la réalisation d’un état du monde s ε S et sur cette base émet un signal b ε B avec B l’ensemble des signaux possibles ; le second reçoit le signal émit par l’émetteur et, sur cette base, choisit une action a ε A, une stratégie pouvant consister dans une action physique ou tout simplement dans une interprétation du signal. Le but est que l’action soit optimale étant donné l’état du monde que le receveur ne peut évidemment observer directement. Le cas générique comporte deux joueurs, deux états et deux stratégies, et pose que les intérêts des joueurs sont parfaitement convergents. On obtient alors un jeu de coordination où chaque joueur a quatre stratégies à sa disposition. En effet, pour l’émetteur on a :

E1 : [s1 –> b1 (émettre b1 quand l’état observé est s1) ; s2 –> b2 (émettre b2 quand l’état observé est s2]

E2 : [s1 –> b2 ; s2 –> b1]

E3 : [s1 –> b1 ; s2 –> b1]

E4 : [s1 –> b2 ; s2 –> b2]

De même, le receveur a quatre stratégies à sa disposition :

R1 : [b1 –> a1 ; b2 –> a2]

R2 : [b1 –> a2 ; b2 –> a1]

R3 : [b1 –> a1 ; b2 –> a1]

R4 : [b1 –> a2 ; b2 –> a2]

On obtient alors la matrice suivante :

Receveur

R1

R2

R3

R4

E1

1 ; 1

0 ; 0

1/2 ; 1/2

1/2 ; 1/2

E2

0 ; 0

1 ; 1

1/2 ; 1/2

1/2 ; 1/2

Emetteur

E3

1/2 ; 1/2

1/2 ; 1/2

1/2 ; 1/2

1/2 ; 1/2

E4

1/2 ; 1/2

1/2 ; 1/2

1/2 ; 1/2

1/2 ; 1/2

 

Je passe sur l’analyse des équilibres de ce jeu, qui est au demeurant assez simple. Il est plus intéressant de généraliser l’interaction décrite par cette matrice à une population de n agents jouant de manière répétée ce jeu et en occupant aléatoirement le rôle de receveur et celui d’émetteur, ainsi que cela nous arrive tous les jours dans la vraie vie. Cela nous amène à modifier légèrement la définition d’une stratégie qui consiste ici dans l’association d’une stratégie Ei en tant qu’émetteur et une stratégie Rj en tant que receveur. De manière plus précise encore, on peut décrire chaque stratégie comme l’association de deux fonctions Φ et θ qui associent respectivement chaque état du monde s à un signal b et chaque signal b à une action a. Plus formellement, soit x ε X une stratégie parmi l’ensemble des stratégies envisageables, on peut alors décrire x de la manière suivante :

x : (Φx : S –> B ; θx : B –> A)

On peut considérer que chaque stratégie x correspond à un langage conceptuellement possible. Notez que si X désigne l’ensemble de ces langages conceptuellement possibles, il semble plus intéressant de restreindre notre attention au sous-ensemble X des langages conceptuellement cohérents, c’est-à-dire des langages qui associent des fonctions Φ et θ correspondant à un équilibre de Nash. Cette restriction permet d’éliminer les cas de figure où des agents utiliseraient par exemple la stratégie E1 en tant qu’émetteur et R2 en tant que receveur, ce qui n’a pas de sens.

Quelle stratégie joueront les membres d’une population confrontés à ce type d’interaction ? Le but du langage est de permettre la communication la plus efficace possible. Les joueurs adopteront donc la stratégie qui leur confère le plus de chance de succès dans leur tentative de communication. On peut imaginer que les agents utilisent une simple heuristique de meilleure réponse : à partir de leur expérience correspondant à un échantillon d’interactions passées, ils calculent la fréquence p des stratégies utilisées par les autres joueurs et, sur cette base, choisissent la stratégie qui maximise leur utilité espérée, formellement

MaxxEU(x ; p) = ∑u(x ; x’)p(x’) où u(x, x’) est l’utilité rapportée par la stratégie x face à la stratégie x’ et p(x’) la fréquence estimée de la stratégie x’ dans la population.

En ajoutant quelques conditions, on peut ensuite démontrer que le système dynamique qui est ainsi créé doit converger vers un équilibre stable qui a de fortes chances (si les intérêts des joueurs sont parfaitement convergents) d’être un équilibre monomorphique, c’est-à-dire un équilibre où une seule stratégie subsiste. Autrement, un seul et unique langage est parlé dans la population. A ce stade, on peut considérer que les membres de la population suivent une règle ou un ensemble de règles constitutives du langage qu’ils parlent. La question centrale ici est de savoir pourquoi les agents suivent cette règle ?

Dans le cadre de l’approche éliminativiste à laquelle j’ai fait référence au début du billet, on peut répondre à la question sans faire référence à la règle : la règle correspond à un pattern comportemental (le fait que tous les agents adoptent une certaine stratégie x) et les agents se conforment à ce pattern parce qu’ils maximisent leur utilité espérée étant donné leur croyance que les autres vont se conformer à ce pattern (la fréquence p ci-dessus). On peut appeler cela un suivi « naïf » ou « aveugle » qui correspond au fait que les individus se comportent de manière plus ou moins automatique avec un faible degré de réflexivité. On ne peut pas nier que sur un plan phénoménologique, une partie significative des règles qui régissent le monde social sont suivies de cette manière. Wittgenstein lui-même soulignait ce point. Est-ce que cela couvre pour autant toutes les instances où les agents suivent des règles ? Il me semble que non. Dans la règle de décision que j’ai indiqué plus haut, j’ai supposé que les individus se basaient sur leur expérience personnelle pour inférer les probabilités que les autres utilisent telle ou telle stratégie. Dans une situation d’équilibre (monomorphique), cela veut dire que j’interprète le mot « rouge » d’une certaine manière parce que, par le passé, j’ai découvert que cette interprétation était « la bonne », dans le sens où c’était celle qui me donnait le plus de succès dans ma tentative de communication avec les autres. Mais cela pose deux questions/problèmes : tout d’abord, il est évident que ce type de raisonnement est confronté au problème de l’induction dans le sens où une multitude d’inférences sont possibles à partir d’un même pattern. Ce point, souligné aussi bien Wittgenstein que par Lewis, indique qu’une certaine régularité de comportement ne peut en soi constituer une base rationnelle pour inférer la manière dont les autres se comporteront dans le futur. En clair, inférer de son expérience personnelle la manière dont les agents vont se comporter dans le futur c’est déjà, en soi, suivre une règle. Qu’est ce qui peut justifier de suivre cette règle et pas une autre ? Lewis dirait sa saillance mais cette saillance elle-même n’est pas forcément naturelle, elle peut dépendre de notre appartenance à une communauté de personnes parlant un certain langage. En clair, l’inférence est justifiée par la règle, tout autant qu’elle fonde la règle.

Par ailleurs, l’hypothèse selon laquelle nous nous appuyons exclusivement sur notre expérience personnelle pour déterminer la stratégie à adopter est réductrice. Dans bien des cas, nous comprenons des mots même si nous ne les avons jamais rencontrés directement auparavant, soit parce que nous avons accès à l’expérience des autres (via des dispositifs comme les dictionnaires) soit parce que nous mobilisons des règles d’inférences à partir desquelles nous déterminons le sens d’un mot à partir du sens d’autres mots. Dans le modèle ci-dessus, cela revient à dire que l’individu peut observer un historique H plus large que son expérience personnelle pour former ses croyances. Bien entendu, l’utilisation de H pour inférer des conclusions sur la stratégie requise est confronté au même problème de l’induction que ci-dessus. Autrement dit, la formation de H (au travers de laquelle chacun sélectionne les expériences qui lui paraissent pertinentes) et son utilisation pour former ses croyances (le vecteur de probabilités p) n’est intelligible que si l’on présuppose en amont l’existence d’une règle que l’individu suit plus ou moins consciemment. En clair, j’utilise tel ou tel mot ou j’interprète tel mot de telle manière non pas (ou pas seulement) parce que par le passé j’ai communiqué avec succès ainsi, mais aussi et surtout parce que je sais que les autres membres de la population (de la communauté) parlent tel langage et qu’utiliser tel mot dans telle situation est constitutif de ce langage.

Au-delà du langage, il me semble que ce point est pertinent pour l’ensemble des règles dites « constitutives ». Même si cette notion est beaucoup critiquée en philosophie aujourd’hui, il me semble qu’elle aide à révéler une propriété ontologique fondamentale du monde social qui découle du fait que nous sommes (contrairement aux autres animaux) doué de la capacité de repérer et de nous représenter de manière abstraite ce qu’est une règle. Dans bien des cas, c’est sur la base de ces représentations que nous prenons une décision, et non pas sur la base d’une simple inférence basée sur des observations passées. Une approche de la notion de règle en termes de théorie des jeux doit être capable de saisir cette dimension.

1 commentaire

Classé dans Non classé

Une réponse à “Qu’est ce que suivre une règle (en théorie des jeux) ?

  1. Pingback: Qu'est ce que suivre une règle (en th&ea...

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s