Inversion des préférences et réciprocité, où comment la discipline personnelle permet d’être crédible

Vous êtes sujet à la procrastination, à des inversions de préférences et autres formes d’incohérences temporelles ? Vous prenez des (bonnes) résolutions en début d’année que vous êtes par la suite incapable d’honorer ? Vous aussi, vous écrivez des billets alors que vous devriez être en train de rédiger un article qui attend depuis trop longtemps ? C’est une mauvaise nouvelle pour vous et votre entourage dans l’optique d’instaurer la coopération. En voici la preuve par un simple modèle.

Soit un agent sujet à l’incohérence temporelle. Formellement, l’incohérence temporelle des choix peut s’expliquer par une forme particulière d’actualisation de la valeur présente des gains futurs, l’actualisation hyperbolique (ou, ici, quasi-hyperbolique). Contrairement à l’actualisation exponentielle, où l’agent actualise la valeur de ses gains par un facteur d ≤ 1 constant, l’actualisation hyperbolique conduit l’agent à valoriser les gains futurs différemment en fonction de l’échéance à laquelle doit se réaliser (ou non) un état du monde donné. Par exemple, aujourd’hui, au temps t, je peux donner deux fois plus de valeur à une option A adoptée en t+1 qu’à une option B adoptée en t+2, mais arrivée en t+1, je peux valoriser trois fois plus A maintenant que B en t+1. Le taux auquel j’actualise la valeur présente des gains futurs n’est donc pas constant dans le temps. Dans un modèle d’actualisation quasi-hyperbolique, ce phénomène s’explique par le fait que les gains présents sont survalorisés par rapport aux gains futurs, lesquels sont multipliés par un facteur b ≤ 1 en plus du taux d’actualisation traditionnel. Ainsi, si on note par U0(ut) la valeur présente d’un gain u au temps t, et u le flux de gains u1, u2,…, on a

            Actualisation exponentielle :  U0(u) = u0 + ∑t dtut

            Actualisation quasi-hyperbolique : U0(u) = u0 + ∑t bdtut

 L’actualisation exponentielle garantie la cohérence temporelle des préférences. Il en va différemment en revanche de l’actualisation (quasi) hyperbolique qui peut se traduire par une inversion des préférences. Intuitivement, cela s’explique par le fait que lorsque l’échéance est éloignée, le fait que deux alternatives soient disponibles à un point différent du temps est pris « normalement » en compte mais lorsque l’échéance se rapproche, la disponibilité immédiate d’une des alternatives devient saillante et peut alors inverser les préférences.

Quel rapport avec la réciprocité et la coopération ? Le « folk theorem » de la théorie des jeux nous indique que lorsqu’un jeu est répété de manière indéfinie, tous les résultats donnant aux joueurs un gain égal ou supérieur à leur gain minimax peuvent constituer un équilibre du jeu. C’est notamment le cas dans les jeux « mixtes », où les intérêts des joueurs ne sont pas parfaitement alignés et où la coopération peut être difficile, voire impossible à atteindre dans un jeu à un coup. Le meilleur exemple est bien entendu le dilemme du prisonnier :

C

D

C

3 ; 3

-1 ; 5

D

5 ; -1

0 ; 0

Supposons que les joueurs actualisent leurs gains futurs de manière exponentielle avec un facteur 0 < d < 1. Des stratégies de coopération conditionnelle de type « Tit-for-tat » (coopérer puis jouer la même stratégie que la stratégie jouée par l’adversaire à l’itération précédente) ou « Grim trigger » (coopérer tant que l’adversaire coopère puis faire défection indéfiniment dès que l’adversaire fait défection) constituent un équilibre si les joueurs valorisent suffisamment les gains futurs (si d est suffisamment élevé). Par exemple, si mon adversaire joue la stratégie « Grim trigger », il est pour moi rationnel de coopérer si le flux de mes gains futurs lorsque je coopère tout le temps est supérieur à mes gains si je fais défection à un moment dans le temps. Formellement,

3 + 3d + 3d2 + … = 3/(1-d) > 5

d > 2/5

Bien sûr, il n’est intéressant pour un joueur de jouer une stratégie de coopération conditionnelle que si l’autre joueur a dans ce cas lui-même intérêt à coopérer.

 Soit un jeu répété de type dilemme du prisonnier précédé d’une phase de négociation où chaque joueur s’engage sur une stratégie. Supposons que les deux stratégies sur lesquelles les joueurs peuvent s’engager sont la coopération conditionnelle de type « Grim » et la défection. Supposons par ailleurs qu’à tout moment du jeu, un joueur peut modifier sa stratégie initiale. Supposons enfin que tout cela est connaissance commune entre les deux joueurs. Un agent rationnel coopérera conditionnellement s’il pense que l’autre agent valorise suffisamment les gains futurs issus de la coopération. Si les deux joueurs actualisent leurs gains de manière exponentielle, alors leurs préférences sont stables dans le temps et le fait qu’un agent annonce qu’il va coopérer et qu’il coopère au début du jeu doit indiquer à l’autre agent qu’il continuera à coopérer tant que lui-même coopère.

Admettons maintenant la possibilité que les joueurs puissent actualiser leurs gains de manière hyperbolique. Si chaque joueur ignore la manière dont l’autre actualise ses futurs (exponentielle ou hyperbolique), un phénomène intéressant peut se produire. Ici, le fait qu’un agent coopère au début du jeu n’implique plus nécessairement qu’il va continuer à coopérer dans le futur en raison de la possibilité d’inversion des préférences. Voici une illustration. Soit deux joueurs, Ann et Bob. Ann actualise ses gains de manière exponentielle avec un facteur d’actualisation d proche de 1. Elle annonce qu’elle va coopérer conditionnellement et Bob en fait de même. Cependant, Ann soupçonne Bob d’être enclin à l’incohérence temporelle. Avec une probabilité p, elle pense que Bob actualise ses gains de manière hyperbolique. Si c’est le cas, il est tout à fait possible que Bob ait annoncé sincèrement qu’il allait coopérer et qu’il ne mette pas en oeuvre sa promesse. En effet, Bob peut anticiper au début du jeu que ses gains futurs auront une valeur U0 = t xdt, t étant le nombre d’itérations et x le gain lors d’une itération donnée. S’il sait qu’Ann coopère conditionnellement, alors dès le début du jeu il est capable de déterminer si la coopération lui est favorable ou non. Cependant, si Bob est victime de l’actualisation hyperbolique, au moment de la phase de négociation il peut lui sembler intéressant de coopérer sur le long terme ; mais lorsque va se présenter à lui la première décision à prendre, il va sous-estimer les bénéfices futurs de la coopération par un facteur b. En effet, il rompra sa promesse et fera défection si 5 > 3b/(1-d).

On peut même aller plus loin et imaginer que la volonté de Bob s’affaiblit au fur et à mesure que le jeu se répète, le menant à rompre sa promesse non pas immédiatement mais au milieu du jeu. Par exemple, supposons que d et b sont très proches de 1 pour Bob. Supposons toutefois que la valeur de b diminue avec chaque itération, en prenant par exemple la valeur bt. Bob va alors tenir sa promesse et coopérer jusqu’à une période t*, où la valeur bt* sera telle que 5 > 3bt*/(1-d). Si Ann anticipe cela (ou si elle pense qu’il y a une probabilité assez forte que Bob se comporte ainsi), alors elle ne promettra pas la coopération durant la phase de négociation. La question est évidemment de savoir d’où vient la croyance p d’Ann sur le fait que Bob est victime d’incohérence des préférences. Probablement, p dépend des observations passées d’Ann concernant le comportement de Bob. Si par exemple Bob est quelqu’un qui ne parvient pas à s’auto-discipliner, par exemple à s’astreindre à un régime ou à aller courir régulièrement contrairement à ce qu’il avait annoncé, c’est que probablement il est victime de l’actualisation hyperbolique et n’est donc pas digne de confiance. Moralité : pour que les autres vous fassent confiance, il vaut mieux savoir tenir ses bonnes résolutions !

2 Commentaires

Classé dans Non classé

2 réponses à “Inversion des préférences et réciprocité, où comment la discipline personnelle permet d’être crédible

  1. Titan

    Et si Bob ou Ann ne doutent pas, qu’ils remportent les prix les plus honorifiques. Sur quoi baser l’objectivité de la décision?
    Si leur comportement n’est pas fortement corrèle a leur réussite, et réciproquement, on s’en tiendra au final au résultat qui fera convention commune. Que le doute soit hyperbolique ou pas n’y changera rien.

  2. ça me rappelle quelque chose… http://dcabcoca.blogspot.fr/2013/01/la-rationalite-du-locataire-qui-oublie.html
    J’ai juste deux trois trucs encore à apprendre, je suis large !🙂

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s