La vie est un jeu, avec Jérôme Renault
Comment la théorie des jeux devient-elle un outil de réflexion pour l’intelligence artificielle ? C’est le défi auquel s’attelle le mathématicien Jérôme Renault. L’occasion de découvrir de nouvelles façons de jouer. Interview.
Propos recueillis par Valérie Ravinet, journaliste.
Jérôme Renault, qu’est-ce que la théorie des jeux ?
La théorie des jeux est un concept mathématique qui consiste à analyser les interactions entre les parties prenantes, appelés joueurs, dans une situation donnée, le jeu. Les joueurs décident, à chaque « coup », les stratégies qu’ils mettent en œuvre pour parvenir à un « gain » qui leur est propre et qui n’est pas nécessairement le même pour tous les joueurs. Cette théorie est relativement récente, elle date du XXème siècle. Elle a été proposée par un mathématicien, John von Neumann, et un économiste, Oskar Morgenstern. Il n’y a d’ailleurs pas une mais plusieurs théories des jeux : jeux stratégiques, jeux coopératifs, jeux évolutionnaires, théorie algorithmique des jeux, jeux différentiels, jeux combinatoires…
Un exemple de jeu ?
Un exemple célèbre est celui du « dilemme du prisonnier », j’aime bien le raconter avec les fruits d’Alice et Bob. Alice possède un abricot et Bob une banane. Alice préfère les bananes aux abricots, et Bob préfère pour sa part les abricots. Ils sont tous les deux gourmands et veulent maximiser leur gain : posséder les deux fruits. S’ils n’ont pas la possibilité d’obtenir les deux fruits, ils préféreraient avoir celui de l’autre, ou tout au moins garder celui qu’ils possèdent déjà. Dans la pire situation, ils perdent chacun leur fruit. Le jeu : écrire en même temps chacun sur un papier « je donne le fruit » ou « je garde le fruit », puis implémenter ce qui a été écrit. Bien jouer dans ce jeu, c’est garder son fruit, pour éviter de se retrouver démuni. Or l’intérêt pour eux serait bien sûr de convenir d’un échange pour disposer chacun de son fruit préféré. La morale de ce jeu ? Il est stupide, il faudrait en changer les règles et leur permettre de trouver un accord par une négociation.
Cette théorie ne s’applique pas que dans les cours d’école ou sur les tapis de jeu ?
En effet, elle est si générale qu’elle peut s’appliquer dans tous les domaines, en économie, en sciences sociales, en informatique... Ce qui ne signifie pas que l’on arrive toujours à dire quelque chose de pertinent ! On ne cherche pas à définir une loi mathématique universelle qui s’appliquerait à toutes les interactions sociales et économiques humaines, mais à modéliser les choix proposés pour comprendre les solutions d’un jeu particulier, d’une situation spécifique, et en évaluer l’impact social. Cette théorie se concentre sur la recherche d’équilibres, où chaque joueur est satisfait de sa décision au regard des décisions des autres joueurs.
Pourquoi est-il important d’étudier les théories des jeux ?
Dans la société, les jeux sont partout, et de plus en plus nombreux ; les interactions sont omniprésentes et cruciales. La théorie des jeux est un outil de compréhension sociale, elle permet de résoudre les problèmes. Bien sûr, cette théorie n’est pas unique pour comprendre les interactions sociales, mais elle permet de saisir les enjeux pour prendre les bonnes décisions, d’essayer de définir des règles à la fois efficaces et acceptables par tous.
Prenons l’exemple d’un conflit entre deux pays. Si les seuls dirigeants, tenus par leurs opinions publiques respectives, sont aux manettes pour résoudre leur différend, le risque d’un conflit est important. Avec l’intervention d’un tiers médiateur -un nouveau joueur- les chances de sortie de conflit sont augmentées. Le choix stratégique de modifier les règles concourent à l’optimum social.
Quel est le lien entre théorie des jeux et intelligence artificielle ?
L’intelligence artificielle constitue un nouveau terrain d’expérimentation pour la théorie des jeux. Les interactions entre humains et logiciels/machines, ou entre algorithmes sont de plus en plus fréquentes et amenées à se développer. Avec la multiplication des données et de nouvelles façons de simuler, des jeux inédits vont apparaitre donnant naissance à de nouvelles théories mathématiques. On va également pouvoir transposer à l’IA ce que l’on sait faire par les jeux et en découvrir de nouvelles facettes.
Sur quoi portent vos travaux ?
Ils se concentrent autour de trois axes. Le premier consiste à apprendre, dans un environnement dynamique, comment prendre les bonnes décisions. On parle d’apprentissage par renforcement. L’environnement internet est riche : les sites proposent des produits, observent la manière dont les acheteurs réagissent et adaptent leurs politiques commerciales en conséquence. Une bonne image pour expliquer ces aller-retours constants entre exploration et exploitation des données est celle du jeu appelé « bandits-manchots » : un joueur dispose de deux machines à sous, dont on ne sait pas à l’avance combien chacune rapporte. Il en essaye une, elle fait gagner assez souvent, va-t-il essayer l’autre ? À chaque tour, il choisit une action dont il évalue le gain, dans un environnement qui évolue. La même situation ne se répète pas mais il y a tout de même des constantes.
Quels sont les deux autres axes ?
Le second axe de recherche porte sur les réseaux antagonistes génératifs (Generative Adversarial Networks -GANs). C’est une façon de simuler à l’aide des réseaux de neurones artificiels une distribution aléatoire inconnue. Il s’agit de définir des jeux qui vont produire des algorithmes pertinents, efficaces et robustes pour l’IA. On pratique ici les jeux dits à somme nulle : le gain d’un joueur diminue obligatoirement celui de l’autre. Par exemple, un faussaire, appelé générateur, simule de fausses images qui ressemblent à des vraies et le second, un policier, ou discriminateur, tente de repérer les images vraies. Dans ce jeu, les deux parties ont des intérêts différents et ne coopèrent pas. Selon le chercheur Yann Le Cun, expert en apprentissage machine, c’est l’une des idées les plus prometteuses en la matière des dix dernières années. Avec un GAN tel que décrit plus haut, on obtiendra deux algorithmes : l’un capable de générer des images proches du réel, l’autre capable de discriminer de vraies et de fausses images.
Le troisième axe est assez inédit, il s’agit de définir des jeux dans des environnements stratégiques complexes : quand les machines sont programmées pour jouer d’une certaine façon, que se passe-t-il quand un humain veut en tirer parti ? Ce sont des jeux hybrides où une partie des joueurs utilisent des algorithmes déterminés et connus, une autre partie des joueurs joue de manière stratégique et veulent maximiser leurs propres intérêts. Quels sont les logiciels qui seront robustes face à des attaques ou des actes de malveillance ? Une autre notion importante est ce que les informaticiens appellent le « prix de l’anarchie ». C’est le rapport entre le coût d’équilibre et celui de l’optimum social. Là encore, l’objectif est de parvenir à établir des règles relativement optimales, tout en laissant aux humains la liberté de jouer leurs partitions. Chaque problème a sa solution, il n’y a pas de règles universelles même s’il y a des propriétés générales que l’on essaie de mettre en évidence.
L’environnement mathématique dans lequel vous évoluez est-il à repenser dans son intégralité à l’aune de l’IA ?
L’objectif initial, celui de définir des jeux dont la valeur sociale est optimale pour l’ensemble de la société, reste le même. Le changement se situe dans son échelle : l’intelligence artificielle amplifie les interactions stratégiques entre les personnes ou entre personnes et algorithmes, ce qui produit beaucoup de nouveaux jeux. Cette théorie permet d’éclairer une nouvelle façon d’analyser les situations, sans savoir ce qui va être pertinent. C’est tout l’enjeu de la recherche !
Bio express
Jérôme Renault est enseignant-chercheur en mathématiques appliquées à Toulouse School of Economics (Université Toulouse 1 Capitole), après avoir été en poste à l’Université Paris-Dauphine et à l’Ècole polytechnique. Diplômé de l’Ècole nationale de la statistique et de l’administration économique, il s’est spécialisé dès sa thèse à l’Université Paris I Panthéon Sorbonne dans le domaine de la théorie des jeux, en particulier les jeux dits dynamiques et répétés (répétition des mêmes jeux dans des contextes évolutifs). Il porte la chaire « Théorie des jeux et Intelligence artificielle » au sein de l’Institut interdisciplinaire d’intelligence artificielle de Toulouse, ANITI, pour laquelle il a réuni une équipe internationale. Elle est composée de doctorants - Maurizio d'Andrea et Étienne de Montbrun, de postdoctorants - Tommaso Cesari et Dana Pizarro- et d’enseignants-chercheurs en mathématiques - Fabien Gensbittel et Sébastien Gerchinovitz.