L'IA en un coup d'œil
Nos connaissances de la vision humaine peuvent-elles permettre de créer de nouveaux modèles d’intelligence artificielle (IA) ? C’est l’hypothèse émise par l'enseignant-chercheur Thomas Serre, porteur d’une chaire consacrée à ces travaux au sein de l’Institut interdisciplinaire d’intelligence artificielle de Toulouse, ANITI. Entretien outre-Atlantique en direct de Brown University, dans l’État du Rhode Island.
Propos recueillis par Valérie Ravinet, journaliste.
Si vous deviez résumer vos travaux en quelques lignes, que diriez-vous ?
Je cherche à comprendre le fonctionnement du système visuel du cerveau, notamment les processus de reconnaissance. Est-il possible de s’en inspirer pour créer des modèles d’intelligence artificielle capables de rivaliser avec notre vue ? Mes travaux relèvent des neurosciences computationnelles.
Où en êtes-vous aujourd’hui ?
Nous sommes en train de vivre un véritable bouleversement dans le domaine. Il y a dix ans, il aurait été impossible d’imaginer un système de vision par ordinateur comparable au fonctionnement humain. Aujourd’hui, les machines se rapprochent de nos performances pour classer des images, avec des milliers de catégories d’objets naturels ou fabriqués. C’est encore plus impressionnant en matière de reconnaissance des visages : les travaux du Dr. Jonathan Philipps du National Institute of Standards and Technology (NIST) mettent en évidence que les algorithmes d’IA commencent à « dépasser » déjà les experts biométriques.
Est-ce à dire que l’ordinateur « voit » mieux que l’œil humain ?
Cela signifie que la vision par ordinateur entre en compétition avec la vision humaine dans certains domaines. Mais cela met également en évidence le fait qu’il reste très facile de flouer la machine. Une modification de quelques pixels, indécelable à l’œil nu, peut totalement tromper l’IA. On les appelle « adversarial attacks », les attaques contradictoires en français. Même dans des cas où l’IA se montre supérieure à la vision humaine pour des images « normales », elle peut s’avérer ultra-sensible à des perturbations mineures. Mes travaux consistent à améliorer la performance et la robustesse de ces algorithmes
Quelles sont vos pistes de travail pour corriger les défaillances de l’IA ? Entrainer encore davantage les machines ?
Il ne s’agit plus de multiplier les données d’apprentissage, car cette tâche ne sera jamais terminée. Prenons l’exemple des véhicules autonomes : ils sont capables de conduire durant des milliers de kilomètres sans intervention humaine, en toute sécurité. Pourtant, à un certain moment, ils rencontrent un obstacle, même tout à fait mineur, qu’ils ne reconnaissent pas et commettent une erreur que l’humain n’aurait sans doute pas faite. Bien sûr, nous collectons les erreurs pour les réinjecter dans les bases d’entrainement des algorithmes, mais il n’est pas imaginable de collecter toutes les erreurs possibles, puisqu’une situation ne se reproduit jamais deux fois exactement de la même manière, le même piéton avec la même lumière passant exactement au même endroit, pour poursuivre sur le même exemple.
Nous nous orientons vers une augmentation de la capacité de généralisation des algorithmes pour qu’ils apprennent le concept de piéton de manière plus générale, sans d’ailleurs savoir précisément comment l’humain fonctionne en la matière. En effet, l’humain commet des erreurs mais elles ne sont pas de même nature, elles relèvent davantage de l’inattention ou de la fatigue, par exemple.
Quelles sont les options pour améliorer l’IA ?
L’une d’elle consiste à comprendre la capacité du cerveau humain à s’affranchir de connaissances exhaustives pour généraliser parfaitement avec peu de données, en comparaison de celles dont disposent les IA modernes. Concernant des véhicules autonomes, l’humain est plus flexible dans sa capacité à prendre des décisions dans des conditions qu’il n’a jamais expérimentées auparavant, tandis que l’IA a encore du mal à généraliser au-delà des conditions d’entrainement. Par exemple, un véhicule entrainé dans des conditions climatiques californiennes ne sera pas adapté pour le nord de l’Europe sous la neige, il est nécessaire de reprendre l’intégralité de l’entrainement. L’objectif est de parvenir à des connaissances permettant aux IA de générer un certain niveau d’abstraction.
La machine peut-elle rivaliser avec la capacité d’abstraction du cerveau humain ?
Notre cerveau est le fruit de millions d’années d’évolution. Il n’y a rien de magique dans le système visuel, seule l’évolution a permis de trouver des solutions. Simuler ces connaissances injectées dans les cerveaux par ces millions d’années est terriblement complexe à reproduire avec nos modes d’entrainement actuel des machines. L’idée est que le cerveau humain peut utiliser des biais inductifs, – ce qu’il a appris par l’expérience ou l’évolution – utiles pour le raisonnement visuel. En s’inspirant du cerveau humain, on va être capable d’inclure certaines contraintes architecturales du cerveau humain dans les réseaux de neurones artificiels. Ce dernier s’appuie sur un nombre de couches au moins dix fois supérieure à celle de l’humain pour résoudre ces tâches complexes ; 150 couches pour la machine, 6 à 12 pour le système visuel humain. L’échange d’informations dans les systèmes d’IA est principalement feed-forward. Or, il est plus dynamique dans le cerveau dans une même couche et entre les couches. Notre espoir est qu’en étant plus proche de la vision humaine, l’IA sera plus robuste et potentiellement plus fiable.
Quels sont les phénomènes que l’on cherche à modéliser ?
On cherche à modéliser des phénomènes neurophysiologiques. Par exemple, le modèle de feed-back qui explique les illusions d’optique et s’avère très prometteur pour résoudre des problèmes de vision en IA. Le nombre de connexions feed-back, lorsque les neurones établissent entre eux des connexions des couches hautes vers les couches basses, sont dix fois plus importantes dans le cerveau humain que les connexions feed-forward, des couches basses vers les couches hautes.
Il s’agit donc de comprendre et « copier » ce qui nous rend si profondément humain ?
Pas copier, mais s’en inspirer. Le mécanisme de l’empreinte, observé par Konrad Lorentz dans les années 1920, établit que des canetons s’attachent à leur mère car c’est le premier « objet mobile » qu’ils voient à leur naissance. Il a montré qu’on pouvait remplacer la mère par n’importe quel objet et les canetons se mettent à le suivre. Il y a donc un processus d’apprentissage très rapide. Ce réflexe d’empreinte, détourné, permet de tester les capacités des canetons à apprendre des tâches de raisonnement visuel. Reconnait-il deux objets ou deux formes identiques ? Leurs couleurs ? Ces expérimentations consistent à distinguer des fonctions du cerveau qui ne sont pas utilisées dans la vision par ordinateur, à les modéliser et à les injecter, en espérant qu’elles optimiseront la manière de résoudre certaines tâches.
En quoi est-ce une avancée ?
C’est un éclairage pour comprendre la perception de la couleur, du mouvement, des formes, etc… Nous avons récemment montré que nous parvenions à réduire le nombre d’exemples pour entrainer nos réseaux de neurones et parvenir à des performances égales ou supérieures pour la détection de contours des formes grâce à ce modèle. On apprend mieux avec moins et on repousse ainsi les limites de l’IA.
Quel est votre lien avec ANITI ? Que vous apporte l’institut ?
Au sein d’ANITI, je porte, avec mes collègues Frédéric Dehais et Rufin VanRullen, l’aspect « naturel » de l’intelligence, c’est-à-dire l’idée est que le cerveau peut être une source d’inspiration pour améliorer les compétences des systèmes d’IA. ANITI est une formidable organisation interdisciplinaire pour comprendre et formaliser des concepts de manière profonde et explicable. Dans mon domaine, les étudiants manquent de théorie mathématique pour connaitre et comprendre la vision, naturelle comme artificielle. ANITI devrait permettre d’avancer sur ce point.
Bio express
Durant ses études supérieures d’ingénieur au sein de Télécom Bretagne (ENSTB), Thomas Serre découvre le traitement de l’image. C’est le début d’une fascination qui le conduit d’abord en stage, puis en thèse au Massachusetts Institute of Technology -MIT –« un temple pour les curieux de sciences ». Il rejoint en 2010 la Brown University.
Docteur en neurosciences, Professeur des universités, il est directeur du Centre de calcul et de visualisation et directeur associé du Centre de science computationnelle du cerveau. Au sein d’ANITI, Thomas Serre porte la chaire « retro-ingénierie du cerveau » et collabore à trouver de nouvelles méthodes d’intelligence artificielle pour optimiser une aide à la décision fiable et robuste.
Dans un article paru dans Annual Review of Vision Science, intitulé « Deep Learning : The Good, the Bad, and the Ugly » - Apprentissage profond : le bon, la brute et le truand-, Thomas Serre fait le point sur les avancées et les limites des connaissances actuelles et des perspectives offertes par les neurosciences pour éclairer la conception de futurs systèmes de vision artificielle.