Maths et informatique défient les Big Data
Analyser des flots d'images, traiter des masses de données, fournir des recommandations sur Internet... Rien de cela ne serait possible sans un mariage entre mathématiques et informatique comme celui mis en œuvre par le labex CIMI.
Par Jean-François Haït, journaliste scientifique.
Quand l'informatique est née, dans les années 1950, tous les informaticiens sortaient des labos de mathématiques. Ensuite, les deux disciplines ont divergé. Aujourd'hui, elles se retrouvent, notamment sur la nécessité de traiter des masses de données de plus en plus importantes et complexes » résume Christophe Besse, directeur du Labex CIMI (Centre international de mathématiques et d'informatique de Toulouse). Créé en octobre 2012, celui-ci unit deux des structures de recherche les plus importantes de la région : l'Institut de mathématiques de Toulouse (IMT) et l'Institut de recherches en informatique de Toulouse (IRIT). Si chacun garde ses spécificités, le programme scientifique de CIMI fait converger l'IMT et l'IRIT sur des thèmes proches. À commencer par le traitement d'images.
« L'enjeu est d'extraire l'information pertinente d'une image : des couleurs, des formes... »
explique Jean-Yves Tourneret, chercheur au sein de l'équipe Signal et communication à l'IRIT.
Le domaine mathématique concerné, ce sont les statistiques et probabilités. Et l'outil pour atteindre l'objectif, c'est l'optimisation. « Pour classer un pixel donné d'une image, en fonction de sa couleur par exemple, il faut grâce à un algorithme qu'on a précédemment entraîné avec des exemples, attribuer une probabilité que le pixel soit d'une couleur donnée. Pour résoudre ce genre de problème, il faut toujours optimiser une fonction ». De nombreuses méthodes d’optimisation existent dans la littérature mais le choix de ces méthodes dépend du cas étudié. Comment généraliser, et trouver une méthode qui s'applique par exemple aussi bien à l'analyse d'images satellites prises dans le domaine de la lumière visible, et à d'autres dans le domaine des ondes radar, pourtant différentes ? Réponse : en utilisant les méthodes de type " MCMC ", pour Markov Chain Monte-Carlo. En mathématiques, une chaîne de Markov décrit l'évolution dynamique d'un système par une suite de variables aléatoires donc chacune ne dépend directement que de celle qui la précède. Une méthode de Monte-Carlo permet de calculer une valeur approchée d'un paramètre donné en effectuant des tirages aléatoires, un peu comme au casino, d'où son nom. Les méthodes MCMC combinent les deux approches. « Elles ont cependant un inconvénient : elles consomment beaucoup de temps de calcul. La recherche consiste à trouver les méthodes les plus efficaces et les moins gourmandes » explique Jean-Yves Tourneret. À Toulouse, les applications de la recherche sur le traitement d'images intéressent le spatial (Cnes, Thalès, Airbus), avec l'imagerie des satellites Spot notamment, et le domaine médical (Oncopôle) avec la possibilité de créer des algorithmes pour la détection de tumeurs en imagerie médicale.
Deux domaines qui vont générer des quantités de données toujours plus importantes. Ces Big Data sont un des centres d'intérêt d'Aurélien Garivier, de l'IMT. « Elles posent des problèmes d'informatique pure – où les stocker, comment y accéder, garantir leur intégrité, etc. - mais aussi de mathématiques », souligne le jeune chercheur. La solution qu'il explore se nomme apprentissage séquentiel. Il s'agit de concevoir des algorithmes qui traitent les données en flux, et si possible qui apprennent en même temps qu'ils traitent les données. Parmi ces algorithmes dits de " machine learning ", Aurélien Garivier s'intéresse tout particulièrement aux algorithmes de bandits. Rien d'illégal dans cela, la dénomination fait référence aux " bandits manchots ", surnom des machines à sous. Dans un groupe de machines, l'une d'elles permet de gagner plus que les autres : combien d'essais faut-il effectuer avant de la trouver ? Très utile pour déterminer rapidement la bonne posologie d'un médicament, mais aussi pour effectuer des recommandations aux internautes sur un site marchand par exemple, un domaine qui a le vent en poupe.
« En tant que mathématiciens, nous essayons d'améliorer les capacités d'apprentissage des algorithmes, mais aussi de comprendre de quoi sont capables ces méthodes et quelles sont leur limites fondamentales »
précise Aurélien Garivier.
Les architectures de deep learning cachent des problèmes complexes
Parmi celles-ci, les réseaux de neurones font un retour en force. Ces algorithmes, dont l'invention remonte aux années 1940, simulent le fonctionnement du cerveau en reproduisant plusieurs couches de neurones, chacun étant doté d'une fonction mathématique qui traite l'information. Ils sont notamment utilisés dans le deep learning (apprentissage profond), avec des applications spectaculaires comme la vision par ordinateur, dans laquelle une machine est capable de décrire ce qu'elle voit sur une photo en utilisant un champ sémantique très riche. Encore faut-il trouver la meilleure architecture, en particulier le nombre de couches nécessaires, pour que les algorithmes soient efficaces. « Les architectures de Deep learning cachent des problèmes complexes, encore mal compris en mathématiques », souligne Aurélien Garivier. C'est pourquoi une plateforme sur cette thématique toute récente, impliquant des chercheurs de l'IMT et de l'IRIT est en cours de constitution au sein de CIMI. « Nous pourrons ainsi travailler ensemble, mais aussi répondre à des sollicitations extérieures », précise Aurélien Garivier.
Des sollicitations qui ne manquent pas, « de la PME à Airbus », souligne Christophe Besse. CIMI intervient sur des problèmes mathématiques complexes que les ingénieurs de ces sociétés ne peuvent résoudre (lire encadré). Une demande de compétences, mais aussi de talents.
« Nos docteurs spécialistes de machine learning sont très recherchés, l'un d'entre eux sera bientôt recruté par un célèbre site de commerce en ligne. Même au niveau master, la demande est forte. Il y a de l'emploi dans les maths ! »
constate Aurélien Garivier.
GLOSSAIRE : les mathématiques pour les industriels
Confrontés à un problème mathématique, les industriels de tous les domaines peuvent faire appel aux compétences du Labex CIMI pour le résoudre. Pas toujours facile cependant de trouver le bon spécialiste et de formuler sa demande, tant le langage des mathématiques peut sembler hermétique. C'est pourquoi CIMI s'est rapproché de la SATT Toulouse Tech Transfer afin de constituer un catalogue de compétences et un glossaire de mots-clés que les entreprises peuvent utiliser pour affiner leurs demandes. Le document est accessible en ligne. Renseignements : contact@cimi.univ-toulouse.fr
IMT : Institut de mathématiques de Toulouse - CNRS, Université Toulouse III Paul Sabatier, INSA Toulouse, Université Toulouse Capitole, Université Toulouse - Jean Jaurès
IRIT : Institut de recherches en informatique de Toulouse - CNRS, Université Toulouse III Paul Sabatier, INP Toulouse, Université Toulouse Capitole, Université Toulouse - Jean Jaurès.