Une IA aux grandes oreilles

Partagez l'article

Maths・Ingénierie

Une IA aux grandes oreilles

Sonar IA sonore reconnaissance

Que celui ou celle qui, sur Internet, n’a pas cliqué sur l’image d’un chat, d’un feu tricolore ou d’un passage piéton de la mosaïque, nous jette la première pierre. Que vous le souhaitiez ou non, vous avez donc sans doute déjà entrainé des intelligences artificielles. En indiquant qu’ici il y a un chat, et que là non, vous avez contribué à « étiqueter » des images, à leur attribuer des mots-clés. Qu’en est-il du son ? Les IA sont-elles capables de déterminer si, dans tel ou tel enregistrement, on entend une voix, le chant d’un oiseau ou un robinet qui fuit ?

Sonar, série de podcasts d’explorations scientifiques et sonores, vous embarque pour une aventure en immersion... Plongez dans ces récits où les sons se propagent et les sujets scientifiques deviennent des paysages.

🎧 Retrouvez ce podcast sur vos plateformes d'écoute (Deezer, Spotify, Amazon Music, Apple Podcasts et Google Podcast).

 

 

Bien que les travaux sur le son soient moins nombreux et moins avancés que ceux sur l’image, on y planche depuis les années 1950. À l’époque c’était un travail fastidieux, et depuis les années 2010, avec l’apparition de l’apprentissage profond (deep learning), les recherches sont allées beaucoup plus vite, beaucoup plus loin. Le deep learning s’inspire de nos réseaux de neurones, de la manière dont ils communiquent entre eux pour pouvoir réaliser des tâches complexes. 

À l’Université Toulouse III – Paul Sabatier, le chercheur en informatique Thomas Pellegrini s’est penché sur des sons d’origine animale, comme le chant des oiseaux. Le principal enjeu étant de rendre une intelligence artificielle (IA) capable de dire si oui ou non il y a un chant d’oiseau dans un enregistrement.

L’IA doit passer par une phase dite d’apprentissage. Car pour l’instant, elle ignore tout sur tout et serait bien incapable de distinguer le chant d’un oiseau d’un robinet qui fuit. Il va falloir l’entraîner à reconnaître les sons. Thomas Pellegrini utilise un ensemble d’enregistrements sonores (appelé « jeu de données »). Chaque fichier est « étiqueté », on lui a accolé les fameux mots-clés, par exemple « oiseau », « klaxon », « voix » (comme le chat sur la mosaïque). Pour plus de précisions, un chant d’oiseau pourra être à la fois étiqueté « oiseau » et « mésange ». À force d’être confrontés à des enregistrements avec et sans oiseaux, les algorithmes affinent la manière dont les neurones communiquent entre eux pour minimiser les erreurs. 

On peut même soumettre à l’IA différentes versions d’un même son : « chant d’oiseau ralenti », « accéléré », « superposé »... L’IA finit par définir ce que ces sons ont en commun. Un peu comme si à force de voir des omelettes, des blancs en neige, des œufs mollets, on pouvait déduire que tout ça vient d'un seul et même aliment, l'œuf.

Aujourd’hui, Thomas Pellegrini développe une méthode d’apprentissage dite « self supervised ». Le but n’est plus de savoir s’il y a bien un chant d’oiseau, mais de créer un enregistrement à trous et de demander à l’IA de combler les silences, à la manière dont le célèbre Chat GPT complète un texte. Si elle y arrive, c'est qu'elle a compris ce qu'est le segment audio, la structure du chant d'oiseau en question...

La détection de signaux sonores peut être un outil précieux pour faire un suivi de population d’espèces animales. Une équipe de scientifiques travaillant sur des singes en Angola a sollicité notre chercheur pour analyser les centaines d’heures d’enregistrements de leurs pièges sonores laissés en forêt. Ce qui prend à un humain un temps infini est une broutille pour une IA. 

 

 

Thomas Pellegrini est enseignant-chercheur en informatique à l'Université Toulouse III - Paul Sabatier, au sein de l’Institut de Recherche en Informatique de Toulouse - IRIT (CNRS, Université Toulouse III - Paul Sabatier, Toulouse INP, Université Toulouse - Capitole, Université Toulouse - Jean Jaurès).

 

Sonar est une série et production Exploreur - Université de Toulouse (coordination et suivi éditorial : Gauthier Delplace, Clara Mauler et Hélène Pierre ; visuel : Delphie Guillaumé et Caroline Muller), co-conçue et réalisée par Les Voix de Traverse (Aurélien Caillaux et Lucie Combes). Les recherches présentées ont été financées par l'Agence Nationale de la Recherche (ANR, projet LUDAU). Cet épisode est réalisé et financé dans le cadre du projet Science Avec et Pour la Société « CONNECTS » porté par l'Université de Toulouse, et réalisé dans le cadre de La Nuit des chercheur·es.