SHS : la révolution numérique
Confrontées aux Big data et à l’« open access », les sciences humaines et sociales repensent leurs pratiques et explorent de nouveaux champs de recherche. Une mutation qui nécessite une réorganisation des structures à l’échelle européenne, fortement soutenue par l’Université fédérale Toulouse Midi-Pyrénées.
Par Jean-François Haït, journaliste scientifique.
« Humanités numériques » … Il faudra désormais s’habituer à ce terme qui, il y a dix ans à peine, aurait encore été considéré comme un oxymore. Les sciences humaines et sociales (SHS) sont en effet confrontées à une mutation sans précédent. Comme les autres disciplines ces dernières années, elles ont vu arriver les Big data : des données dont le volume et la variété sont tels qu’elles nécessitent un traitement spécifique, inhabituel en SHS, pour les stocker et en extraire l’information. « Chez les linguistes, nous faisions déjà un usage important des données langagières numérisées depuis les années 1990. Mais aujourd’hui, nous traitons des corpus de milliards de mots issus du web » souligne Cécile Fabre, qui dirige l’équipe de linguistique du laboratoire Cognition, langue, langage, ergonomie (CLLE) à l’Université Toulouse – Jean Jaurès. Autre changement marquant : l’ « open access » ou la mise en ligne massive de données d’études en accès libre. De fait, le partage de données entre scientifiques se généralise. « Globalement, le numérique est arrivé plus tardivement en SHS que dans les autres sciences et le libre accès aux données est loin d’y être la règle » remarque toutefois Bertrand Jouve, chercheur CNRS au laboratoire Framespa et à l’Institut de mathématiques de Toulouse, et directeur adjoint scientifique de l’Institut des sciences humaines et sociales du CNRS (InSHS).
Certes, la numérisation des grands corpus de documents papier ou cinématographiques est à l’œuvre. Mais il faut désormais compter avec les données « born digital », ou « d’origine numérique », qui alimentent directement certaines bases de données via les ordinateurs. D’autres données sont issues des réseaux sociaux en ligne. Il faut enfin ajouter le « crowdsourcing », autrement dit les données issues de projets de recherche impliquant la participation du public non spécialiste. Pour gérer ces flux, des moyens ont déjà été mis en œuvre : en France, c’est le rôle de deux Très grandes infrastructures de recherche (TGIR) : Progedo (Production et gestion de données), qui rassemble des données essentiellement quantitatives d’enquêtes pour beaucoup issues de l’Insee, et HumaNum, qui donne accès à des données qualitatives : images, textes anciens, son, vidéo...
Nous traitons des corpus de milliards de mots issus du web
Mais pour répondre au défi de la mondialisation des données, il est nécessaire d’aller plus loin. C’est pour cela que Bertrand Jouve a organisé le colloque international « Nouvelles collaborations scientifiques autour des infrastructures du numérique : France-Europe-Québec » qui s’est tenu les 26 et 27 novembre 2015 à Toulouse. Parmi les nombreuses questions abordées : quelle disponibilité des données, notamment celles produites par les grands réseaux sociaux ? Quel type d’édition est compatible avec les big data et l’open access ? Et surtout, comment établir des formats de données interopérables pour favoriser les échanges entre chercheurs européens ? « Prenons l’exemple de documents fiscaux anciens, comme des contrats de vente de parcelles agricoles. Lorsque les normes d’interopérabilité sont partagées et les documents accessibles, on peut exploiter des corpus de documents qui s’étendent sur plusieurs siècles et plusieurs pays. Et même reconnecter des études de microhistoire, qui consiste à suivre une famille ou un tout petit territoire dans le temps. Auparavant, nous ne disposions pas des outils pour le faire », souligne le chercheur de Framespa. A plus large échelle, SHARE (Survey of health, ageing and retirement in Europe), une très grande enquête menée en Europe depuis dix ans qui porte sur le vieillissement et la transition générationnelle, propose déjà des données homogènes sur 14 pays européens, autorisant ainsi des études comparatives.
« Dans le même esprit, nous devons bâtir une stratégie européenne coordonnée sur les humanités numériques »
résume Bertrand Jouve.
Une stratégie largement soutenue à Toulouse, où les exemples de cette mutation des SHS sont déjà visibles. « Nous construisons un lexique du français à partir du projet international Wiktionary. Il comprend 170 000 mots, quand un dictionnaire usuel en compte 60 000, souligne Cécile Fabre. Et nous mettons à disposition sous licence libre sur notre site REDAC nos lexiques et nos corpus. » Pour le stockage des données, son équipe s’appuie sur Huma-Num. Mais elle bénéficie aussi de soutiens régionaux. Ainsi, le calcul informatique se fait sur le cluster OSIRIM de l’IRIT.
« Les SHS ont massivement recours au traitement informatique des données. Dans nos laboratoires, nous avons des besoins d’ingénieurs informaticiens. Et les bacheliers scientifiques sont bien reçus dans nos formations ! »
conclut Cécile Fabre.
CLLE : Cognition, langue, langage, ergonomie (Université Toulouse - Jean Jaurès, Université Bordeaux-Montaigne, CNRS)
FRAMESPA : France méridionale et Espagne: histoire des sociétés du Moyen Âge à l’époque contemporaine (Université Toulouse – Jean Jaurès, CNRS)
IMT : Institut de mathématiques de Toulouse (Université Toulouse III - Paul Sabatier, Université Toulouse Capitole, Université Toulouse - Jean Jaurès, INSA Toulouse, CNRS)
IRIT : Institut de recherche en informatique de Toulouse (Université Toulouse III - Paul Sabatier, CNRS, Université Toulouse Capitole, Université Toulouse - Jean Jaurès)
LISST - Cers : Centre d’études des rationalités et des savoirs, Laboratoire interdisciplinaire solidarités, sociétés, territoires (Université Toulouse - Jean Jaurès, CNRS, EHESS)