Peut-on compter sur les chiffres ?
Un français sur trois… 12% de la population… Les données chiffrées sont régulièrement présentées comme une connaissance, voire un argument d’autorité, pour appuyer des idées. Quelles précautions faut-il prendre dans la production, l’interprétation et la présentation de sondages, statistiques et autres résultats quantitatifs ? Sébastien Déjean, ingénieur de recherche en information statistique à l’Institut de mathématiques de Toulouse nous apprend à lire entre les chiffres.
L'Université fédérale Toulouse Midi-Pyrénées et le Quai des Savoirs lancent Questions de confiance : un cycle de huit rencontres chaque dernier mardi du mois, de janvier à octobre 2022, proposé dans le cadre de l’exposition "Esprit Critique, détrompez-vous !" et des rencontres #Exploreur.
Rencontrez Sébastien Déjean, ingénieur de recherche en information statistique à l’Institut de mathématiques de Toulouse, le 29 mars 2022 à 18h au Quai des savoirs, en direct sur YouTube et en rediffusion dans cet article.
Par Clara Teixeira, de l’équipe Exploreur.
Le chiffre est-il une connaissance en soi ?
Sébastien Déjean : Le chiffre seul ne suffit jamais à produire de la connaissance. On sous-estime souvent les étapes qu’il y a entre le moment où on réalise une expérience, celui où on analyse les données et celui où on présente les résultats. Il y a des éléments qu’on ne maîtrise pas et des variables à prendre en compte dans l’analyse. On ne peut donc pas tout miser sur le chiffre. Ça reviendrait à avoir une confiance aveugle dans tout le processus qui fait passer par exemple de l’échantillon biologique au tableau de chiffres.
Quel est votre rôle d’ingénieur statisticien dans des projets de recherche en biologie ?
SD : J’accompagne les chercheurs dans plusieurs projets de recherche sur l’obésité, l’étude de maladies, de plantes… Mon rôle est de faire parler des tableaux de données de dizaines de milliers de colonnes. Depuis vingt ans, la biologie traite des données « haut débit ». Leur volume nécessite des méthodes et des outils statistiques particuliers. Pour un seul échantillon, il s’agit de traiter des dizaines de milliers de mesures.
Quels outils statistiques utilisez-vous ?
SD : Selon le contexte et les problèmes rencontrés, j’utilise de nombreuses méthodes statistiques allant des indicateurs statistiques les plus élémentaires (moyenne, médiane, écart-type…) à des méthodes plus récentes liées au machine learning et à l’intelligence artificielle. Un des objectifs souvent recherché, notamment face à des jeux de données volumineux, consiste à résumer au mieux l’information. C’est tout l’enjeu de la statistique dite « exploratoire » : synthétiser l’information en choisissant quelques indicateurs ou représentations graphiques capables de rendre compte fidèlement des données initiales.
Vous utilisez toujours plusieurs méthodes pour vos analyses statistiques ?
SD : Oui, il faut quasi systématiquement combiner les points de vue de plusieurs méthodes. Chacune d’elles ne nous donne qu’une vision partielle de ce qui se passe dans les données. C’est la parabole des aveugles et de l’éléphant… Six personnes aveugles sont devant un éléphant et doivent le décrire. En touchant sa trompe, l’un croit qu’il s’agit d’un serpent. Un autre touche sa queue et imagine que c’est une corde. Pour poursuivre l’analogie, un indicateur statistique, ou plus généralement une méthode statistique, nous permet de connaître qu'une partie de l’éléphant. On a besoin d’en combiner plusieurs pour comprendre l’information dans son ensemble et reconnaître l’éléphant !
Peut-on avoir confiance dans tous les indicateurs ?
SD : J’ai confiance en une moyenne ou une médiane ou en tout autre indicateur parce qu’il y a une formule à partir de laquelle je peux les calculer et les recalculer en trouvant toujours la même valeur. C’est le bon côté des mathématiques : 2 + 2 = 4 est une formule qui sera toujours correcte ! S’il doit y avoir un manque de confiance, ce n’est pas envers le calcul. En revanche, l’interprétation du résultat demande de la prudence et nécessite aussi de s’interroger sur la qualité des données qui ont servi au calcul.
Il peut y avoir plusieurs interprétations d’un même indicateur ?
SD : Oui, prenons d’abord un exemple non statistique avec l’indice de masse corporelle, l’IMC. Des collègues biologistes de l’Inserm (Institut national de la santé et de la recherche médicale) m’ont expliqué que les joueurs de rugby professionnels ont dans leur grande majorité un IMC supérieur à 30. En théorie, c’est un des facteurs qui nous permet de dire qu’une personne est atteinte d’obésité. Mais dans le cas de ces individus, cette interprétation ne correspond pas à la réalité. L’indicateur dépasse 30 parce que les joueurs professionnels de rugby sont extrêmement musclés et ont un faible taux de masse grasse, correspondant à des athlètes de haut niveau. Un autre exemple plus en lien avec un indicateur statistique bien connu : la moyenne. Il peut sembler légitime de se réjouir d’une annonce de l’augmentation du salaire moyen dans une entreprise. Or, ce salaire moyen peut augmenter lorsque les personnels ayant les salaires les plus bas sont licenciés. Alors, avant de se réjouir d’une telle annonce, il est plus prudent d’essayer d’en savoir un peu plus sur les données pour interpréter correctement une augmentation de moyenne.
Certains chiffres auraient-ils pu être mal interprétés dans vos projets de recherche ?
SD : Je participe à un projet sur l’aide au diagnostic de certaines maladies impactant les cordes vocales. On enregistre la voix d’une personne, on traite son signal et on regarde si on est capable de distinguer les personnes malades des personnes saines. Ce signal vocal, c’est du chiffre que je peux étudier et mettre en graphique. Sur des données réelles, deux profils se sont distingués, certains étaient très réguliers et d’autres moins. Spontanément, ça laissait penser que les signaux réguliers étaient ceux des personnes non malades. Ce qui n’était toujours pas le cas. On a appris par la suite que certaines personnes malades étaient suivies par des orthophonistes. Donc ça invalidait notre première interprétation. Les personnes suivies par un orthophoniste auront un signal vocal régulier, qu’elles soient malades ou non. C’est un biais qui s’est retrouvé dans les données. Une fois ce point identifié, il faut en prendre compte dans nos analyses pour bien interpréter nos données chiffrées.
Même si les formules et les calculs sont sûrs, peut-il y avoir des biais dans la production de données ?
SD : Oui, c’est un point de vigilance à avoir dans les protocoles de recherche. Je vais fréquemment voir les biologistes avec qui je travaille dans leur laboratoire pour comprendre leur protocole. Avec des collègues d’un laboratoire de recherche en sciences végétales, nous avons étudié l’adaptation des plantes à certains phénomènes, comme une hausse de température. On plante des graines dans des barquettes. Elles sont placées dans des chambres de culture en milieu contrôlé, à des températures différentes pour les besoins de l’expérience. Autant que possible, il faut veiller à ce que les barquettes soient régulièrement déplacées pour éviter qu’une plante soit par exemple tout le temps dans un éventuel courant d’air ou dans une position privilégiée par rapport à la lumière... On réduit les risques de biais en amont, en statistiques c’est de la « planification expérimentale ».
Avez-vous déjà été surpris par quelque chose que vous n’aviez pas anticipé dans le protocole expérimental ?
SD : Oui, cela arrive même assez souvent quand j’y réfléchis. C’est justement ce qui fait l’intérêt d’une démarche statistique d’analyse de données : tout n’est pas écrit à l’avance. Par exemple, lors d’une étude avec des collègues de l’Inserm, je voyais des regroupements très nets d’individus se dégager des données. En discutant avec les collègues à l’origine de l’étude, nous avons rapidement compris que le facteur de regroupement des individus était leur pays d’origine. Ce phénomène de regroupement était inattendu mais, une fois identifié, nous en avons pris en compte. Il a fallu adapter les méthodes statistiques pour modérer l’effet du pays d’origine, qui n’était pas un facteur d’intérêt dans le cadre de cette étude.
Comment faire le tri parmi les données chiffrées, comme les sondages, quand on n’a pas d’information concernant leur production ?
SD : Il faut comparer les résultats de plusieurs études ou sondages, si possible indépendants. Par exemple en période électorale, si plusieurs sondages annoncent un candidat ou une candidate entre 16 et 17 % d’intentions de vote, cela semble plus digne de confiance que les résultats d’un candidat annoncé entre 13 et 20 %. En statistiques, une petite variabilité entre les données montre qu’on peut leur faire plus confiance.
En quoi la variabilité permet-elle de jauger la confiance qu’on peut avoir dans une donnée ?
SD : Imaginons que nous regardions les notes de deux élèves dont la moyenne est égale à 10. Je parierais facilement que l’élève qui a des notes entre 9 et 11 recevra une note de 10 au prochain examen. J’aurais plus d’hésitations concernant l’élève dont les notes sont comprises entre 2 et 18, car il y a une plus grande variabilité entre elles. Ça me donne moins confiance dans le fait que la moyenne de cet élève soit représentative de ses résultats scolaires. La moyenne seule ne permet pas de tirer cette conclusion. On a besoin de la variabilité pour voir si les indicateurs statistiques sont représentatifs de la situation réelle. En donnant une moyenne, on synthétise, on se prive d’une partie de l’information. Un chiffre seul ne suffit pas.