L’IA en laboratoire : les grands modèles linguistiques peuvent-ils surpasser les experts humains en recherche biomédicale ?

21

L’intégration des grands modèles linguistiques (LLM) dans la recherche scientifique passe de la théorie à la réalité aux enjeux élevés. Des découvertes récentes suggèrent que le code généré par l’IA n’aide pas seulement les chercheurs : il commence à égaler, et parfois à dépasser, les capacités analytiques des experts humains.

Une étude publiée dans Cell Reports Medicine a mis en évidence un changement significatif dans la manière dont les données médicales complexes peuvent être traitées. En tirant parti des LLM, de jeunes chercheurs, dont un étudiant diplômé et un étudiant du secondaire, ont réussi à générer un code très précis pour prédire les risques de naissance prématurée, une tâche qui nécessite traditionnellement des années d’expertise spécialisée.

La percée : vitesse et précision

La recherche a utilisé des ensembles de données massifs issus des défis DREAM (Dialogue for Reverse Engineering Assessments and Methods). Ces ensembles de données sont incroyablement complexes et impliquent :
Transcriptomique sanguine : Analyse de l’ARN pour voir quels gènes sont actifs.
Données épigénétiques : Examen des étiquettes chimiques sur l’ADN qui contrôlent l’expression des gènes.
Données sur le microbiome : Étude des compositions bactériennes dans le liquide vaginal.

Traditionnellement, l’analyse de ces variables pour prédire l’âge gestationnel ou l’accouchement prématuré nécessiterait des mois de travail manuel de la part de bioinformaticiens hautement qualifiés. Cependant, les jeunes chercheurs de cette étude ont utilisé des invites simples pour confier l’analyse à huit LLM différents.

Les résultats ont été frappants. Quatre modèles —DeepSeekR1, Gemini, ChatGPT (o3-mini-high et 4o) — ont produit du code fonctionnel. Notamment, o3-mini d’OpenAI a aussi bien fonctionné que les équipes d’experts humains d’origine et les a même surpassées dans certaines analyses épigénétiques.

Le plus important peut-être est que le calendrier de la découverte a été compressé :
Équipes humaines : Il a fallu des années pour réaliser des analyses similaires.
Chercheurs juniors assistés par l’IA : Résultats produits en trois mois et manuscrit terminé en six mois.

L’évolution vers une IA « agentique »

La vague actuelle d’assistance à l’IA s’oriente vers une IA « agentique ». Contrairement aux chatbots standards qui répondent simplement aux invites, les systèmes agents sont conçus pour agir comme des chercheurs autonomes. Ils peuvent :
1. Développer des flux de travail de recherche en plusieurs étapes.
2. Répéter sur leur propre travail pour corriger les erreurs.
3. Exécutez des tâches telles que rechercher sur Internet ou exécuter du code de manière indépendante.

Cependant, cette autonomie entraîne un « écart de précision » important. Une étude publiée dans Nature Biomedical Engineering a révélé que lorsque les LLM étaient autorisés à créer des flux de travail entièrement par eux-mêmes, leur précision tombait en dessous de 40 %.

Pour résoudre ce problème, les chercheurs s’orientent vers un cadre “humain dans la boucle”. En exigeant que l’IA présente un plan étape par étape pour l’examen humain avant d’exécuter le code, la précision est passée de 40 % à 74 %. Cela suggère que l’avenir de l’IA dans la science ne consiste pas à remplacer les scientifiques, mais à les renforcer grâce à un raisonnement supervisé.

Défis : normes, garanties et « AI Slop »

Alors que l’IA devient un élément permanent dans les laboratoires, la communauté scientifique est confrontée à trois obstacles critiques :

  • Le problème du benchmarking : L’IA évolue si rapidement qu’au moment où un benchmark standard est créé pour la tester, les modèles l’ont déjà dépassé. Les chercheurs de Stanford travaillent actuellement à l’établissement de références médicales standardisées pour suivre le rythme de cette évolution.
  • L’exigence de supervision : Les experts mettent en garde contre une « confiance aveugle ». L’objectif est d’intégrer l’IA dans la méthode scientifique sans sacrifier la rigueur ni créer de « slop d’IA » – des résultats de recherche de mauvaise qualité et non vérifiés.
  • Le mythe de la perfection : Il existe une tendance à maintenir l’IA à un niveau de perfection impossible. Comme le souligne le professeur d’informatique Ian McCulloh, l’objectif n’est pas que l’IA soit parfaite, mais qu’elle fonctionne de manière plus fiable et plus précise que ne le permettent les taux d’erreur humaine.

“Le but n’est pas de demander aux chercheurs de faire aveuglément confiance à un système d’IA”, explique Zifeng Wang, co-auteur de l’étude. “L’objectif est de concevoir des cadres dans lesquels le raisonnement, la planification et les étapes intermédiaires sont suffisamment visibles pour que les chercheurs puissent superviser et valider le processus.”

Conclusion

L’IA abaisse rapidement les barrières à l’entrée pour les analyses biomédicales complexes, transformant des mois de travail en semaines. Même si le potentiel d’amélioration de la santé maternelle et infantile est immense, la communauté scientifique doit donner la priorité à une surveillance humaine rigoureuse et à de nouveaux critères de référence standardisés pour garantir la fiabilité de ces outils puissants.