AI in het laboratorium: kunnen grote taalmodellen beter presteren dan menselijke experts in biomedisch onderzoek?

23

De integratie van grote taalmodellen (LLM’s) in wetenschappelijk onderzoek verschuift van theorie naar realiteit waar veel op het spel staat. Recente bevindingen suggereren dat door AI gegenereerde code niet alleen onderzoekers helpt, maar de analytische capaciteiten van menselijke experts begint te evenaren en soms zelfs te overtreffen.

Een studie gepubliceerd in Cell Reports Medicine heeft een significante verschuiving benadrukt in de manier waarop complexe medische gegevens kunnen worden verwerkt. Door gebruik te maken van LLM’s hebben junioronderzoekers, waaronder een afgestudeerde student en een middelbare scholier, met succes zeer nauwkeurige code gegenereerd om het risico op vroeggeboorte te voorspellen, een taak die traditioneel jarenlange gespecialiseerde expertise vereist.

De doorbraak: snelheid en nauwkeurigheid

Bij het onderzoek werd gebruik gemaakt van enorme datasets van de DREAM-uitdagingen (Dialogue for Reverse Engineering Assessments and Methods). Deze datasets zijn ongelooflijk complex en omvatten:
Bloedtranscriptie: Analyse van RNA om te zien welke genen actief zijn.
Epigenetische gegevens: Onderzoek naar chemische tags op DNA die de genexpressie controleren.
Microbioomgegevens: Onderzoek naar bacteriële samenstellingen in vaginaal vocht.

Traditioneel zou het analyseren van deze variabelen om de zwangerschapsduur of vroeggeboorte te voorspellen maanden van handmatig werk vergen door hoogopgeleide bio-informatici. De junioronderzoekers in dit onderzoek gebruikten echter eenvoudige aanwijzingen om acht verschillende LLM’s met de analyse te belasten.

De resultaten waren opvallend. Vier modellen (DeepSeekR1, Gemini, ChatGPT (o3-mini-high en 4o) ) produceerden functionele code. Met name de o3-mini van OpenAI presteerde net zo goed als de oorspronkelijke menselijke expertteams en presteerde zelfs beter dan hen in bepaalde epigenetische analyses.

Misschien wel het belangrijkste is dat de tijdlijn voor ontdekking is gecomprimeerd:
Menselijke teams: Het duurde jaren om soortgelijke analyses uit te voeren.
AI-ondersteunde junioronderzoekers: Produceerden binnen drie maanden resultaten en binnen zes maanden een voltooid manuscript.

De evolutie naar ‘Agentische’ AI

De huidige golf van AI-hulp beweegt zich richting “agentische” AI. In tegenstelling tot standaard chatbots die eenvoudigweg op aanwijzingen reageren, zijn agentische systemen ontworpen om als autonome onderzoekers te fungeren. Ze kunnen:
1. Ontwikkel onderzoeksworkflows in meerdere stappen.
2. Herhaal hun eigen werk om fouten te corrigeren.
3. Voer zelfstandig taken uit, zoals zoeken op internet of het uitvoeren van code.

Deze autonomie brengt echter een aanzienlijke ‘nauwkeurigheidskloof’ met zich mee. Uit een onderzoek bij Nature Biomedical Engineering is gebleken dat wanneer LLM’s geheel zelfstandig workflows mochten creëren, hun nauwkeurigheid onder 40% daalde.

Om dit op te lossen zijn onderzoekers op weg naar een “human-in-the-loop” raamwerk. Door van de AI te eisen dat hij een stappenplan voor menselijke beoordeling presenteerde voordat de code werd uitgevoerd, steeg de nauwkeurigheid van 40% naar 74%. Dit suggereert dat de toekomst van AI in de wetenschap niet gaat over het vervangen van de wetenschapper, maar over het vergroten ervan door middel van begeleid redeneren.

Uitdagingen: normen, waarborgen en ‘AI-slop’

Nu AI een vaste waarde wordt in het laboratorium, wordt de wetenschappelijke gemeenschap geconfronteerd met drie cruciale hindernissen:

  • Het benchmarkprobleem: AI evolueert zo snel dat tegen de tijd dat er een standaard benchmark wordt gemaakt om het te testen, de modellen deze al hebben overtroffen. Onderzoekers van Stanford werken momenteel aan het opstellen van gestandaardiseerde medische benchmarks om gelijke tred te houden met deze evolutie.
  • De toezichtseis: Deskundigen waarschuwen voor ‘blind vertrouwen’. Het doel is om AI in de wetenschappelijke methode te integreren zonder in te boeten aan nauwkeurigheid of het creëren van ‘AI-slop’: niet-geverifieerde onderzoeksresultaten van lage kwaliteit.
  • De perfectiemythe: Er bestaat de neiging om AI aan een onmogelijke standaard van perfectie te houden. Zoals hoogleraar computerwetenschappen Ian McCulloh opmerkt, is het doel niet dat AI foutloos is, maar dat het betrouwbaarder en nauwkeuriger presteert dan de menselijke foutenpercentages toestaan.

“Het doel is niet om onderzoekers te vragen blindelings op een AI-systeem te vertrouwen”, zegt co-auteur van het onderzoek, Zifeng Wang. “Het doel is om raamwerken te ontwerpen waarin de redenering, planning en tussenstappen voldoende zichtbaar zijn zodat onderzoekers het proces kunnen begeleiden en valideren.”

Conclusie

AI verlaagt snel de toegangsdrempel voor complexe biomedische analyses, waardoor maanden werk in weken verandert. Hoewel het potentieel om de gezondheid van moeders en kinderen te verbeteren enorm is, moet de wetenschappelijke gemeenschap prioriteit geven aan strikt menselijk toezicht en nieuwe gestandaardiseerde benchmarks om ervoor te zorgen dat deze krachtige hulpmiddelen betrouwbaar blijven.