ИИ в лаборатории: смогут ли большие языковые модели превзойти экспертов-людей в биомедицинских исследованиях?

14

Интеграция больших языковых моделей (LLM) в научные исследования переходит из плоскости теории в плоскость высокотехнологичной реальности. Последние данные свидетельствуют о том, что код, созданный ИИ, не просто помогает исследователям — он начинает соответствовать аналитическим способностям экспертов-людей, а иногда и превосходить их.

Исследование, опубликованное в журнале Cell Reports Medicine, выявило значительный сдвиг в методах обработки сложных медицинских данных. Используя LLM, начинающие исследователи — включая аспиранта и старшеклассника — успешно создали высокоточный код для прогнозирования рисков преждевременных родов. Эта задача традиционно требует многолетнего специализированного опыта.

Прорыв: скорость и точность

В исследовании использовались массивные наборы данных из программ DREAM (Dialogue for Reverse Engineering Assessments and Methods). Эти данные невероятно сложны и включают в себя:
Транскриптомику крови: анализ РНК для определения активных генов.
Эпигенетические данные: изучение химических меток на ДНК, которые управляют экспрессией генов.
Данные микробиома: изучение состава бактерий во влагалищной жидкости.

Традиционно анализ этих переменных для прогнозирования гестационного возраста или преждевременных родов занял бы месяцы ручной работы высококвалифицированных биоинформатиков. Однако начинающие исследователи в данном проекте использовали простые промпты, чтобы поручить анализ восьми различным LLM.

Результаты оказались поразительными. Четыре модели — DeepSeekR1, Gemini, ChatGPT (o3-mini-high и 4o) — создали рабочий код. Примечательно, что модель o3-mini от OpenAI показала результаты на уровне команд экспертов-людей и даже превзошла их в некоторых эпигенетических анализах.

Возможно, самым важным является то, насколько сократились сроки открытий:
Команды людей: требовались годы для завершения подобных анализов.
Начинающие исследователи с помощью ИИ: получили результаты за три месяца и подготовили готовую рукопись статьи в течение шести месяцев.

Эволюция в сторону «агентного» ИИ

Текущая волна развития ИИ движется в сторону «агентного» ИИ (agentic AI). В отличие от стандартных чат-ботов, которые просто отвечают на запросы, агентные системы спроектированы так, чтобы действовать как автономные исследователи. Они способны:
1. Разрабатывать многоэтапные рабочие процессы исследования.
2. Итерировать (дорабатывать) собственную работу для исправления ошибок.
3. Выполнять задачи независимо, такие как поиск в интернете или запуск программного кода.

Однако эта автономия порождает серьезный «разрыв в точности». Исследование в Nature Biomedical Engineering показало, что когда LLM позволяли создавать рабочие процессы полностью самостоятельно, их точность падала ниже 40%.

Чтобы решить эту проблему, исследователи переходят к модели «человек в контуре» (human-in-the-loop). Благодаря требованию к ИИ представлять пошаговый план для проверки человеком перед выполнением кода, точность подскочила с 40% до 74%. Это говорит о том, что будущее ИИ в науке заключается не в замене ученого, а в расширении его возможностей через контролируемые рассуждения.

Вызовы: стандарты, меры безопасности и «ИИ-мусор»

Поскольку ИИ становится постоянным атрибутом лаборатории, научное сообщество сталкивается с тремя критическими препятствиями:

  • Проблема бенчмаркинга (тестирования): ИИ развивается настолько быстро, что к моменту создания стандартного теста для его проверки модели уже успевают его превзойти. Исследователи из Стэнфорда в настоящее время работают над созданием стандартизированных медицинских бенчмарков, чтобы успевать за этой эволюцией.
  • Необходимость контроля: Эксперты предостерегают от «слепого доверия». Цель состоит в том, чтобы интегрировать ИИ в научный метод, не жертвуя строгостью и не создавая «ИИ-мусора» (AI slop) — низкокачественных, непроверенных результатов исследований.
  • Миф о совершенстве: Существует тенденция требовать от ИИ невозможного совершенства. Как отмечает профессор компьютерных наук Иан Маккуло, цель не в том, чтобы ИИ был безупречным, а в том, чтобы он работал более надежно и точно, чем это допускает человеческий фактор.

«Цель не в том, чтобы просить исследователей слепо доверять системе ИИ, — говорит соавтор исследования Зифенг Ван. — Цель состоит в том, чтобы разработать такие структуры, где рассуждения, планирование и промежуточные шаги будут достаточно прозрачными, чтобы исследователи могли контролировать и проверять процесс».

Заключение

ИИ стремительно снижает порог вхождения в сложные биомедицинские исследования, превращая месяцы работы в недели. Хотя потенциал для улучшения здоровья матерей и младенцев огромен, научное сообщество должно уделять первостепенное внимание строгому человеческому контролю и новым стандартизированным тестам, чтобы эти мощные инструменты оставались надежными.