Интеграция больших языковых моделей (LLM) в научные исследования переходит из плоскости теории в плоскость высокотехнологичной реальности. Последние данные свидетельствуют о том, что код, созданный ИИ, не просто помогает исследователям — он начинает соответствовать аналитическим способностям экспертов-людей, а иногда и превосходить их.
Исследование, опубликованное в журнале Cell Reports Medicine, выявило значительный сдвиг в методах обработки сложных медицинских данных. Используя LLM, начинающие исследователи — включая аспиранта и старшеклассника — успешно создали высокоточный код для прогнозирования рисков преждевременных родов. Эта задача традиционно требует многолетнего специализированного опыта.
Прорыв: скорость и точность
В исследовании использовались массивные наборы данных из программ DREAM (Dialogue for Reverse Engineering Assessments and Methods). Эти данные невероятно сложны и включают в себя:
– Транскриптомику крови: анализ РНК для определения активных генов.
– Эпигенетические данные: изучение химических меток на ДНК, которые управляют экспрессией генов.
– Данные микробиома: изучение состава бактерий во влагалищной жидкости.
Традиционно анализ этих переменных для прогнозирования гестационного возраста или преждевременных родов занял бы месяцы ручной работы высококвалифицированных биоинформатиков. Однако начинающие исследователи в данном проекте использовали простые промпты, чтобы поручить анализ восьми различным LLM.
Результаты оказались поразительными. Четыре модели — DeepSeekR1, Gemini, ChatGPT (o3-mini-high и 4o) — создали рабочий код. Примечательно, что модель o3-mini от OpenAI показала результаты на уровне команд экспертов-людей и даже превзошла их в некоторых эпигенетических анализах.
Возможно, самым важным является то, насколько сократились сроки открытий:
– Команды людей: требовались годы для завершения подобных анализов.
– Начинающие исследователи с помощью ИИ: получили результаты за три месяца и подготовили готовую рукопись статьи в течение шести месяцев.
Эволюция в сторону «агентного» ИИ
Текущая волна развития ИИ движется в сторону «агентного» ИИ (agentic AI). В отличие от стандартных чат-ботов, которые просто отвечают на запросы, агентные системы спроектированы так, чтобы действовать как автономные исследователи. Они способны:
1. Разрабатывать многоэтапные рабочие процессы исследования.
2. Итерировать (дорабатывать) собственную работу для исправления ошибок.
3. Выполнять задачи независимо, такие как поиск в интернете или запуск программного кода.
Однако эта автономия порождает серьезный «разрыв в точности». Исследование в Nature Biomedical Engineering показало, что когда LLM позволяли создавать рабочие процессы полностью самостоятельно, их точность падала ниже 40%.
Чтобы решить эту проблему, исследователи переходят к модели «человек в контуре» (human-in-the-loop). Благодаря требованию к ИИ представлять пошаговый план для проверки человеком перед выполнением кода, точность подскочила с 40% до 74%. Это говорит о том, что будущее ИИ в науке заключается не в замене ученого, а в расширении его возможностей через контролируемые рассуждения.
Вызовы: стандарты, меры безопасности и «ИИ-мусор»
Поскольку ИИ становится постоянным атрибутом лаборатории, научное сообщество сталкивается с тремя критическими препятствиями:
- Проблема бенчмаркинга (тестирования): ИИ развивается настолько быстро, что к моменту создания стандартного теста для его проверки модели уже успевают его превзойти. Исследователи из Стэнфорда в настоящее время работают над созданием стандартизированных медицинских бенчмарков, чтобы успевать за этой эволюцией.
- Необходимость контроля: Эксперты предостерегают от «слепого доверия». Цель состоит в том, чтобы интегрировать ИИ в научный метод, не жертвуя строгостью и не создавая «ИИ-мусора» (AI slop) — низкокачественных, непроверенных результатов исследований.
- Миф о совершенстве: Существует тенденция требовать от ИИ невозможного совершенства. Как отмечает профессор компьютерных наук Иан Маккуло, цель не в том, чтобы ИИ был безупречным, а в том, чтобы он работал более надежно и точно, чем это допускает человеческий фактор.
«Цель не в том, чтобы просить исследователей слепо доверять системе ИИ, — говорит соавтор исследования Зифенг Ван. — Цель состоит в том, чтобы разработать такие структуры, где рассуждения, планирование и промежуточные шаги будут достаточно прозрачными, чтобы исследователи могли контролировать и проверять процесс».
Заключение
ИИ стремительно снижает порог вхождения в сложные биомедицинские исследования, превращая месяцы работы в недели. Хотя потенциал для улучшения здоровья матерей и младенцев огромен, научное сообщество должно уделять первостепенное внимание строгому человеческому контролю и новым стандартизированным тестам, чтобы эти мощные инструменты оставались надежными.
