AI di Lab: Dapatkah Model Bahasa Besar Mengungguli Pakar Manusia dalam Penelitian Biomedis?

9

Integrasi Model Bahasa Besar (LLM) ke dalam penelitian ilmiah beralih dari teori ke kenyataan yang berisiko tinggi. Temuan terbaru menunjukkan bahwa kode yang dihasilkan AI tidak hanya membantu peneliti—tetapi juga mulai menyamai, dan terkadang melampaui, kemampuan analitis para pakar manusia.

Sebuah penelitian yang diterbitkan dalam Cell Reports Medicine menyoroti perubahan signifikan dalam cara pemrosesan data medis yang kompleks. Dengan memanfaatkan LLM, peneliti junior—termasuk mahasiswa pascasarjana dan siswa sekolah menengah atas—berhasil menghasilkan kode yang sangat akurat untuk memprediksi risiko kelahiran prematur, sebuah tugas yang biasanya memerlukan keahlian khusus selama bertahun-tahun.

Terobosan: Kecepatan dan Akurasi

Penelitian ini menggunakan kumpulan data besar-besaran dari Tantangan DREAM (Dialogue for Reverse Engineering Assessments and Methods). Kumpulan data ini sangat kompleks, melibatkan:
Transkriptomik darah: Menganalisis RNA untuk melihat gen mana yang aktif.
Data epigenetik: Memeriksa tanda kimia pada DNA yang mengontrol ekspresi gen.
Data mikrobioma: Mempelajari komposisi bakteri dalam cairan vagina.

Secara tradisional, menganalisis variabel-variabel ini untuk memprediksi usia kehamilan atau kelahiran prematur memerlukan pekerjaan manual selama berbulan-bulan oleh ahli bioinformatika yang sangat terlatih. Namun, peneliti junior dalam penelitian ini menggunakan petunjuk sederhana untuk menugaskan delapan LLM berbeda dengan analisisnya.

Hasilnya sangat mengejutkan. Empat model—DeepSeekR1, Gemini, ChatGPT (o3-mini-high dan 4o) —menghasilkan kode fungsional. Khususnya, o3-mini OpenAI memiliki kinerja yang sama baiknya dengan tim ahli manusia asli dan bahkan mengungguli mereka dalam analisis epigenetik tertentu.

Mungkin yang paling signifikan, garis waktu penemuan telah dipersingkat:
Tim manusia: Butuh waktu bertahun-tahun untuk menyelesaikan analisis serupa.
Peneliti junior yang dibantu AI: Menghasilkan hasil dalam tiga bulan dan naskah selesai dalam waktu enam bulan.

Evolusi Menuju AI “Agentik”.

Gelombang bantuan AI saat ini bergerak menuju AI “agentik”. Tidak seperti chatbot standar yang hanya merespons perintah, sistem agen dirancang untuk bertindak sebagai peneliti otonom. Mereka dapat:
1. Mengembangkan alur kerja penelitian multi-langkah.
2. Ulangi pekerjaan mereka sendiri untuk memperbaiki kesalahan.
3. Jalankan tugas seperti mencari di internet atau menjalankan kode secara mandiri.

Namun, otonomi ini membawa “kesenjangan akurasi” yang signifikan. Sebuah studi di Nature Biomedical Engineering menemukan bahwa ketika LLM diizinkan membuat alur kerja sepenuhnya sendiri, akurasinya turun di bawah 40%.

Untuk mengatasi hal ini, para peneliti beralih ke kerangka kerja “human-in-the-loop”. Dengan mengharuskan AI untuk menyajikan rencana langkah demi langkah untuk peninjauan manusia sebelum mengeksekusi kode, akurasi melonjak dari 40% menjadi 74%. Hal ini menunjukkan bahwa masa depan AI dalam sains bukanlah tentang menggantikan ilmuwan, namun tentang mengembangkannya melalui penalaran yang diawasi.

Tantangan: Standar, Perlindungan, dan “AI Slop”

Ketika AI menjadi perlengkapan permanen di laboratorium, komunitas ilmiah menghadapi tiga rintangan penting:

  • Masalah Tolok Ukur: AI berkembang begitu pesat sehingga saat tolok ukur standar dibuat untuk mengujinya, model-model tersebut sudah melampauinya. Para peneliti di Stanford saat ini berupaya untuk menetapkan tolok ukur medis standar untuk mengimbangi evolusi ini.
  • Persyaratan Pengawasan: Para ahli memperingatkan terhadap “kepercayaan buta”. Tujuannya adalah untuk mengintegrasikan AI ke dalam metode ilmiah tanpa mengorbankan ketelitian atau menciptakan “kekotoran AI”—hasil penelitian yang berkualitas rendah dan tidak terverifikasi.
  • Mitos Kesempurnaan: Ada kecenderungan untuk menganggap AI berada pada standar kesempurnaan yang mustahil. Seperti yang disampaikan oleh profesor ilmu komputer Ian McCulloh, tujuannya bukan agar AI menjadi sempurna, namun agar bekerja lebih andal dan akurat dibandingkan dengan tingkat kesalahan manusia.

“Tujuannya bukan untuk meminta peneliti mempercayai sistem AI secara membabi buta,” kata rekan penulis studi, Zifeng Wang. “Tujuannya adalah untuk merancang kerangka kerja di mana penalaran, perencanaan, dan langkah-langkah peralihan cukup terlihat sehingga peneliti dapat mengawasi dan memvalidasi prosesnya.”

Kesimpulan

AI dengan cepat menurunkan hambatan masuk dalam analisis biomedis yang kompleks, mengubah pekerjaan berbulan-bulan menjadi berminggu-minggu. Meskipun potensi untuk meningkatkan kesehatan ibu dan bayi sangat besar, komunitas ilmiah harus memprioritaskan pengawasan manusia yang ketat dan tolok ukur standar baru untuk memastikan alat-alat canggih ini tetap dapat diandalkan.