У приймальних відділеннях лікарі часто працюють у режимі екстреного реагування, маючи лише кілька хвилин для прийняття рішень, що можуть врятувати життя. Новий експеримент демонструє, що частину цієї критичної роботи вже здатна виконувати нейромережа, і подекуди вона робить це не гірше, а іноді й краще за досвідчених фахівців.

Дослідники перевірили модель o1-preview від OpenAI, яка здатна до так званого «міркування», на складних клінічних завданнях. Перед тим як дати відповідь, система перебирає кілька варіантів, перевіряє висновки й уточнює рішення, імітуючи процес аналізу симптомів людським мозком. На основі верифікованих клінічних випадків модель поставила правильний діагноз у 89% ситуацій, тоді як попередня версія GPT‑4 показала лише 73% точності.

Найбільша перевага штучного інтелекту виявилася у рідкісних та складних випадках, таких як незвичні інфекції, ушкодження серця, аутоімунні захворювання легень або ураження печінки. У окремих завданнях нейромережа обігнала не лише інші алгоритми, а й групу з сотень лікарів, краще визначаючи необхідні аналізи та стратегію лікування.

Окремий етап тестування пройшов на реальних даних із приймального відділення лікарні в Бостоні, де взяли участь 70 пацієнтських випадків. Модель перевершила двох досвідчених лікарів на етапах сортування за терміновістю, аналізу симптомів та прийняття рішень про госпіталізацію. При «сліпій» оцінці незалежні експерти не змогли стабільно відрізнити висновки нейромережі від професійних діагнозів.

Важливою особливістю роботи системи є те, що вона не просто видає відповідь, а пояснює свої висновки, показуючи, які ознаки підтверджують діагноз, а які йому суперечать. Такий підхід робить роботу ШІ прозорішою та потенційно кориснішою для лікаря, який приймає фінальне рішення, особливо коли інформації ще мало, а діяти потрібно негайно.

Попри успішні результати, дослідники наголошують, що це не означає готовність штучного інтелекту замінити лікаря. Діагностика — лише частина медичної практики, де важливі зовнішній вигляд, дихання та реакція пацієнта, що модель не може оцінити, працюючи лише з текстовими даними. Розробники вважають, що подібні системи слід розглядати як помічників, а не заміну фахівців, а подальші випробування мають проходити під суворим наглядом у реальних умовах.