Україна

Штучний інтелект часто помиляється у медичних порадах: результати тестування п'яти популярних ботів

П'ять популярних чат-ботів (ChatGPT, Gemini, Grok, Meta AI, DeepSeek) пройшли стрес-тест на медичні запити. Дослідження показало, що майже половина відповідей є проблематичними, а повні списки літератури боти надати не змогли. Не варто довіряти ШІ у питаннях здоров'я без перевірки.

02.05.2026 01:24 УКРАЇНСЬКІ НОВИНИ

П'ять найпопулярніших чат-ботів, якими користуються мільйони людей по всьому світу, виявилися неготовими надати надійні медичні поради. Дослідження показало, що штучний інтелект дає проблематичні відповіді майже у половині випадків, коли мова йде про здоров'я. Багато з цих відповідей оформлені так, ніби їх видав справжній лікар, проте містять необґрунтовані твердження або посилання, які нікуди не ведуть.

Команда вчених провела систематичний стрес-тест, поставивши кожному з п'яти ботів — ChatGPT, Gemini, Grok, Meta AI та DeepSeek — по 50 питань щодо медицини. Запити охоплювали складні теми: рак, вакцини, стовбурові клітини, харчування та спортивні досягнення. Результати виявилися тривожними: майже 20% відповідей були вкрай проблематичними, ще 50% — проблематичними, а 30% — дещо проблематичними.

Жоден із тестованих ботів не зміг надати повністю точні списки літератури, а категорично відмовився відповісти лише на два з 250 питань. Загалом усі моделі показали схожі результати, хоча найгірші показники демонстрував Grok, де 58% відповідей були позначені як проблемні. ChatGPT та Meta AI посіли друге та третє місця в антирейтингу відповідно з 52% та 50% помилок.

Ефективність штучного інтелекту варіювалася залежно від теми: найкраще боти справлялися з питаннями про вакцини та рак, тоді як галузь харчування для них виявилася провальною. Особливу небезпеку становлять відкриті питання, на які 32% відповідей були оцінені як вкрай проблематичні, порівняно з лише 7% для закритих питань. Люди часто ставлять розгорнуті запитання, очікуючи структурованої відповіді з посиланнями, чого ШІ не в змозі надати.

Вчені отримали лише 40% інформації, яка була у запиті, і жоден бот не склав повного списку літератури навіть за 25 спроб. Помилки виникають тому, що чат-боти грунтуються на навчальних даних, включаючи соціальні мережі та блоги, а не на суворому аналізі доказів. Вони не зважують аргументи та не виносять оціночних суджень, що призводить до неточних висновків при нестандартному формулюванні запитів.

Платні версії чат-ботів показали кращі результати, ніж безкоштовні, проте довіряти їм на 100% не варто, особливо у питаннях здоров'я. Критичний рівень помилок підкреслює необхідність обережності: користувачам слід перевіряти кожне твердження та переглядати посилання, щоб уникнути серйозних наслідків для свого здоров'я.