Вчені перевірили поради ШІ про здоров’я: наскільки вони точні
Зображення створене за допомогою ШІ

Вчені перевірили поради ШІ про здоров’я: наскільки вони точні

Поради щодо здоров'я, які надають чатботи зі штучним інтелектом, часто є неправильними. Чатботи не були кращими за Google, який і раніше вважали недосконалим у питаннях здоров'я, коли йдеться про визначення діагнозу або подальших дій.

Про це стало відомо з дослідження оприлюдненого у журналі Nature Medicine, пише The New York Times.

Технології чатботів зі штучним інтелектом створюють специфічні ризики. Так, іноді вони надавали неправдиву інформацію або суттєво змінювали рекомендації залежно від незначних змін у формулюванні запитання.  

Дослідники зробили висновок, що жодна з моделей ШІ, оцінених у межах експерименту, не є "готовою до застосування в безпосередньому догляді за пацієнтами". Медійники додали, що це перше рандомізоване дослідження такого типу.

"Попри весь ажіотаж, ШІ просто ще не готовий узяти на себе роль лікаря", — зазначає лікарка Ребекка Пейн.

У газеті зауважили, що за три роки відтоді, як чатботи стали публічно доступними, питання про здоров'я стали однією з найпоширеніших тем звернень користувачів. Зазначається, що, деякі медики регулярно приймають пацієнтів, які перед цим зверталися до моделі ШІ за "першою думкою". Опитування показують, що приблизно кожен шостий дорослий користується чатботами для пошуку медичної інформації щонайменше раз на місяць.

Своєю чергою, великі технологічні компанії, зокрема Amazon і OpenAI, запустили продукти, спеціально призначені для відповідей на запитання про здоров'я. Такі моделі складали медичні ліцензійні іспити та демонстрували кращі результати за лікарів у складних діагностичних завданнях. Втім, професор Оксфордського інституту інтернету Адам Махді, старший автор нового дослідження, припустив, що чітко сформульовані тестові запитання не відображають реальну клінічну практику.

"Пацієнти повинні усвідомлювати, що звернення до великої мовної моделі із запитаннями про свої симптоми може бути небезпечним: вона може поставити неправильний діагноз і не розпізнати ситуацію, коли потрібна термінова допомога", — додала співавторка дослідження Ребекка Пейн.

Дослідники залучили понад 1,2 тисячі учасників із Великої Британії, більшість із яких не мали медичної освіти. Їм надали детальний медичний сценарій із симптомами, описом способу життя та історією хвороби. Вони повинні були поспілкуватися з чатботом, щоб визначити правильні подальші кроки — наприклад, викликати швидку чи лікуватися вдома. Тестували комерційно доступні моделі, зокрема ChatGPT від OpenAI та Llama від Meta.

Так, менше ніж у половині випадків люди після спілкування з чатботом обирали "правильний" варіант дій, визначений групою лікарів. Правильний діагноз (наприклад, жовчнокам'яну хворобу чи субарахноїдальний крововилив) вони встановлювали приблизно у 34% випадків.

"Це не відрізнялося від результатів контрольної групи, якій запропонували виконати те саме завдання, використовуючи звичні способи пошуку інформації переважно Google", — зазначили медійники.

Після цього дослідники оцінили результати і встановили, що штучний інтелект часто надавав "суміш хорошої та поганої інформації". Водночас цю інформацію користувачам було важко відрізнити. 

Відповідні дослідження показують, як взаємодія з чатботами може призводити до помилок. Приблизно в половині випадків причиною були дії самих користувачів: вони не вводили достатньо інформації або не зазначали найважливіших симптомів. У результаті чатботи надавали поради, не маючи повної картини щодо проблеми.

"Наприклад, одна з моделей припустила, що "сильний біль у животі", який тривав годину, міг бути спричинений розладом травлення", — зазначили у газеті.

Проте, учасник експерименту не вказав деталі про інтенсивність, локалізацію та частоту болю. Саме ці дані могли б спрямувати чатбот до правильного діагнозу (жовчнокам'яної хвороби). Натомість коли дослідники вводили повний медичний сценарій безпосередньо в чатботи, ті правильно визначали проблему у 94% випадків.

Медійники зауважили, що у кількох випадках чатботи також давали вигадану інформацію. В одному з епізодів модель порадила учаснику зателефонувати на "екстрену лінію", номер якої був вигаданий і мав недостатню кількість цифр. Також вчені виявили ще одну проблему: навіть несуттєві відмінності в тому, як учасники описували свої симптоми або формулювали запитання, значно змінювали рекомендації, які надавав чатбот. 

За словами дослідників, експеримент не повністю відображає реальні умови: учасники працювали з вигаданими сценаріями, а не власними симптомами. Крім того, моделі ШІ постійно оновлюються, тож версії, які використовували під час дослідження рік тому, можуть відрізнятися від сучасних.

Представник OpenAI заявив, що сучасні моделі набагато краще відповідають на медичні запитання та рідше припускаються типових помилок, зокрема вигаданих фактів або хиб у невідкладних ситуаціях. Своєю чергою, Meta на запит щодо коментаря не відповіла.

Нагадаємо, раніше науковці встановили, що з 1990 років кількість людей, які страждають від ожиріння чи надмірної ваги, у світі подвоїлася. Окрім цього, встановлено, що до 2050 року 60% людей віком від 25 років і 30% дітей і молодих людей страждатимуть від ожиріння.

Ми у соцмережах
TrueUA - Telegram TrueUA - Facebook TrueUA - X TrueUA - YouTube
Завантажити ще
Реклама