Проривне дослідження, опубліковане в журналі Science, показало, що передові системи штучного інтелекту здатні перетворювати лікарів прийомного відділення в постановці діагнозів і визначенні планів лікування. Проте автори дослідження наголошують: цей технологічний стрибок не означає кінець ролі людського лікаря. Навпаки, він вказує на гостру необхідність посилення стандартів регулювання та переходу до моделей спільної роботи, де ІІ підтримує клінічне судження, а не замінює його.

Дослідження: ІІ проти лікарів-клініцистів

Роботою керував Арджун Манрай, асистент-професор біоінформатики у Гарвардській медичній школі. В ході експерименту модель великих мовних моделей (LLM) серії o1 від OpenAI порівнювалася з контрольною групою, що складається з лікарів-практиків, які мають сертифікат спеціаліста. Для тестування використовувалася комбінація стандартизованих клінічних випадків та реальних даних, отриманих від випадково обраних пацієнтів відділення невідкладної допомоги медичного центру у Массачусетсі.

Результати виявилися вражаючими. У завданнях, ranging від первинного сортування пацієнтів до вибору остаточного діагнозу та кроків лікування, ІІ відповідав чи перевершував показники людей. Перевага моделі була найбільш помітною на етапі раннього сортування — критичному етапі, коли рішення повинні прийматися за обмеженої інформації. Хоча точність як лікарів, так і ІІ підвищувалася в міру надходження нових даних, мовна модель продемонструвала superior здатність справлятися з невизначеністю, ефективно опрацьовуючи фрагментовані або неструктуровані медичні записи, характерні для реальних надзвичайних ситуацій.

«Коротко кажучи, модель перевершила нашу велику групу лікарів-контролю. Ви побачите це в деталях, але важливо зазначити, що в групі були лікарі з сертифікатами, а випадки були реальними і заплутаними», — заявив Манрай під час віртуальної прес-конференції.

Чому це важливо: за межами заголовків

Хоча заголовки ЗМІ можуть справляти враження, що ІІ «краще» лікарів, контекст тут більш нюансований. Це дослідження є значною еволюцією в порівнянні з більш ранніми алгоритмічними підходами, які раніше відставали від людських клініцистів. Унікальність даного дослідження полягає в його масштабі і прямому порівнянні «віч-на-віч» в реалістичних клінічних умовах.

Однак ці висновки порушують критично важливі питання щодо майбутнього охорони здоров’я:

  • Обмеження текстового ІІ: Реальна клінічна робота сильно спирається на візуальні та слухові сигнали – такі як тон голосу пацієнта, колір шкіри або хода, – які сучасні текстові LLM не можуть інтерпретувати. У дослідженні наголошується, що майбутні роботи мають сфокусуватися на тому, як люди та машини можуть співпрацювати, використовуючи ці нетекстові сигнали.
  • Безпека та справедливість: Поточне дослідження не оцінювало, чи є допомога з використанням ІІ безпечною, рівноправною чи економічно ефективною. Ці чинники необхідні широкого впровадження технології.
  • Регуляторні прогалини: Як попередив Манрай: «Я не думаю, що наші висновки означають, що ІІ замінить лікарів… Я думаю, це означає, що ми спостерігаємо глибоку зміну в технологіях, які змінять медицину, і нам потрібно оцінити цю технологію прямо зараз, проводячи суворі проспективні клінічні випробування».

Заклик до суворого нагляду

Дане дослідження є каталізатором ширших дискусій про політику у сфері охорони здоров’я. Ешлі М. Хопкінс та Ерік Корнелісс, дослідники з Університету Фліндерса в Австралії, опублікували коментар у Science разом зі статтею, аргументуючи необхідність застосування до систем ІІ таких же суворих стандартів, що і до людських професіоналів.

“Ми не дозволяємо лікарям практикувати без нагляду та оцінки, і ІІ має відповідати порівнянним стандартам”, – сказав Корнелісс. Це передбачає, що регулятори, лікарні та постачальники медичних послуг повинні співпрацювати для створення robustних тестових рамок до впровадження цих інструментів у клінічну практику. Мета полягає в тому, щоб забезпечити, щоб ІІ покращував догляд за пацієнтами, не запроваджуючи нових ризиків або нерівності.

Висновок

Це дослідження наголошує на поворотному моменті в медичних технологіях, демонструючи, що ІІ може справлятися зі складними діагностичними завданнями з більшою ефективністю, ніж людські клініцисти, у певних контекстах. Проте консенсус серед експертів зрозумілий: ІІ — це потужний інструмент для співпраці, а не заміна. Негайним пріоритетом для індустрії охорони здоров’я є розробка суворих стандартів оцінки та протоколів безпеки для відповідального впровадження цієї технології, забезпечуючи цим її ефективну службу як лікарям, так і пацієнтам.