Uit een baanbrekend onderzoek, gepubliceerd in Science, blijkt dat geavanceerde kunstmatige intelligentie beter kan presteren dan menselijke artsen op de spoedeisende hulp bij het diagnosticeren van patiënten en het bepalen van behandelplannen. De onderzoekers achter de bevindingen benadrukken echter dat deze technologische sprong niet het einde betekent van de rol van de menselijke arts. In plaats daarvan benadrukt het een dringende behoefte aan strengere regelgevingsnormen en een verschuiving naar collaboratieve zorgmodellen waarbij AI het klinische oordeel ondersteunt in plaats van vervangt.
Het onderzoek: AI versus menselijke artsen
Het onderzoek, geleid door Arjun Manrai, een assistent-professor in de biomedische informatica aan de Harvard Medical School, testte OpenAI’s o1-serie grote taalmodel (LLM) tegen een basislijn van gecertificeerde, actief praktiserende artsen. Bij de experimenten werd gebruik gemaakt van een combinatie van gestandaardiseerde klinische gevallen en praktijkgegevens van willekeurig geselecteerde patiënten op de spoedeisende hulp in een medisch centrum in Massachusetts.
De resultaten waren opvallend. Bij taken variërend van de initiële triage tot de uiteindelijke diagnostische keuzes en managementstappen, evenaarde of overtrof het AI-model de menselijke prestaties. Het voordeel van het model was het meest uitgesproken in triage in een vroeg stadium, een kritieke fase waarin beslissingen moeten worden genomen op basis van beperkte informatie. Hoewel zowel menselijke artsen als de AI hun nauwkeurigheid verbeterden naarmate er meer gegevens beschikbaar kwamen, demonstreerde de LLM een superieur vermogen om met onzekerheid om te gaan en effectief gefragmenteerde of ongestructureerde gezondheidsnotities te verwerken die vaak kenmerkend zijn voor noodsituaties in de echte wereld.
“Om een lang verhaal kort te maken: het model presteerde beter dan onze zeer grote artsenbasislijn. Je zult dit in detail zien, maar dit omvatte ook gecertificeerde, actief praktiserende artsen en echte rommelige gevallen”, verklaarde Manrai tijdens een virtuele persconferentie.
Waarom dit ertoe doet: voorbij de krantenkoppen
Hoewel de opvallende vergelijking suggereert dat AI ‘beter’ is dan artsen, is de context genuanceerd. Deze studie vertegenwoordigt een significante evolutie ten opzichte van eerdere algoritmische benaderingen, die voorheen achterbleven bij menselijke artsen. Wat dit onderzoek onderscheidt is de omvang ervan en de directe, onderlinge vergelijking in een realistische klinische setting.
De bevindingen roepen echter kritische vragen op over de toekomst van de gezondheidszorg:
- De grenzen van op tekst gebaseerde AI: Echt klinisch werk is sterk afhankelijk van visuele en auditieve signalen, zoals de toon van de stem, de huidskleur of het looppatroon van een patiënt, die de huidige op tekst gebaseerde LLM’s niet kunnen interpreteren. De studie merkt op dat toekomstig onderzoek zich moet concentreren op de manier waarop mensen en machines kunnen samenwerken met behulp van deze niet-tekstsignalen.
- Veiligheid en gelijkheid: In het huidige onderzoek is niet beoordeeld of AI-ondersteunde zorg veilig, billijk of kosteneffectief is. Dit zijn essentiële factoren voor een brede adoptie.
- Leemten in de regelgeving: Zoals Manrai waarschuwde: “Ik denk niet dat onze bevindingen betekenen dat AI artsen vervangt… Ik denk dat het wel betekent dat we getuige zijn van een werkelijk diepgaande verandering in de technologie die de geneeskunde zal hervormen, en dat we deze technologie nu moeten evalueren en rigoureus moeten uitvoeren in toekomstige klinische onderzoeken.”
Een oproep tot streng toezicht
Het onderzoek dient als katalysator voor bredere discussies over het gezondheidszorgbeleid. Ashley M. Hopkins en Eric Cornelisse, onderzoekers aan de Flinders University in Australië, publiceerden naast het onderzoek een commentaar in Science, waarin ze betoogden dat AI-systemen aan dezelfde strenge normen moeten worden gehouden als menselijke professionals.
“We staan artsen niet toe om te oefenen zonder toezicht en evaluatie, en AI moet aan vergelijkbare normen voldoen”, aldus Cornelisse. Dit impliceert dat toezichthouders, ziekenhuizen en zorgverleners moeten samenwerken om robuuste testkaders op te zetten voordat deze instrumenten in klinische omgevingen worden ingezet. Het doel is ervoor te zorgen dat AI de patiëntenzorg verbetert zonder nieuwe risico’s of verschillen te introduceren.
Conclusie
Deze studie markeert een cruciaal moment in de medische technologie en toont aan dat AI complexe diagnostische taken met grotere efficiëntie kan uitvoeren dan menselijke artsen in specifieke contexten. Toch is de consensus onder experts duidelijk: AI is een krachtig hulpmiddel voor samenwerking, geen vervanging. De onmiddellijke prioriteit voor de gezondheidszorgsector is het ontwikkelen van strenge evaluatienormen en veiligheidsprotocollen om deze technologie op verantwoorde wijze te integreren en ervoor te zorgen dat zowel artsen als patiënten effectief worden bediend.
