Diagnostika: Drtivé vítězství umělé inteligence nad lékaři

Nová studie došla k závěru, že ChatGPT dokázal lépe diagnostikovat nemoci než lidský lékař. A to dokonce i v případech, kdy lékaři měli k tomuto chatbotovi přístup.

Odborník na interní medicínu Adam Rodman z bostonského Beth Israel Deaconess Medical Center, očekával, že chatboti s umělou inteligencí budou skvělým pomocníkem pro lékaře při stanovování diagnóz. Výsledky studie, na které se podílel, však přinesly nečekané zjištění.

Lékaři, kteří používali ChatGPT-4 spolu s tradičními zdroji, měli jen o něco lepší výsledky než ti, kteří chatbota k dispozici neměli. Ale hlavně, samotný ChatGPT lékaře v diagnostice výrazně předčil.

ChatGPT dosáhl při diagnostice na základě případových studií a odůvodnění svých závěrů průměrné úspěšnosti 90 %. Lékaři, kteří měli přístup k chatbotu, získali průměrné skóre 76 %, zatímco lékaři bez něj pouze 74 %.

Studie neukázala jen, že chatbot při diagnostice lékaře válcuje, ale také odhalila, že lékaři často až příliš lpí na svých závěrech, i když chatbot navrhuje lepší řešení. Zároveň z práce vyplynulo, že mnoho lékařů neumí plně využít potenciál nástrojů umělé inteligence, což je připravuje o možnost řešit složité diagnostické problémy.

„Systémy AI umělé inteligence by měly být jakýmsi rozšířením lékařů,“ vysvětluje Rodman. Mohly by fungovat jako cenný druhý názor při stanovování diagnóz. Avšak zdá se, že k naplnění tohoto potenciálu je třeba ještě ujít dlouhou cestu.

Podle Rodmana lékaři často ignorovali rady chatbota, pokud se neshodovaly s jejich vlastními závěry. Navíc mnozí chatbot používali jako vyhledávač, místo aby plně využili jeho schopnosti. Někteří ani nevěděli, že mohou zkopírovat celý případ a požádat chatbota o komplexní odpověď.

„Jen malá část lékařů objevila, jak inteligentní a komplexní odpovědi je chatbot schopen poskytnout,“ poznamenal spoluautor studie Jonathan H. Chen ze Stanfordovy univerzity.

Studie, publikovaná v odborném časopise JAMA Network Open, si za výchozí vzorek vzala práci padesáti lékařů. Ti řešili šest případových studií a byli hodnoceni za své diagnostické návrhy, za vysvětlení, proč určité diagnózy preferují nebo naopak vylučují, a za určení konečné diagnózy.

Hodnotitelé byli odborníci, kteří nevěděli, zda odpovědi pocházejí od lékaře spolupracujího s chatbotem, lékaře bez něj, nebo od samotného chatbota. Případové studie byly založeny na reálných případech a pocházely z uzavřené sady 105 případů, používané od 90. let k testování studentů medicíny. Tím bylo zajištěno, že ChatGPT na těchto případech nebyl trénován.