AI chatbotovi su postali precizniji u dijagnostici kada dobiju puno kliničkih informacija, ali i dalje ne uspijevaju napraviti dobru diferencijalnu dijagnozu u više od 80% slučajeva, navode istraživači iz Mass General Brighama, velike bolničke i istraživačke mreže iz Bostona.
Studija objavljena u časopisu JAMA Network Open pokazala je da veliki jezični modeli (LLM) još uvijek nisu dovoljno dobri za kliničku upotrebu.
"Unatoč stalnim poboljšanjima, standardni veliki jezični modeli nisu spremni za nadziranu primjenu u kliničke svrhe", izjavio je Marc Succi, koautor studije.
Dodao je da
umjetna inteligencija još ne može napraviti
diferencijalnu dijagnozu, što je ključno za kliničko zaključivanje i što on naziva "umijećem medicine". Diferencijalna dijagnoza je prvi korak kojim liječnici prepoznaju bolest i razlikuju je od drugih stanja sa sličnim simptomima.
Kako su modeli testirani
Istraživači su testirali 21 model, uključujući najnovije verzije Claude, DeepSeek, Gemini, GPT i Grok. Procjena je provedena na 29 standardiziranih kliničkih slučajeva pomoću novog alata PrIME-LLM.
Ovaj alat procjenjuje koliko su modeli uspješni u različitim fazama kliničkog zaključivanja:
- Postavljanje početne dijagnoze
- Naručivanje odgovarajućih pretraga
- Donošenje konačne dijagnoze
- Planiranje liječenja
Da bi što bolje simulirali stvarne kliničke slučajeve, istraživači su modele postupno “hranili” informacijama. Prvo su im dali osnovne podatke poput dobi, spola i simptoma pacijenta, a zatim su dodali nalaze pregleda i laboratorijske rezultate.
U praksi je diferencijalna dijagnoza ključna za nastavak liječenja. No, u ovoj studiji modeli su dobivali dodatne informacije kako bi mogli nastaviti dalje, čak i ako nisu uspjeli napraviti diferencijalnu dijagnozu.
Rezultati: Konačna dijagnoza vs. klinički put
Istraživači su otkrili da su jezični modeli bili vrlo točni u postavljanju konačnih dijagnoza, ali su loše radili diferencijalne dijagnoze i teško se snalazili u nejasnim situacijama.
Autorica studije Arya Rao rekla je da postupno testiranje modela omogućuje da ih ne gledamo samo kao "rješavače testova", već ih stavlja u ulogu liječnika.
"Ovi modeli su izvrsni u postavljanju konačne dijagnoze kada imaju sve podatke, ali im je teško na početku slučaja, kada informacija nema puno", dodala je.
Ključni nalazi studije:
- Svi modeli podbacili su u izradi odgovarajuće diferencijalne dijagnoze u više od 80 % slučajeva.
- Uspješnost kod konačne dijagnoze kretala se od 60 % do preko 90 %, ovisno o modelu.
- Većina modela pokazala je bolju preciznost kada su uz tekst dobili laboratorijske nalaze i radiološke snimke.
- Najbolje rezultate pokazala je skupina modela koja uključuje Grok 4, GPT-5, GPT-4.5, Claude 4.5 Opus, Gemini 3.0 Flash i Gemini 3.0 Pro.
Medicinski stručnjaci i dalje su ključni
Autori su naglasili da, iako su modeli napredovali i bolje zaključuju, standardni LLM-ovi još nisu dovoljno inteligentni za sigurnu upotrebu i ne mogu pokazati napredno kliničko razmišljanje.
"Naši rezultati potvrđuju da veliki jezični modeli u zdravstvu i dalje zahtijevaju prisutnost čovjeka i vrlo strog nadzor", istaknuo je Succi.
Susana Manso García iz Španjolskog društva za obiteljsku i komunitarnu medicinu, koja nije sudjelovala u studiji, smatra da ovi rezultati šalju jasnu poruku javnosti.
"Sama studija naglašava da se ovi modeli ne smiju koristiti za kliničke odluke bez nadzora. Iako umjetna inteligencija ima potencijal, ljudska procjena je i dalje nezamjenjiva. Preporuka je da ljudi koriste ove tehnologije oprezno i da se kod zdravstvenih problema uvijek obrate liječniku", zaključila je.