Nell’arco degli ultimi due anni, abbiamo assistito a una proliferazione di modelli di Intelligenza Artificiale Generativa (AI). Il più recente e il più popolare è ChatGPT, un ampio modello di linguaggio sviluppato da OpenAI (San Francisco, CA), in grado di emulare il linguaggio naturale e risolvere problemi cognitivi attraverso l’apprendimento da risorse online e dal feedback umano.
Nonostante l’accesso a dati medici limitati, ChatGPT ha dimostrato prestazioni comparabili a quelle di uno studente di medicina del terzo anno durante l’esame di abilitazione medica, suscitando così discussioni urgenti all’interno della comunità scientifica: quanto è sicuro per i pazienti ChatGPT?
In uno studio appena pubblicato su The Lancet, gli autori discutono le implicazioni dell’AI generativa per la scienza e spiegano come ChatGPT “possa rispondere a domande mediche aperte quasi altrettanto bene di un medico umano medio, anche se presenta ancora limitazioni e incertezze“.
ChatGPT e le infezioni
I clinici prendono decisioni basate su informazioni complesse. Nella telemedicina, ad esempio, l’informazione è generalmente limitata al linguaggio stesso; tuttavia, ChatGPT non è in grado di porre domande per ottenere ulteriori chiarimenti.
Le consulenze per infezioni richiedono l’integrazione delle informazioni cliniche con la conoscenza legata alla resistenza agli antimicrobici. Gli autori hanno quindi rivolto a ChatGPT otto domande ipotetiche basate su scenari di infezione per richiedere consigli su come gestirle.
Hanno valutato l’appropriatezza, la coerenza, la sicurezza e le implicazioni delle sue risposte per la gestione degli antimicrobici, utilizzando questa valutazione per elaborare un quadro di valutazione della sicurezza medica basato su Large Language Model (LLM).
ChatGPT non riesce a elaborare le informazioni complesse
Con alcune importanti eccezioni, ChatGPT ha riconosciuto in modo appropriato il linguaggio naturale. La comprensione di ChatGPT degli scenari emergeva in sintesi accurate scritte all’inizio delle risposte. Gli aspetti situazionali importanti spesso non venivano ben distinti da quelli non importanti. ChatGPT riconosceva l’importanza dei fattori clinicamente rilevanti quando venivano fornite informazioni esplicite, ma tralasciava questioni rilevanti in scenari di crescente complessità.
L’ortografia e la grammatica nelle risposte di ChatGPT erano coerenti e il loro significato era chiaro. Le risposte riassumevano la comprensione di ChatGPT dello scenario e della domanda, fornivano opzioni di gestione e poi fornivano avvertenze sulle sue limitazioni e altre fonti di consultazione.
Le risposte erano simili a quelle fornite dai siti web di informazioni per i pazienti. ChatGPT spesso ripeteva letteralmente le domande, compresi gli errori, anche se a volte li notava e li correggeva. Le informazioni erano coerenti e non ripetute nella stessa risposta, ma i consigli talvolta cambiavano quando si ponevano le stesse domande.
I regimi antibiotici suggeriti erano corretti
Gli spettri e i regimi antimicrobici erano appropriati per la diagnosi, ma il controllo delle fonti veniva erroneamente citato come motivo per prolungare la terapia o completamente ignorato. Riconosceva altre complesse considerazioni sulla gestione, come la contaminazione delle colture ematiche.
Le risposte incorporavano elementi di base per la gestione degli antimicrobici (ad esempio, l’utilizzo degli antibiotici solo se vi fosse evidenza di infezione batterica), con importanti eccezioni. ChatGPT assumeva spesso che la scelta dell’antimicrobico fosse il problema principale nella maggior parte delle situazioni, il che riflette probabilmente domande che richiedevano modifiche agli antimicrobici.
Ma non sa riconoscere in modo appropriato le controindicazioni
La capacità di ChatGPT di riconoscere le controindicazioni degli antimicrobici non era correlata alla loro importanza. L’algoritmo entrava in cosiddette “modalità errore” durante le quali venivano forniti consigli pericolosi. ChatGPT talvolta ignorava i propri consigli e spesso trascurava segnali di sicurezza clinica del paziente, facilitando piani di gestione inappropriati anziché metterli in discussione. La maggior parte delle risposte includeva avvertenze che raccomandavano la consultazione con uno specialista delle infezioni.
ChatGPT può mettere a rischio la sicurezza dei pazienti
In conclusione, secondo gli autori dell’articolo, le principali barriere all’implementazione di ChatGPT nella pratica clinica sono le carenze nella consapevolezza situazionale, nell’inferenza e nella coerenza. Queste limitazioni potrebbero mettere a rischio la sicurezza del paziente.
ChatGPT sembra avere accesso a dati di addestramento sufficienti, benché non abbia accesso a specifici database medici. Nonostante l’assenza di un addestramento specifico per consigli clinici, ChatGPT ha fornito risposte convincenti alla maggior parte delle richieste.
Con l’evoluzione dei LLMs e l’incorporazione di ulteriori informazioni, è fondamentale che i clinici con competenze interdisciplinari in AI e medicina o chirurgia specialistica comprendano le implicazioni per l’assistenza al paziente.