GPT-5 supera gli esperti umani in medicina

Uno studio dell’Emory University mostra che GPT-5, l’ultimo modello di OpenAI, ha raggiunto risultati superiori agli esperti umani nel ragionamento medico multimodale. Non è solo una questione di performance: la sfida ora è capire come integrare questo strumento in modo sicuro e utile nella pratica clinica e nell’industria farmaceutica.

0
46

Il 13 agosto 2025 i ricercatori dell’Emory University hanno pubblicato su arXiv uno studio che ha colpito la comunità scientifica. Capabilities of GPT-5 on Multimodal Medical Reasoning documenta come GPT-5, senza alcun addestramento specifico in ambito medico, sia stato in grado di affrontare esami complessi con un livello di accuratezza mai visto prima.
La novità non sta solo nel punteggio finale, ma nella capacità del modello di integrare informazioni eterogenee – referti, dati clinici, immagini – e ricostruire un filo logico che porta a diagnosi e decisioni coerenti. Non un algoritmo che “ricorda”, ma un assistente che ragiona.

Metodologia – Come è stato messo alla prova

Per testare le capacità di GPT-5, i ricercatori hanno adottato un protocollo standardizzato che riduce al minimo i margini di manipolazione. Il modello ha lavorato in zero-shot chain-of-thought: nessun addestramento su casi simili, solo la richiesta di “pensare passo dopo passo”.

Sono stati usati dataset noti nel settore:

  • MedQA, con domande di licenza medica statunitense;
  • MMLU-Medical, che valuta conoscenze mediche specialistiche;
  • USMLE self-assessment, prove pratiche dei tre step di abilitazione alla professione;
  • MedXpertQA, con oltre 4.400 domande su 17 specialità, anche in versione multimodale;
  • VQA-RAD, focalizzato sulle immagini radiologiche.

Un approccio che permette di valutare il modello in condizioni comparabili con colleghi umani e con versioni precedenti come GPT-4o.

Risultati – Numeri che sorprendono

I dati emersi non lasciano indifferenti:

  • su MedQA, GPT-5 ha raggiunto il 95,8% di accuratezza (+4,8% rispetto a GPT-4o);
  • su MedXpertQA testuale, il salto è stato enorme: +26,3% nel ragionamento e +25,3% nella comprensione;
  • negli USMLE, il modello ha ottenuto una media del 95,2%, con lo Step 2 – quello più clinico – in crescita del 4,1%;
  • su MedXpertQA multimodale, la sfida più complessa, ha superato gli esperti umani: +24,2% nel ragionamento e +29,4% nella comprensione.

In uno dei casi clinici più interessanti, GPT-5 ha diagnosticato correttamente una perforazione esofagea (sindrome di Boerhaave), riconoscendo i segni clinici e suggerendo come primo passo un esame con Gastrografin. Non solo ha centrato la diagnosi, ma ha spiegato con chiarezza perché le altre opzioni non fossero appropriate.

Oltre i numeri – Cosa significa davvero

Il punto non è che un modello “batta” un medico a un test. È che GPT-5 dimostra una capacità di ragionamento multimodale che lo rende, almeno in simulazioni standardizzate, più affidabile di un professionista umano.

Ma i ricercatori sono cauti: queste prove si svolgono in ambienti controllati, con dati puliti e domande chiare. La realtà clinica è fatta di incertezze, pazienti che non raccontano tutto, immagini non perfette, emergenze dove il tempo è poco. Lì l’AI non è ancora pronta a sostituire l’esperienza umana.

Le sfide etiche e regolatorie

Se un modello supera i medici su carta, chi lo autorizza a entrare in corsia?

  • Validazione clinica: come per un farmaco, servono studi prospettici e comparativi.
  • Regole chiare: EMA e FDA stanno elaborando linee guida, ma un’AI “super-umana” impone di accelerare.
  • Trasparenza: oggi GPT-5 arriva al risultato, ma resta opaco nei suoi passaggi interni.
  • Responsabilità: se un algoritmo sbaglia diagnosi, chi ne risponde?

Sono domande che non riguardano solo gli sviluppatori, ma anche le aziende farmaceutiche che decideranno di integrare questi strumenti nelle proprie pipeline.

Che cosa cambia per l’industria farmaceutica

Le potenzialità per il settore sono enormi:

  • Ricerca: GPT-5 può combinare dati genomici, strutturali e clinici per identificare più velocemente nuove molecole promettenti.
  • Trial clinici: automatizzare l’analisi di immagini radiologiche o estrarre dati da migliaia di cartelle cliniche riduce i tempi da mesi a ore.
  • Farmacovigilanza: incrociare referti, letteratura e dati real-world per segnalare eventi avversi in anticipo.
  • Companion digitali: modelli multimodali in grado di supportare pazienti cronici, interpretando sintomi e dati biometrici in tempo reale.

Non si tratta di “fantascienza industriale”: sono applicazioni concrete che molte aziende stanno già esplorando con versioni precedenti di GPT. GPT-5, con la sua capacità di ragionamento multimodale, può portarle a maturazione.

Conclusione – Un assistente che obbliga a ripensare il futuro

Lo studio dell’Emory University non ci dice che i medici sono superati, ma che per la prima volta un modello di AI ragiona meglio di loro in test standardizzati. È un segnale forte, che impone all’industria e ai regolatori di affrontare la questione non in astratto, ma con urgenza.

GPT-5 non è la fine della medicina, ma un nuovo attore in scena. Sta a noi decidere se sarà un alleato capace di ridurre errori, accelerare ricerche e migliorare la vita dei pazienti, oppure uno strumento lasciato ai margini per paura di affrontarne i rischi.

La vera sfida, ora, non è più tecnica. È culturale, regolatoria ed etica.

Fonte: Wang S, Hu M, Li Q, Safari M, Yang X. Capabilities of GPT-5 on multimodal medical reasoning. arXiv [Preprint]. 2025 [cited 2025 Aug 16]; Available from: https://arxiv.org/abs/2508.08224