Nella corsa all’impiego della intelligenza artificiale in campo medico, Google fa un primo passo con lo sviluppo di Articulate medical intelligence explorer (Amie), un sistema di ricerca Ai basato su un LLM e ottimizzato per il ragionamento diagnostico e le conversazioni.

Nella presentazione del progetto viene spiegato che “I sistemi di intelligenza artificiale in grado di dialogare con li pazienti a fini di diagnosi potrebbero aumentare la disponibilità, l’accessibilità, la qualità e la coerenza delle cure, diventando utili partner di conversazione sia per i medici che per i pazienti. Ma l’approssimazione delle notevoli competenze dei medici rappresenta una sfida significativa”.

Preso atto dei progressi dei modelli linguistici di grandi dimensioni (Llm) che, al di fuori del dominio medico, hanno dimostrato un ottimo potenziale per lo sviluppo delle conversazioni, gli esperti di Google osservano che “sebbene i Llm siano in grado di svolgere accuratamente compiti quali la sintesi medica o la risposta a domande di carattere medico, il lavoro svolto per sviluppare questo tipo di capacità diagnostiche conversazionali è stato scarso”.

Le 2 criticità dell’addestramento di LLM con conversazioni mediche

Per questo Google ha deciso di cimentarsi in questo campo progettando uno studio randomizzato, in doppio cieco e crossover di consultazioni testuali con attori pazienti validati che interagivano con medici di base certificati (Pcp) o con il sistema di intelligenza artificiale ottimizzato per il dialogo diagnostico. Le consultazioni sono state impostate sullo stile di un esame clinico strutturato oggettivo (Osce), una valutazione pratica comunemente utilizzata nel mondo reale per esaminare le abilità e le competenze dei medici in modo standardizzato e oggettivo.

February,10,,2023,,Brazil.,In,This,Photo,Illustration,,The,Google

Amie è stato addestrato su un set di dati reali e utilizzando dialoghi reali sviluppati raccogliendo e trascrivendo passivamente visite cliniche di persona. Tuttavia due sfide sostanziali limitano l’efficacia nell’addestramento di Llm per le conversazioni mediche.

In primo luogo, i dati reali esistenti spesso non riescono a catturare la vasta gamma di condizioni e scenari medici, ostacolando la scalabilità e la completezza. In secondo luogo, i dati ricavati dalle trascrizioni dei dialoghi del mondo reale tendono a essere rumorosi e a contenere linguaggio ambiguo (tra cui slang, gergo, umorismo e sarcasmo), interruzioni, enunciati sgrammaticati e riferimenti impliciti.

La soluzione di Amie

Per ovviare a queste limitazioni è stato progettato un ambiente di apprendimento simulato basato sul self-play e dotato di meccanismi di feedback automatizzati per il dialogo medico diagnostico in un ambiente di cura virtuale, che ha permesso di scalare le conoscenze e le capacità di Amie in molte condizioni e contesti medici.

Amie e i Pcp sono stati valutati sia dal punto di vista dei medici specialisti che dei loro pazienti simulati in uno studio crossover randomizzato e in cieco che ha incluso 149 scenari di casi di fornitori di Osce in Canada, Regno Unito e India in una gamma diversificata di specialità e malattie.

Risultati e prossimi passi

In questo contesto Amie ha eseguito conversazioni diagnostiche simulate almeno allo stesso livello dei Pcp quando entrambi sono stati valutati lungo molteplici assi di qualità della consultazione clinicamente significativi. L’Amie ha ottenuto una maggiore accuratezza diagnostica e prestazioni superiori per 28 dei 32 assi dal punto di vista dei medici specialisti e per 24 dei 26 assi dal punto di vista dei pazienti.

La ricerca, come ammettono gli scienziati di Google presenta ancora diversi limiti. “La nostra tecnica di valutazione probabilmente sottostima il valore reale delle conversazioni umane, in quanto i medici del nostro studio erano limitati a un’interfaccia di chat testuale poco familiare non è rappresentativa della pratica clinica abituale”.

In secondo luogo, qualsiasi ricerca di questo tipo deve essere considerata solo un primo passo esplorativo di un lungo percorso. “Ci sono molti limiti importanti da affrontare, tra cui le prestazioni sperimentali sotto i vincoli del mondo reale e l’esplorazione dedicata di argomenti importanti come l’equità e la correttezza della salute, la privacy, la robustezza e molti altri, per garantire la sicurezza e l’affidabilità della tecnologia”.