I dati seppelliti all’interno di vaste mole di testi clinici non strutturati, contenuti nelle Cartelle Cliniche Elettroniche (CCE) dei pazienti, rappresentano una sfida complessa per i sistemi di intelligenza artificiale deputati alla loro estrazione ed elaborazione.

Nelle Cartelle Cliniche Elettroniche (CCE), i campi di dati strutturati non sempre catturano in modo puntuale la grande quantità di informazioni contenute nei testi clinici che vengono inseriti dal personale medico-sanitario. L’impiego delle tecniche di intelligenza artificiale per l’estrazione automatizzata – dalle CCE – di una serie di dati clinici e di informazioni utili, ad esempio, per formulare statistiche e condurre ricerche nell’ambito della medicina predittiva, contribuisce a colmare questa lacuna.

In particolare, i modelli AI adottati per questo tipo di applicazione rimandano al Natural Language Processing (NLP). Ma non senza criticità.

«L’estrazione di informazioni dalle Cartelle Cliniche Elettroniche comporta alcune sfide significative. Poiché il testo clinico spesso risente delle note dei medici e contiene irregolarità quali – ad esempio – un gergo non sempre chiaro, molte abbreviazioni e acronimi e una struttura delle frasi variabile, la maggior parte degli strumenti di NLP standard non porta a risultati apprezzabili. Tenuto anche contro del fatto che i modelli che vengono addestrati per essere adoperati all’interno di un ospedale, non risultano idonei per l’utilizzo in altri contesti medici»

osserva il gruppo di ricercatori del Computer Science and Artificial Intelligence Laboratory (CSAIL), in seno al Massachusetts Institute of Technology (MIT), in uno studio dal titolo “Large Language Models are Few-Shot Clinical Information Extractors”, focalizzato sulle performance dei modelli linguistici di grandi dimensioni (o Large Language Models – LLM) nello svolgere quei compiti di estrazione e di analisi dei dati clinici finora deputati ai modelli di elaborazione del linguaggio naturale, che verrà presentato in questi giorni all’dizione 2022 della Conference on Empirical Methods in Natural Language Processing (Abu Dhabi, Emirati Arabi, 7 – 11 dicembre 2022). Ma procediamo per gradi.

Intelligenza artificiale per l’estrazione dei dati clinici: espansione del gergo e degli acronimi utilizzati dai medici

Iniziamo col dire che i modelli linguistici di grandi dimensioni rientrano in quel segmento di studi dell’intelligenza artificiale dedito allo sviluppo di sistemi in grado di generare testi scritti a partire da un preciso input linguistico, per applicazioni che vanno dai chatbot per l’assistenza ai clienti ai videogiochi e al marketing, solo per citare alcuni esempi.

In questo studio in tema di intelligenza artificiale per l’estrazione dei dati clinici dai testi contenuti nelle Cartelle Cliniche Elettroniche, il gruppo di lavoro del MIT si è avvalso di InstructGPT, la nuova versione del modello linguistico GPT-3 di OpenAI,

L’obiettivo era – nell’ambito dello studio e dei test effettuati – riuscire a portare a termine attività come l’espansione del gergo e dei numerosi acronimi utilizzati nei testi clinici, per arrivare a estrarre dalla CCE le anamnesi corrette e i regimi terapeutici prescritti.

Lo schema prevede che il sistema AI riceva un input (ad esempio, leggendo una determinata nota contenuta nel testo clinico), che impartisca un ordine al modello linguistico (ad esempio: “espandi l’abbreviazione C-T-A”) e che quest’ultimo generi un output chiaro che, in questo specifico caso, è “Clear To Auscultation” (ossia, “chiaro all’auscultazione”, riferito ai toni cardiaci del paziente) anziché “CT Angiography”, ovvero l’esame diagnostico in italiano noto come “Angio-TC”.

Si evince, da questo esempio, l’intenzione di arrivare a estrarre “dati puliti” da testi clinici irregolari, discernendo tra la miriade di abbreviazioni, sigle e acronimi adoperati dai medici nel compilare le CCE dei pazienti.

Superamento dell’etichettatura manuale dei dati e riduzione dei tempi di post-elaborazione del testo clinico

In tema di intelligenza artificiale per l’estrazione dei dati clinici dai testi contenuti nelle Cartelle Cliniche Elettroniche, già in passato l’impiego dei modelli linguistici (anche se più piccoli rispetto a quello sviluppato dal CSAIL del MIT) ha registrato discrete prestazioni. Il problema, però, è che tali modelli necessitano ancora dell’etichettatura manuale dei dati di addestramento:

«Una nota medica come la seguente: “pt will dc vanco due to n/v” – che significa che il paziente (pt) stava assumendo l’antibiotico vancomicina (vanco) ma che, in seguito a nausea e a vomito gravi come effetti collaterali (n/v), questo gli è stato sospeso (dc) dall’assistenza medica d’urgenza – per essere estratta automaticamente da un modello AI di tipo tradizionale, ha bisogno di etichettature manuali per ogni tipo di dato in essa contenuto»

spiega il team di studio. Il lavoro del Massachusetts Institute of Technology, invece, ha inteso superare lo scoglio rappresentato dalla messa a punto di modelli di intelligenza artificiale separati, vale a dire riferiti – ciascuno – a ogni singola attività di estrazione e di interpretazione dei dati contenuti nei testi clinici digitali e cioè tipologia di farmaco indicato (nell’esempio citato, l’antibiotico vancomicina), i suoi effetti collaterali, la disambiguazione delle abbreviazioni usate dai medici in riferimento a quegli specifici effetti collaterali e via discorrendo.

Un merito dei lavori precedenti è stato quello di avere dimostrato che i modelli linguistici di non grandi dimensioni sono sensibili alle singole parole utilizzate nella richiesta (prompt). Da qui l’idea del gruppo di ricerca del MIT di formattare la richiesta in modo che un modello linguistico di più ampie dimensioni generi un output nel formato corretto:

«Lo spazio di output non è solo una stringa. Può essere una lista o una citazione dall’input originale. Parte del nostro contributo alla ricerca è incoraggiare il modello linguistico a fornire un output con la struttura corretta. Il che riduce notevolmente i tempi di post-elaborazione del testo clinico»

Illustrazione dell’approccio messo a punto dal CSAIL avvalendosi del modello linguistico InstructGPT, in cui - da un esempio one-shot (in verde) e da una guida (in arancione) - viene generato un output più strutturato (in azzurro), riducendo significativamente il lavoro di post-elaborazione (in grigio). (Fonte: “Large Language Models are Few-Shot Clinical Information Extractors” - CSAIL, Massachusetts Institute of Technology - https://arxiv.org/pdf/2205.12689.pdf).
Illustrazione dell’approccio messo a punto dal CSAIL avvalendosi del modello linguistico InstructGPT, in cui – da un esempio one-shot (in verde) e da una guida (in arancione) – viene generato un output più strutturato (in azzurro), riducendo il lavoro di post-elaborazione (in grigio). (Fonte: “Large Language Models are Few-Shot Clinical Information Extractors” – CSAIL, Massachusetts Institute of Technology – https://arxiv.org/pdf/2205.12689.pdf).

Intelligenza artificiale per l’estrazione dei dati clinici: la ricerca futura

In materia di intelligenza artificiale per l’estrazione dei dati clinici dai testi contenuti nelle Cartelle Cliniche Elettroniche, un’altra questione concerne la futura applicazione dei modelli linguistici di grandi dimensioni (come, appunto, InstructGPT di OpenAI) ai dati sanitari presenti nelle CCE custodite negli ospedali, per i quali è richiesto l’invio – attraverso il Web – di informazioni sensibili e riservate sui pazienti ricoverati.

Il team del CSAIL ha aggirato tale problema prevedendo (sempre in futuro, in quanto attualmente il modello è in fase di test) un modello linguistico più piccolo da adottare all’interno del singolo ospedale che ne fa richiesta.

In futuro, invece, la ricerca dovrà lavorare all’estrazione di più dettagli dai dati contenuti nelle CCE, specie quando la richiesta di partenza rimanda al motivo di una determinata terapia, alla quale il modello AI tende a rispondere in modo troppo generico se, nelle note cliniche inserite dal medico, non viene citato nulla di specifico, né di esplicito. Dunque, in futuro, meno testo libero generato dai Large Language Models e maggiore specificità.

Un altro aspetto da perfezionare riguarda l’estensione a lingue diverse dall’inglese, oltre all’ottenimento di risultati simili per mezzo di modelli open source.

Un’altra direzione importante della ricerca consiste, poi, nello sfruttare gli output generati in riferimento a diverse richieste per imparare a determinare quando il modello linguistico mostra delle incertezze. «Questa maggiore affidabilità sarà vitale, data l’elevata posta in gioco nell’estrazione di informazioni preziose dai testi clinici» precisano i ricercatori.

Alcune riflessioni conclusive

In tema di intelligenza artificiale per l’estrazione di dati clinici dai testi contenuti nelle Cartelle Cliniche Elettroniche, lo studio a cura del Computer Science and Artificial Intelligence Laboratory (CSAIL) del Massachusetts Institute of Technology presenta alcuni limiti, anch’essi oggetto di futuri lavori da parte dei ricercatori.

Uno di questi riguarda la difficoltà nello sviluppare un unico modello linguistico da applicare in tutti i contesti sanitari e valido sempre, a causa delle forti variazioni che esistono tra i diversi dataset sanitari. Motivo per cui – attualmente – «la maggior parte delle note contenute nei testi clinici non viene adoperata nelle analisi a valle, né nel supporto decisionale in tempo reale nelle Cartelle Cliniche Elettroniche» spiegano gli autori.

Un altro limite evidenziato (ricordiamo che, con questo lavoro, siamo in ambito USA, distante dal GDPR europeo) ha a che vedere con le molte restrizioni all’uso dei dati clinici, che ne vietano la condivisione pubblica.

Dunque, i test di prova delle prestazioni del modello linguistico messo a punto non si sono basati su risorse pubbliche dei dati, bensì su risorse proprie del team studio, costituite da quei brevissimi frammenti di testi clinici pubblicamente disponibili.

Insomma – lamentano i ricercatori – la valutazione delle performance di estrazione dei dati dalle Cartelle Cliniche Elettroniche da parte del modello linguistico sviluppato è stata eseguita ricorrendo a un piccolo dataset ricreato in laboratorio.

In futuro, lavorando al perfezionamento del modello, questo dovrà essere testato sul campo, esercitandosi, ad esempio, a estrarre dati clinici generati in ambito ospedaliero e presenti nelle CCE lì custodite.

Scritto da:

Paola Cozzi

Caporedattrice Leggi articoli Guarda il profilo Linkedin