Il contributo dei sistemi di intelligenza artificiale all’analisi e all’incrocio di complessi set di dati biomedici accelera il ritmo della ricerca sul genoma umano. Rimane, però, ancora aperta la sfida che vuole l’AI sempre più presente anche nella pratica clinica della genomica.

TAKEAWAY

  • Che l’intelligenza artificiale abbia influenzato, nell’ultimo decennio, la ricerca che ha condotto all’evoluzione della genomica, è un dato di fatto.
  • Secondo uno studio a cura della PHG Foundation, in seno all’Università di Cambridge, in futuro, l’applicazione clinica della genomica proseguirà il suo percorso anche parallelamente all’affinamento delle tecniche di intelligenza artificiale.
  • A condizione, però, che – all’interno dei laboratori di ricerca – vengano sfruttate appieno tutte le potenzialità che, oggi, l’AI è in grado di offrire.

Senza l’apporto dell’intelligenza artificiale, sarebbero stati possibili gli studi sul genoma umano, lo sviluppo delle tecniche di editing genomico, la messa a punto del sistema CRISPR Cas9 e le moderne terapie geniche? Detto in modo più lineare, l’AI ha influenzato, nell’ultimo decennio, le ricerche che hanno segnato l’evoluzione della genomica?

Secondo uno studio a cura della PHG Foundation, think-tank sulla politica sanitaria in seno all’Università di Cambridge, la risposta è un sì assoluto, senza riserve. Anzi – secondo i suoi autori – in futuro, l’applicazione clinica della genomica proseguirà il suo percorso parallelamente all’emergere non solo di nuove conoscenze in ambito scientifico, bensì anche al progresso delle tecniche che fanno capo all’ambito di studi dell’intelligenza artificiale. A condizione, però, che – all’interno dei laboratori di ricerca – vengano sfruttate appieno tutte le potenzialità che, oggi, l’AI è in grado di offrire: solo in questo modo, infatti, potrà essere vinta la sfida che vuole l’intelligenza artificiale sempre più presente anche nella pratica clinica.

Intelligenza artificiale e genomica: il ruolo di machine learning e deep learning nella sfida dei dati

Mettere ordine, dare un senso logico ai grandi volumi di dati relativi alle sequenze genomiche, analizzarli e correlarli ad altre informazioni, tra cui altre tipologie di dati molecolari e dati clinici: è questo il compito primo delle tecniche di intelligenza artificiale applicate alla genomica.

Attualmente, uno degli obiettivi del sequenziamento del genoma è accelerare l’identificazione delle correlazioni tra determinate varianti genetiche e specifiche patologie e tra queste ultime e determinate terapie. A tale scopo, occorre mettere in relazione i dati della sequenza genica a livello di popolazione a informazioni fenotipiche, a cartelle cliniche e ad altri tipi di set di dati dei pazienti. Il che richiede approcci computazionali capaci di effettuare l’analisi di grandi set di dati eterogenei e complessi, alcuni dei quali caratterizzati da centinaia o migliaia di misurazioni, come lo sono i geni in una cellula.

La risposta a tali esigenze viene dalle tecniche di machine learning e di deep learning, dove le prime – lo ricordiamo – sono in grado di acquisire una varietà di dati per allenare una macchina che diventa progressivamente sempre più abile nello svolgere un compito in autonomia e le seconde si basano su reti neurali profonde, caratterizzate da moltissimi strati di calcolo, basati – a loro volta – su un numero elevatissimo di livelli [per approfondimenti sull’AI, consigliamo la lettura della nostra guida all’intelligenza artificiale che spiega cos’è, a cosa serve e quali sono gli esempi applicativi – ndr]. A tale riguardo, sottolineano gli analisti della PHG Foundation:

«L’esplosione del volume dei dati genomici e, più in generale, dei dati biomedici, che si prevede supereranno altre importanti fonti di big data nei prossimi anni, si presta particolarmente all’addestramento di algoritmi di machine learning. E la capacità delle tecniche di deep learning nel gestire set di dati molto ampi e diversificati al loro interno – tra cui, ad esempio, quelli provenienti dalla diagnostica – si presta perfettamente agli studi di genomica»

L’AI a supporto degli studi sui processi di fenotipizzazione

In questo momento, «l’attività dei sistemi di intelligenza artificiale applicati alla genomica avviene prevalentemente all’interno del lavoro di ricerca. In particolare, c’è grande interesse attorno a un filone di studi che utilizza algoritmi di machine learning e di deep learning per studiare i processi di fenotipizzazione».

In un contesto clinico, per “fenotipizzazione” si intende l’osservazione delle caratteristiche inerenti all’organismo del paziente, sia – più semplicemente – in riferimento ai suoi aspetti visibili all’occhio che alla sua fisiologia e alle sue caratteristiche genetiche. Le informazioni che si ricavano da tale osservazione vengono poi utilizzate nelle diverse fasi del percorso diagnostico, a partire dall’analisi genomica fino ad arrivare all’interpretazione dei suoi risultati.

Nel dettaglio, in tale ambito di studi, i sistemi di apprendimento automatico hanno un proprio ruolo nell’estrarre i dati fenotipici dalle cartelle cliniche elettroniche, «con l’obiettivo di identificare le caratteristiche fenotipiche associate a determinate malattie genetiche e filtrare e classificare automaticamente le probabili varianti patogene».

È stata sviluppata, inoltre, una particolare tecnologia denominata “DeepGestalt” che, basandosi su tecniche di computer vision e algoritmi di deep learning addestrati su migliaia di casi di pazienti, formula ipotesi circa le sindromi genetiche che un paziente potrebbe avere in base alle sue caratteristiche facciali.

Un altro segmento della ricerca sui processi di fenotipizzazione si fonda sull’incrocio – per mezzo di algoritmi di apprendimento automatico – di dati provenienti dall’analisi genomica, dall’imaging diagnostico e dalle immagini istopatologiche: il fine, in questo caso, è l’analisi predittiva relativa a patologie oncologiche. Spiegano gli autori dello studio:

«Molti dei set di dati in questione sono di natura altamente dimensionale e multi-attributo, il che significa che, al loro interno, il numero delle caratteristiche misurabili è molto elevato e che la medesima caratteristica è attribuibile a più variabili. Ne deriva un’analisi piuttosto impegnativa dal punto di vista computazionale. Tuttavia, una maggiore potenza di calcolo, in combinazione con reti neurali in grado di elaborare grandi set di dati e modellare relazioni complesse tra loro, sta aprendo opportunità prima inimmaginabili nell’ottenere nuove informazioni dalla loro combinazione»

Intelligenza artificiale e genomica: più attenzione alla qualità dei dati e al rischio di pregiudizio eurocentrico

Neanche la ricerca scientifica è estranea ai problemi che riguardano la cura nella selezione, raccolta e organizzazione dei dati che verranno somministrati ai sistemi di intelligenza artificiale, affinché possano essere addestrati in modo consono al compito che andranno a svolgere.

Gli analisti della PHG Foundation, anzi, sottolineano come i set di dati genomici siano spesso non strutturati, «caratterizzati da diverse fonti di errore e distorsioni, comprese quelle derivanti dalle differenze tra i vari kit e tra diversi metodi e tecnologie di sequenziamento». Dunque, è necessario dedicare un ampio sforzo alla pulizia, alla standardizzazione e alla formattazione dei set di dati prima che vengano utilizzati per allenare gli algoritmi.

Ma, oltre a quelle che appaiono come questioni già note, gli autori (inglesi) rimarcano un’altra criticità riguardante la qualità dei dati nella genomica, ossia il rischio di “pregiudizio eurocentrico” che, se non risolto, ha il potenziale di aggravare – per quanto concerne lo studio di determinate patologie associate a particolari tratti genetici – le disparità esistenti tra gruppi etnici differenti:

«Gli algoritmi di machine learning addestrati su set di dati genomici che derivano prevalentemente da sequenze di DNA di individui di origine europea saranno meno efficaci di quelli formati su dati pienamente rappresentativi, oltre, poi, ad essere potenzialmente dannosi se utilizzati per fare previsioni su individui di discendenza non europea»

Dunque, le iniziative di sequenziamento del genoma che puntano a raccogliere dati rappresentativi delle diversità etniche all’interno della società, rappresentano un passo importante verso la riduzione dei pregiudizi algoritmici negativi nella ricerca biomedica.

Scritto da:

Paola Cozzi

Giornalista Leggi articoli Guarda il profilo Linkedin