Grazie alle tecnologie di deep learning, il team di DeepMind ha risolto con successo il famigerato Protein Folding Problem: costruire la struttura 3D di una proteina a partire dalle informazioni della sequenza di amminoacidi che la compongono. Si tratta della dimostrazione pratica di come l’intelligenza artificiale sia in grado di cambiare per sempre la ricerca e l’applicazione nell’ambito della biologia molecolare, aprendo nuove possibilità nella farmacia, nella medicina e nelle tecnologie ambientali.

TAKEAWAY

  • Il 30 novembre 2020 la rivista Nature pubblica i risultati di CASP14, che rivelano come DeepMind abbia raggiunto il 90% di accuratezza medio nei propri modelli predittivi.
  • AlphaFold, il sistema AI based sviluppato da DeepMind è in grado di generare modelli predittivi in 3D delle strutture delle proteine in maniera molto più rapida ed accurata rispetto a qualsiasi metodo sinora impiegato.
  • La scoperta ha suscitato un notevole entusiasmo da parte della comunità scientifica, che non ha potuto far altro che riconoscere come l’intelligenza artificiale abbia trovato una soluzione ad una sfida eterna, nei confronti della quale diversi scienziati avevano addirittura perso le speranze.
  • Conoscere nel dettaglio il funzionamento di un numero maggiore di proteine consentirà una notevole accelerazione nella creazione di farmaci per curare numerose malattie, così come di realizzare agenti in grado di limitare i fenomeni inquinanti.

Il progresso della nostra società è storicamente segnato da tappe di sostanziale evoluzione nella ricerca scientifica. Il 2020, tragicamente condizionato da una pandemia tanto inattesa quanto devastante per l’equilibrio socio-economico globale, potrebbe essere ricordato anche in termini positivi, per via una scoperta cruciale: il successo dell’intelligenza artificiale per la determinazione della forma 3D di una proteina a partire dal suo semplice genoma, in altri termini: il Protein Folding. A lungo inseguito, provando tantissimi metodi ed approcci, questo risultato apre letteralmente una nuova era nella ricerca e applicazione della biologia molecolare.

Nel contesto del challenge internazionale CASP (Critical Assesment of Structure Prediction), il programma AlphaFold, sviluppato da DeepMind ha infatti raggiunto una capacità predittiva superiore al 90% nella simulazione tridimensionale della struttura proteica, ritenuta la soglia di attendibilità necessaria per i risultati ottenuti.

Le applicazioni come AlphaFold, basate sul deep learning delle reti neurali, non creano sostanzialmente nulla di nuovo, nascono per risolvere un problema che, nel caso del Protein Folding, è noto e ricorrente da almeno da 50 anni. La novità è dunque data dalle modalità con cui il problema viene risolto, grazie alla drastica riduzione dei tempi e dei costi sin qui necessari per ottenere il medesimo risultato. Vediamo quali sono gli aspetti fondamentali legati allo straordinario risultato ottenuto dal team di DeepMind, ben noto alle cronache grazie a progetti come AlphaGo, dove ha utilizzato l’intelligenza artificiale per sviluppare un’applicazione in grado di battere i campioni di Go, l’antico gioco cinese. Per documentare la storia di AlphaGo è stato prodotto l’omonimo lungometraggio che, a livello di sensibilità e coinvolgimento, ad oggi possiamo ritenere uno degli episodi divulgativi più azzeccati in merito alle potenzialità applicative delle AI.

DeepMind e European Bioinformatics Institute hanno creato AlphaFold Protein Structure Database, un repository definito come il Google delle proteine. LEGGI L’ARTICOLO

DeepMind AlphaFold. Dal Protein Folding Problem…

Nell’articolo di presentazione di AlphaFold, DeepMind usa un’espressione più che mai azzeccata per definire le proteine i mattoni con cui si costruisce la vita: “Dentro ogni cellula del tuo corpo, miliardi di macchine molecolari sono duramente al lavoro. Sono ciò che permette ai tuoi occhi di vedere, ai tuoi neuroni di attivarsi, e sono le istruzioni da leggere nel tuo DNA, quelle che ti rendono la persona unica che sei”.

In altri termini, maggiore è la conoscenza delle proteine, maggiore sarà la possibilità di comprendere i fenomeni che governano la vita. Le sequenze di amminoacidi che compongono le proteine sono definite nel genoma del DNA, ma non sono sufficienti a capire come lavorano e cosa fanno. Per avere queste informazioni, indispensabili per poter è necessario conoscere la struttura 3D della proteina stessa, ossia come gli amminoacidi che la compongono si dispongono nello spazio. Come si dice in gergo, nel caso delle proteine “struttura è funzione”. Ottenere l’aspetto tridimensionale a partire dalla sequenza di amminoacidi è ciò che viene definito il “Protein Folding Problem”, una sfida che appassiona la biologia ormai da diversi decenni. L’operazione è molto complessa per il fatto che una proteina può essere composta fino a 20 amminoacidi, capaci di combinarsi in infiniti modi.

Attualmente si conosce la struttura di 200 milioni di proteine, ed ogni anno si è arrivati a scoprirne circa 30 milioni. Sono i risultati di un lavoro importante, ma ad oggi assolutamente parziale in funzione alla varietà e alla complessità della vita presente sul nostro pianeta.

In merito al Protein Folding Problem, DeepMind ha realizzato un breve video, molto efficace nel sintetizzare i concetti chiave, e le esigenze molto pratiche che la conoscenza delle strutture proteiche consente di risolvere in vari ambiti applicativi.

Una delle particolari criticità legate al Protein Folding è data dall’elevato onere in termini di tempi e costi per riuscire a definire ogni forma 3D. Gli approcci utilizzati prevedono sia procedure fisiche, basate sulle tecnologie da laboratorio come la cristallografia a raggi X o la microscopia crioelettronica (cryo-Em), che approcci informatici, basati sullo sviluppo di modelli predittivi, calcolati dai supercomputer dei centri ricerca o attraverso progetti collaborativi, capaci di coinvolgere globalmente la community, come nel caso di Folding@Home e FoldIt.

Payoff Folding@Home
“Insieme, siamo potenti” è l’efficace payoff che esprime il senso e la missione di un progetto collaborativo come Folding@Home. Grazie alla app scaricabile sul sito ufficiale chiunque può mettere a disposizione il proprio hardware per supportare l’immenso lavoro di calcolo che comporta ogni progetto aperto. L’applicazione agisce in modo discreto, con un livello di priorità inferiore rispetto a quelle utilizzate dall’utente, che non si accorgerà del suo utilizzo, se non per via di una maggiorazione della bolletta dell’energia elettrica. Un nobile sacrificio, per una giusta causa, dal momento che i progetti di Folding@Home sono solitamente finalizzati a scoprire il ripiegamento molecolare di proteine indispensabili per conoscere e cercare terapie per malattie degenerative, diverse forme tumorali, HIV e lo stesso SARS-CoV-2 (credit: Folding@Home)
esperienza di FoldIt basata su gamification
L’esperienza di FoldIt è basata sulla gamification, dove la struttura proteica viene proposta al giocatore quale un puzzle da risolvere. Il risultato garantisce un punteggio sulla base di diversi obiettivi, che danno luogo ad altrettante esperienze ludiche. Il sistema ha generato negli anni un elevato livello di coinvolgimento, grazie a classifiche periodiche e contest in cui è possibile confrontarsi sia a livello individuale che di squadra. I risultati più interessanti dal punto di vista predittivo vengono selezionati ed analizzati in laboratorio. Nel 2010 Nature ha pubblicato un articolo che dimostrava come i puzzle degli utenti umani fossero in buona parte più efficienti nel risultato rispetto ai modelli generati dagli algoritmi matematici in quel periodo. L’intelligenza artificiale è infatti intervenuta soltanto in tempi ben più recenti. (credit: FoldIt)

A prescindere dai modelli utilizzati, spingere ad oltranza sullo stesso acceleratore non avrebbe portato a sostanziali novità. Dopo anni di relativa inconcludenza era ormai chiaro come fosse opportuna una netta variazione di approccio nei confronti del problema. Ragion per cui, nel 1994, il professor John Moult, biologo dell’Università di Maryland, ha dato il via al progetto CASP (Critical Assessment of Structure Prediction), con l’obiettivo di migliorare i metodi computazionali per il calcolo predittivo delle strutture proteiche.

…alla Protein Folding solution: i CASP e il sorprendente successo di AlphaFold 2

Al di là degli intenti qualitativi dal punto di vista scientifico, il CASP nasce con l’intenzione di mettere fine alla relativa anarchia del calcolo algoritmico delle strutture proteiche, in favore di un’iniziativa organizzata, in grado di controllare l’attendibilità dei risultati ottenuti, archiviarli e condividerli con la comunità scientifica, per offrire a chiunque la facoltà di approfondire i vari spunti di ricerca e migliorare progressivamente i risultati.

Il cuore dell’attività di CASP è un challenge con ricorrenza biennale, dove ai team di ricerca partecipanti vengono assegnate una serie di proteine di diversa complessità, di cui si conosce già la struttura proteica. I partecipanti devono avvicinare il più possibile la loro ricostruzione 3D al risultato di riferimento. Il confronto avviene mediante il GDT (Global Distance Test). Quando la percentuale di sovrapposizione tra le strutture 3D supera il 90% il modello predittivo viene considerato attendibile.

I team partecipanti ai CASP sono in prevalenza formati da gruppi di ricerca universitari, ma non mancano di certo celebri eccezioni. Al CASP14, disputato nel 2020, oltre a DeepMind (Google), hanno ad esempio partecipato anche Microsoft e Tencent. Al netto di qualsiasi condizionamento, la pubblicazione dei lavori durante il challenge avviene in maniera anonima. L’identità effettiva viene associata soltanto dopo aver effettuato le valutazioni e il controllo sui risultati conseguiti. Ciò nonostante, AlphaFold 2, nome in codice “group 427”, sarebbe stato facilmente identificato dagli scienziati del team di CASP ben prima di “aprire le buste”. Lo stesso Moult ha confessato come, durante le valutazioni, in certi frangenti non fosse chiaro come le lievi discrepanze tra i modelli 3D di AlphaFold e i modelli sperimentali fossero da imputare al risultato predittivo o a possibili artefatti delle strutture di riferimento.

In attesa della pubblicazione dei risultati, dei relativi paper scientifici e della condivisione dei software utilizzati, che avverranno nel corso dei prossimi mesi, le prime indiscrezioni indicano come almeno la metà dei team abbia basato i propri modelli predittivi sul deep learning, prendendo ampi spunti dalla prima versione di AlphaFold, resa liberamente disponibile su GitHub.

Oltre ad essere un fondamento del CASP, la condivisione è utile agli sviluppatori stessi, come ha affermato Demis Hassabis, fondatore di DeepMind: “Finalmente stiamo iniziando a capire cosa vogliono i biologi”, ribadendo l’intenzione di voler rendere AlphaFold il più possibile fruibile ai ricercatori. In termini di prospettiva, Hassabis ha indicato nella scoperta di nuovi farmaci e nel protein design le principali applicazioni che potrebbero derivare dall’implementazione dell’intelligenza artificiale nei processi predittivi.

DeepMind AlphaFold - risultati CASP14
AlphaFold ha dato un deciso impulso alla qualità della ricerca nei CASP. Dopo l’incoraggiante esordio del 2018, l’evoluzione del progetto di DeepMind ha letteralmente sbaragliato qualsiasi altro metodo presentato nel CASP14 (2020), i cui risultati sono stati pubblicati sulla celebre rivista scientifica Nature lo scorso 30 novembre. (credit: Nature)
DeepMind AlphaFold - migliori GDT
Sintesi dei migliori GDT raggiunti in tutte le 14 edizioni del CASP sin qui disputate. Dopo anni di risultati tutt’altro che esaltanti, in cui ha certamente premiato la volontà di procedere nel progetto, l’intervento di DeepMind (edizioni 13 e 14) ha segnato il decisivo punto di svolta, con il raggiungimento della fatidica soglia del 90%. (credit: CASP)
Flusso di funzionamento DeepMind AlphaFold
Il flusso di funzionamento di AlphaFold. La rete neurale viene allenata con i dati relativi ai lavori noti (sequenza amminoacidi e struttura 3D della proteina) per generare frammenti basati sulla distanza tra le coppie di amminoacidi e sull’angolo di distribuzione. Nel secondo step i risultati ottenuti vengono ottimizzati grazie al metodo Gradient Descent, una tecnica matematica usata di frequente nel machine learning per ottenere piccoli e progressivi miglioramenti dei risultati. Il dataset utilizzato nel processo di learning sul Protein Folding comprende 200 milioni di sequenze e 140.000 strutture in 3D (credit: DeepMind)
AlphaFold 2 - alcuni risultati al CASP14
Alcuni risultati ottenuti da AlphaFold 2 al CASP14. Il GDT (Global Distance Test) serve per verificare lo scarto tra il modello sperimentale e il modello predittivo generato dalle simulazioni dei partecipanti. In alcuni casi AlphaFold 2 è stato in grado di ottenere un GDT del 99% (credit: DeepMind)

Le reazioni della comunità scientifica a DeepMind AlphaFold

Oltre alla meritata enfasi dedicata dalla stampa internazionale, il risultato della seconda evoluzione di AlphaFold ha creato un evidente entusiasmo da parte di molti ricercatori che in molti anni di sperimentazione sul campo non erano nemmeno riusciti ad avvicinare quanto svolto dal team di DeepMind. Lo stesso John Moult sostiene come “in un certo senso il problema del Protein Folding sia risolto”.

Gli fa eco Andrei Lupas, biologo del Max Planck Institute di Tubingen (Germania): “AlphaFold è un vero game changer, in mezz’ora di calcolo ha risolto quello che non ero riuscito a fare in dieci anni di continua sperimentazione”. Il riferimento è ad una struttura proteica particolarmente complessa, facilmente risolta da utilizzando la prima versione del software di DeepMind: “Questo cambierà sicuramente la medicina, la ricerca, la bioingegneria, cambierà davvero tutto”.

I complimenti al lavoro del team inglese arrivano anche da altri concorrenti al CASP, tra cui Mohammed AlQuaraishi, della Columbia University di New York, che si sbilancia in una previsione decisamente radicale: “Penso che si tratti di un risultato dirompente per tutto il campo della simulazione delle strutture proteiche. Cambieranno tantissime cose. Penso che molti abbandoneranno questo ramo della ricerca, perché il cuore del problema è stato sostanzialmente risolto. Si tratta di una delle cose più incredibili cui abbia assistito nella mia vita”.

I risultati ottenuti da DeepMind nell’ambito delle ricerca scientifica non si limitano ovviamente ai risultati del CASP. Ad inizio 2020, AlphaFold è stato in grado di prevedere la struttura di diverse proteine del SARS-CoV-2, ben prima che fossero definite con i metodi tradizionali, che hanno sostanzialmente confermato la qualità dei risultati ottenuti grazie all’intelligenza artificiale. È il caso della proteina Orf3a, definita nei laboratori della University of California dal team del professor Stephen Brohawn, soltanto nel mese di giugno, grazie alla tecnologia cryo-EM

Un futuro di grandi possibilità: dalla ricerca medica allo sviluppo sostenibile

In attesa di verificare se l’entusiasmo della comunità scientifica saprà dare concretamente atto alle conseguenze dirompenti che vengono ipotizzate, è alquanto improbabile pensare che AlphaFold mandi in pensione i laboratori tradizionali. Una delle ipotesi vedrebbe i laboratori sperimentali confermare le ipotesi predittive dei sistemi basati sull’intelligenza artificiale, come avvenuto nel caso della già citata proteina Orf3a del SARS-CoV-2. In generale l’efficienza dei sistemi come AlphaFold dovrebbe garantire un sensibile incremento delle strutture scoperte, ma ciò che probabilmente cambierà per sempre è il modo di lavorare, come sostiene lo stesso Lupas: “Si formerà una nuova generazione di biologi molecolari, che dovrà porsi delle domande più avanzate rispetto a quelle formulate finora. Credo servirà più pensiero e meno pipettaggio”. Singolare anche il parere di Janet Thornton, del Bioinformatics Institute in Hinxton (UK): “Hanno risolto un problema che a questo punto non speravo più di veder risolto nella mia vita”, con riferimento alla possibilità di scoprire più strutture del genoma umano, anche in funzione di identificare quelle variazioni genetiche, differenti da persona a persona, che causano molte delle cosiddette malattie rare.

La crescente scoperta del corpo umano apre la strada a nuove prospettive nel campo della farmacologia, dove l’evidenza di una struttura proteica alterata consente ai protein designer di progettare la controparte efficace per le curare i suoi effetti nefasti. Allo stesso modo, la medicina potrà predisporre terapie nuove e più efficaci per una casistica sempre più ampia di patologie, con un crescente livello di personalizzazione della cura. Un altro aspetto favorevole è dato dalla possibilità di verificare se e quali farmaci già noti sono in grado di interagire favorevolmente con le proteine che causano le nuove malattie scoperte.

A prescindere da medicina e farmacia, che aumenteranno l’efficienza di processi consueti, tra le previsioni di DeepMind c’è anche l’applicazione in campo ambientale, per cercare di ridurre i principali agenti di inquinamento. Conoscere le strutture delle proteine delle emissioni industriali potrebbe infatti offrire la facoltà di creare proteine ed enzimi in grado di neutralizzarle, e allo stesso modo agire nei confronti delle emissioni di carbonio nell’atmosfera.

Un altro successo per l’intelligenza artificiale, adesso è ora di capire cosa fare da grandi

Il clamoroso risultato ottenuto nel CASP14 potrebbe come influirà sull’identità di DeepMind? Se finora la società inglese ha utilizzato con profitto le AI per risolvere problemi specifici, esigenze di Google o grandi opportunità mediatiche, come nel caso di GO e Starcraft, la portata della soluzione al Protein Folding Problem apre spiragli del tutto inediti in termini di potenzialità e coinvolgimento nell’ambito di una scienza e di un’industria fondamentale come la biologia. È qualcosa che al momento sarebbe sin molto difficile da prevedere.

Le aspettative delle applicazioni biologiche, anche in termini di investimenti, sono sicuramente più elevate rispetto alle dimostrazioni in ambito ludico, che richiamano piuttosto i tempi in cui DeeBlue, pionieristica applicazione di IBM basata sull’intelligenza artificiale, sorprendeva il mondo collegato al TG di prima serata, battendo la leggenda degli scacchi Garry Kasparov.

Si spera che il castello di credibilità per le AI sia ormai sufficientemente solido, senza dover continuamente dimostrare la superiorità rispetto alle potenzialità cognitive dell’uomo, anche perché la pratica potrebbe iniziare a diventare stucchevole. Il passo successivo è dimostrare che l’intelligenza artificiale è in grado di risolvere i problemi di radicale importanza, di migliorare davvero la qualità e l’aspettativa di vita. Il superamento del Protein Folding Problem costituisce in tal senso un punto di non ritorno, una scoperta da premio Nobel capace di cambiare per sempre il corso non soltanto della biologia, ma dell’intelligenza artificiale stessa, che non potrà più tirarsi indietro di fronte alle sfide più grandi.

L’agguerrita e multietnica truppa di DeepMind pare tutt’altro che intimorita di fronte a questa prospettiva e alle responsabilità che inevitabilmente un simile riconoscimento comporta. Del resto, la prima cosa che si legge nella homepage del loro sito ufficiale è del tipo: “Cosa succede se risolvendo un problema e possibile sbloccare soluzioni per migliaia di altri?”. Come dire, ben vengano. Un vero inno all’innovazione aperta, in cui il piacere della continua scoperta prevale rispetto alla volontà di raggiungere obiettivi certi. Quelli sono dati quasi per scontati. Trovato il corretto approccio al problema, una soluzione si troverà sempre. Le tecnologie per farlo ci sono e miglioreranno sempre.

Per cogliere lo spirito innovativo, la sequenza del DNA del team di DeepMind, suggeriamo la visione del breve video che sintetizza l’esperienza di AlphaFold. Dietro queste straordinarie ricerche ci sono persone, umani veri, con le loro vite, con le loro storie, la cui diversità contribuisce a creare un valore insostituibile. Guardare questi ragazzi in azione rifonde un senso di naturale fiducia nel futuro e suggerisce come soltanto l’etica e le competenze tipiche dell’intelligenza umana renderanno l’intelligenza artificiale uno strumento generativo capace di migliorare la vita di ciascuno di noi. Come in tutte le rivoluzioni della storia, la capacità di cambiare il corso del nostro destino risiede nelle nostre mani, e nelle nostre menti.

NOTA: Per un’introduzione alle strutture proteiche, suggeriamo il video “Cos’è una proteina”, a cura di RCSB Protein Databank, disponibile anche nella versione sottotitolata in italiano. Sul sito ufficiale sono disponibili anche file e risorse addizionali

Scritto da:

Francesco La Trofa

Giornalista Leggi articoli Guarda il profilo Linkedin