Dopo aver risolto lo storico problema del protein folding grazie all’intelligenza artificiale di AlphaFold, DeepMind torna a sorprendere, con la pubblicazione di un database open source contenente la struttura 3D di oltre 200 milioni di proteine, quasi tutte quelle di cui attualmente si conosce il genoma. Si tratta di un passo fondamentale nella storia della bioinformatica e del contributo della AI alla ricerca scientifica, per favorire nuove cure, nuovi farmaci e nuove tecnologie per contrastare l’inquinamento ambientale.

TAKEAWAY

  • DeepMind e European Bioinformatics Institute hanno creato AlphaFold Protein Structure Database, un repository definito come il Google delle proteine
  • Il database contiene le strutture tridimensionali (protein folding) della maggior parte delle proteine di cui attualmente si conosce la sequenza genomica, con oltre 200 milioni di risultati disponibili open source per chiunque voglia intraprendere progetti accademici e commerciali. Si tratta di un’opportunità senza precedenti per la ricerca scientifica
  • AlphaFold segna un punto di svolta nella bioinformatica e nella generale consapevolezza delle potenzialità legate all’intelligenza artificiale, ed in particolare al deep learning, nei processi di conoscenza che i metodi tradizionali non sono in grado di affrontare, se non a condizioni estremamente proibitive

L’AlphaFold Protein Structure Database, sviluppato da DeepMind in collaborazione con European Bioinformatics Institute (EMBL-EBI), procede nella sua incessante implementazione, con l’obiettivo di rendere liberamente disponibili all’industria e alla comunità scientifica oltre 200 milioni di strutture proteiche in 3D.

La notizia, da tempo oggetto di attenzione sulle pubblicazioni scientifiche, ha di recente catturato l’attenzione anche della stampa generalista, e corrisponde in buona sostanza al mantenimento della grande promessa che DeepMind aveva fatto in occasione del CASP14.

In occasione della celebre competizione internazionale di protein folding, l’AI Lab britannico in forza ad Alphabet (Google) aveva sorpreso il mondo della scienza e della ricerca risolvendo con straordinaria efficienza lo storico problema del ripiegamento proteico, la capacità di ricostruire la struttura tridimensionale di una proteina a partire dal suo genoma (sequenza di amminoacidi).

Contestualmente al rilascio delle prime strutture 3D, DeepMind aveva pubblicamente dichiarato l’intenzione di voler implementare un repository con la ricostruzione tridimensionale di tutte le proteine attualmente note. Oggi questa promessa è divenuta realtà grazie all’AlphaFold Protein Structure Database.

AlphaFold Protein Structure Database: il repository delle strutture 3D di tutte le proteine del pianeta

L’enorme database proteico a cui DeepMind faceva riferimento ha dato luogo al portale web AlphaFold Protein Structure Database, fruibile attraverso un repository di proteine 3D basate sugli elenchi dello standard UniProt, dove è possibile effettuare il download dell’intero proteoma umano e di altri 47 organismi viventi, fondamentali per la ricerca scientifica in molti ambiti di applicazione.

Il database, convenzionalmente abbreviato in AlphaFold Protein Structure Database, è stato implementato attraverso quattro fasi nell’arco di un anno, dal luglio 2021 al luglio appena trascorso, con la previsione di ulteriori rilasci nel corso dei prossimi mesi, seguendo gli aggiornamenti dell’elenco di UniProt.

Tutti i risultati pubblicati sono liberamente utilizzabili sia per finalità accademiche che per utilizzi commerciali, con licenza Creative Commons Attribution 4.0 (CC-BY 4.0) DeepMind ha inoltre reso disponibile in maniera open source lo stesso progetto AlphaFold, in modo che chiunque possa utilizzarlo per creare le proprie strutture proteiche in 3D a partire dal relativo genoma. Al momento il lavoro svolto da DeepMind e European Bioinformatics Institute restituisce soltanto le proteine contenute fino all’aggiornamento UniProt 2021_04, con un supporto limitato nei confronti di altri standard.

Cos’è AlphaFold e perché la struttura proteica tridimensionale è così importante per la ricerca scientifica

AlphaFold è un sistema di intelligenza artificiale sviluppato da DeepMind per prevedere la struttura 3D di una proteina a partire dalla sua sequenza genomica. La sua notorietà a livello globale risale al 2020, in occasione del già citato CASP14, contest internazionale di protein folding che si svolge ogni due anni e coinvolge centinaia di team riferibili ad università, aziende ed istituti di ricerca pubblici e privati.

Dopo circa sessant’anni in cui si cercava invano una soluzione precisa, efficace e sostenibile dal punto di vista dei tempi e dei costi necessari a simulare una struttura proteica in 3D (protein folding), DeepMind ha dimostrato un livello di affidabilità superiore al 95% tra la simulazione informatica basata sulla AI e i ben più complessi ed onerosi risultati ottenuti nei laboratori tradizionali, dati noti ed utilizzati proprio quali benchmark negli eventi CASP.

La ricerca di metodi capaci di simulare milioni di strutture proteiche risulta fondamentale per sostenere la ricerca scientifica in vari ambiti applicativi, per sviluppare rapidamente nuovi farmaci, applicazioni di medicina personalizzata per curare in maniera mirata le malattie e, in generale, per comprendere meglio i fenomeni legati alla vita stessa, grazie alla conoscenza a livello atomico dei componenti elementari degli organismi.

Sfruttando la straordinaria potenza dell’infrastruttura AI di Google, AlphaFold si avvale di reti neurali profonde ed enormi risorse computazionali per risolvere la complessità delle simulazioni necessarie per ricostruire la struttura proteica tridimensionale, potendo inizialmente contare soltanto sul suo codice genetico.

I risultati sono parsi accurati e incredibilmente veloci sin dalla sua prima versione e lo dimostra concretamente l’enorme quantità di dati strutturati che DeepMind è stata in grado di rilasciare su AlphaFold Protein Structure Database in tempi fino ad ora nemmeno immaginabili.

La conoscenza della struttura 3D è fondamentale per comprendere il funzionamento di una proteina e pertanto come modificarla e applicarla in funzione della sua interazione con le altre proteine dei sistemi biologici. Su tali logiche si basano ad esempio la ricerca biomedica, la ricerca farmacologica e la capacità di neutralizzare i processi di inquinamento per sostenere la salvaguardia ambientale del pianeta.

Tra i risultati epocali ottenuti negli anni grazie al protein folding ricordiamo:

  • La determinazione della struttura dell’emoglobina, proteina delle cellule del sangue responsabile del trasporto dell’ossigeno. Tale scoperta ha consentito ai ricercatori di comprenderne la mutazione patogena e trovare cure efficienti nei confronti dell’anemia
  • La determinazione della struttura delle proteine del virus SARS-CoV-2, fondamentali per la ricerca utile ad ottenere farmaci per cure e vaccini
  • La determinazione della struttura delle proteine delle cellule responsabili dei processi di fotosintesi delle piante, ai fini di comprendere il loro funzionamento.

AlphaFold ha rivoluzionato per sempre il contributo della bioinformatica per tutte le applicazioni di ricerca scientifica, ottenendo nel giro di pochi mesi molto più di quanto il lavoro basato sulle tecniche tradizionali di laboratorio ha restituito in diverse decine di anni.

Le potenzialità dell’intelligenza artificiale nella bioinformatica sono di fatto ancora sconosciute, ma i primi risultati dimostrano pienamente quale sia la via che la comunità scientifica pare intenzionata a seguire.

Tra amore per la scienza e opportunità di business: il futuro della biologia digitale passa dal deep learning

DeepMind è un laboratorio di intelligenza artificiale (AI Lab) con sede a Londra, acquisito da Alphabet (Google) nel corso del 2014, con l’obiettivo di sviluppare progetti in grado di sfruttare le reti neurali profonde (deep learning) per risolvere problemi generali e specifici di varia natura e complessità.

Prima di AlphaFold, DeepMind aveva acquisito una notevole popolarità grazie alle proprie demo AI in ambito ludico, con gli algoritmi di AlphaStar, capaci di battere i più forti giocatori di Starcraft II, e di AlphaGo, che ha raggiunto con successo i medesimi propositi contro i campioni del gioco cinese Go.

Di AlphaGo è stata prodotta anche una versione generalizzata: AlphaZero, capace di raggiungere risultati sorprendenti in molti giochi da tavolo classici (scacchi, shogi, ecc.), partendo addirittura dall’apprendimento automatico delle stesse regole del gioco.

DeepMind può permettersi la propria attività di ricerca e sviluppo grazie ad un gigante come Google, che svolge un’azione di sostegno finanziario e tecnologico simile a quella con cui Microsoft supporta OpenAI, nota per le sue applicazioni generative GPT-3, per la creazione di testi complessi e realistici, e DALL-E 2, per la creazione di immagini realistiche e surreali a partire da un semplice prompt testuale.

È evidente che applicazioni come AlphaFold, capaci di rivoluzionare per sempre la ricerca biologica, costituiscano la base per sviluppare e rendere note al mondo le potenzialità delle tecnologie basate sull’intelligenza artificiale generale. E quando entrano in gioco aspetti come la salute dell’uomo e dell’ambiente, il gioco si fa estremamente serio.

DeepMind non limita la propria attività alla pura ricerca, in quanto sostiene parzialmente il proprio business grazie a progetti commerciali e alla ricerca svolta per implementare nuove funzioni AI-based nelle applicazioni dell’immenso ecosistema software di Google.

Al momento non è noto quali siano i termini entro cui si prevede il primo bilancio positivo per DeepMind, ma Alphabet, holding a cui fa capo la stessa Big G, nelle proprie relazioni finanziarie ha sempre dichiarato apertamente di voler sostenere il progetto a prescindere dal suo andamento economico, rassicurando gli investitori di credere pienamente nelle potenzialità delle applicazioni basate sul deep learning.

Al momento un modello di business come quello di DeepMind rimane per certi versi un unicum, in quanto non sarebbe in alcun modo sostenibile per realtà di piccole e medie dimensioni, che non potrebbero in alcun modo reggere le sorti di costi di infrastruttura molto elevati e delle competenze esclusive dei suoi ricercatori, strappati a suon di milioni di dollari alla concorrenza.

Il fatto che chiunque possa utilizzare le tecnologie open source di DeepMind costituisce tuttavia un’opportunità di business senza precedenti, per quelle start-up e aziende che intendono sviluppare soluzioni realmente innovative nell’ambito della bioinformatica.

Proteine Q8W3K0 - Probable disease resistance protein At1g58602 - Informations and 3D view from AlphaFold DB Proteins [credits: https://alphafold.ebi.ac.uk/entry/Q8W3K0]
Proteine Q8W3K0 – Probable disease resistance protein At1g58602 – Informations and 3D view from AlphaFold DB Proteins [credits: https://alphafold.ebi.ac.uk/entry/Q8W3K0]
Scritto da:

Francesco La Trofa

Giornalista Leggi articoli Guarda il profilo Linkedin