Quanti sono i sistemi CRISPR? Probabilmente migliaia. E per la maggior parte sono rilevabili scandagliando grandi quantità di dati sui genomi di batteri considerati “rari”, come quelli raccolti nei birrifici o nelle acque dei laghi antartici. Lo illustrano gli autori di un recente studio USA che, avvalendosi di uno specifico algoritmo di cluster analysis, ne hanno rintracciati 188.

Quando parliamo di big data riferiti alla genomica – o di “big data genomici” – intendiamo quell’insieme di dati riguardanti le strutture e le funzioni del genoma di organismi vegetali, animali e umani, comprese la sequenza di molecole nei geni e le interazioni tra le stesse molecole e le proteine.

Si tratta di una gigantesca e complessa mole di dati raccolti da genetisti, biologi e biotecnologi di tutto il mondo, con l’obiettivo di analizzarli per studiare terapie destinate al trattamento di patologie genetiche, definire nuovi marcatori genetici e sviluppare farmaci personalizzati.

Il National Institutes of Health (NIH), agenzia del Dipartimento della Salute e dei Servizi Umani USA, è tra le organizzazioni deputate a gestire i database contenenti i big data genomici condivisi a livello globale, inclusi quelli relativi ai batteri.

Proprio il National Center for Biotechnology Information del NIH, in collaborazione con i ricercatori del McGovern Institute for Brain Research e il Broad Institute – entrambi in seno al Massachusetts Institute of Technology(MIT) – ha fatto proprio un algoritmo in grado di classificare i dati dei genomi batterici. Metodo, questo, che ha condotto all’identificazione di ben 188 nuove tipologie di sistemi CRISPR, come illustrato nell’articolo “Uncovering the functional diversity of rare CRISPR-Cas systems 1 with deep terascale clustering”, pubblicato su Science il 24 novembre 2023.


L’algoritmo utilizzato dal team di ricerca si fonda su una tecnica di categorizzazione “locality-sensitive”, che ha permesso di selezionare, nei database presi in esame, dati simili (non identici) sui genomi batterici, per poi raggrupparli in specifiche categorie.
Durante il lavoro di analisi dei big data genomici, è stata individuata una quantità inaspettata di inediti sistemi CRISPR, tra cui una tipologia con RNA guida più lungo, che in futuro potrebbe portare a una tecnologia di editing genomico ancora più precisa nelle operazioni di taglia-incolla del DNA.
La metodologia seguita dal gruppo di studio è un invito ad ampliare, negli anni a venire, i criteri di campionamento dei batteri, includendo – come hanno fatto gli autori – la raccolta di acqua proveniente dalle miniere o dai laghi. Questo contribuirebbe ad arricchire di big data genomici rari gli attuali database e a dare nuova linfa vitale alla ricerca.

Origine e funzione dei sistemi CRISPR

Prima di addentrarci nel tema che vede correlati big data e genomica a supporto della ricerca, ricordiamo che l’acronimo universale CRISPRClustered Regularly Interspaced Short Palindromic Repeats (letteralmente “brevi ripetizioni palindromiche raggruppate e intervallate regolarmente”) – rimanda a una classe di segmenti di DNA presenti nei batteri. Segmenti caratterizzati da brevi sequenze ripetute, utili a tali microrganismi per individuare e fare a pezzi il genoma che ha origine da virus simili a quelli che hanno prodotto le ripetizioni palindromiche. Insomma, CRISPR rappresenta, per i batteri, una naturale forma di protezione da attacchi esterni.

Gli studi di tale meccanismo di difesa hanno portato, negli anni, alla sperimentazione di tecniche di ingegneria genetica sempre più evolute, per la manipolazione del DNA negli organismi vegetali, animali e umani.

I primi studi su quello che, solo in seguito, avrebbe assunto il nome di “CRISPR”, risalgono al 1987 e vedono protagonista l’ateneo giapponese di Osaka. L’acronimo vero e proprio venne coniato nel 2001, allo scopo di fare chiarezza e indicare in modo univoco le molteplici sequenze di DNA nei batteri, fino ad allora denominate con termini differenti nella letteratura scientifica. 

Negli anni successivi, si arrivò alla scoperta, all’interno di una specifica tipologia di batterio detto “streptococcus pyogenes”, di un sistema CRISPR che si avvale della proteina Cas9, la cui funzione è quella di “forbice molecolare” a difesa dagli agenti patogeni.

Furono poi, nel 2012, le scienziate Emmanuelle Charpentier e Jennifer A. Doudna a fare di questo sistema un nuovo strumento di editing genomico, capace – rispetto ai precedenti – di identificare e tagliare in modo più semplice, più preciso e più rapido sequenze di DNA bersaglio all’interno del genoma di una cellula vegetale, animale e umana, eliminandole e sostituendole con altre.

Un “taglia e incolla genetico” mirato, valso loro il Premio Nobel per la chimica del 2020, che ha aperto la strada a ricerche in laboratorio per potenziali applicazioni in ambito medico (diagnostico e terapeutico).

Clustering di big data a supporto della genomica

In materia di big data e genomica per la ricerca sul CRISPR, il punto di partenza del gruppo di studio diretto dal National Institutes of Health USA nasce da una constatazione tanto semplice quanto incisiva, ossia che «… i database contenenti batteri sono estremamente ricchi di informazioni strategiche per le biotecnologie. Ma, negli ultimi anni, hanno raggiunto proporzioni tali da rendere difficile reperire al loro interno gli enzimi e le molecole di interesse e farlo nel modo più corretto possibile».

Da qui l’esigenza di un algoritmo basato su tecniche di clustering di big data in grado di selezionare e categorizzare informazioni tratte da enormi quantità di dati genomici, dove per “clustering” (o “cluster analysis”) si intendono quelle metodiche che hanno come fine il raggruppamento di elementi simili all’interno di un insieme di dati assai voluminoso ed eterogeneo.

Per la precisione, il team ha impiegato un algoritmo chiamato “Fast Locality-Sensitive Hashing-based clustering” (FLSHclust), sviluppato nel laboratorio di Feng Zhang, tra i pionieri della ricerca sul CRISPR e docente presso il Massachusetts Institute of Technology.

La tecnica “locality-sensitive” di cui si serve ha permesso di raggruppare dati genomici simili ma non “identici”, sondando miliardi di proteine e di sequenze di DNA nell’arco di alcune settimane anziché mesi.

Più nel dettaglio, a partire da una vasta gamma di dati genomici relativi a batteri di diverso tipo e provenienza, raccolti nelle miniere di carbone, nei birrifici, nei laghi antartici e nella saliva dei cani, l’algoritmo ha estratto tre database resi pubblici, in cui ha individuato «un numero e una diversità sorprendenti di sistemi CRISPR».

Verso il superamento del rischio dell’editing “fuori bersaglio”

Negli anni successivi alla scoperta del CRISPR Cas9, la ricerca ha continuato lungo una linea precisa, tesa al superamento delle criticità del sistema, prima fra tutte quella dell’editing “fuori bersaglio” dovuto a imprecisioni ed errori nelle operazioni di “taglia-incolla” di sequenze di DNA.

Proprio a tale riguardo, il lavoro congiunto del National Institutes of Health e del MIT in tema di big data e genomica ha consentito – tra i 188 sistemi rilevati – l’identificazione di sistemi CRISPR che, utilizzando un RNA guida (dall’inglese RiboNucleic Acid, acido ribonucleico) lungo 32 paia di basi anziché 20, «potrebbero essere usati per sviluppare una tecnologia di editing genomico più precisa e meno incline all’editing fuori bersaglio», si legge nell’articolo su Science.

Il team di studio ha, inoltre, dimostrato in laboratorio che due di questi sistemi CRISPR “a guida lunga” potrebbero, in futuro, apportare modifiche al DNA degli organismi umani, mentre un terzo sistema ha evidenziato un effetto collaterale che, a tendere, potrebbe essere sfruttato dai ricercatori per lo sviluppo di una tecnica finalizzata alla diagnosi precoce di malattie infettive. Nello specifico, l’effetto collaterale osservato consiste in «un’ampia degradazione degli acidi nucleici dopo che la proteina CRISPR si è legata al suo bersaglio».

Il gruppo di studio ha anche scoperto nuovi meccanismi di azione per alcuni sistemi CRISPR già noti e un sistema che, in particolare, si focalizza sull’RNA e che, negli anni a venire, potrebbe essere utilizzato proprio nell’editing dell’acido ribonucleico, vale a dire nella manipolazione dei processi di regolazione ed espressione dei geni, nonché nella sintesi proteica. Un altro grande passo avanti dell’ingegneria genetica verso possibili applicazioni nell’ambito della diagnosi precoce.

Big data e genomica: quale direzione per il futuro della ricerca?

Lo studio a cura del National Center for Biotechnology Information del NIH e del Massachusetts Institute of Technology in tema di big data e genomica ha, innanzitutto, il merito di avere dimostrato la varietà e la ricchezza dei sistemi CRISPR che è possibile rinvenire analizzando i dati genomici dei batteri e come gran parte di questi sistemi siano presenti in batteri non comuni (come quelli, appunto, che vivono nelle miniere di carbone, nei birrifici, nei laghi antartici e nella saliva dei cani), suggerendo che la ricerca sull’editing genomico, da questo momento in poi, dovrebbe cercare altrove, dovrebbe «ampliare la diversità di campionamento, per continuare a espandere la diversità di ciò che possiamo scoprire», sottolineano gli autori. E proseguono:

«Alcuni dei sistemi microbici analizzati provengono dall’acqua raccolta nelle miniere di carbone di tutto il mondo. Se non avessimo cercato in quella direzione, forse non avremmo mai scoperto i nuovi sistemi CRISPR»

Un algoritmo come il Fast Locality-Sensitive Hashing-based clustering – commentano – può fare molto in presenza di big data genomici dalle origini più disparate. In futuro, potrebbe anche supportare i ricercatori nello studio di altre tipi di sistemi biochimici o chiunque sia intenzionato a lavorare con grandi database, «per studiare, ad esempio, come evolvono le proteine o scoprire nuovi geni».

Scritto da:

Paola Cozzi

Giornalista Leggi articoli Guarda il profilo Linkedin