Linguistica chimica, con le tecniche di NLP si può capire e “tradurre”

La chimica può essere vista come un linguaggio e, come tale, può essere “tradotto” da chi ha conoscenze e competenze specifiche di dominio. Se però a “comprendere” tale linguaggio è un sistema basato su tecniche di intelligenza artificiale (nello specifico NLP – Natural Language Processing), ecco che la chimica può “mettere il turbo”, soprattutto nel campo della farmacologia e della medicina

Takeaway

Esattamente come per il linguaggio naturale usato da noi esseri umani, i set di dati di chimica organica dipendono dalla grammatica e dalle strutture della sintassi
Qualche errore nei set di dati genera grammatica insolita e dialetti che potrebbero anche risultare incomprensibili
È qui che arriva in aiuto l’intelligenza artificiale, in particolare le tecniche di NLP – Natural Language Processing
A Zurigo, si sperimenta l’applicazione delle tecniche di NLP per automatizzare l’identificazione di “valori anomali del linguaggio” o “rumore” nei set di dati chimici, ossia per identificare le divergenze e le sfumature di espressioni linguistiche da una lingua standardizzata come la chimica
Il risultato è un sistema per la pulizia automatica dei dataset da impiegare nei modelli di previsione delle reazioni chimiche

Per comprendere meglio il concetto di “linguistica chimica” dobbiamo fare un salto indietro e tornare al 2018, anno in cui nei laboratori di ricerca di IBM, a Zurigo, un team di ricercatori creò una piattaforma online chiamata RXN for Chemistry utilizzando soluzioni basate su tecniche di Intelligenza Artificiale, nello specifico architetture di Natural Language Processing – NLP, nell’ambito della chimica sintetica [ne scrissi a seguito di una intervista fatta a Teodoro Laino, Distinguished RSM, Manager, IBM Research Europe, che potete rileggere sul sito AI4Business – nda].

Da quel primo ambito di ricerca ne conseguì un primo paper scientifico che descriveva l’utilizzo del cosiddetto Molecular Transformer, un modello di apprendimento automatico ispirato alla traduzione linguistica applicabile alla chimica sintetica (in particolare alla sintesi molecolare organica), perché in grado di prevedere con precisione i risultati delle reazioni organiche e stimare l’affidabilità delle proprie previsioni.

La sintesi organica, più in dettaglio la creazione di molecole complesse da blocchi di costruzione più semplici (atomi dello stesso elemento o di elementi diversi), rimane uno degli ostacoli chiave nella scoperta dei farmaci

Progettare una sintesi richiede di prevedere come reagiranno i vari elementi combinati tra loro e capire, in anticipo, che effetti avranno questi legami (gruppi funzionali, ossia il gruppo di atomi che rappresentano la parte “reattiva” di una molecola).

Linguistica chimica, un linguaggio traducibile

«Ciò che abbiamo fatto a Zurigo è pensare alla chimica organica, nello specifico al processo di sintesi molecolare, come ad una specie di linguaggio naturale, con la sua grammatica, traducibile in altre lingue», mi raccontò qualche anno fa Teodoro Laino.

Ed è partendo da questa intuizione che il team sviluppò, già nel 2018, un sistema di traduzione automatica applicato alle reazioni di chimica organica, sfruttando la tecnologia NMT – Neural Machine Translation, una tecnica particolare parte del più ampio ambito del Natural Language Processing.

Esattamente come fanno i sistemi applicativi di traduzione automatica delle lingue – che ormai conosciamo bene – a Zurigo i ricercatori hanno sviluppato un “traduttore” della linguistica chimica che ha come input i reagenti, ossia le molecole che devono reagire tra di loro, e come output (la traduzione) il prodotto (il composto) della reazione tra quelle molecole, cioè ciò che con probabilità elevate dovrebbe essere il risultato della sintesi molecolare (questa piattaforma è ora disponibile per la comunità chimica globale: https://rxn.res.ibm.com/).

Pulizia automatica dei dataset di reazioni chimiche

La ricerca non si è però fermata; oggi torniamo sull’argomento a seguito di un nuovo paper scientifico, “Unassisted Noise Reduction of Chemical Reaction Data Sets”, pubblicato di recente sulla rivista scientifica Nature Machine Intelligence, per capire in che modo i ricercatori hanno “sfruttato” le potenzialità del Natural Language Processing, ancora una volta, nell’ambito della “linguistica chimica”.

Lo facciamo con l’aiuto di Alessandra Toniato, Pre-doctoral Researcher all’IBM Research Europe di Zurigo, co-autrice dell’articolo scientifico e parte del team di questa ricerca.

«Il concetto di linguistica chimica nasce dal presupposto che, esattamente come nel nostro linguaggio naturale, anche i set di dati della chimica organica dipendono da fattori simili ad una grammatica linguistica e dalle strutture della sintassi», spiega Toniato.

Da qui, l’intuizione che certi fattori “fuori dallo standard” possono dare origine ad output insoliti, ossia linguaggi sgrammaticati o dialetti vari. Applicata alla linguistica chimica, questo significa che avere set di dati contenenti errori produce una linguistica chimica non standard che potrebbe quindi dare origine, a cascata, a problematiche in tutti i campi di applicazione di quella linguistica.

Per addestrare il modello di previsione della reazione chimica utilizzato per esempio nella prima fase della ricerca fatta a Zurigo (grazie al quale le reazioni chimiche sono rappresentate come un linguaggio), ci si è serviti di numerosi set di dati chimici. «Anche se i livelli di accuratezza del modello sono ormai superiori al 90% – spiega Toniato – ci siamo chiesti come superare un’altra importante sfida, quella legata alla presenza di valori anomali del linguaggio che divergono dalle regole linguistiche standard che definiscono la linguistica chimica».

Nei set di dati chimici, la presenza di affermazioni chimicamente false – che non appartengono alla distribuzione dei dati reali appartenenti ad un caso chimico specifico – può avere effetti negativi proprio nella fase di addestramento di un modello di intelligenza artificiale.

«Per insegnare la linguistica chimica al modello – puntualizza ancora Toniato – si utilizzano grandi set di dati chimici che il modello di intelligenza artificiale osserva e apprende ripetutamente per essere poi in grado di descrivere le trasformazioni chimiche. Questo processo crea una architettura del linguaggio in modo molto simile a come noi esseri umani impariamo la nostra lingua e poi ad utilizzarla. Se impariamo errori ed anomalie linguistiche (come i modi di dire o le inflessioni dialettali) e non le “correggiamo” rispetto allo standard, finiamo per mescolare (spesso anche inconsapevolmente) ciò che è linguisticamente corretto con ciò che non lo è. Ciò avviene anche nel linguaggio della chimica con la conseguenza che una linguistica chimica “rumorosa” o difettosa potrebbe generare valori anomali nell’ambito delle reazioni chimiche».

Oblio, da punto di debolezza a punto di forza

La cosa curiosa del lavoro svolto dai ricercatori di Zurigo nel mettere a punto un sistema per la pulizia automatica dei dataset, da impiegare nei modelli di previsione delle reazioni chimiche, riguarda l’utilizzo del Natural Language Processing per capire quali dati il modello è in grado di apprendere e ricordare, quali invece tende a dimenticare o non imparare.

Linguistica chimica: così come nel linguaggio naturale, anche nella chimica possono esserci degli errori che si ripercuoto sul risultato (per esempio l’analisi e le previsioni delle reazioni chimiche) (fonte: IBM Research Blog: https://www.ibm.com/blogs/research/2021/03/rxn-cleaning-chemical-datasets/)

I ricercatori hanno dimostrato che l’oblio è la chiave per identificare (e scartare) il rumore e la difettosità dei dati contenuti nei dataset, senza sapere prima quali sono questi rumori. «Per poter escludere il linguaggio rumoroso, fuori dallo standard, dal modello previsionale, è necessario “etichettarlo” come tale (ossia come rumoroso/difettoso/errato)», spiega Toniato, «ma è impensabile farlo a mano ed anche i più tradizionali sistemi euristici presentano delle limitazioni (l’euristica non è facilmente scalabile e può trascurare informazioni importanti). La nostra ricerca mostra come “sfruttare” quello che è già noto come punto di debolezza dei modelli di intelligenza artificiale (chiamato comunemente come “oblio catastrofico”), in un vero e proprio punto di forza per individuare e rimuovere il rumore nei dataset di reazioni chimiche».

Nei vari passaggi di apprendimento, un modello di intelligenza artificiale può subire quelli che in gergo sono noti come “blackout” (momenti in cui il sistema non ricorda ciò che aveva imparato in precedenza). «Siamo riusciti a capire e dimostrare che ciò che un sistema non riesce ad apprendere oppure dimentica è potenzialmente una informazione rumorosa (che il sistema fatica a riconoscere ed apprendere perché “lontana” dalla linguistica chimica standard)».

Partendo da questa intuizione e osservazione, i ricercatori hanno capito che per etichettare una reazione come rumorosa non è necessario conoscerla in anticipo, lo si può fare estrapolando in modo automatico le informazioni di apprendimento del modello.

Considerando che l’efficacia di un modello di intelligenza artificiale dipende dalla qualità dei set di dati e dalla loro pulizia, cosa che richiede moltissimo tempo ed un elevato livello di rischio di errore, il modello messo a punto dal team di ricercatori di Zurigo apre nuove strade per l’identificazione di metodi efficaci di pulizia automatizzata dei dati.

Nell’ambito della linguistica chimica, automatizzare la pulizia dei set di dati significa rimuovere la rumorosità insita nelle grandi raccolte di dati di reazioni chimiche portando dunque ad un livello di affidabilità superiore i modelli di previsione delle reazioni chimiche, importante traguardo per la sintesi molecolare e la ricerca nel campo della farmacologia e della medicina.

Scritto da:

Nicoletta Boldrini

Futures & Foresight Director | Direttrice Responsabile Tech4Future Leggi articoli

Guarda il profilo Linkedin