Una nuova tecnica di machine learning, in grado di apprendere a correlare i dati provenienti dalla percezione visiva a dalla percezione audio, affina - nelle macchine - il processo di comprensione e di interpretazione del mondo reale.

TAKEAWAY

  • È del Computer Science and Artificial Intelligence Laboratory del MIT la nuova tecnica AI che insegna alle macchine a stabilire una corrispondenza, ad esempio, tra l’azione di un’ambulanza che corre sulla strada, acquisita da una clip video, e il suono della sua sirena contenuto in un file audio.
  • In futuro, l’applicazione di tale tecnica nell’ambito della robotica si tradurrebbe in macchine capaci di comprendere l’ambiente in cui operano e di interpretarne gli input attraverso la percezione visiva e uditiva, contemporaneamente, come accade nell’essere umano.
  • Tra gli obiettivi del team di studio, quello di rendere più complesso il modello di apprendimento sviluppato, andando oltre la percezione visiva e uditiva, per prendere in considerazione ulteriori modalità.

Seppure si prevede assai lungo, il percorso che conduce all’Intelligenza Artificiale Generale (AGI) – ovvero alla realizzazione di macchine sempre più in grado di “pensare” e di “agire” come l’essere umano, simulandone i meccanismi cognitivi e la percezione del reale – è fatto di passaggi chiave, in cui, in particolare, è cruciale, in questo momento, l’attività dei ricercatori in tema di intelligenza artificiale e apprendimento del reale, nonché di interpretazione dei dati provenienti dall’esterno.

Si tratta di filoni di studio in auge, focalizzati sulla percezione e sulla comprensione, da parte del sistema AI, di quanto accade nell’ambiente, riuscendo a classificarne le immagini (per mezzo di tecniche di visione artificiale) e a codificarne il linguaggio scritto e parlato (attraverso il Natural Language Processing – NLP).

La macchina interpreta l’ambiente avvalendosi dei dati (gli input). Quegli stessi dati che gli algoritmi di intelligenza artificiale sono in grado di elaborare. Che cosa fa quando percepisce visivamente un’immagine? Per classificarla, ad esempio, come l’immagine di un gatto, deve poter codificare i dati che strutturano l’immagine di quell’animale.

Tuttavia, tale processo diviene complesso quando i dati percepiti sono disponibili in più formati, ossia semplici fotografie (l’immagine di un gatto), video (un filmato sui gatti), file audio (il miagolio) oppure file di testo (un libro che tratta di gatti).

«È una questione sfidante, incentrata sulla possibilità, da parte della macchina, di riuscire a integrare, a coniugare, queste diverse modalità di percezione della realtà. Se, per l’essere umano, vedere un cane e, poco dopo, sentire abbaiare, sono la stessa cosa ai fini del riconoscimento e della classificazione dell’animale, in quanto entrambe le percezioni conducono alla medesima interpretazione dei dati, per un algoritmo di apprendimento non è così»

spiega un gruppo di ricercatori del Computer Science and Artificial Intelligence Laboratory (CSAIL) del Massachusetts Institute of Technology (MIT) in un recente studio dal titolo “Cross-Modal Discrete Representation Learning”, che verrà presentato ufficialmente al meeting annuale dell’Association for Computational Linguistics, di scena a Dublino dal 22 al 27 maggio 2022.

Intelligenza artificiale e interpretazione dei dati: focus sulle modalità video e audio

Nello studio citato, viene descritta una tecnica di machine learning in grado di apprendere a interpretare i dati provenienti dalla percezione visiva a dalla percezione audio.

In tema di intelligenza artificiale e interpretazione dei dati, tale tecnica insegna alla macchina che tra la scena di un’ambulanza che corre sulla strada, percepita guardando un video, e il suono della sirena di un’ambulanza contenuto in un file audio, c’è una corrispondenza.

Non sono la stessa cosa, in quanto si tratta di due fonti di dati diverse. Ma queste fonti conducono alla stessa interpretazione. Così come l’azione di un neonato che piange è legata al verbo “piangere” pronunciato in un audio.

Stimo parlando di una metodologia che, in futuro, potrebbe trovare impiego nell’ambito della roboticaaiutando le macchine a conoscere e a interpretare la realtà esterna attraverso la percezione visiva e uditiva – contemporaneamente – proprio come facciamo noi.

Tra le abilità alla quali rimanda tale metodologia, ad esempio, vi è l’identificazione del punto esatto in cui, all’interno di un filmato, si sta svolgendo una determinata azione, arrivando automaticamente a etichettarla. Oppure le attività di “recupero multimodale”, in cui la ricerca di uno specifico dato – ad esempio, il video di un’auto che sfreccia nel traffico – va a corrispondere alla richiesta verbale da parte di un utente, coniugando perfettamente modalità visiva e modalità audio senza l’intervento umano.

Come avviene la codifica dei dati

Il modello di apprendimento sviluppato dal team del Massachusetts Institute of Technology in tema di intelligenza artificiale e interpretazione dei dati lavora a partire dai dati grezzi (foto o video e le relative didascalie audio o di testo), dai quali estrae caratteristiche e attributi in merito agli oggetti e alle azioni percepite, che va a “mappare” in una griglia.

Caratteristiche e attributi simili vengono raggruppati nella griglia come “singoli punti” (detti anche “vettori”) rappresentati da una singola parola: ad esempio, il video di una persona che dipinge una parete di bianco potrebbe essere mappato nella griglia come vettore etichettato con la parola “imbiancante”.

La novità di questo modello di apprendimento è data dall’utilizzo di uno spazio condiviso (e non di griglie separate), in cui la modalità visiva e la modalità audio vengono codificate insieme. In sintesi, la codifica dei dati è una sola, in quanto verte sulla relazione tra le rappresentazioni derivate da due modalità: il video che mostra una persona che imbianca la parete e una registrazione audio di qualcuno che dice “imbiancante”.

La funzione dell’algoritmo di machine learning messo a punto è quella di «guidare la macchina a codificare concetti simili nello stesso vettore». «Prendiamo in considerazione un video sui cavalli. Grazie a questo modello – spiega il team di studio – la macchina potrebbe assegnare la parola “cavallo” a uno dei vettori della griglia. Quindi, se percepisce qualcuno che pronuncia la parola “cavallo” in un file audio, dovrebbe comunque utilizzare lo stesso vettore per codificarlo».

Immagine raffigurante la rappresentazione dei dati che, grazie a una tecnica di machine learning, raggruppa i concetti condivisi tra modalità visiva (tre diversi frame video che riprendono un uomo mentre lancia le palle in alto e ride) e modalità audio (la registrazione di una voce che dice "uomo che fa il giocoliere mentre ride divertito) Credit: Computer Science and Artificial Intelligence Laboratory del Massachusetts Institute of Technology.
Esempio di codifica dei dati che, grazie a una tecnica di machine learning, raggruppa i concetti condivisi tra modalità visiva (tre diversi frame video che riprendono un uomo mentre lancia le palle in alto e ride) e modalità audio (la registrazione di una voce che dice “uomo che fa il giocoliere mentre ride divertito”). Credit: Computer Science and Artificial Intelligence Laboratory del Massachusetts Institute of Technology.

Intelligenza artificiale e interpretazione dei dati: la fase di test e i prossimi step della ricerca

La ricerca condotta dal MIT in tema di intelligenza artificiale e interpretazione dei dati ha previsto una fase di test su attività di recupero multimodale (alla quale si è accennato in precedenza) del modello di apprendimento sviluppato, eseguita avvalendosi di tre diversi set di dati:

  • clip video con didascalie di testo
  • clip video con didascalie audio
  • fotografie con didascalie audio

Le performance migliori sono state quelle che hanno visto il modello codificare i dati video-audio, in cui la macchina ha scelto mille parole per rappresentare le azioni percepite in una serie di clip video. E nel momento in cui il team gli ha sottoposto richieste verbali, è stata in grado di recuperare la clip che più di altre corrispondeva alle parole pronunciate dai ricercatori:

«Accade proprio come in un motore di ricerca, in cui digitiamo una o più parole – o un’intera frase – e la macchina cerca di darci delle risposte, andando a recuperare i contenuti più rilevanti in linea con le nostre richieste. Nel caso del nostro modello di apprendimento, questa dinamica avviene nello spazio vettoriale»

Il modello può impiegare, in totale, soltanto mille parole per etichettare i vettori. Il che facilita all’utente l’eventuale compito di verifica del lavoro eseguito dalla macchina, aiutandolo a comprendere come questa prende decisioni.

Ma il lavoro non si ferma qui. Tra gli obiettivi futuri del gruppo di ricerca, quello di andare oltre le due modalità considerate (video e audio), per prendere in considerazione più modalità di percezione contemporaneamente, proprio come accade nella rappresentazione della realtà da parte degli esseri umani.

Inoltre – osservano gli autori dello studio – le immagini e i video presi in esame, nei loro set di dati includono oggetti e azioni semplici, quando, invece, nella realtà le rappresentazioni sono spesso disordinate e complesse. Dunque, in futuro si lavorerà anche su questo aspetto, rendendo il modello più completo e sempre più somigliante, nelle sue funzioni, al cervello biologico.

Scritto da:

Paola Cozzi

Giornalista Leggi articoli Guarda il profilo Linkedin