AI e Computer vision per la Visual Saliency Prediction: la ricerca italiana è premiata

La predizione delle immagini salienti è un problema ancora aperto dell’AI e della Computer Vision. Si tratta di un processo di apprendimento basato su reti neurali che richiedono grandi quantità di dati per fornire risultati precisi. Sulla Visual Saliency Prediction - capacità di predire le aree di fissazione dell’occhio umano sulle immagini - si concentra il lavoro di ricerca di Marcella Cornia, ingegnere e fresca vincitrice del Premio Giovani Ricercatori 2020

Fissare lo sguardo è un’attività quotidiana del tutto naturale, quasi scontata, ma risulta particolarmente interessante per gli sviluppi che può avere in molteplici ambiti e per questo è un tema di ricerca avanzato su cui si concentrano Intelligenza Artificiale e Computer Vision.

Sulla comprensione delle regioni salienti o, meglio, sulla Visual Saliency Prediction – capacità di predire le aree di fissazione dell’occhio umano sulle immagini – si concentra il lavoro di ricerca di Marcella Cornia, ingegnere e fresca vincitrice del Premio Giovani Ricercatori 2020 nella categoria: intelligenza artificiale e big data. Si tratta di un importante riconoscimento per la ricerca scientifica, istituito dal Gruppo 2003, forum che riunisce scienziati italiani che lavorano in Italia e che figurano negli elenchi dei ricercatori più citati al mondo nella letteratura scientifica.

Marcella Cornia è stata premiata per il suo lavoro sulla “Predizione dei punti di fissazione dell’occhio umano attraverso un modello attentivo basato su LSTM – Long short-term memory”. Svolge la sua attività all’AImageLab, che fa capo al Centro interdipartimentale di ricerca sulle Digital Humanities (DHMoRe) dell’Università di Modena e Reggio Emilia. 

Questo laboratorio di ricerca del DIEF – Dipartimento di Ingegneria “Enzo Ferrari” è uno dei centri più avanzati in Italia su Artificial Intelligence e computer vision. Negli ultimi due anni si sta occupando di Embodied AI finalizzata, in particolare alla navigazione robotica intelligente. Una delle principali attività riguarda la Vision-and-Language Navigation, processo che rappresenta un significativo passo in avanti delle capacità fondamentali della robotica e che si occupa di fornire al robot un’istruzione in linguaggio naturale mediante cui esso può muoversi in un ambiente. 

Marcella Cornia, ingegnere, fresca vincitrice del Premio Giovani Ricercatori 2020 nella categoria Intelligenza Artificiale e Big Data
Marcella Cornia, ingegnere, vincitrice del Premio Giovani Ricercatori 2020 nella categoria Intelligenza Artificiale
e Big Data

Ingegner Cornia, cos’è la salienza nelle immagini e che legame ha con l’Intelligenza Artificiale?

Le immagini salienti sono quelle aree visuali che attirano il nostro sguardo a prima vista. In un essere umano che guarda un’immagine o un video anche solo per pochi secondi scattano meccanismi attentivi nel cervello che fanno sì che lo sguardo venga attratto da particolari aree. Può essere un volto, un oggetto, una scritta o colori particolarmente accesi. Quale ambito di studio è nato nelle neuroscienze negli anni Novanta all’interno dell’MIT di Boston. Negli ultimi 20 anni almeno ci sono studi di Intelligenza artificiale che cercano di emulare questi meccanismi per riconoscere le regioni salienti nelle immagini.

Come mai la predizione delle immagini salienti è un problema ancora aperto dell’AI e della Computer Vision?

Si tratta di un processo di apprendimento basato su reti neurali che richiedono grandi quantità di dati per fornire risultati precisi. Qui sta il problema: per ottenere una notevole mole di dati occorre raccoglierli e in letteratura non ne esistono molti, anche se negli ultimi anni sono stati fatti grandi passi avanti. Tuttavia se l’obiettivo è arrivare a emulare le prestazioni umane serve una precisione decisamente maggiore rispetto al livello attuale. 

Su cosa si focalizza il suo lavoro di ricerca?

Esso si struttura su un’architettura basata su tecniche di Deep Learning che si occupa di emulare i meccanismi attentivi e di trovare in modo automatico le regioni salienti di un’immagine. L’impiego del Deep Learning permette di contare su reti neurali di classificazione basate su milioni di immagini in grado di fornire una base rilevante. 

Quali implicazioni può avere riuscire a emulare i meccanismi attentivi e trovare in modo automatico le regioni salienti di un’immagine?

In ambito AI la Visual Saliency Prediction è stata applicata in molti contesti, soprattutto per migliorare le prestazioni di algoritmi impiegati per risolvere diverse questioni. Ho personalmente applicato le informazioni relative alle aree salienti in un task di computer vision denominato image captioning, ovvero la descrizione in linguaggio naturale di una determinata immagine. Ma, in generale, è stata impiegata per migliorare algoritmi di eye tracking, sistema che permette di tracciare la posizione della pupilla e di risalire al punto osservato dall’utente. Altre finalità interessanti possono essere quelli legati al marketing e alla pubblicità.Un altro fine applicativo riguarda la guida autonoma. In AImage Lab un team di ricerca si è occupato di raccogliere dati ottenuti tramite speciali occhiali per comprendere dove si posa lo sguardo umano mentre si è alla guida di un’auto. Sono informazioni preziose per perfezionare il sistema di self-driving car. Se poi vogliamo andare ancora più avanti, anche in campo medico-sanitario potrebbero esserci contesti applicativi. Per esempio nelle analisi radiografiche ed ecografiche possono essere applicati meccanismi attentivi neurali per comprendere quali aree dell’immagine possono portare a una diagnosi medica più precisa e volta al rilevamento di eventuali patologie.

Lei sta coordinando un gruppo di ricerca per applicare la Visual Saliency Prediction nella moda e in ambito museale. Quali i risvolti e i benefici attesi?

In generale ci occupiamo di applicare tecniche di AI per la predizione delle immagini salienti nel fashion e stiamo collaborando con un’azienda impegnata nell’adozione della user experience per l’ecommerce. Inoltre abbiamo progetti aperti nel cultural heritage. In quest’ultimo ambito stiamo lavorando sulla navigazione robotica all’interno di ambienti museali per comprendere come i robot possono muoversi in maniera intelligente, potendo in futuro anche arrivare a svolgere assistenza ai frequentatori.

Nel futuro quali sono gli sviluppi più interessanti su cui si dirigerà la ricerca in questo campo?

Di sicuro guida autonoma e navigazione robotica in ambienti reali e liberi, in ambito industriale, sono finalità di grande interesse. Rendere più intelligente la navigazione di auto o robot permette di evitargli collisioni, una finalità preziosa in contesti dove è particolarmente necessario muoversi in sicurezza, dalle strade al mondo industriale.

Default image
Andrea Ballocchi
Giornalista specializzato in tecnologia, focalizzato su temi che riguardano l'Internet of Things e le tecnologie emergenti che hanno un impatto significativo sulla vita quotidiana e su quella futura. Oltre alla tecnologia si occupa anche di temi legati alla sostenibilità ambientale e non solo (edilizia, architettura, design...)

Newsletter Updates

Enter your email address below to subscribe to our newsletter