Alle tesi secondo cui le reti neurali artificiali non sarebbero in grado di compiere generalizzazioni a partire da una serie di dati (tipologia e punto di vista degli oggetti rappresentati all’interno della scena) non acquisiti durante la fase di addestramento, risponde un recente studio del Massachusetts Institute of Technology che ribalta la questione.

TAKEAWAY

  • Un gatto è un gatto anche se ripreso di spalle e non frontalmente. Ma la macchina non lo sa. E se il suo “cervello” (la rete neurale artificiale) viene allenato per mezzo di dati video che riprendono l’animale sono di fronte, quando gli viene mostrata l’immagine di un gatto ripreso da dietro, potrebbe classificarla in modo errato o addirittura non riconoscerla affatto.
  • Quello che, invece, hanno scoperto i ricercatori del MIT è che più il set di dati di addestramento è ricco ed eterogeneo, più mostra immagini di oggetti ripresi da diverse angolature, più la rete sarà poi in grado di generalizzare, giungendo, da sola, al riconoscimento di nuove immagini e di nuovi punti di vista.
  • Questo filone di studi – che ha portato alla scoperta della “specializzazione neuronale” sviluppata dalla rete in fase di apprendimento e al suo ruolo nodale nell’imparare a svolgere due compiti separatamente – apre scenari interessanti nell’ambito della computer vision, con applicazioni di riconoscimento e di classificazione degli oggetti sempre più complesse.

Tra i filoni di ricerca che fanno capo all’ambito di studi dell’intelligenza artificiale, quello che vede al centro le reti neurali convoluzionali (in inglese Convolutional Neural Network – CNN) per applicazioni di image recognition è, attualmente, tra i più ricchi di nuovi spunti, con un focus particolare sul riconoscimento degli oggetti all’interno della scena e sull’esatta comprensione del punto di vista col quale ognuno di essi viene rappresentato.

Ciò che sta emergendo da una serie di studi recenti è che, in sostanza, le reti neurali convoluzionali non sarebbero in grado di compiere generalizzazioni a partire da una serie di combinazioni “oggetto-punto di vista” (ad esempio, l’immagine di un cane posta frontalmente e l’immagine dello stesso cane posta di lato) non acquisite durante la fase di addestramento.

In contro-risposta a tale tesi, un team del Massachusetts Institute of Technology (MIT), in collaborazione con i ricercatori dell’Università di Harvard e dell’Ateneo giapponese di Fujitsu, ha deciso di indagare in che modo tale generalizzazione è, invece, possibile, riportandone gli esiti in un documento reso pubblico il 21 febbraio 2022 su Nature Machine Intelligence. Vediamo insieme a quali risultati sono giunti.

Reti neurali e image recognition: il ruolo delle combinazioni dei dati di addestramento

Nel loro studio in tema di reti neurali e image recognition, il gruppo di lavoro del MIT è partito da un punto preciso, ovvero il ruolo dei dati di addestramento nell’allenare una rete neurale artificiale a riconoscere oggetti a lei sconosciuti, perché non li ha mai visti prima.

La letteratura a riguardo (di discreta mole) ci dice che la metodologia con cui una rete neurale artificiale viene addestrata e le tipologie di neuroni che vengono attivati durante il processo di addestramento, possono svolgere un ruolo decisivo nel determinare se questa sia poi in grado di superare un set di dati “distorto” perché, ad esempio, non completo, non contenente quegli elementi per mezzo dei quali la rete potrebbe essere messa nelle condizioni di riconoscere e di classificare immagini del tutto nuove o perché contaminato da pregiudizi relativi alla visione.

Dunque, il primo step è stato quello di mettere a punto set di dati di addestramento “controllati”, ossia di cui si conosce esattamente il contenuto (ad esempio, solo immagini di determinati tipi di automobili, riprese da precise angolazioni) e che cosa, invece, non prevedono (ad esempio, immagini di moto). Nello specifico, il team ha creato più data set di immagini di oggetti diversi (contenenti, comunque, tutti lo stesso numero di immagini), caratterizzati da combinazioni differenti: alcuni presentavano più immagini che mostravano oggetti da un solo punto di vista (ad esempio, solo frontalmente) e altri più immagini che mostravano oggetti da più punti di vista (ad esempio, frontalmente e di lato).

L’identificazione di oggetti ripresi da angolazioni non acquisite durante l’allenamento

Dopo la costruzione dei data set descritti, è iniziata la fase di addestramento della rete neurale convoluzionale alla classificazione delle immagini. In tema di reti neurali e image recognition, al termine dell’allenamento, ciò che maggiormente premeva i ricercatori era capire quanto la rete in questione fosse capace di identificare gli oggetti da punti di vista diversi rispetto a quanto contenuto dei set di dati, fenomeno noto come “combinazione fuori distribuzione”.

In pratica, se la rete è stata allenata per classificare i tipi di auto contenuti nelle immagini, quello che è necessario essa apprenda è l’aspetto (forma e caratteristiche esterne) posseduto dalle diverse auto. Ma se, ad esempio, il modello di Ford Thunderbird nel set di dati di addestramento viene mostrata frontalmente, quando, successivamente, alla rete neurale convoluzionale viene mostrata l’immagine di una Ford Thunderbird ripresa di lato, la rete potrebbe classificarla in modo errato o addirittura non riconoscerla affatto, anche se è stata allenata per mezzo di milioni di foto di auto.

Esempio di data set contenente due diverse tipologie di auto (Ford Thunderbird e Mitsubishi Lancer) riprese da due angolazioni diverse (di fronte e di lato). (Credit: Massachusetts Institute of Technology - MIT).
Esempio di data set contenente due diverse tipologie di auto (Ford Thunderbird e Mitsubishi Lancer) riprese da due angolazioni diverse (di fronte e di lato). Se, però, in fase di addestramento, la Ford Thunderbird viene mostrata solo frontalmente, quando alla macchina viene data l’immagine di una Ford Thunderbird ripresa di lato, questa potrebbe classificarla erroneamente, anche se è stata addestrata su milioni di foto di auto (Credit: Massachusetts Institute of Technology – MIT).

Reti neurali e image recognition: la centralità di un’attenta progettazione dei set di dati

In tema di reti neurali per image recognition, a quali conclusioni sono approdati i ricercatori dopo l’utilizzo delle due tipologie di data set (più oggetti ripresi da un solo punto e più oggetti ripresi da più punti di vista)? Quello che hanno scoperto è che «più il set di dati è diversificato, più mostra immagini di oggetti ripresi da diversi punti di vista, più la rete è in grado di generalizzare, giungendo al riconoscimento di nuove immagini e di nuovi punti di vista».

È la diversità, la ricchezza dei dati, la chiave per superare le distorsioni che potrebbero verificarsi durante il post-addestramento. E tale tesi porta a un’altra riflessione, che a che vedere con il tema del pregiudizio nascosto nei dati impiegati nello sviluppo degli algoritmi AI. Osserva il gruppo di lavoro del MIT:

«Una rete neurale è in grado di superare distorsioni e pregiudizi se allenata con dati diversificati. E questo è un fatto incoraggiante. Ma allo stesso tempo, dobbiamo abbandonare l’abito mentale che ci porta a pensare che se raccogliamo una tonnellata di dati grezzi, questi ci porteranno da qualche parte. La diversificazione, l’eterogeneità, la ricchezza, non stanno nella quantità. In primo luogo, dobbiamo essere molto attenti a come progettiamo i set di dati».

Gli scenari futuri della specializzazione neuronale

In tema di reti neurali per image recognition, andando più in profondità, il team di studio è arrivato alla conclusione che una rete neurale addestrata separatamente per ciascuna attività (riconoscimento dei singoli oggetti e loro identificazione in pose differenti) è stata in grado di superare le distorsioni dovute alle combinazioni fuori distribuzione molto meglio rispetto di una rete addestrata per entrambe le attività insieme. Per quale motivo? C’entra la “specializzazione neuronale” che viene sviluppata dalla rete in fase di apprendimento e il suo ruolo nel processo di riconoscimento e di classificazione degli oggetti all’interno della scena: «quando la rete neurale viene addestrata a riconoscere gli oggetti nelle immagini, sembra che emergano due tipi di neuroni, uno specializzato nel riconoscimento della categoria dell’oggetto e l’altro nel riconoscimento del punto di vista».

Quando la rete viene addestrata per eseguire i due compiti separatamente, i due tipi di neuroni “specializzati” assumono un compito decisivo. Al contrario, «se la rete viene allenata a svolgere entrambi i compiti contemporaneamente, alcuni neuroni subiscono una sorta di “diluizione” che li porta a non specializzarsi per un dato compito. E sono proprio questi neuroni non specializzati ad avere maggiori probabilità di compiere, successivamente, classificazioni errate».

Ed è proprio questo specifico ambito che i ricercatori intendono continuare a indagare in futuro, con l’obiettivo di riuscire a capire se è possibile “indurre” una rete neurale artificiale a sviluppare neuroni con questo tipo di specializzazione per applicazioni sempre più complesse che, ad esempio, prevedano il riconoscimento e la classificazione di oggetti costituti da determinati materiali e tessuti o di oggetti illuminati in differenti modi all’interno della scena. Pensiamo ai vantaggi che, in futuro, un sistema di computer vision in possesso di tali capacità di riconoscimento e di classificazione degli oggetti potrebbe avere in ambito industriale o in altri settori in cui la precisione dei sistemi di visione (ad esempio il medicale) rappresenta un fattore determinante.

Scritto da:

Paola Cozzi

Giornalista Leggi articoli Guarda il profilo Linkedin