Il RIKEN Center for Brain Science di Tokio ha sviluppato un metodo per la progettazione di reti neurali artificiali che rispondono al problema della corretta identificazione e classificazione di oggetti in movimento, aggiungendo un altro importante tassello alla ricerca in tema di visione artificiale applicata alla guida autonoma.

TAKEWAWAY

  • Una rete neurale convoluzionale a tre strati al centro della ricerca dell’Università di Tokio, progettata per simulare una caratteristica propria della visione umana, in grado di percepire come stabili, immobili, gli oggetti all’interno di una scena visiva in movimento.
  • Questa ricerca contribuisce a una visione artificiale più efficiente con, in futuro, auto a guida autonoma non influenzabili da immagini alterate e capaci di classificare correttamente input esterni percepiti in movimento.
  • Il prossimo passo sarà l’integrazione – nei principi evidenziati in questo studio – delle tecnologie neuromorfiche, con l’obiettivo di implementare circuiti a base di silicio per verificare se questi migliorano le capacità di visione artificiale nelle applicazioni del mondo reale.

Proseguono gli studi nell’ambito della visione artificiale, in particolare dediti a esplorare le potenzialità delle tecniche di intelligenza artificiale nella percezione visiva e nel riconoscimento sempre più rapido e puntuale degli oggetti che compongono la scena

Uno studio condotto dal RIKEN Center for Brain Science dell’Università di Tokyo, dal titolo “Motor-related signals support localization invariance for stable visual perception”, prende spunto dall’osservazione dei ripetuti movimenti del corpo, della testa e degli occhi che l’essere umano compie durante la giornata e che, sebbene contribuiscano ad “agitare” l’immagine visiva – che, in questo modo, non risulta “ferma” – tuttavia non influenzano negativamente la stabilità della sua percezione, in quanto la scena viene comunque percepita come immobile.

«Ciò che rende possibile questa stabilità percettiva – osservano gli autori – sono le cosiddette “copie neurali” dei comandi di movimento, inviate in tutto il cervello ogni volta che ci muoviamo e in grado di aiutarci a riconoscere stabilmente gli oggetti nello spazio attorno a noi».

Nel tentativo di riprodurre artificialmente questa capacità tipica della visione umana, i ricercatori dell’Ateneo nipponico hanno progettato una rete neurale artificiale volta a ottimizzare la classificazione degli oggetti all’interno di una scena visiva in movimento, alterata, che obbligava il sistema di visione artificiale a spostamenti continui del suo focus visivo. Vediamo in che modo e con quali risultati.

Intelligenza artificiale e percezione visiva: l’addestramento della rete neurale

In tema di intelligenza artificiale e percezione visiva, il team ha dapprima lavorato alla mesa a punto di una rete neurale convoluzionale (CNN o ConvNet, dall’inglese Convolutional Neural Network), addestrata a classificare un insieme di immagini naturali tratte dal database CIFAR-10, comunemente utilizzato per allenare algoritmi di apprendimento automatico e di visione artificiale e composto da dieci classi di immagini con 6.000 esempi per classe, per un totale di 60.000 immagini:

«Abbiamo modificato questo database in due modi: in primo luogo abbiamo utilizzato immagini in bianco e nero anziché a colori. Questo ci ha permesso di ridurre le informazioni a disposizione della rete neurale artificiale e, di conseguenza, di ottenere la massima precisione di classificazione possibile»

spiegano gli autori. In secondo luogo, sono stati introdotti spostamenti casuali delle immagini, al fine di indurre la rete CNN a imitare i rapidi e frequenti movimenti oculari tipici della visione umana (detti “saccadici”), eseguiti per portare la zona di interesse esterna a coincidere con la zona centrale della retina (fovea).

«Gli spostamenti casuali delle immagini hanno avuto il compito di spezzare artificialmente la coerenza spaziale degli oggetti e delle caratteristiche stesse delle immagini, ad esempio ritagliandolePer una data immagine alterata (ritagliata) e un dato movimento oculare saccadico, il frame ha introdotto un ulteriore asse di variabilità che la rete neurale ha dovuto tenere in considerazione per una classificazione accurata».

La classificazione delle immagini in presenza di movimenti autogenerati

In tema di intelligenza artificiale e percezione visiva, il compito che la rete neurale è stata chiamata a svolgere verteva sulla classificazione delle caratteristiche presenti nella scena visiva (oggetti o parti salienti di oggetti) integrando i segnali di input.

L’obiettivo era verificare la sua “stabilità percettiva”, intesa – nell’ambito di questo studio – come «ottimizzazione che mira a massimizzare l’accuratezza della classificazione delle immagini in presenza di movimenti autogenerati, ottenuti spezzando la coerenza spaziale degli oggetti».

La prima verifica è stata realizzata nel contesto dei movimenti oculari di fissazione, utilizzando una rete neurale convoluzionale addestrata a segnalare, nelle immagini, le posizioni delle caratteristiche di un singolo oggetto (in questo caso, una barra luminosa).

Quello che è emerso, innanzitutto, è che la quantità dei movimenti del focus visivo del sistema di visione artificiale era proporzionata alle differenze di posizione assunte dell’oggetto (i suoi movimenti). In questo scenario, in particolare, è stato osservato che i movimenti autogenerati erano in grado di supportare il corretto processo di riconoscimento e di classificazione, «intervenendo in quello che, nel sistema di visione umano, è la mappatura dell’input visivo dalla retina ai neuroni».

Questo stesso principio è stato poi esaminato nel contesto di simulazione dei movimenti oculari saccadici (ai quali si è accennato in precedenza) – eseguiti dal sistema visivo umano per portare la zona di interesse esterna a coincidere con la zona centrale della retina – in cui alla rete CNN è stato chiesto di classificare le immagini naturali tratte dal database CIFAR.

«L’esito di tale test ha dimostrato che una rete neurale artificiale addestrata per mezzo di dati video in movimento, è in grado di utilizzare gli “spostamenti” delle immagini, le loro alterazioni, le interruzioni della loro coerenza spaziale per accelerare l’apprendimento della classificazione e per aumentare la robustezza di quest’ultima rispetto alle manomissioni (rumore) apportate agli input» ha specificato il team.

Intelligenza artificiale e percezione visiva: l’architettura della rete neurale influisce sulla classificazione delle immagini

Architetture più profonde e meno profonde – osservano gli autori dello studio in tema di intelligenza artificiale e percezione visiva – hanno influenzato in modo significativo le prestazioni della rete neurale convoluzionale nel classificare correttamente gli oggetti rappresentati nelle immagini:

«Utilizzando la rete AlexNet, caratterizzata da cinque strati convoluzionali – quindi più profonda della nostra CNN di base (da tre strati) – addestrata con immagini CIFAR-10 non alterate come nelle simulazioni principali e senza input di movimento, le prestazioni medie nel classificare correttamente gli oggetti sono state piuttosto scarse»

È stata testata anche un’architettura meno profonda rispetto a quella messa a punto per l’esperimento – proseguono i ricercatori – utilizzando una CNN con due strati convoluzionali che, quando addestrata con solo immagini CIFAR-10 non alterate come nelle simulazioni principali e senza input di movimento, ha ottenuto una performance media inferiore se paragonata a quella registrata dalla rete a tre strati.

Quando, invece, addestrata con immagini CIFAR-10 ridimensionate ma senza movimenti, «le prestazioni della CNN a due strati sono state a livello casuale». Quando addestrate in modo da simulare i movimenti oculari saccadici di dimensioni ridotte (50% più piccoli rispetto alle simulazioni principali) e nessun input di movimento, le prestazioni sono, invece, salite al di sopra del livello di probabilità, «indicando come la simulazione dell’ampiezza dei movimenti oculari saccadici abbia avuto un impatto sulle prestazioni della rete rispetto alla sua architettura».

Quello che ha influito negativamente sulle prestazioni delle architetture più profonde (5 strati) e meno profonde (2 strati) sono state le simulazioni dei movimenti oculari saccadici combinate con le manomissioni (rumore) operate sui pixel delle immagini di input, puntualizzano gli autori.

Gli impatti sulla visione artificiale

La peculiarità dello studio a cura dell’Ateneo di Tokio in tema di intelligenza artificiale e percezione visiva è quello di essere riuscito – manipolando le immagini di partenza, per apportarvi spostamenti casuali e rumore nei pixel – a introdurre nel modello di rete neurale la simulazione di uno dei tratti distintivi della visione umana, ossia i rapidi e frequenti movimenti oculari, funzionali nel fare coincidere la zona di interesse esterna con la zona centrale della retina, per la messa a fuoco, in particolare, degli oggetti in movimento.

«Questo progresso della ricerca aiuterà a evitare pericolosi errori nell’ambito della computer vision. Con una visione artificiale più efficiente e robusta, infatti, è meno probabile che le alterazioni delle immagini inducano, ad esempio, le auto a guida autonoma a etichettare un segnale di stop come un palo della luce o i droni militari a classificare erroneamente un edificio ospedaliero come bersaglio nemico»

sottolinea il gruppo di ricerca. I vantaggi di riprodurre artificialmente i movimenti oculari della visione biologica di fronte a scene in movimento, si traducono nel poter pensare, in futuro, «di “forzare” un sensore di visione artificiale ad avere movimenti controllati del focus visivo, informando la rete neurale deputata all’elaborazione delle immagini sui movimenti autogenerati. Il che renderebbe la visione artificiale più robusta e più simile a quella umana».

Il prossimo passo – annunciano i ricercatori – riguarderà la collaborazione con i colleghi che lavorano alle tecnologie neuromorfiche: l’idea è quella di implementare circuiti a base di silicio basati sui principi evidenziati in questo studio e verificare se migliorano le capacità di visione artificiale nelle applicazioni del mondo reale.

Scritto da: