Il campo di indagine sulla percezione - da parte delle macchine - dello spazio in cui queste operano, si arricchisce degli studi sulla percezione dei materiali di cui si compongono gli oggetti, per una visione sempre più simile a quella umana e performance sempre più accurate in contesti come, ad esempio, i siti produttivi.

TAKEAWAY

  • Uno studio congiunto dell’Università di Toyohashi e dell’Università di Giessen, mediante simulazione per mezzo di due reti neurali artificiali, tenta di riprodurre gli schemi della percezione visiva umana nel distinguere due materiali specifici: specchio e vetro.
  • Il primo test, con rete neurale addestrata ricorrendo a immagini sintetiche, ha dimostrato la superiorità della macchina (grado di precisione del 94%, contro il 78% dell’occhio umano) nel percepire la distinzione tra materiali riflettenti e materiali trasparenti.
  • Il secondo test, invece – con rete neurale a tre strati, allenata con un dataset di immagini naturali, riprese dal mondo reale – ha evidenziato performance distanti, per modalità e meccanismi, tra macchina ed essere umano.

Proseguono gli studi sulla percezione dell’ambiente esterno da parte delle macchine dotate di sistemi di computer vision a bordo. Un recente filone di studi indaga, in particolare, sulla percezione dei diversi materiali di cui si compongono gli oggetti, cercando di emulare la percezione visiva umana.

«L’immagine retinica di un dato oggetto è il risultato di complesse interazioni tra le proprietà ottiche dell’oggetto, la forma tridimensionale e la luce in entrata. Pertanto, un determinato materiale può assumere un’enorme varietà di aspetti diversi, a seconda dell’illuminazione, della forma dell’oggetto e del punto di vista. Per avere successo nella percezione dei materiali, il sistema visivo deve in qualche modo separare immagini simili appartenenti a materiali diversi, mentre allo stesso tempo raggruppare immagini molto diverse appartenenti alla stessa classe materiale. Questo è un aspetto fondamentale dell’elaborazione visiva biologica»

si legge nell’articolo “Distinguishing mirror from glass: a “big data” approach to material perception”, apparso sulla rivista scientifica Journal of Vision. All’aspetto dell’elaborazione visiva biologica citato, si ispira lo studio sulla percezione della distinzione tra due materiali specifici – lo specchio e il vetro – descritto nell’articolo a cura del Dipartimento di Informatica e Ingegneria dell’Università di Toyohashi, in Giappone, e della Facoltà di Psicologia dell’Università di Giessen, in Germania.

Quello che i ricercatori hanno fatto, è stato mettere a punto una rete neurale artificiale in grado di riprodurre gli schemi della percezione visiva biologica per poi confrontarne le prestazioni con i giudizi umani.

Computer vision e percezione dei materiali: distinguere tra specchio e vetro

In tema di computer vision e percezione dei materiali, l’obiettivo del gruppo di studio era verificare quanto una rete neurale artificiale possa essere accurata e precisa nell’eseguire un compito che la porta a distinguere tra un materiale riflettente come lo specchio e un materiale trasparente come il vetro.

Compito alquanto complesso già per il sistema visivo umano, «a causa delle proprietà ottiche proprie dello specchio e del vetro e dei diversi percorsi di luce che attraversano questi materiali: lo specchio si riflette dalla superficie, mentre il vetro si rifrange attraverso il corpo dell’oggetto».

La scelta dei ricercatori è ricaduta su una tipologia di rete neurale artificiale detta “rete neurale convoluzionale”, addestrata per mezzo di oltre 750.000 immagini di specchi e oggetti di vetro riprodotte graficamente al computer.

Quello che la prima fase di test ha messo in evidenza è una sostanziale superiorità delle performance della macchina rispetto alla capacità dell’occhio umano nel percepire la distinzione tra materiali riflettenti e materiali trasparenti: la prima è stata in grado di farlo con una precisione del 94%, il secondo con un’accuratezza del 78%.

Un risultato – questo – atteso, che non ha sorpreso il team. Per il semplice fatto che «la visione umana non è adattata esclusivamente al compito di distinguere lo specchio dagli oggetti di vetro, mentre, nell’ambito di questo studio, abbiamo appositamente addestrato la rete neurale a una classificazione binaria della realtà, allenandola a classificare il mondo intero in due possibili stati: specchi e vetro».

Inoltre, le prestazioni della macchina e delle persone che hanno partecipato allo studio sono state misurate sulla base di immagini sintetiche (le stesse con le quali è stata allenata la rete) che, per quanto fedeli e corrispondenti alla realtà, sono comunque riprodotte, ricreate.

Un sistema di visione artificiale per applicazioni in ambito industriale – ad esempio, in un contesto in cui si lavorano materiali riflettenti e, insieme, trasparenti – deve poter classificare in modo puntuale gli oggetti reali (e non immagini sintetiche) all’interno del proprio spazio.

A quel punto, l’obiettivo della ricerca si è affinato e il set è cambiato, passando dal valutare il “quanto” a comprendere il “come”, mirando a smontare il meccanismo che porta gli esseri umani a distinguere tra i due diversi tipi di materiale.

Illustrazione che ritrae esempi di oggetti realizzati con materiali a specchio (a sinistra) e vetro (a destra). La forma tridimensionale, l'illuminazione e la posizione di chi guarda sono identiche (A), ma le proprietà ottiche dell'oggetto sono diverse. (B), così come sono diversi i percorsi di luce attraverso specchi e oggetti di vetro: lo specchio si riflette dalla superficie, il vetro si rifrange attraverso il corpo dell'oggetto. Da qui la complessità nel riprodurre lo stesso schema percettivo nella macchina (Fonte: “Distinguishing mirror from glass: a big data approach to material perception” - https://jov.arvojournals.org/article.aspx?articleid=2778652).
Esempi di oggetti realizzati con materiali a specchio (a sinistra) e vetro (a destra). La forma tridimensionale, l’illuminazione e la posizione di chi guarda sono identiche (A), ma le proprietà ottiche dell’oggetto sono diverse. (B), così come sono diversi i percorsi di luce attraverso specchi e oggetti di vetro: lo specchio si riflette dalla superficie, il vetro si rifrange attraverso il corpo dell’oggetto. Da qui la complessità nel riprodurre lo stesso schema percettivo nella macchina (Fonte: “Distinguishing mirror from glass: a big data approach to material perception” – https://jov.arvojournals.org/article.aspx?articleid=2778652).

Rete neurale a tre strati, la più vicina allo schema della percezione visiva umana

Il nuovo corso dello studio in tema di computer vision e percezione dei materiali ha richiesto lo sviluppo di una rete neurale artificiale con una struttura convolutiva a tre strati, relativamente poco profonda e – secondo gli autori – più aderente allo schema della percezione visiva umana in compiti così verticali come la classificazione di specchi e oggetti di vetro.

In questa seconda parte del lavoro, ciò che premeva non era la creazione di una macchina perfetta che – proprio perché tale – risulterebbe distante dalle abilità dell’essere umano in un compito così particolare e impegnativo come quello preso in considerazione. Quello che interessava era, invece, adattare la macchina «in modo che, nella percezione dei materiali, potesse comportarsi il più possibile come una persona, commettendo gli stessi errori e fornendo le stesse risposte corrette».

«Ci interessa creare reti che catturino le eccentricità caratteristiche della visione umana, riproducendo gli errori rivelatori che gli esseri umani tendono a fare come primo passo verso l’identificazione di segnali e di processi specifici utilizzati dal sistema visivo biologico»

osserva il team di studio. E «sebbene l’identificazione di un set di immagini reali, naturalistiche, con cui addestrare la rete richieda maggiore tempo e impegno, questo fornisce un punto di riferimento rispetto al quale è possibile testare tutti i futuri modelli di visione umana».

Computer vision e percezione dei materiali: differenze e limiti rispetto alle prestazioni dell’occhio umano

In tema di computer vision e percezione dei materiali, lontana dalle eccellenti prestazioni ottenute dalla prima rete neurale messa a punto, la rete neurale a tre strati – più vicina allo schema della percezione visiva umana e allenata con un dataset di immagini riprese dal mondo reale e non ricreate al computer – non è riuscita a eguagliare le prestazioni dell’occhio umano. E non si tratta di percentuali, né di altri dati quantitativi. Più semplicemente, si tratta di performance distanti per modalità e meccanismi.

«Ci sono almeno tre aspetti importanti – sottolineano i ricercatori – in cui i modelli come quello che abbiamo messo a punto differiscono dalla visione umana».

Il primo ha che vedere con una peculiarità propria dell’elaborazione visiva delle persone, ossia la grande quantità di feedback che il sistema visivo dell’uomo invia al cervello e che è fondamentale nel processo di apprendimento degli oggetti:

«Un ingrediente chiave mancante nella nostra rete neurale a tre strati è l’elaborazione ricorrente. E l’aggiunta del flusso del segnale di feedback potrebbe compensare tale carenza. Il feedback potrebbe, ad esempio, essere necessario per eseguire calcoli spaziali a lungo raggio, come confrontare le strutture all’interno della regione dell’oggetto con quelle dello sfondo o, ad esempio, per accorpare i diversi segnali locali in un unico segnale globale come “gli oggetti di vetro permettono di guardarvi attraverso, mente gli specchi no”»

Una seconda differenza riguarda, invece, il tipo di formazione, di addestramento all’esecuzione del compito: la rete neurale artificiale è addestrata su centinaia di migliaia di immagini etichettate, mentre «la visione umana non può essere allenata in questo modo, sia perché, nel suo caso, i dati etichettati sono rari e sia perché la scala del set di formazione supera quasi certamente l’esperienza visiva umana con specchi e oggetti di vetro».

Un terzo e ultimo aspetto rilevato dal team di studio – che, insieme a due precedenti, segna la differenza tra le reti neurali artificiali e gli esseri umani nella percezione dei materiali – concerne la natura del compito per il quale le reti sono addestrate:

«La visione umana non è adattata esclusivamente al compito di distinguere lo specchio dagli oggetti di vetro, mentre abbiamo addestrato le reti su una classificazione binaria, separando efficacemente il mondo intero in due possibili stati»

La direzione della ricerca futura

Gli step futuri di tale studio dovranno focalizzarsi sui tre punti evidenziati, intervenendo per smussare i limiti che riflettono sulle prestazioni della rete neurale.

In particolare, fanno notare gli autori, «il lavoro futuro dovrebbe utilizzare architetture di rete che assomigliano più da vicino alla corteccia dei primati. Abbiamo dimostrato che, per la maggior parte delle immagini, anche le reti neurali artificiali progettate in modo arbitrario superano i modelli più convenzionali ingegnerizzati a mano e quindi hanno un potenziale sostanziale come modelli dei processi visivi umani».

Tuttavia, quando la loro somiglianza con gli esseri umani viene studiata con un criterio più rigoroso, presentano ancora importanti carenze.

Sebbene le reti neurali possano essere adattate al cervello o al comportamento umano, non dovrebbero ancora essere viste tanto come «un modello accurato dei processi del cervello umano, ma piuttosto come una piattaforma sperimentale per ulteriori ricerche».

Scritto da: