I sistemi di visione artificiale non possiedono la visione periferica che, invece, li supporterebbe nella percezione di immagini anche solo leggermente distorte, manipolate. Ma un recente studio propone una tesi interessante, comprovata per mezzo di una serie di esperimenti che pongono a confronto occhio umano e occhio della macchina.

TAKEAWAY

  • Visione umana e visione artificiale hanno in comune la “visione centrale”, seppure con una differenza non da poco: nelle macchine questa è facilmente ingannabile da immagini anche solo leggermente distorte, che le induce a classificare in modo errato un dato oggetto solo perché lievemente modificato.
  • Tale vulnerabilità, secondo uno studio del Center for Brains, Minds and Machines del Massachusetts Institute of Technology (MIT), è superabile grazie all’addestramento contraddittorio”, processo che avvicinerebbe la computer vision ai meccanismi propri della visione periferica umana.
  • La portata dei risultati ai quali è giunto questo studio, in futuro, avrà ricadute positive in ambiti quali la guida autonoma e l’automazione dei siti produttivi, dove ai sistemi di elaborazione, riconoscimento e classificazione degli oggetti contenuti all’interno della scena si richiedono massima affidabilità e sicurezza.

Nell’ambito della computer vision, esiste una relazione tra le rappresentazioni delle immagini da parte delle reti neurali artificiali addestrate in modo contraddittorio e le rappresentazioni periferiche proprie della visione umana, dove per “visione periferica” si fa riferimento al campo visivo non centrale? E se tale relazione esiste, quali sono le sue implicazioni nel campo, ad esempio, della guida autonoma, in cui riconoscere e classificare in modo corretto veicoli e pedoni, senza distorsioni e sintesi contraddittorie delle immagini, è fondamentale?

Per comprendere con chiarezza di che tipo di “contraddizione” stiamo parlando e a quale genere di relazione stiamo facendo riferimento, è utile l’esempio riportato sotto, che ritrae l’immagine campione imperturbata, integra, di una tartaruga (a sinistra) e la stessa immagine sintetizzata in modo contraddittorio, distorto (a destra). Se fissiamo il punto arancione al centro, entrambe le immagini vengono percepite, a livello periferico (dunque lontano dal campo visivo centrale), indistinguibili l’una dall’altra.

Esempio di immagine imperturbata di una tartaruga (a sinistra) e della stessa immagine sintetizzata in modo contraddittorio, distorto (a destra). Se fissiamo il punto arancione al centro, entrambe le immagini vengono percepite, a livello periferico (dunque lontano dal campo visivo centrale), indistinguibili l'una dall'altra.
(Fonte: “Finding biological plausibility for adversarially robust features via metameric tasks” a cura del MIT – https://openreview.net/pdf?id=yeP_zx9vqNm)

Ebbene, secondo uno studio del Center for Brains, Minds and Machines del Massachusetts Institute of Technology (MIT) (“Finding biological plausibility for adversarially robust features via metameric tasks”) – i cui contenuti verranno discussi in seno all’International Conference on Learning Representations (ICLR), dal 25 al 29 aprile 2022 – la stessa percezione indistinta si verifica nei sistemi di visione artificiale che vengono allenati sulla base di dati video distorti, inquinati (contraddittori). E non solo. Secondo i suoi autori, il modo in cui le reti neurali artificiali alla base di tali sistemi apprendono a trasformare le immagini è simile ad alcuni meccanismi tipici dell’elaborazione periferica delle immagini nella visione umana [per approfondimenti in tema di computer vision e riconoscimento delle immagini, consigliamo la lettura della nostra guida all’intelligenza artificiale che spiega cos’è, a cosa serve e quali sono gli esempi applicativi – ndr]. Vediamo insieme perché.

Nelle machine la percezione dei dettagli è facilmente ingannabile

Oltre alla visione periferica – responsabile dell’organizzazione visiva dello spazio e non presente nelle macchine – la visione umana si caratterizza per la “visione foveale”, ossia la “visione centrale”, deputata alla cosiddetta “acutezza visiva”, atta a cogliere i minimi dettagli della scena e dell’oggetto. In tema di computer vision e visione umana, questa seconda peculiarità rappresenta un tratto in comune tra occhio umano e macchina. Ma con una sottile (e determinante) differenza: mentre l’occhio umano non percepisce affatto le piccole modifiche (anche intenzionali) ai pixel delle immagini che gli vengono sottoposte, per cui l’immagine di un’auto per lui rimane tale anche se lievemente distorta (o comunque nota la distorsione, ma ciò non intacca la percezione e il processo cognitivo di elaborazione e riconoscimento dell’immagine), la visione foveale dei sistemi di visione artificiale è, invece, facilmente ingannabile dalle immagini contraddittorie, portandola a classificare in modo errato un’auto perché influenzata dalla sua immagine anche solo lievemente disturbata dall’esterno.

Il superamento di questa falla è, secondo gli autori dello studio, superabile per mezzo del cosiddetto “addestramento contraddittorio”, in cui vengono appositamente create immagini manipolate, a loro volta trasferite alla rete neurale artificiale che apprende a correggere i suoi errori di classificazione “rietichettando” i dati durante la stessa fase di addestramento. Processo – questo – che avvicina i sistemi percettivi della computer vision ai meccanismi della visione periferica umana (si veda l’immagine del paragrafo introduttivo, in cui, grazie alla visione periferica, le immagini delle due tartarughe risultano molto simili all’occhio umano). Da qui, col fine di testare la loro ipotesi e rilevare ulteriori tratti in comune tra visione artificiale e visione umana, i ricercatori hanno realizzato una serie di esperimenti. Vediamo quali.

Computer vision e visione umana a confronto: i meccanismi paralleli

Durante gli esperimenti in tema di computer vision e visione umana, in particolare, sono stati utilizzati tre diversi modelli di visione artificiale, di cui un modello di machine learning privo di addestramento contraddittorio, un modello ML con addestramento contraddittorio e, infine, un modello appositamente progettato per emulare alcuni aspetti dei meccanismi propri della visione periferica umana.

I partecipanti umani, nello specifico, avevano il compito di distinguere tra le immagini originali e le stesse immagini sintetizzate percepite dai tre modelli di visione artificiale, tenendo gli occhi puntati al centro di uno schermo mentre le immagini venivano proiettate ai lati, in diversi punti della loro periferia visiva.

In uno degli esperimenti è stato loro chiesto di identificare alcune immagini distorte all’interno di una serie di fotografie visualizzate per pochissimi secondi e, in un altro, di abbinare le immagini presentate alla visione foveale (dunque al centro) con due immagini poste in periferia.

Quello che è emerso è che, quando le immagini sintetizzate venivano mostrate nell’estrema periferia dello schermo, la maggioranza dei partecipanti non era in grado di distinguerle dalle immagini originali (si riveda l’immagine del paragrafo introduttivo), così come accadeva nel modello ML con addestramento contraddittorio e nel modello progettato per emulare alcuni aspetti dei meccanismi della visione periferica umana.

Ma il risultato di maggior rilievo – sottolineano i ricercatori del MIT – è che gli errori che gli esseri umani commettono nel riconoscere e classificare le immagini sottoposte alla loro visione periferica è molto vicino alle condizioni degli esperimenti realizzati col modello con addestramento contraddittorio e con quello progettato per emulare la visione periferica umana, a suggerire che questi ultimi sono molto vicini all’elaborazione delle immagini dell’essere umano.

Computer vision e visione umana: la ricerca apre a una maggiore sinergia tra biologia e intelligenza artificiale

La portata di questo studio in tema di computer vision e visione umana sta nell’avere inaugurato un filone di studi che prende in considerare la messa a punto di modelli di visione artificiale sempre più ispirati alla biologia, sempre più ispirati al funzionamento del sistema percettivo umano.

In particolare, i risultati ottenuti negli esperimenti realizzati dal team di ricerca del MIT potrebbero essere utilizzati per «progettare un sistema di visione artificiale con una sorta di periferia visiva emulata, che potrebbe renderlo automaticamente resistente agli elementi contraddittori. Il lavoro, inoltre, potrebbe anche informare lo sviluppo di macchine in grado di creare rappresentazioni visive più accurate utilizzando alcuni aspetti dell’elaborazione periferica umana».

Gli scenari applicativi comprendono, in primis, la guida autonoma, oltre ai siti produttivi, in cui le macchine dotate di sistemi di computer vision a bordo rappresentano, oggi, elementi sempre più essenziali della catena di lavoro. Per entrambe le applicazioni, la sicurezza – espressa nel riconoscimento e nella classificazione puntuali della scena e dei suoi elementi – è un valore imprescindibile.

«L’allenamento su immagini distorte riduce, nelle macchine, la suscettibilità al contraddittorio. Questa conclusione alla quale siamo giunti merita ulteriori approfondimenti e potrebbe rappresentare un ulteriore esempio di sinergia tra la ricerca biologica e l’intelligenza artificiale» osservano gli autori, lasciando aperta la porta a futuri nuovi studi in materia, tesi a perfezionare i processi di elaborazione visiva da parte delle macchine.

Scritto da:

Paola Cozzi

Giornalista Leggi articoli Guarda il profilo Linkedin