Studiosi USA e canadesi aggiungono un altro tassello alla ricerca sull’elaborazione e la classificazione degli stimoli visivi da parte delle macchine. A tutto vantaggio - tra gli altri - dei sistemi di visione artificiale per la guida autonoma e la videosorveglianza evoluta.

Nei sistemi di intelligenza artificiale deputati all’elaborazione delle immagini per il riconoscimento degli oggetti all’interno della scena (pensiamo – solo per citare un esempio – alle auto a guida autonoma), sono le reti neurali convoluzionli profonde (dette anche Deep Convolutional Neural Networks o DCNN) a rappresentare, attualmente, i modelli dominanti, in grado – più di altri – di emulare la percezione visiva umana.

In particolare, la peculiarità di quest’ultima è la sua sensibilità nel cogliere i “segnali di forma”, ossia tutte quelle caratteristiche che definiscono gli oggetti, il loro “insieme”, anche se si trovano molto distanti dall’occhio umano, stilizzati oppure semi-coperti.

La domanda, allora, è una: i sistemi di visione artificiale il cui cervello è dato da una rete neurale convoluzionale profonda sono all’altezza di tale peculiarità? Sanno, cioè, catturare, i segnali di forma degli oggetti, dando, così, prova di possedere quella che viene definita “sensibilità configurazionale”?

La questione viene posta dai ricercatori del Dipartimento di psicologia della Loyola University di Chicago e dal Centre for Vision Research presso la York University di Toronto che, insieme, hanno collaborato allo studio “Deep learning models fail to capture the configural nature of human shape perception”, reso pubblico recentemente.

Intelligenza artificiale e riconoscimento degli oggetti: differenza tra forma e configurazione

A proposito di intelligenza artificiale e di riconoscimento degli oggetti, gli autori dello studio spiegano una differenza sottile, espressa in «proprietà di forma locale e in proprietà di forma configurale» riferite agli oggetti percepiti nello spazio. Che cosa significa?

La proprietà di “forma locale” si manifesta in una specifica area dell’oggetto e può essere interpretata senza fare riferimento ad altre sue caratteristiche. «Ad esempio, un coniglio può essere identificato anche solo scorgendo da lontano le sue orecchie, senza l’ausilio di altri elementi della sua figura. Da questo si evince come tale proprietà svolga un ruolo importante nel riconoscimento degli oggetti, sia da parte degli esseri umani che dei sistemi di visione artificiali».

Al contrario, la proprietà di “forma configurale” non rimanda solo a una o a più caratteristiche locali specifiche, «ma anche a come tali caratteristiche sono correlate nello spazio».

Molte di quelle proprietà ritenute di forma locale che sono salienti per la visione umana – ad esempio, la convessità dell’oggetto, il suo essere concavo oppure la sua simmetria – sono in realtà configurali, ovvero«non evidenti localmente ma solo attraverso un calcolo olistico che tiene conto della disposizione spaziale delle caratteristiche locali sulla forma».

Prima dell’ascesa delle reti neurali convoluzionali profonde per il riconoscimento degli oggetti – fanno notare i ricercatori – i principali algoritmi di riconoscimento della visione artificiale si basavano principalmente sulla somma delle caratteristiche locali, «ignorando in gran parte le relazioni di configurazione spaziale tra queste caratteristiche».

I modelli di Deep Convolutional Neural Networks superano – per molti aspetti – di gran lunga i sistemi di riconoscimento precedenti. Ma sono anche abili sotto il profilo della sensibilità configurazionale?

L’elaborazione delle immagini negli attuali sistemi AI

In tema di intelligenza artificiale e riconoscimento degli oggetti, «poiché le unità in strati convoluzionali più elevati e completamente connessi tipiche delle DCNN possiedono vasti campi recettivi, che combinano informazioni da pixel ampiamente separati attraverso una complessa mappatura non lineare, queste reti potrebbero “potenzialmente” [non è stato ancora dimostrato una volta per tutte – ndr] andare oltre la somma delle caratteristiche locali degli oggetti, per incorporare anche informazioni relative alla loro configurazione spaziale» osserva il team di studio.

Vi sono poi tesi di studiosi in base alle quali reti neurali convoluzionali profonde opportunamente addestrate per mezzo di dati video tratti da ImageNet – enome dataset di immagini (oltre 14 milioni) per l’impiego nell’ambito della computer vision – sono in grado di comportarsi come veri e propri classificatori di immagini, con segnali di sensibilità nel captare la loro configurazione nello spazio.

Tesi – questa – importante, perché «se queste reti mostrassero davvero una sensibilità configurazionale simile a quella biologica, potrebbero rappresentare la base ideale per modelli artificiali atti a simulare la percezione umana del reale».

Se, al contrario, non esibissero una sensibilità configurazionale, mancherebbero di quello che è il tratto distintivo della percezione dell’uomo. E questo – aggiungono gli autori – motiverebbe la ricerca di modelli alternativi.

Prende spunto da questo pensiero la ricerca dei due Atenei (USA e canadese), che introduce una metodologia il cui obiettivo è isolare la sensibilità nel cogliere visivamente la configurazione spaziale degli oggetti dalla sensibilità nel percepirne le semplici forme locali, applicandola congiuntamente agli osservatori umani e a un’ampia gamma di architetture neurali profonde. Vediamo insieme che cosa ne è emerso.

Intelligenza artificiale e riconoscimento oggetti: la sensibilità configurazionale nella visione umana e artificiale

In tema di intelligenza artificiale e riconoscimento degli oggetti, per porre a confronto la sensibilità configurale di esseri umani e reti neurali convoluzionali profonde, il team ha misurato e comparato le prestazioni di questi ultimi su un’attività di classificazione di figure animali resi simili a sagome, isolandone così la forma:

«Per dissociare la forma configurale dalla forma locale, abbiamo applicato due manipolazioni separate alle sagome degli animali, andando così a “interrompere” la configurazione globale dell’oggetto e lasciando le caratteristiche della forma locale in gran parte intatte. Quindi, abbiamo confrontato le prestazioni di questi stimoli visivi “interrotti” con le prestazioni delle sagome intere originali»

Illustrazione che mostra le manipolazioni della sagoma animale (in questo caso di un orso) effettuate dai ricercatori, che - da “intera” (Whole) - diviene prima Fragmented e infine Frankenstein (Fonte: “Deep learning models fail to capture the configural nature of human shape perception”, Loyola University di Chicago e York University di Toronto).
Le manipolazioni della sagoma animale (in questo caso di un orso) effettuate dai ricercatori, che – da “intera” (Whole) – diviene prima Fragmented e infine Frankenstein (Fonte: “Deep learning models fail to capture the configural nature of human shape perception”, Loyola University di Chicago e York University di Toronto).

Come è evidente nella figura sopra riportata, nella condizione frammentata (Fragmented), è stata capovolta la metà superiore dell’oggetto (un orso), facendola ruotare da sinistra a destra. Tale manipolazione – notano gli autori – “frammenta” la configurazione in due oggetti adiacenti separati, ma ne preserva in gran parte le caratteristiche della forma locale.

Nella condizione di “Frankenstein”, invece (l’ultima a destra), «abbiamo fatto scorrere questa parte superiore indietro, per allinearla con la parte inferiore. A differenza della condizione frammentata, questa manipolazione preserva lo stimolo come un singolo oggetto, pur interrompendo la relazione di configurazione tra le caratteristiche della forma nella parte superiore dell’oggetto e le caratteristiche della forma nella sua parte inferiore».

Ebbene, nel misurare e nel comparare sia la capacità della visione umana che della rete (una ResNet-50, ovvero una rete neurale convoluzionale profonda cinquanta strati, addestrata per mezzo di immagini tratte da ImageNet) nell’identificare la categoria corretta dell’animale (un orso) per ciascuno dei tre stimoli in input, gli autori hanno scoperto che la frammentazione della figura (ossia l’immagine Fragmented) comprometteva il riconoscimento dell’animale, sia da parte degli esseri umani che della rete artificiale. Ma che cosa causa esattamente questa menomazione?

«Potrebbe essere l’interruzione della relazione configurale tra le caratteristiche nella parte superiore e inferiore della sagoma dell’animale oppure il forte bordo orizzontale e le discontinuità nette introdotti da questa manipolazione o, ancora, la percezione dello stimolo frammentato come due oggetti separati».

La terza sagoma (Frankenstein, che dà vita a un mostro, a un animale che, di fatto, non esiste nella realtà) è stata la prova del nove: mentre le prestazioni umane erano ancora profondamente influenzate da tale manipolazione, la rete neurale convoluzionale profonda non lo era affatto – riuscendo comunque a “vedere”, in essa, la figura di un orso – proprio perché, rispetto alla percezione umana, non sensibile alle forme configurali degli oggetti.

Illustrazione che mostra il confronto tra visione umana e visione artificiale nei compiti di riconoscimento delle sagome animali (Fonte: “Deep learning models fail to capture the configural nature of human shape perception”, Loyola University di Chicago e York University di Toronto).
Visione umana e visione artificiale a confronto nei compiti di riconoscimento delle sagome animali (Fonte: “Deep learning models fail to capture the configural nature of human shape perception”, Loyola University di Chicago e York University di Toronto).

Il che è grave. Perché la sagoma Frankenstein potrebbe, sì, richiamare, nel suo insieme, la figura di un orso, ma se la confrontiamo con la figura intera di quest’ultimo (in alto a sinistra nella figura) ne è chiara la difformità.

Questo ci riporta a una domanda cruciale: il sistema di visione artificiale a bordo di un’auto a guida autonoma o di una telecamera di videosorveglianza, in caso di visione non limpida oppure occlusa, potrebbe confondere gli oggetti presenti nel suo campo visivo, confondendo – ad esempio – l’immagine di un pedone con quella di un animale o di un altro oggetto, solo perché questi hanno in comune alcune caratteristiche della forma?

L’aumento dei segnali di forma locale abilita la percezione della forma configurale da parte della macchina?

In tema di intelligenza artificiale e riconoscimento degli oggetti, ricerche precedenti – ricorda il gruppo di studio – suggeriscono che, rispetto agli esseri umani, le reti neurali convoluzionali profonde addestrate da ImageNet, nel classificare gli stimoli visivi, si basano più sulla “trama” dell’oggetto che sulle informazioni relative alla sua forma.

E, in particolare, riguardo a questo – viene riportato nello studio – un ricercatore ha di recente scoperto che «riducendo l’affidabilità delle informazioni sulla trama durante l’allenamento, la rete può essere addestrata per aumentare le sue prestazioni nel cogliere i segnali di forma».

Sulla scia di tale intuizione, il team ha dunque ripetuto l’esperimento addestrando ResNet-50 servendosi di Stylized ImageNet (SIN), dataset di immagini che, al contrario di ImageNet, contiene volutamente dati video dalla trama meno affidabile e opportunamente distorta.

Ma senza risultati apprezzabili, portando inevitabilmente alla conclusione che «riqualificare una rete per aumentare le informazioni sulla forma non porta a un’elaborazione della configurazione simile a quella umana».

Un approccio computazionale alternativo ha visto l’abbandono dell’architettura di rete convoluzionale a favore di un’ “architettura a trasformatore”, dominante nell’ambito dell’elaborazione del linguaggio naturale ma divenuta recentemente anche protagonista della visione artificiale, incluso il riconoscimento di oggetti.

Più nello specifico, i ricercatori hanno adottato l‘architettura Vision Transformer (ViT), il cui funzionamento è diverso rispetto a quello della rete ResNet-50. ViT è «in grado di imparare a incorporare patch di immagini locali e a utilizzare l’ “auto-attenzione” moltiplicativa tra tutte le coppie di queste patch incorporate, per acquisire “dipendenze” tra loro».

Detto più semplicemente, data l’immagine iniziale dell’orso, il Vision Transformer apprende a scomporlo in modo corretto, arrivando a non riconoscerne la forma sia nella versione frammentata, sia in quella manomessa (Frankenstein).

L’esito della sperimentazione con questa nuova architettura, infatti, è stato positivo, superando, nel complesso le performance delle reti precedenti, nonché quelle degli stessi esseri umani. Puntualizza, però, il team:

«Sebbene questo miglioramento possa essere imputabile all’architettura del trasformatore, potrebbe, però, essere anche dovuto al modo in cui ViT è stato addestrato, vale a dire su un set di dati proprietario JFT-300M molto ampio»

portando così l’attenzione sulla delicata fase dell’allenamento dei sistemi di intelligenza artificiale.

Intelligenza artificiale e riconoscimento degli oggetti: riflessioni conclusive sul compito assegnato

L’evidenza che emerge da questo studio è chiara: anche se la maggior parte degli approcci basati su reti neurali convoluzionali profonde non ha funzionato come la visione umana nell’acquisizione dello stimolo visivo manomesso (classificandolo come “orso”, quando invece era semplicemente un mostro), la rete ViT ha effettivamente superato le prestazioni umane medie.

Come notato, queste prestazioni superiori potrebbero non solo derivare dall’architettura del trasformatore, ma anche, in parte, dal set di dati proprietario. Ed è su questi due punti che dovrà proseguire il filone della ricerca in questo ambito specifico. Anche se, commenta il gruppo:

«Benché sia certamente possibile che diverse modifiche ai set di dati e alle architetture possano produrre risultati diversi, queste innovazioni potrebbero non essere sufficienti. Sospettiamo, piuttosto, che il fattore fondamentale che limita la sensibilità configurazionale di queste reti sia la natura stessa del compito per cui sono state addestrate»

Ricordiamo che l’attività del dataset ImageNet consiste nel classificare l’oggetto in un’immagine. In molti casi, la risposta corretta potrebbe essere facilmente calcolata da una semplice somma di caratteristiche locali dell’oggetto. Il che rappresenta un calcolo facile da apprendere per una rete artificiale.

Al contrario, per l’essere umano il processo cognitivo legato all’elaborazione delle immagini degli oggetti è complesso e supporta non solo il riconoscimento della loro “classe” (cosa sono, a quale sfera appartengono), ma anche diversi giudizi fisici su questi, inclusa la loro posizione tridimensionale, l’orientamento rispetto all’osservatore e agli oggetti che lo circondano, la sua forma e dimensione e la sua condizione fisica, ad esempio intatta oppure frammentata.

«Questi tipi di compiti spaziali probabilmente non sono così facili da risolvere per una macchina sommando le caratteristiche locali, ma richiedono invece un ragionamento più globale sull’oggetto».

Dunque, in futuro, modelli artificiali di elaborazione delle immagini degli oggetti potrebbero potenzialmente coinvolgere – ipotizzano gli autori – «paradigmi discriminativi di apprendimento multitasking o approcci generativi di rendering inverso, portando le reti artificiali a una più ampia comprensione degli oggetti e, quindi, a una sensibilità configurale più simile a quella umana». Poiché è quello lo scopo, creare una macchina in grado di pensare e di agire come l’essere umano. Sogno e sida di un futuro non troppo lontano.

Scritto da:

Paola Cozzi

Caporedattrice Leggi articoli Guarda il profilo Linkedin