Un metodo di recente sviluppo tenta un nuovo approccio al rilevamento - da parte dei sistemi di visione artificiale - di quanto non pienamente visibile all’interno di spazi non strutturati, riuscendo a segmentare sia quello che dell’oggetto si percepisce, sia quello che non si vede perché nascosto.

TAKEAWAY

  • Una ricerca del Gwangju Institute of Science and Technology, in Corea del Sud, trae spunto da un fenomeno proprio della percezione visiva umana per mettere a punto una rete neurale che consentirebbe alla macchina di gestire gli oggetti occlusi all’interno del proprio spazio.
  • La deduzione della struttura non visibile del nascosto è resa possibile da uno “schema di modellazione gerarchica” dell’occlusione, che è poi il “cuore” dell’intero sistema: lavora sulla base delle caratteristiche salienti dell’oggetto percepito, assegnando loro una gerarchia e un ordine preciso.
  • Il metodo definito da tale studio – tuttora in fase di test – agevolerebbe quei compiti di robotica previsti dalle operazioni di prelievo, recupero e manipolazione di oggetti nascosti, specie in contesti come siti produttivi e magazzini.

Tra le recenti sfide dell’applicazione delle tecniche di intelligenza artificiale nell’ambito della progettazione robotica, lo sviluppo di abilità sempre più raffinate, correlate alla percezione e alla segmentazione dell’ambiente in cui la machina è chiamata a operare, nonché alla classificazione degli oggetti che si trovano in tale ambiente. La visione artificiale per la robotica è a capo di queste abilità e vede l’impiego in compiti sempre più complessi, tra cui, ad esempio, la guida autonoma e la manipolazione di oggetti.

Resta, tuttavia, ancora critico il processo di identificazione dei singoli oggetti all’interno di scene percepite come non ordinate, non strutturate, all’interno delle quali questi risultano parzialmente o completamente celati (occlusi) dietro altri oggetti.

Solitamente – si legge in uno studio a cura del Gwangju Institute of Science and Technology (GIST), in Corea del Sud, che verrà ufficialmente presentato in occasione dell’IEEE International Conference on Robotics and Automation, dal 23 al 27 magio 2022 a Philadelphia – «quando si tratta di scenari di questo tipo, i sistemi di visione artificiale vengono addestrati per identificare l’oggetto occluso basandosi solo su alcune sue parti visibili. Ma tale tipo di allenamento richiede grandi mole di dati relativi a oggetti di ogni tipo, risultando, per questo, oltremodo lungo e laborioso».

Ecco che il team del GIST, scavalcando questo approccio, propone un metodo alternativo, basato sullo sviluppo di un modello di rete neurale artificiale (denominato Unseen Object Amodal Instance Segmentation – UOAIS) deputato al rilevamento di oggetti non completamente visibili in ambienti non strutturati, riuscendo a segmentare sia quello che dell’oggetto si vede (area visibile), sia quello che non si vede perché nascosto da un altro oggetto (area non visibile). Scopriamo di che cosa si tratta.

Visione artificiale per la robotica: verso i meccanismi della percezione umana

Lo studio in tema di visione artificiale per la robotica prende spunto da una considerazione precisa: nella visione umana, il focus cade sulla struttura visibile dei cosiddetti “oggetti occlusi”, dalla quale viene dedotta la loro struttura intera. Fenomeno – questo – definito “percezione amodale”, in base al quale, di due aree distinte all’interno di un’immagine, ne viene dedotta la continuità, il completamento, dietro un determinato oggetto detto “occludente”. Ed è questa capacità percettiva dell’essere umano che si tenta di emulare, la quale consentirebbe a un robot di gestire direttamente le occlusioni in una scena non strutturata, priva di ordine.

Esempio di oggetti parzialmente visibili - perché in parte nascosti (occlusi) dietro altri oggetti - la cui segmentazione rappresenta una sfida per le reti neurali artificiali dei sistemi di visione robotici (Credit: Gwangju Institute of Science and Technology).
Esempio di oggetti parzialmente visibili, perché in parte nascosti (occlusi) dietro altri oggetti (Credit: Gwangju Institute of Science and Technology).

Per conseguire tale obiettivo, il modello di rete neurale artificiale messo a punto è stato addestrato ad apprendere diverse geometrie di oggetti e differenti scene di occlusione, attraverso 50.000 immagini sintetiche.

Il meccanismo seguito dal modello gli ha permesso – dopo avere esaminato una scena disordinata, ossia priva di linearità nella disposizione degli oggetti – di individuare, come primo step, l’oggetto occluso (nascosto dietro un altro oggetto) e di segmentarlo, di delimitarlo, all’interno di una maschera “visibile” e all’interno di una maschera detta “amodale”. Dove la prima (come illustrato nella figura sottostante) delimita la struttura di quanto si percepisce visivamente a proposito dell’oggetto, mentre la seconda ne delimita, in un’unica struttura, sia la parte percepita che quella dedotta.

Esempio di oggetto occluso (il cilindro nascosto dietro altri solidi), la segmentazione della sua struttura visibile (maschera visibile) e, infine, la segmentazione della sua parte visibile e della sua parte occlusa (maschera amodale). (Fonte: “Unseen Object Amodal Instance Segmentation via Hierarchical Occlusion Modeling”, Gwangju Institute of Science and Technology - https://arxiv.org/pdf/2109.11103.pdf).
Esempio di oggetto occluso (il cilindro nascosto dietro altri solidi), la segmentazione della sua struttura visibile (maschera visibile) e, infine, la segmentazione della sua parte visibile e della sua parte occlusa (maschera amodale). (Fonte: “Unseen Object Amodal Instance Segmentation via Hierarchical Occlusion Modeling”, Gwangju Institute of Science and Technology – https://arxiv.org/pdf/2109.11103.pdf).

La differenza rispetto a precedenti studi sta proprio nell’essere andati oltre la rilevazione – da parte del sistema di intelligenza artificiale – dell’oggetto occluso e delle sue aree immediatamente visibili, per focalizzarsi sul meccanismo (proprio della visione umana) della ricostruzione di quanto non viene visivamente percepito perché nascosto.

La modellazione gerarchica dell’occlusione a imitazione della “deduzione”

In tema di visione artificiale per la robotica, il meccanismo della ricostruzione di quanto -all’interno della scena – non viene visivamente percepito perché nascosto, è stato abilitato da uno schema che i ricercatori del Gwangju Institute of Science and Technology hanno denominato Hierarchical Occlusion Modeling (HOM), il quale:

«… lavora assegnando una precisa gerarchia alla combinazione di una serie di caratteristiche dell’oggetto – tra cui forma, dimensioni, presenza nello spazio – e al loro ordine di previsione»

L’intero metodo Unseen Object Amodal Instance Segmentation poggia su questa modellazione gerarchica. E gli esperimenti condotti dal team di studio hanno dimostrato che esso è in grado, in un’unica struttura, di procedere alla rilevazione del visibile e del non visibile (perché occluso), indipendentemente dalla categoria degli oggetti in questione.

Nella robotica, la simulazione della percezione amodale (propria dell’occhio umano) – ricordano i ricercatori – è utile alla gestione dell’occlusione all’interno degli spazi in cui la macchina opera, in primis nell’ambito delle operazioni di prelievo e di recupero di oggetti occlusi, «in cui decidere l’ordine corretto delle azioni, è fondamentale».

La percezione amodale è richiesta anche in altri compiti di robotica, tra cui la ricerca di determinati oggetti in uno spazio non ordinato, la presa e la percezione attiva.

L’obiettivo al quale punta, però, in questa fase il GIST ha a che vedere con la manipolazione robotica, col lavoro diretto della macchina sull’oggetto inizialmente percepito come poco (o affatto) visibile. Si pensi solo ai siti produttivi e alla logistica, ambienti per definizione non ordinati e popolati da oggetti eterogenei, spesso sovrapposti e occludenti, in cui i robot hanno compiti che prevedono il contatto diretto con questi.

Recupero dell’oggetto occluso mediante il metodo Unseen Object Amodal Instance Segmentation (UOAIS): raccogliere l'oggetto target (la tazza del riquadro a) in una scena destrutturata (b), afferrare gli oggetti non occlusi in sequenza (riquadro c) e la ciotola (d), possono divenire azioni facilmente eseguibili per un robot (e). (Fonte: “Unseen Object Amodal Instance Segmentation via Hierarchical Occlusion Modeling”, Gwangju Institute of Science and Technology - https://arxiv.org/pdf/2109.11103.pdf).
Recupero dell’oggetto occluso mediante il metodo Unseen Object Amodal Instance Segmentation (UOAIS): raccogliere l’oggetto target (la tazza del riquadro a) in una scena destrutturata (b), afferrare gli oggetti non occlusi in sequenza (riquadro c) e la ciotola (d), possono divenire azioni facilmente eseguibili per un robot (e). (Fonte: “Unseen Object Amodal Instance Segmentation via Hierarchical Occlusion Modeling”, Gwangju Institute of Science and Technology – https://arxiv.org/pdf/2109.11103.pdf).

Visione artificiale per la robotica: gli scenari aperti dallo studio del GIST

Questo studio in tema di visione artificiale per la robotica prosegue nella direzione della ricerca che ha come oggetto lo sviluppo di sistemi di intelligenza artificiale in grado di dare vita a macchine sempre più somiglianti all’uomo, nei processi cognitivi e nel comportamento.

Nel caso specifico della visione artificiale, già il Massachusetts Institute of Technology (MIT), in uno studio sull’emulazione della “visione periferica umana”, si è spinto oltre, ipotizzando, in futuro, la progettazione di un sistema AI resistente agli elementi contraddittori percepiti nel proprio campo visivo.

In particolare, lo studio dell’Ateneo coreano tenta di riprodurre in laboratorio la “deduzione visiva”, abilità che, in futuro, consentirebbe a un veicolo a guida autonoma di identificare – in modo automatico – in una strada cittadina, l’area parcheggio parzialmente nascosta da una fila di auto o la figura di un pedone occlusa da un camion.

In scenari che includono luoghi di lavoro come siti di produzione e magazzini, robot dotati di percezione modale, oltre a soddisfare l’esigenza di performance più puntuali e più rapide, rispondono a requisiti di sicurezza in cui il sempre più corretto riconoscimento degli oggetti che popolano l’ambiente e la loro sempre più esatta classificazione rappresentano fattori preponderanti.

La strada della ricerca, dunque, è tracciata e in attesa di ulteriori elementi che ne arricchiscano i percorsi.

Scritto da:

Paola Cozzi

Giornalista Leggi articoli Guarda il profilo Linkedin