Essere in grado di identificare con precisione anche gli oggetti sovrapposti, occlusi, in contesti non strutturati e segnati dal disordine, non è un’abilità tipica delle macchine. Il recente lavoro dell’University of Washington torna sul tema, nell’ambizioso tentativo di riprodurre, nei robot di servizio, l’umano meccanismo di elaborazione degli stimoli visivi.

L’acquisizione delle abilità (incluse quelle relative alla percezione visiva) che rendono la macchina in grado di identificare in modo sempre più preciso e puntuale l’ambiente in cui è inserita e opera, è tra gli ambiti sui quali maggiormente investe l’attività di ricerca in tema di robotica, con riferimento anche ai robot di servizio.

In particolare, questi ultimi – secondo le definizioni di robot e di robotica contenute nella norma ISO 8373:2021 – sono macchine «per uso personale o professionale, che svolgono compiti utili per l’essere umano o per le apparecchiature». Dove, per “uso personale”, si intendono «la manipolazione di oggetti, il loro trasporto, la cucina e la pulizia» e, “per uso professionale”, «l’ispezione, la sorveglianza, la movimentazione di oggetti, il trasporto di persone, la fornitura di indicazioni o di informazioni, la cottura e la manipolazione degli alimenti e la pulizia».

La domanda che, da sempre, segna gli studi in questo settore riguarda il modo in cui i robot percepiscono l’ambiente che li circonda, ossia “come” essi vedono gli oggetti, qual è la loro capacità di riconoscerli, al di là del fatto che si tratti di robot di servizio concepiti per applicazioni casalinghe, per l’ufficio, il negozio, il magazzino o il sito di produzione.


L’occhio umano riconosce anche quegli elementi della scena che sono nascosti, non percepibili nella loro interezza, associando le caratteristiche che riesce a cogliere (forma, colore, posizione) all’oggetto intero memorizzato attraverso l’esperienza. I robot no.
Il sistema sviluppato dai ricercatori USA, coniugando topologia computazionale e tecniche di apprendimento automatico, a partire dalla forma degli oggetti occlusi, crea rappresentazioni 3D di ciascuno di loro, dopodiché le classifica e, infine, le confronta con una libreria di rappresentazioni precedentemente memorizzate.
Tra i possibili impatti futuri dell’evoluzione del sistema messo a punto, anche quelli di natura economica, riguardanti, in particolare, il mondo del lavoro, con l’aumento della richiesta di robot di servizio potenziati e performanti in quei settori che già oggi, in tutto il mondo, maggiormente risentono della carenza di personale.

La percezione visiva dei robot di servizio: mancano competenze quali “unità dell’oggetto” e “costanza dell’oggetto”

Iniziamo col dire che le attività di rilevamento dell’ambiente esterno richiedono sensori o telecamere installati a bordo delle macchine, per aiutarle a localizzare loro stesse e gli oggetti che sono chiamate a manipolare.

Una delle questioni attorno alla quale, specie negli ultimi anni, ruotano molti lavori sulla percezione visiva delle macchine, ha a che vedere con la difficoltà – da parte dei robot di servizio impegnati nei magazzini, così come nelle abitazioni – nell’identificare gli oggetti troppo vicini tra lorosovrapposti oppure inseriti all’interno di uno spazio affollatopoco ordinato, non strutturato, come ci ricorda un team di ricercatori del Department of Mechanical Engineering presso l’University of Washington, a Seattle, in “Persistent Homology Meets Object Unity: Object Recognition in Clutter”, lavoro reso pubblico nell’ultimo numero (vol. 40, 2024) della rivista scientifica IEEE Transactions on Robotics. La ragione di tale difficoltà visiva – spiegano – sta nel fatto che:

«… alle macchine manca quello che in psicologia viene definita “unità dell’oggetto”, ovvero la capacità dell’apparato visivo umano di identificare gli elementi che compongono la scena anche quando non è possibile vederli tutti per intero o in modo ordinato»

Il meccanismo cognitivo che si mette in moto in questi casi è dato dall’associare quanto si riesce a percepire dell’oggetto nascosto all’oggetto originale tutto intero che la persona ha in memoria. Anche se spesso «le rappresentazioni degli oggetti in memoria sono solo punti di vista selezionati. Ecco, allora, che gli esseri umani “normalizzano” la visione dell’oggetto occluso, “ruotandolo” secondo un orientamento standard» precisa il gruppo di studio.

Questa competenza, propria del sistema visivo umano, che ci dà la certezza che gli oggetti rimangono gli stessi, indipendentemente dal modo in cui un contesto destrutturato e affollato ce li fa percepire (occlusipoco visibiliperché nascosti), in psicologa viene definita “costanza dell’oggetto”.

Ma andiamo più in profondità, per capire di quali tecniche e metodologie la robotica deve potersi avvalere per fare fronte a queste mancanze nella percezione visiva delle macchine e permettere loro di eseguire con efficienza e in sicurezza i compiti assegnati.

Alcuni approcci di ricerca del passato

Nell’ultimo decennio, gli studi sul tema si sono basati prevalentemente sull’impiego di modelli di deep learning deputati all’identificazione degli oggetti presenti nella scena, con prestazioni importanti in compiti specifici. Prestazioni che, tuttavia, calano nel momento in cui si passa ad applicazioni più generiche, in condizioni ambientali caratterizzate da disordine e da spazi destrutturati [fonte: “A survey of modern deep learning based object detection models” – Science Direct].

A luglio del 2022, il lavoro del Massachusetts Institute of Technology (MIT) propose un metodo alternativo, integrando una telecamera e due antenne RF in un braccio robotico, con l’obiettivo di localizzare ed estrarre oggetti provvisti di Tag, sepolti all’interno di pile di altri oggetti.

Anche in questo caso, però, commenta il team di dell’University of Washington «la sfida legata allo sviluppo di un metodo di riconoscimento degli oggetti per robot di uso quotidiano – come quelli di servizio – che esige di mantenere l’invarianza delle prestazioni a prescindere dal grado di illuminazione, dallo sfondo e dal livello di disordine nell’ambiente, non è stata completamente vinta».

Il framework “persistent homology”

A tale riguardo, gli autori citano un loro precedente studio (ottobre 2022) sulla percezione visiva dei robot (“Visual object recognition in indoor environments using topologically persistent features“, apparso sulla testata IEEE Robotics and Automation), in cui hanno tentato di seguire una linea diversa, proprio per conseguire l’obiettivo della “invarianza delle prestazioni” anche in contesti sconosciuti, qualsiasi cosa accada nello spazio in esame. Nel dettaglio, si sono avvalsi della cosiddetta “omologia persistente” (o “persistent homology”), vale a dire di un framework che viene usato per l’analisi di quelle tipologie di dati che variano nel tempo, così come quelli relativi alle caratteristiche topologiche di un determinato luogo [fonte: “Persistent Homology” – ScienceDirect].

Nel caso specifico, i ricercatori lo hanno applicato per «tracciare l’evoluzione delle peculiarità topologiche, al fine di ottenere caratteristiche basate sulla forma 2D dalle mappe di segmentazione degli oggetti per il loro riconoscimento». E, in un altro studio ancora – raccontano – l’omologia persistente è stata impiegata per acquisire informazioni topologiche «da nuvole di punti di oggetti generati da immagini di profondità per il riconoscimento, utilizzando informazioni sulla forma 3D».

Che cosa è accaduto dopo? Che, testati nella percezione di oggetti nascosti (occlusi), entrambi i metodi hanno fallito, poiché:

«… quando gli oggetti sono occlusi, le forme 2D e 3D nelle corrispondenti mappe di segmentazione differiscono da quelle degli oggetti non occlusi, rendendo, così, difficile il loro riconoscimento»

La percezione visiva dei robot di servizio: il metodo che coniuga topologia computazionale e machine learning

Nel lavoro sulla percezione visiva dei robot illustrato in IEEE Transactions on Robotics, invece, per ottenere il riconoscimento degli oggetti in ambienti disordinati e sconosciuti da parte della macchina, il team è andato oltre, ricorrendo di nuovo all’omologia persistente, ma combinandola – questa volta – con uno strumento di topologia computazionale e con la riproduzione, mediante tecniche di machine learning, di meccanismi cognitivi peculiari dell’elaborazione degli stimoli visivi nell’essere umano.

In particolare, il framework dell’omologia persistente è stato utile per sviluppare uno strumento topologico con funzioni di “descrittore” della scena, chiamato dagli autori TOPS, acronimo di Topological features Of Point cloud Slices.

E, a sua volta, TOPS è servito a mettere a punto un modello di apprendimento automatico per il riconoscimento degli oggetti nascosti in contesti non strutturati: si chiama THOR, acronimo di TOPS for Human-inspired Object Recognition, e imita la competenza cognitiva fondata sull’unità dell’oggetto. Come funziona, nel concreto?

Il sistema THOR consente al robot di riprodurre quel comportamento che, nell’essere umano, deriva dal sapere che gli oggetti parzialmente visibili non sono rotti, né spezzati. E lo fa, specificano i ricercatori, «sfruttando la forma degli oggetti presenti sulla scena, per creare una rappresentazione 3D di ciascuno di loro. Fatto questo, utilizza TOPS per assegnare ciascun oggetto a una classe di articoli definita “molto probabile”, confrontando la sua rappresentazione 3D con una libreria di rappresentazioni precedentemente memorizzate».

Alcuni risultati dei test eseguiti dal team di studio, i quali mostrano il riconoscimento del campione di oggetti occlusi ottenuto utilizzando il sistema THOR, a bordo di un robot di servizio all'interno di un magazzino [fonte: “Persistent Homology Meets Object Unity: Object Recognition in Clutter” - IEEE Transactions on Robotics - https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10363683].
Alcuni risultati dei test eseguiti dal team di studio, i quali mostrano il riconoscimento del campione di oggetti occlusi ottenuto utilizzando il sistema THOR, a bordo di un robot di servizio all’interno di un magazzino [fonte: “Persistent Homology Meets Object Unity: Object Recognition in Clutter” – IEEE Transactions on Robotics – https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10363683].

L’addestramento di THOR non è stato affidato a dataset di generiche immagini che ritraggono stanze in disordine, con oggetti sparsi e sovrapposti, ma a immagini 3D di una serie di oggetti presi singolarmente. A tale proposito, puntualizzano i ricercatori dell’University of Washington:

«La funzione “descrittore” di TOPS cattura la forma dettagliata degli oggetti presenti sulla scena, garantendo, allo stesso tempo, somiglianze nei descrittori degli oggetti occlusi e dei corrispondenti oggetti non occlusi. THOR, a sua volta, utilizza questa somiglianza, eliminando così la necessità di dati di addestramento estesi, che rappresentino in modo completo tutti i possibili scenari di occlusione»

Glimpses of Futures

Il modello di percezione visiva descritto, concepito per favorire e potenziare, nelle macchine, le competenze correlate al riconoscimento degli oggetti occlusi in spazi affollati e non strutturati – fanno sapere gli autori – è applicabile a qualsiasi robot di servizio per interni, sia ad uso personale che professionale, compresi i sistemi robotici che operano nelle abitazioni private, negli uffici, nei negozi, nei magazzini o negli stabilimenti di produzione.

In tutti questi contesti, in cui il flusso di persone in transito è piuttosto elevato e la presenza di oggetti è assai elevata, il disordine potrebbe raggiungere livelli tali da rendere addirittura non visibili – persino all’occhio umano – alcuni articoli. Ecco che, in scenari così critici, diventa strategico disporre di una macchina in grado di cogliere anche gli oggetti più nascosti, per poterli prelevare, spostare, trasportare, manipolare.

Per andare sempre più incontro a questa esigenza, la ricerca futura – avverte il team – dovrà focalizzarsi su aspetti che non siano soltanto quelli relativi alla forma degli oggetti nascosti da rilevare, ma che tengano conto anche di questioni quali il colore, la trama e le etichette di testo, che definiscono l’esteriorità degli oggetti presenti in un dato ambiente.

Con l’obiettivo di anticipare scenari futuri e alternativi, proviamo ora a valutare – per mezzo della matrice STEPS – i possibili impatti che, nei robot di servizio, l’evoluzione delle tecniche (come quella descritta) volte a ottimizzare la percezione visiva, rendendola più aderente alle prestazioni dell’occhio umano, potrebbe avere sotto il profilo sociale, tecnologico, economico, politico e della sostenibilità.

S – SOCIAL: in futuro, robot di servizio professionali, presenti, ad esempio, in luoghi di lavoro come i magazzini, capaci di identificare automaticamente e con precisione, anche nel caos, gli oggetti sovrapposti e collocati in modo disordinato sugli scaffali, potranno svolgere in piena autonomia, con più efficienza e più rapidità, anche i compiti più complessi, tra cui quelli inerenti alla movimentazione e allo stoccaggio delle merci. Per quanto concerne, invece, i robot di servizio personali, come quelli destinati all’ambito domestico, la rilevazione sempre più puntuale di oggetti occlusi equivarrà a una maggiore sicurezza della macchina, in quanto questa – una volta localizzati anche gli articoli nascosti – sarà nelle condizioni di muoversi con più padronanza per raggiungerli.

T – TECHNOLOGICAL: se, come annunciato dal gruppo di lavoro, l’evoluzione del modello di percezione visiva per robot di servizio qui descritto vedrà l’ampliamento delle proprie funzioni, con l’obiettivo di consentire la rilevazione di oggetti nascosti a partire da attributi diversi rispetto a quello che ha a che vedere con la forma, tra cui anche la tipologia del materiale di cui sono fatti, si potrebbe prevedere, in futuro, l’uso di altre metodologie e tecniche a corredo della topologia computazionale e dell’apprendimento automatico, tra cui sensori ultra sensibili a bordo di una mano robotica, tali da riprodurre – con l’ausilio di reti neurali artificiali sviluppate ad hoc – anche la sensibilità tattile nella macchina.

E – ECONOMIC: l’impatto, sotto il profilo economico, dato dall’evoluzione delle abilità visive dei robot di sevizio, riguarderà preminentemente il mondo del lavoro. E per un problema diametralmente opposto rispetto a quello sul quale siamo soliti focalizzarci, ovvero il rischio di disoccupazione in seguito a un’automazione più spinta. Oggi, a livello globale, molteplici settori risentono di una generale carenza di personale. È il caso – solo per fare qualche esempio – dei comparti della ristorazione e dei piccoli lavori edili, nell’ambito dei quali, in futuro – come fa notare l’International Federation of Robotics – i robot di servizio potenziati e performanti saranno sempre più richiesti, in veste di camerieri che servono i piatti ai tavoli o di robot di verniciatura. Il che, peraltro, già accade nel nostro Paese, così come nel resto del mondo (USA e Cina in testa).

P – POLITICAL: l’impiego di sistemi robotici solleva, da sempre, dubbi e quesiti legati al loro grado di sicurezza, specie quando – come nel caso dei robot di servizio – questi si trovano a operare a contatto con le persone, tra cui possono esserci anche bambini (pensiamo a un’abitazione o a un ristorante). E non solo come semplici addetti alla pulizia, ma anche come incaricati alla manipolazione di oggetti e al loro trasporto. Nel caso specifico di macchine che, grazie a tecniche di intelligenza artificiale a bordo, possiedono la capacità di rilevare con esattezza che cosa e chi è presente nell’ambiente, massima attenzione, da parte dei produttori, va posta nell’assumere un comportamento etico e trasparente nei confronti degli utenti, ai quali si dovranno fornire informazioni esaustive sul corretto utilizzo dei robot di servizio, nonché in materia di privacy e riservatezza dei dati. Ricordiamo che, a gennaio 2024, è stata approvata la versione definitiva del testo dell’AI Act – regolamento europeo sull’artificial intelligence – che verrà votato a breve da Consiglio Europeo, i cui principi fondamentali vertono proprio sulle garanzie di sicurezza e di trasparenza da parte di progettisti e sviluppatori di sistemi AI.

S – SUSTAINABILITY: in un possibile scenario futuro, l’impatto, sotto il profilo della sostenibilità ambientale e sociale, dei robot di servizio dalla percezione visiva sempre più vicina a quella dell’essere umano, potrebbe vedere al centro gli obiettivi fissati dal Green Deal europeo, che punta, da qui al 2050, a traghettare l’UE verso la neutralità climatica, avvalendosi anche del digitale e delle tecnologie più innovative. Ecco che, nei prossimi venticinque anni, il numero di robot di servizio impiegati in agricoltura in qualità di “robot agricoli”, potrebbe aumentare esponenzialmente, a sostegno della “politica verde” dell’Europa.

Scritto da:

Paola Cozzi

Giornalista Leggi articoli Guarda il profilo Linkedin