L’evoluzione dei robot passa dalla loro capacità di comprendere lo spazio in cui si muovono e di procedere in modo indipendente ma collaborativo. A questo lavora Luca Carlone del MIT

Noi esseri umani lo diamo per scontato, ma la percezione spaziale dei robot è tutt’altro che semplice. La comprensione pressoché immediata di ciò che li circonda, rilevando informazioni complesse su modelli, oggetti e la propria posizione nell’ambiente è intuitiva nell’uomo, ma per una macchina rappresenta una questione assai complessa. C’è però chi sta lavorando perché diventi semplice anche per sistemi robotici: tra i più avanzati a questo proposito è lo SPARK Lab del Massachusetts Institute of Technology (MIT). Direttore del “Sensing, Perception, Autonomy, and Robot Kinetics Lab” è Luca Carlone, professore associato presso il Dipartimento di Aeronautica e Astronautica, nonché principal investigator al MIT Laboratory for Information & Decision Systems (LIDS).

Italiano di origine, laurea e specializzazione in Ingegneria meccatronica al Politecnico di Torino, Carlone da anni si occupa dello studio e della ricerca dedicati ai sistemi robotici intelligenti, ottenendo numerosi riconoscimenti.

Luca Carlone, Direttore del “Sensing, Perception, Autonomy, and Robot Kinetics Lab”, professore associato presso il Dipartimento di Aeronautica e Astronautica, principal investigator al MIT Laboratory for Information & Decision Systems (LIDS).
Luca Carlone, Direttore del “Sensing, Perception, Autonomy, and Robot Kinetics Lab”, professore associato presso il Dipartimento di Aeronautica e Astronautica, principal investigator al MIT Laboratory for Information & Decision Systems (LIDS).

In particolare l’interesse suo e del Lab che dirige è focalizzato sulla percezione spaziale, ovvero la capacità del robot di percepire e comprendere l’ambiente circostante. È un fattore chiave per muoversi, manipolare, e interagire con l’uomo. I recenti progressi negli algoritmi e nei sistemi di percezione hanno consentito ai robot di creare mappe geometriche su larga scala di ambienti sconosciuti e di rilevare oggetti di interesse. Nonostante questi progressi, c’è ancora un grande divario tra la percezione robotica e quella umana. Ed è qui che opera Luca Carlone, convinto che arrivare a un’evoluzione sensibile su questo tema avrà sensibili risvolti per molti settori, dall’impiego dei robot nell’industria allo sviluppo delle auto a guida autonoma. Solo quest’ultimo mercato si prevede in enorme crescita: Statista stima che raggiungerà i 2300 miliardi di dollari nel 2030, partendo da 106 miliardi di dollari del 2021.

Takeaway

Istintiva e naturale per gli esseri umani, la percezione spaziale dei robot è materia altamente complessa, ma è fondamentale per garantire la possibilità che essi si possano muovere in maniera indipendente e sicura nei più disparati ambienti.
Per creare le condizioni affinché i sistemi robotici possano contare su una percezione spaziale quanto più simile a quella umana lavora lo Spark Lab del Massachusetts Institute of Technology, diretto dall’italiano Luca Carlone, docente del MIT.
Le prospettive che si aprono, anche grazie all’adozione di tecniche di AI, sono molteplici anche sistemi multi robot: dalle operazioni di ricerca e soccorso all’automazione industriale fino alla logistica e alle auto a guida autonoma.

I progressi raggiunti oggi nella percezione spaziale dei robot

Come riportato in un recente articolo pubblicato dal MIT, un team guidato da Carlone ha messo a punto e rilasciato Kimera, una libreria open source che consente a un singolo robot di costruire una mappa tridimensionale del suo ambiente in tempo reale, etichettando diversi oggetti in vista. Nel 2022, due anni dopo, i gruppi di ricerca di Carlone e Jonathan How (SPARK Lab e Aerospace Controls Lab) hanno introdotto Kimera-Multi, un sistema aggiornato in cui più robot comunicano tra loro per creare una mappa unificata. Questa scoperta e l’articolo pubblicato hanno valso a Carlone e How, oltre ai loro team di ricerca, di ricevere l’IEEE Transactions on Robotics King-Sun Fu Memorial Best Paper Award 2023, assegnato al miglior articolo pubblicato sulla rivista nell’anno precedente.

movimentazione robot in ambienti complessi Kimera multi
Movimentazione robot in ambienti complessi (Kimera-Multi)

Professor Carlone, quali sono gli aspetti da considerare nella percezione spaziale dei robot?

Oltre che di notevole importanza, la percezione spaziale dei robot è una questione affascinante, perché alla facilità con cui risolviamo la questione come esseri umani corrisponde una forte difficoltà tecnica nell’affrontare queste sfide nei nostri robot. È ben spiegato dal paradosso di Moravec, che afferma: nell’intelligenza artificiale le cose difficili appaiono semplici, mentre le cose semplici sembrano molti difficili. Pensiamo alla disarmante facilità di un sistema di AI di giocare a scacchi o a Go o di risolvere problemi complessi per gli esseri umani che richiedono un’elevata capacità di ragionamento in pochissimo tempo. Al contrario, muoversi nell’ambiente o manipolare oggetti, attitudini innate e semplici anche per un bambino, sono ancora molto critiche per i robot.

La percezione robotica è stata studiata dal punto di vista di ricostruzione tridimensionale. In sostanza, un sistema robotico, dotato di sensori, come ad esempio una telecamera o un Lidar, per navigare in maniera autonoma, deve ricostruire un modello 3D dell’ambiente.

Si parla in questo caso di SLAM (simultaneous localization and mapping), un metodo che consente di mappare ambienti sconosciuti. I robot utilizzano le informazioni della mappa per svolgere attività come la pianificazione del percorso ed evitare ostacoli.

La ricerca su SLAM è iniziata a cavallo degli anni Ottanta e Novanta e negli anni sono stati fatti passi da gigante. Il problema è stato affrontato e ci sono soluzioni tecniche efficaci studiate e impiegate da tempo anche nello SPARK Lab. Sono alla base di robot, droni, ma anche nei visori per la realtà virtuale e aumentata.

Quindi, è stata svolta molta attività di ricerca negli anni per comprendere la geometria dell’ambiente in modo da assicurare che il robot potesse spostarsi evitando ostacoli.

Tuttavia, negli ultimi anni si è compreso che la percezione spaziale (dei robot e non solo) è molto più complessa di una questione geometrica.

percezione spaziale dei robot simulazione MIT
Percezione spaziale dei robot – simulazione MIT

Cosa significa in pratica?

Noi esseri umani non solo comprendiamo la presenza di ostacoli, ma quando ci guardiamo intorno, riusciamo a dare un significato a tutto ciò che ci sta intorno. In pratica quello che ci troviamo di fronte non lo interpretiamo solo come spazio vuoto oppure occupato da ostacoli, ma comprendiamo bene la semantica, ovvero il significato degli oggetti, anche in maniera molto complessa. Comprendiamo, per esempio, la presenza di persone ed oggetti intorno a noi, il fatto che ci troviamo in una stanza, e che essa fa parte di un edificio, e quindi formiamo una rappresentazione molto complessa di cose statiche e dinamiche. La percezione spaziale è un processo che, a partire da dati sensoriali, permette di costruire un modello molto complesso della realtà circostante che abbiamo ben chiaro nella nostra mente. L’elemento più interessante negli ultimi dieci anni, ottenuto anche grazie ai progressi in artificial intelligence, è rappresentato dal fatto che la parte semantica è diventata molto più accessibile.

Prima dell’AI era molto complicato risolvere compiti come identificare e riconoscere oggetti. Ora, modelli di deep learning permettono di identificare i pixel nell’immagine e di farli corrispondere a determinati oggetti.

Ciò che abbiamo svolto nel lavoro con Kimera-Multi è stato di portare la parte di semantica al livello successivo. Per questo si è proceduto a costruire una mappa in 3D che contiene la parte geometrica e semantica. Questo permette a robot che si muovono in un ambiente sconosciuto, privi di GPS e di alcun riferimento assoluto su dove si trovano, utilizzando unicamente i dati sensoriali ottenuti da telecamere e sensori inerziali, di ragionare e di riuscire a costruire un modello tridimensionale che contiene sia informazioni geometriche che semantiche. Il robot, quindi, riesce a capire anche il tipo di oggetti con questa interfaccia.

Quindi, oggi i sistemi robotici riescono a capire molto meglio dove si trovano e cosa li circonda?

Proprio così. L’elemento di novità è aver permesso ai robot di avere una comprensione di più alto livello: essi, quindi, capiscono aspetti semantici della scena, elementi chiave per completare compiti di alto livello, compresa la navigazione e la ricerca di oggetti, l’interazione con esseri umani, e moltissimi altri ancora. Ora abbiamo sviluppato un sistema in cui più robot comunicano tra loro per creare una mappa unificata, con l’obiettivo che essi abbiano una rappresentazione condivisa dell’ambiente, in modo da coordinarsi per svolgere azioni.

Tuttavia, la questione è assai complessa. La difficoltà nell’avere un modello unico è data dal fatto che i robot collezionano dati in maniera distribuita. Se poniamo, per esempio, dieci robot geograficamente molto distanti, essi collezionano dati molto voluminosi e in maniera distribuita, ma hanno difficoltà a scambiarseli. Uno degli scopi principali della nostra ricerca è progettare dei protocolli distribuiti in cui i robot continuano a scambiarsi una quantità minima di informazioni, cercando di raggiungere un’opinione condivisa su come la mappa e la loro traiettoria dovrebbe essere strutturata. In poche parole, due robot anziché inviare l’un l’altro tutte le immagini collezionate dalle rispettive telecamere, ogni volta che si vedono si scambiano una stima della reciproca posizione nel loro sistema di riferimento, migliorando le reciproche mappe. In questo processo si riesce così a convergere a una stima comune in cui tutti i sistemi sono in accordo. Questo è uno dei contributi principali del lavoro.

Ci sono altri aspetti considerevoli?

Sì. Un altro contributo importante riguarda una questione di robustezza di tali sistemi. Un conto è fare dimostrazioni in laboratorio, un altro è sviluppare un livello talmente affidabile da permettere di gestire più robot in ambienti esterni molto complicati. In questo momento la percezione spaziale dei robot è lontana da quella umana. In particolare, vogliamo arrivare al punto che in questi sistemi di mapping il robot sia sempre in grado di riconoscere se sta visitando un posto già conosciuto. Se il settore è già stato visitato, il robot deve essere in grado di riconoscere il luogo e quell’informazione è molto utile per migliorare la propria mappa. Inoltre, i robot devono anche riconoscere se stanno osservando una parte della mappa già visitata da un altro robot.

La difficoltà è legata al fatto che gli algoritmi di place recognition sono alquanto imprecisi, e risultati incorretti prodotti da questi algoritmi causano errori grossolani nella ricostruzione della mappa. Noi abbiamo dimostrato che è possibile implementare in maniera distribuita uno specifico algoritmo di stima robusta che ha sviluppato in passato il mio gruppo di ricerca. Mediante questo è possibile scambiarsi stime e misure in modo da formare una mappa corretta e condivisa nonostante potenziali errori negli algoritmi di place recognition.

Quali tecniche di intelligenza artificiale vengono utilizzate nella percezione spaziale dei robot?

In questo lavoro l’AI entra principalmente nella parte di semantica. Algoritmi di deep learning vengono usati per classificare pixel nell’immagine in termini di diverse classi semantiche. Quindi ogni pixel è classificato come un determinato oggetto e con una semantica associata e fornisce informazioni preziose per creare la mappa tridimensionale. Non solo: grazie a questo sistema, è possibile far sì che una stessa porzione di mappa venga osservata più volte in più immagini. Ciò permette di ridurre errori nel sistema d’intelligenza artificiale che magari va a classificare in modo non corretto alcuni pixel.

A livello di ricerca, che impegno c’è in questo settore e a cosa state lavorando ora e nei prossimi mesi?

Sono molti coloro che lavorano su sistemi multi robot e sulla percezione. I primi in particolare costituiscono una comunità all’interno di quella, ben più grande, della robotica e operano su più aspetti, consapevoli che sistemi di questo tipo sono più efficienti in molte circostanze. Penso, per esempio, alle operazioni di search and rescue, alla ricerca di sopravvissuti a seguito di un evento disastroso, dove la probabilità di riuscita è più alta se si può contare su più robot. Ma ci sono altri ambiti dove è possibile ottenere risultati migliori, contando su sistemi multi-robot.

Venendo agli sviluppi immediatamente successivi, occorre tornare alla percezione spaziale umana: essa non solo va oltre la geometria, ma va anche oltre gli oggetti. Come esseri umani, abbiamo una concezione non solo molto complessa, ma anche gerarchica della realtà, così da pianificare gli spostamenti in maniera molto efficiente. Pensiamo a quando progettiamo un viaggio: stabiliamo diversi passaggi a più livelli, pianificando spostamenti attraverso aeroporti, veicoli, e città. Stiamo cercando di replicare questo livello di comprensione per far sì che il robot formuli un’astrazione dell’ambiente gerarchica e cerchi di utilizzare questa rappresentazione per velocizzare il processo decisionale. A questo proposito, abbiamo messo a punto l’idea di “3D Scene Graph”, in cui si definiscono dei grafi in cui inserire diversi livelli di astrazione dell’ambiente e catturare informazioni sulle relazioni tra diversi oggetti o diverse entità nella scena. Questi modelli permettono di ragionare su relazioni tra diversi oggetti o tra diversi esseri umani — un aspetto importante per svolgere compiti di alto livello.

Stiamo lavorando su rappresentazioni più sofisticate e cercando di capire come costruire queste rappresentazioni in sistemi con uno o più robot. Inoltre, stiamo cercando di svilupparle come input per altri modelli di intelligenza artificiale, come il Reinforcement Learning, alla base del processo decisionale. Vogliamo capire come fornire questa rappresentazione di percezione, impiegando algoritmi d’intelligenza artificiale, in modo che i robot possano prendere delle decisioni in maniera più efficiente. Inoltre stiamo lavorando per risolvere, anche attraverso l’uso della geometria, un problema fondamentale degli algoritmi di AI riguardante la necessità di avere dei data set annotati molto ampi che sono alla base della AI per la comprensione di immagini.

L’efficacia degli algoritmi di artificial intelligence è data dalla disponibilità di data set molto voluminosi. Siamo consapevoli che in molti domini della robotica non c’è disponibilità di data set così ampi. Per questo intendiamo concentrarci sulla possibilità di fare self supervision, ossia di sviluppare sistemi che possano operare senza supervisione umana, collezionando dati senza annotazioni. I Large Language Models, come ChatGPT, funzionano in questo modo, ovvero in maniera non supervisionata, quindi imparano dal testo che c’è su internet senza molte annotazioni. È questa la frontiera su cui dobbiamo lavorare in robotica. Dobbiamo arrivare in futuro ad avere dei robot che osservano la realtà e, ragionando su di essa riescono a capire da soli e prendere decisioni, senza bisogno di interventi frequenti da parte di un operatore umano.

Quali saranno le applicazioni e i benefici futuri dei vostri studi e ricerche sulla percezione spaziale dei robot?

La ricerca e soccorso è un’applicazione molto importante: pensiamo alle opportunità di inviare robot per operazioni di soccorso, in aiuto a squadre o indipendenti, in aree colpite da un terremoto o da altri eventi disastrosi. In una recente competizione per sistemi robotici lanciata dalla DARPA (Agenzia statunitense per i progetti di ricerca avanzata della Difesa) si è puntato alla ricerca sotterranea. C’è grande interesse per sviluppare la capacità di mapping in ambienti sotterranei, perché essi sono molto difficili e molto rischiosi per gli esseri umani. Tra l’altro, questo tipo di ambienti è molto simile, per vari aspetti, all’esplorazione extraterrestre su altri pianeti.

Un altro contesto di grande interesse, sempre a proposito di percezione spaziale dei robot, è quello dell’industria e della logistica: già oggi Amazon sta impiegando nei propri magazzini dei robot che si muovono con guide virtuali sul pavimento. In futuro sarà molto interessante contare su robot capaci di muoversi in maniera autonoma in diversi ambienti, operando a fianco delle persone. Infine, la ricerca sulla percezione spaziale permetterà una significativa evoluzione nel campo dei sistemi di trasporto intelligenti. Penso, per esempio, alle auto, o anche ai camion, a guida autonoma capaci di comunicare tra loro, in modo da muoversi in maniera più efficace e collaborativa, aumentando considerevolmente il livello di sicurezza. 

Scritto da:

Andrea Ballocchi

Giornalista Leggi articoli Guarda il profilo Linkedin