Gli informatici dell’Università del Texas hanno scoperto come allenare i robot a percepire lo spazio circostante, impiegando un supercomputer e un sistema di reti neurali. La soluzione consiste nel creare, attraverso nuvole di punti, scenari realistici in cui le macchine possano operare in maniera autonoma.
TAKEAWAY
- Potenziare le abilità visive dei robot è l’obiettivo di uno studio condotto da un gruppo di ricercatori dell’Università del Texas.
- Cuore della loro scoperta è il PCGAN, prima rete generativa avversativa in grado di creare dense nuvole di punti in apprendimento non supervisionato.
- Con l’elaborazione di nuvole di punti 3D, sono stati ottenuti oggetti che serviranno ad allenare i robot a percepire l’ambiente circostante.
La percezione sensoriale è un aspetto su cui la robotica sta facendo grandi passi in avanti. Dai film di fantascienza arriva spesso il messaggio che tutti i robot siano in grado di imitare l’uomo alla perfezione, a cominciare dall’aspetto, ma in realtà, i cosiddetti “umanoidi” sono soltanto una piccola parte degli esemplari esistenti.
Un recente studio dell’Università del Texas – pubblicato lo scorso 19 gennaio su Science Daily – spiega come la tecnologia può migliorare l’apprendimento automatizzato lavorando su ricezione di input esterni e abilità visive.
La ricerca propone soluzioni riguardanti gli spostamenti del robot in un determinato ambiente e, nello specifico, si interroga sulla possibilità di potenziarne la percezione sensoriale, trovando sviluppi interessanti.
La particolarità della ricerca consiste nell’impiego di un potente supercomputer e nell’incrocio tra robotica e mondo delle tecnologie 3D. Vediamo allora quali sono i segnali che derivano da questa innovazione e l’impatto che si potrà avere in futuro.
Percezione sensoriale attraverso le nuvole di punti 3D
La ricerca si è svolta tra la sede di Austin dell’Università texana e la sede di Arlington dell’Ateneo, dove si trova il Robotic Vision Laboratory, fondato da William Beksi, tra gli autori dello studio.
La sua attività, sin dalle prime esperienze professionali, consiste nello sviluppo di sistemi hardware e software che abbiano una percezione sensoriale circoscritta all’ambiente in cui si muovono e attuabile anche in presenza di altri oggetti. Ha spiegato:
“In particolare, sono interessato a sviluppare algoritmi che consentano alle macchine di imparare dalle loro interazioni con il mondo fisico, acquisendo in maniera autonoma le competenze per eseguire compiti di alto livello”
I primi risultati sono stati resi pubblici alla Conferenza Internazionale sulla Visione 3D, a novembre del 2020, con la presentazione di PCGAN (Progressive Conditional Generative Adversarial Network), prima rete generativa avversativa condizionale in grado di creare dense nuvole di punti in apprendimento non supervisionato.
Ma andiamo ad analizzare le singole parti che compongono questa definizione, contenuta nella pubblicazione scientifica “A Progressive Conditional Generative Adversarial Network for Generating Dense and Colored 3D Point Clouds”, diffusa dal portale della Cornell University.
Le reti generative avversative (dette anche “reti generative avversarie” o ”reti antagoniste generative”), note come GAN (Generative Adversarial Network), nell’ambito dell’apprendimento automatico, fanno riferimento a una metodologia in cui due reti neurali artificiali vengono addestrate in maniera competitiva.
L’unicità di PCGAN sta nell’utilizzo delle “nuvole di punti” – dette anche “point cloud” – ovvero “un insieme di punti caratterizzati dalla loro posizione in un sistema di coordinate e da valori di intensità ad essi associati”. Solitamente le GAN funzionano attraverso un gioco di scambi in cui due reti comunicano tra loro una serie di dati, fino a creare un sistema autonomo che non ha più bisogno di input esterni, né da parte dell’uomo né di altri soggetti automatizzati.
Si raggiunge, così, uno stadio che, nel machine learning, è chiamato “apprendimento non supervisionato”, in cui il sistema diventa “autonomo” nel percepire la realtà che lo circonda.
La percezione sensoriale delle macchine come nuova chiave per guardare il mondo
Il team dell’università texana ha deciso di andare oltre la prospettiva dell’uomo, per concentrarsi sulla percezione sensoriale delle macchine. L’intuizione è stata quella di unire le potenzialità dell’automazione alle tecnologie 3D, seguendo la scia della computer vision.
Per ottenere immagini dettagliate dell’ambiente circostante, il team ha utilizzato una fotocamera a 360 gradi, abbinandola a un sistema informatico, detto “sistema ciberfisico”, caratterizzato da un’elevata percezione sensorialedello spazio fisico in cui si trova. Osserva William Beksi:
“Il nostro metodo di lavoro permette di avere dati praticamente illimitati, a partire dai quali si possono incrementare le potenzialità dei robot. Ma questa volta abbiamo dovuto fare un passo indietro, esaminando le ultime ricerche e decidendo di partire da una scala più piccola, generando cioè oggetti semplici”
Nell’ottica di costruire un ponte tra intelligenza artificiale e programmazione 3D, sono risultate essenziali le Graph Convolutional Networks (GCNs), reti neurali che intervengono direttamente sulla struttura dei grafici.
Le GCNs apprendono le modalità di distribuzione 3D, dando vita a nuvole di punti colorati con dettagli precisi a più risoluzioni. Il processo si innesta a partire da un vasto database di modelli CAD (computer-aided design), progetti in 3D di manufatti reali e virtuali eseguiti con l’ausilio di software specifici.

L’utilizzo del supercomputer e le prospettive future della ricerca texana
Per intervenire sulla percezione sensoriale dei robot è stato necessario progettare ogni singolo dettaglio e, anche in questo caso, procedere manualmente sarebbe stato quasi impossibile.
“Una progettazione di tipo manuale – aggiunge Mohammad Samiul Arshad, ricercatore coinvolto nello studio – avrebbe richiesto un’enorme quantità di risorse e di energia. Le reti generative, se impostate correttamente, possono ottenere risultati importanti in pochi secondi”.
Per una risoluzione efficace del problema, è stato utilizzato il supercomputer Maverick 2, una risorsa di deep learning messa a disposizione dal Texas Advanced Computing Center (TACC), nell’ambito del programma Research Cyberinfrastructure.
Nella fase di test non è stata selezionata una sola tipologia di oggetti, ma classi assortite che vanno da complementi di arredo come tavoli e divani a mezzi di trasporto quali aerei e motociclette.
Per ciascuno di essi, PCGAN ha appreso innanzitutto la struttura di base ed è passato gradualmente a memorizzare i vari dettagli per offrire una maggiore definizione, riguardante ad esempio le luci e i colori.
“Volendo aumentare la risoluzione per includere più punti e dettagli – ricorda Beksi – cresce il costo degli strumenti necessari. Abbiamo generato centinaia di megabyte di dati al secondo, considerando che ogni nuvola è composta da circa 1 milione di punti. Una quantità enorme, che richiedeva uno spazio di archiviazione molto capiente. Ecco perché abbiamo utilizzato il supercomputer”.
Un dataset così ricco ha permesso di ampliare gli orizzonti della ricerca: la prossima tappa sarà quella di rendere le simulazioni effettuate in laboratorio sempre più vicine alla realtà, un procedimento che prende il nome di sim2real. Per fare ciò, il team sta cercando di “catturare” determinati elementi fisici all’interno dell’ambiente, ad esempio il passaggio della luce, avvalendosi del rendering, la messa a punto di modelli 3D con strumenti informatici.
Una volta raccolte tutte queste informazioni, il software sarà pronto per essere applicato in vari ambiti, dalla sanità ai processi industriali fino al settore dell’agricoltura. La possibilità di avere robot con una percezione sensoriale a 360 gradi avrà sicuramente degli impatti molto concreti in futuro, seguendo la direzione avviata dall’Università del Texas.