Dall’approccio messo a punto da Google DeepMind al framework sviluppato dal MIT, l’obiettivo è uno: arrivare a definire policy di apprendimento robotico con cui addestrare macchine in grado di eseguire compiti differenti in contesti diversi, superando il concetto di “robot specializzato”.

L’apprendimento robotico è quell’ambito di studi della robotica focalizzato sulle tecniche di intelligenza artificiale (in particolare, sul machine learning) che consentono alla singola macchina, dalla più semplice alla più evoluta, di fare proprie determinate abilità e competenze, in base all’ambiente in cui è inserita e ai compiti che è chiamata a svolgere.

Abilità e competenze che vanno da quelle attinenti, ad esempio, all’area motoria, alla percezione spaziale e alla manipolazione, a quelle più complesse, riguardanti il riconoscimento e la classificazione di oggetti, la comprensione del linguaggio e l’interazione con l’essere umano.

«I robot sono grandi specialisti, ma poveri generalisti. In genere, è necessario addestrare un modello per ogni attività e ambiente. La modifica di una singola variabile spesso richiede di ricominciare da zero. Ma cosa accadrebbe se potessimo mettere assieme tutte le conoscenze della robotica e definire un modo per addestrare un robot multiuso?»

Questa domanda se l’è posta il team di ingegneri robotici di Google DeepMind prima di creare, a ottobre del 2023, con la collaborazione di trentatré laboratori accademici da tutto il mondo, quello che non esisteva ancora nel comparto e cioè un enorme open dataset, disponibile al mondo della ricerca, in cui sono stati raccolti i dati di addestramento di ventidue differenti tipi di robot.

L’obiettivo è sviluppare, a partire da una grossa mole di dati eterogenei, provenienti da Istituti di ricerca diversi e afferenti a macchine diverse, un modello di apprendimento “generalista” e versatile, per mezzo del quale consentire a più tipologie robot di acquisire molteplici abilità.


In un lavoro aggiornato di recente, Google DeepMind torna a sottolineare che è tempo di superare i metodi di apprendimento robotico convenzionali, per passare a una policy generalista, da adattare, di volta in volta, a nuove macchine, a nuovi compiti e a nuovi ambienti.
Il Computer Science and Artificial Intelligence Laboratory del MIT interviene sul tema proponendo, a sua volta, un metodo di addestramento di robot multiuso basato su una combinazione di dati provenienti da diverse fonti, supportato da una tecnica di intelligenza artificiale generativa.
In uno scenario futuro, poter contare su robot capaci di eseguire compiti mai eseguiti prima, adattandosi a mansioni non apprese durante l’addestramento, nei luoghi di lavoro – in particolare, nell’ambito dell’assistenza a persone non autosufficienti – si tradurrebbe in un supporto prezioso, specie di fronte a situazioni di emergenza e di pericolo per l’assistito.

L’apprendimento robotico “generalista”

Manifesto del lavoro di ricerca di Google DeepMind, l’articolo “Open X-Embodiment: Robotic learning datasets and RT-X models” – apparso per la prima volta su Computer Science il 13 ottobre 2023 e aggiornato il 1° giugno 2024 – in cui il gruppo di studio formula la propria ipotesi di partenza, ossia superare i «convenzionali metodi di apprendimento robotico che addestrano un modello per ogni applicazione e per ogni ambiente, per passare a una policy generalista che possa essere adattata in modo efficiente a nuovi robot, a nuovi compiti e a nuovi ambienti».

Il dataset in questione si chiama Open X-Embodiment e – come accennato – contiene dati di addestramento provenienti da trentatré centri di ricerca robotica presenti a livello globale. Dati relativi a 527 competenze, 160266 compiti e a oltre un milione di traiettorie di ventidue robot nel mondo, già progettati ed esistenti,che vanno dai singoli bracci robotici ai robot a due braccia e ai modelli quadrupedi.

«Sebbene la maggior parte delle competenze appartenga alla famiglia dei pick-place, la lunga coda del set di dati contiene anche competenze come “cancellare” o “assemblare”. Inoltre, i dati coprono una vasta gamma di oggetti domestici, dagli elettrodomestici agli alimenti e agli utensili» illustrano i ricercatori.

Il parallelo con la ricerca nel campo della visione artificiale

Il progetto di Google DeepMind è paragonabile a quanto avvenuto, una quindicina di anni fa, nell’ambito della visione artificiale, con la creazione del più ampio dataset di immagini reali online mai esistito (ImageNet), contenente oltre quattordici milioni di dati video etichettati, classificati in più di ventimila categorie, il cui merito è stato quello di spingere gli studi sulla classificazione delle immagini.

«I principali progressi recenti in numerosi segmenti della ricerca sull’apprendimento automatico, come la computer vision e l’elaborazione del linguaggio naturale, sono stati resi possibili da un approccio comune condiviso, che sfrutta set di dati ampi e diversificati» osserva il team.

Se è pur vero che, in passato, si è tentato di applicare alla robotica il medesimo approccio, sono state diverse le criticità emerse, prima fra tutte la concreta mancanza – da sempre – di dati robotici provenienti dal mondo reale.

«La raccolta dei dati è particolarmente costosa e impegnativa per la robotica – spiegano i ricercatori – in quanto richiede operazioni dall’elevato impegno ingegneristico oppure, in alternativa, riprese video puntuali e meticolose»

Un’altra criticità da rimarcare, è la mancanza di modelli scalabili che possano apprendere da tali dati e, quindi, compiere generalizzazioni efficaci [fonte: “RT-1: Robotics Transformer for real-world control at scale” – Google Robotics Research, 13 dicembre 2022].

Robotics Transformer addestrati su dati diversificati

Gli ingegneri robotici di Google DeepMind hanno messo alla prova il dataset Open X-Embodiment addestrando due Robotics Transformer (RT), ovvero – come da loro definizione – due modelli di machine learning «capaci di generare azioni semplici e scalabili per attività di robotica nel mondo reale».

Il primo Robotics Transformer è RT-1, sviluppato per il controllo robotico nel mondo reale su larga scala, mentre RT-2 è il modello di visione-linguaggio-azione che apprende sia dai dati video sul Web che da dati robotici.

In particolare, il primo modello è stato addestrato su dati – all’interno di Open X-Embodiment – comprendenti 130.000 episodi inerenti a oltre 700 attività robotiche, provenienti da una flotta di tredici robot Everyday Robots in un arco di tempo di diciassette mesi.

Il Robotics Transformer 1 è stato testato dal gruppo di lavoro in cinque diversi laboratori di ricerca, con risultati che hanno rilevato un «miglioramento medio del tasso di successo del 50% su cinque diversi robot di uso comune, rispetto ai metodi messi a punto in modo indipendente e specifico per ciascun robot».

Quello che, in generale, è emerso dai primi test sui due modelli di apprendimento robotico allenati per mezzo di dati diversificati e incrociati (e non omogenei e specifici) è che, se posti a confronto con modelli di apprendimento convenzionali, danno prova di consentire l’acquisizione di maggiori competenze ai robot addestrati in domini specifici.

Apprendimento robotico eterogeneo mediante Policy Composition

Di recente, a tornare sul tema delle policy generaliste riferite all’apprendimento robotico, è stato il Computer Science and Artificial Intelligence Laboratory (CSAIL) del Massachusetts Institute of Technology (MIT), con un lavoro dal titolo “PoCo: Policy Composition from and for Heterogeneous Robot Learning” (arXiv, 27 maggio 2024).

Lo studio, che verrà presentato ufficialmente durante l’edizione 2024 della Robotics: Science and Systems Conference – in scena a Delft (Paesi Bassi) dal 15 al 19 luglio 2024 – poggia su una tesi già nota agli ingegneri di Google DeepMind e cioè che «i robot addestrati con una quantità relativamente piccola di dati specifici per un dato compito, spesso non sono in grado di eseguire nuovi compiti in ambienti non familiari».

Ad esempio, i robot che, all’interno di un magazzino, sono deputati all’inscatolamento, non sono in grado di svolgere mansioni che hanno a che vedere con la movimentazione di articoli in un sito produttivo, poiché si tratta di due compiti differenti in due luoghi differenti, riconducibili a policy di apprendimento robotico diverse e, naturalmente, a dataset di addestramento diversi.

Seguendo l’esempio del magazzino robotizzato, «ognuno di essi genera terabyte di dati, ma essi fanno capo a tutta una serie di compiti specifici e di competenze specifiche in quel dato luogo, tra cui anche l’inscatolamento. Dunque, essi non sono l’ideale per addestrare una macchina generica» fanno notare i ricercatori del MIT.

Per superare questo nodo, il team ha puntato allo sviluppo di un framework per l’addestramento di robot multiuso, basato su una combinazione di dati provenienti da diverse fonti.

In sostanza, il framework – denominato Policy Composition (PoCo) – si avvale di una quantità di tanti piccoli set di dati (come, ad esempio, quelli raccolti da una moltitudine di magazzini robotizzati), «dai quali apprende policy separate che, poi, combina tra di loro, in modo da permettere a un robot di compiere generalizzazioni relative a molteplici compiti».

Il ruolo dell’AI generativa e dei Diffusion Models

Alla base del metodo Policy Composition per l’apprendimento robotico vi è una tecnica di intelligenza artificiale generativa detta “Diffusion Models”, grazie alla quale è possibile mettere assieme più fonti di dati suddivisi in più domini, modalità e attività.

Ricordiamo che i Diffusion Models (conosciuti anche come “modelli probabilistici di diffusione” o “modelli generativi basati su punteggi”) rientrano nell’ambito delle tecniche di apprendimento automatico. Il loro obiettivo è apprendere un processo di diffusione che, a sua volta, genera una serie di probabilità per un determinato dataset. [fonte: Diffusion Models: A Comprehensive Survey of Methods and Applications – arXiv, 24 giugno 2024].

Gli autori aggiungono che spesso tali modelli di generative AI vengono impiegati nella generazione di immagini. Ma, nel caso di questa ricerca, «viene insegnato loro a generare traiettorie per robot. Compito che eseguono aggiungendo rumore ai dati di addestramento. Successivamente, rimuovono gradualmente il rumore e affinano l’output generando, appunto, una traiettoria». La Policy Composition si fonda proprio su questo lavoro di “Diffusion Policy”.

La procedura dell’approccio PoCo prevede che venga addestrato un singolo modello alla volta, utilizzando sempre un diverso set di dati video, contenente, ad esempio, immagini inerenti a dimostrazioni di taluni compiti, in cui compaiono esseri umani e robot, oppure immagini raccolte durante attività svolte nel mondo reale da un braccio robotico controllato da remoto o, ancora, dati derivanti da simulazioni di compiti robotici.

In seno a questa metodologia, il lavoro di ciascun Diffusion Model è quello di apprendere dai dati di addestramento una precisa policy robotica che consenta di portare a termine un preciso compito. A quel punto, addestrati più modelli, tutte le singole policy apprese vengono “combinate”, messe assieme, per definire un’unica policy generale che permetta a ogni robot di eseguire molte attività diverse in contesti differenziati.

«Uno dei vantaggi di questa tecnica di apprendimento robotico – spiega il team del CSAIL – è che possiamocombinare le diverse policy ottenute per trarre il meglio da ogni macchina. Ad esempio, la policy fondata sui dati del mondo reale potrebbe essere in grado di aiutare i robot ad acquisire una maggiore destrezza, mentre quella che poggia sulla simulazione potrebbe condurli verso una maggiore generalizzazione».

Sia nelle simulazioni che negli esperimenti nel mondo reale – in cui bracci robotici eseguivano una serie di compiti servendosi di spatole, coltelli, chiavi inglesi e martelli, come, ad esempio, battere, un chiodo o prelevare del cibo da una teglia – l’approccio di apprendimento robotico messo a punto ha portato il singolo robot ad eseguire numerose attività con strumenti mai utilizzati prima e ad adattarsi a mansioni che non aveva appreso durante l’addestramento, registrando un miglioramento del 20% nelle prestazioni, rispetto alle performance ottenute con le tecniche di apprendimento base, che sfruttano il semplice machine learning.

Immagine che illustra l’utilizzo di strumenti quali spatole, coltelli, chiavi inglesi e martelli nelle policy di apprendimento robotico generaliste, in presenza di disturbi esterni (l’intervento di una mano umana) (a) e distrattori (oggetti che si deformano e illuminazione calante) (b), attraverso diverse configurazioni iniziali che richiedono azioni di forza (c) e riarrangiamenti dinamici delle scene (d). L'asse orizzontale mostra la dimensione temporale per ciascuna traiettoria eseguita dal robot [credit: “PoCo: Policy Composition from and for Heterogeneous Robot Learning” - CSAIL Massachusetts Institute of Technology - https://arxiv.org/pdf/2402.02511].
Utilizzo di spatole, coltelli, chiavi inglesi e martelli nelle policy di apprendimento robotico generaliste, in presenza di disturbi esterni (l’intervento di una mano umana) (a) e distrattori (oggetti che si deformano e illuminazione calante) (b), attraverso diverse configurazioni iniziali che richiedono azioni di forza (c) e riarrangiamenti dinamici delle scene (d). L’asse orizzontale mostra la dimensione temporale per ciascuna traiettoria eseguita dal robot [credit: “PoCo: Policy Composition from and for Heterogeneous Robot Learning” – CSAIL Massachusetts Institute of Technology – https://arxiv.org/pdf/2402.02511].

Glimpses of Futures

Dall’imponente set di dati diversificati messo insieme da Google DeepMind, col quale allenare un modello di apprendimento robotico generalista, ai tanti piccoli dataset di addestramento del Computer Science and Artificial Intelligence del MIT, dai quali apprendere specifiche policy robotiche che andranno, poi, a comporre un’unica policy generale, l’obiettivo è uno solo: arrivare ad addestrare – per quanto riguarda determinate applicazioni – robot generici, multiuso, superando le macchine specializzate, capaci di eseguire un unico blocco di compiti in un unico contesto.

Tenuto conto che i modelli di apprendimento robotico descritti presentano ancora molte limitazioni e che sono stati presentati in una forma semplificata, proviamo comunque ad anticipare possibili scenari futuri, analizzando – grazie alla matrice STEPS – gli impatti che l’evoluzione della metodologia per l’addestramento di robot generalisti e multiuso potrebbe avere sotto più punti di vista.

S – SOCIAL: in futuro, singoli bracci robotici, robot a due braccia, robot quadrupedi, in grado di eseguire attività diverse, all’interno dello stesso ambiente oppure in ambienti differenti, in cui – ad esempio – afferrano uno strumento, lo utilizzano e poi passano a un altro strumento e a un altro compito in un altro reparto, in modo fluido, senza discontinuità, rappresenterebbero una risorsa preziosa negli ambienti di lavoro, specie nei magazzini e nei siti produttivi, nei comparti della ristorazione e dell’edilizia, così come in ambito domestico. Una macchina che “sa fare tutto”, che sa eseguire compiti mai eseguiti prima, maneggiare attrezzi e oggetti mai utilizzati prima, adattandosi a mansioni non apprese durante l’addestramento, per chi ne fruisce, significa poter contare su un supporto a 360 gradi. Si pensi solo ai robot per l’assistenza ai disabili e agli anziani non autosufficienti, per i quali il fatto di essere, un giorno, “multiuso” e versatili, potrebbe costituire un supporto fondamentale nell’eventualità di situazioni di emergenza e di pericolo per l’assistito, potendo intervenire in modo efficace anche laddove non vi è una precedente familiarità.

T – TECHNOLOGICAL: l’evoluzione del sistema per l’addestramento di robot multiuso descritto dal gruppo di lavoro del Massachusetts Institute of Technology, oltre a necessitare, in futuro, di una quantità sempre maggiore di dati diversificati per migliorare le prestazioni delle macchine generaliste, vedrà l’incrocio di altre tecniche afferenti all’ambito di studi del machine learning, oltre a quelle della generative AI e dei Diffusion Models. Inoltre, fa sapere il team, «questo studio mostra l’efficacia del metodo Policy Composition solo su compiti a breve termine, mentre riteniamo che estenderlo a un più ampio orizzonte temporale sia una direzione interessante per il lavoro futuro, così come estenderlo a modelli diversi, ad esempio addestrati per mezzo del Robotics Transformer di Google DeepMind».

E – ECONOMIC: come abbiamo già avuto modo di dire, in altre occasioni, a proposito dell’impatto economico dovuto alla presenza di robot nei luoghi di lavoro, esiste un punto di vista diametralmente opposto rispetto a quello focalizzato sul rischio di un aumento dei tassi di disoccupazione in seguito a un’automazione spinta all’interno di determinati settori, da quello dell’automotive a quello delle lavorazioni meccaniche e dell’assemblaggio. Il riferimento è ai comparti che, livello globale, risentono di una generale carenza di personale, come, ad esempio, quello della ristorazione e dei piccoli lavori edili, dove, in futuro, con la possibile evoluzione delle metodologie per l’addestramento di robot generalisti, la presenza di macchine multiuso potrebbe risultare strategica, in quanto aiuterebbe a fare fronte alla mancanza di manodopera umana.

P – POLITICAL: gli aspetti relativi alla sicurezza sono quelli maggiormente dibattuti quando si parla di robot nei luoghi di lavoro, in special modo se essi si trovano a operare a contatto diretto con le persone, come nel caso di ristoranti e di abitazioni private. Nell’ipotesi di uno scenario futuro in cui i robot multiuso affiancheranno i lavoratori in numerosi settori, massima attenzione dovrà essere posta ai loro effetti sulla salute e la sicurezza delle persone coinvolte, come sottolinea l’European Agency for Safety and Health at Work che, al riguardo, ha reso pubblici una serie case studies sull’automazione in diversi contesti professionali, tra cui catene di montaggio, produzione industriale, industria automobilistica, produzione dell’acciaio, produzione di prodotti in plastica e molti altri. In particolare, viene evidenziata l’importanza della valutazione dei rischi in azienda «relativa, ad esempio, alle forze estese, all’elettricità, allo schiacciamento, all’urto contro la macchina e così via. Ogni rischio deve poi essere classificato e devono essere adottate misure di sicurezza non appena viene superato un dato criterio. Può trattarsi di una recinzione, di dispositivi di protezione individuale o di corsi di formazione continua».

S – SUSTAINABILITY: la futura, possibile, presenza di robot multiuso in molteplici luoghi di lavoro apre – come sempre – la riflessione sull’impatto ambientale dell’intelligenza artificiale che abilita tali macchine. Si è detto che «i robot sono grandi “specialisti” e che è necessario addestrare un modello di apprendimento per ogni attività e ambiente» e che «la modifica di una singola variabile spesso richiede di ricominciare da zero», mentre l’addestramento di un robot multiuso snellirebbe tale processo, andando a ridurre l’energia computazionale necessaria affinché una tipologia di robot acquisisca più abilità. Ma c’è il rovescio della medaglia, dato dal fatto che allenare modelli di machine learning che consentano ai robot generalisti di eseguire una miriade di compiti in ambienti diversi comporta l’impiego di sempre più ampie quantità di dati e di ore ed ore di addestramento, con inevitabili ripercussioni sui consumi di energia e sulla relativa impronta di carbonio. È un cane che si morde la coda. Uno studio USA condotto da analisti dell’area Energy sul futuro carico elettrico della «“robotificazione” sociale» (“Direct and Indirect Impacts of Robots on Future Electricity Load”) stima che, negli Stati Uniti, entro il 2025, il consumo energetico dei robot aumenterà fino allo 0,5-0,8% della domanda totale di elettricità del Paese.

Scritto da: