I robot umanoidi usciranno dal chiuso dei laboratori, delle fabbriche e dei magazzini, per conquistare il mondo esterno? Il recente lavoro dell’University of California sembra avere trovato, in un inedito modello di apprendimento per rinforzo, la leva di questo passaggio.

Nell’editoriale di Science Robotics del numero di dicembre 2017 [“Humanoid robotics – History, current state of the art, and challenges”], Toshio Fukuda, professore di Intelligent Robotics a AI alla Nagoya University, in Giappone, l’italiano Paolo Dario, allora direttore dell’Istituto di BioRobotica presso la Scuola Superiore Sant’Anna di Pisa e Guang-Zhong Yang, direttore dell’Hamlyn Center for Robotic Surgery, all’Imperial College di Londra, definivano i robot umanoidi, in quanto “intrinsecamente interdisciplinari”, «la rappresentazione di uno degli obiettivi finali della robotica», ovvero la sintesi di tutti i progressi compiuti dalle molteplici discipline coinvolte nelle attività di ricerca e sviluppo che vedono al centro tali macchine dalle sembianze umane, tra cui – ricordano i tre scienziati – «la locomozione e la manipolazione avanzate, la biomeccanica, l’intelligenza artificiale, la visione artificiale, gli studi sulla percezione, gli studi comportamentali e quelli sull’apprendimento cognitivo».

Di queste discipline, la locomozione autonoma in ambienti complessi del mondo esterno – e «non nei contesti ristretti di laboratorio» – è tra quelle che, quasi sei anni e mezzo fa ormai, veniva indicata dagli autori come «l’area dai molti problemi di ricerca ancora in sospeso, per quanto riguarda i robot umanoidi».

Ad oggi, i lavori accademici sul tema sono stati numerosi in tutto il mondo, lasciando, tuttavia, aperta la questione della stabilità e del controllo dinamico nella locomozione umanoide sui terreni naturali, non al chiuso.


Sono le tecniche che si avvalgono del Reinforcement Learning quelle che, attualmente, guidano gli studi e le ricerche tese a superare le problematicità che minano la camminata degli umanoidi a contatto con l’attrito del terreno naturale, cemento, erba o gomma che sia.
I ricercatori dell’Ateneo californiano di Berkeley hanno ideato un sistema di controllo predittivo della locomozione robotica basato su algoritmi diapprendimento per rinforzo, che hanno poi testato su un robot umanoide senza telecamere a bordo, al chiuso del laboratorio e, successivamente, all’aperto.
In uno scenario futuro, robot umanoidi sempre più abili nel camminare e correre anche negli spazi aperti impervi, potrebbero collaborare con gli essere umani in quelle attività all’esterno che prevedono, ad esempio, interventi in situazioni di pericolo quali incendi e terremoti, a difesa di persone e ambienti.

La mobilità umanoide a contatto con l’attrito del terreno naturale: le criticità

Potremmo fare un elenco dei robot umanoidi diventati, negli anni, addirittura celebri, dotati di abilità che, a seconda dei modelli, vanno da quelle cognitive e interattive, al linguaggio, alla percezione visiva, uditiva e tattile, fino alla camminata autonoma evitando ostacoli, iniziando dal giapponese ASIMO (Advanced Step in Innovative MObility), introdotto nel 2000, e continuando con l’italiano iCub – il cui progetto fu avviato nel 2004 dall’Istituto Italiano di Tecnologia – e col francese Pepper (2014), solo per citare alcuni tra gli esempi più noti.

Ciò che accomuna questi robot, come tutti quelli a loro somiglianti, è il fatto di lavorare al chiuso: nei laboratori, nelle case, nelle fabbriche, nei magazzini, nei ristoranti o nei negozi. Perché «abilitare la mobilità umanoide su terreni che non siano i pavimenti dei locali al chiuso, insieme al controllo di tutto il corpo per il tracciamento della traiettoria, è un dilemma. E la difficoltà nasce dalla necessità di utilizzare le forze di contatto per controllare la locomozione delle gambe, rispettando i vincoli di attrito del terreno naturale» [fonte: “Versatile Locomotion Planning and Control for Humanoid Robots” – National Library of Medicine, 2021].

In tempi più recenti, rispetto agli esempi citati, esemplificativo della difficoltà descritta, è uno studio del Massachusetts Institute of Technology (MIT) – “The MIT Humanoid Robot: Design, Motion Planning, and Control For Acrobatic Behaviors” (2021) – in cui viene presentato un modello di robot umanoide acrobatico, in grado, addirittura, di fare capriole e salti mortali grazie a una progettazione dell’hardware e a una pianificazione del movimento ottenute mediante due nuovi attuatori propriocettivi (sviluppati dal MIT), capaci di agire sulla posizione della macchina nello spazio, senza l’aiuto di alcun supporto visivo. Ma il tutto si è limitato a una simulazione che, seppur dinamica e realistica, è lontana dalle applicazioni concrete su robot umanoidi reali in un ambiente naturale.

Immagine che ritrae la simulazione del salto mortale all'indietro compiuto dal modello di robot umanoide ideato dal MIT nel 2021 (Credit: “The MIT Humanoid Robot: Design, Motion Planning, and Control For Acrobatic Behaviors” - https://arxiv.org/pdf/2104.09025).
Simulazione del salto mortale all’indietro compiuto dal modello di robot umanoide ideato dal MIT nel 2021 (Credit: “The MIT Humanoid Robot: Design, Motion Planning, and Control For Acrobatic Behaviors” – https://arxiv.org/pdf/2104.09025).

Locomozione dei robot umanoidi: i metodi basati sull’apprendimento

Negli ultimi anni, nonostante il progredire dei lavori sulla stabilità della locomozione umanoide all’aperto, fondati sull’ottimizzazione dell’hardware e della pianificazione dei movimenti, sono stati gli studi che si basano sull’apprendimento a dare nuova linfa a questo filone di ricerca, per la loro attenzione rivolta al contesto in cui viene inserito il robot.

A questo proposito, sempre nel 2021, uno studio a cura del Collaborative Robotics and Intelligent Systems Institute, in seno all’Oregon State University – “Blind Bipedal Stair Traversal via Sim-to-Real Reinforcement Learning” – focalizzandosi su una delle criticità della locomozione robotica nell’ambiente naturale, ossia la stima precisa dello spazio da percorrere, indaga il comportamento di un robot bipede nel salire su una scala e nel discendere da questa, senza alcuna percezione visiva, come se fosse cieco. L’approccio utilizzato è quello dell’apprendimento per rinforzo (in inglese Reinforcement Learning – LR), tecnica di machine learning in grado di consentire alla macchina una sorta di ragionamento finalizzato alla scelta di precise azioni da compiere per raggiungere taluni traguardi, attraverso l’interazione con l’ambiente circostante.

Questa tecnica – spiega il team – ha prodotto nel robot un meccanismo di controllo per mezzo dell’apprendimento di riflessi propriocettivi (che gli permettono di percepire la propria posizione nello spazio senza vedere) e di «strategie per affrontare terreni accidentati, in seguito all’esposizione a un varietà di disturbi durante l’addestramento del modello LR».

Tuttavia, questa ricerca si è fermata ai robot bipedi di piccole dimensioni (diversi dai robot dalle sembianze umane, come quelli umanoidi) e le sue scoperte non hanno condotto a una successiva implementazione della locomozione su terreni naturali. È stato testato il metodo (l’apprendimento per rinforzo) più che la sua fattiva applicazione nel mondo reale. Ma da lì è partito un nuovo corso.

L’apprendimento per rinforzo guida la locomozione dei robot umanoidi all’esterno

Recentemente, ad andare oltre il metodo dell’apprendimento per rinforzo applicato a semplici robot bipedi, capaci di camminare in autonomia soltanto nel contesto dell’esperimento, un gruppo di ricercatori dell’University of California, a Berkeley, che, in “Real-world humanoid locomotion with reinforcement learning” (ScienceRobotics, 17 aprile 2024), presentano un modello di Reinforcement Learning per il controllo della locomozione umanoide al di fuori dei laboratori.

Per la precisione, il sistema di controllo messo a punto è un “transformer causale”, dove per “transformer” si intende un’architettura di rete neurale piuttosto semplice, in questo caso caratterizzata dalla capacità «di utilizzare come input tutto lo storico – ricevuto durante l’addestramento – delle osservazioni dell’ambiente e delle azioni propriocettivein risposta a questo e, sulla base di tali dati, prevedere, nel mondo reale, l’azione successiva». Su questo concetto poggia l’aggettivo “causale”.

Il transformer – ricordano gli autori – è stato allenato mediante un’ampia mole di dati video relativi a migliaia di simulazioni di locomozione in ambienti esterni.

Il tratto distintivo di questo studio sta nell’avere testato il modello di apprendimento per rinforzo su un robot umanoide a grandezza naturale (alto circa un metro e sessanta e con un peso totale di 45 kg) senza sistema di visione a bordo, sia attraverso esperimenti indoor sia all’aperto, a contatto diretto con l’ambiente.

Gli esperimenti al chiuso

L’obiettivo dei test condotti in laboratorio sulle prestazioni del robot umanoide era quello di misurare, in particolare, la robustezza della sua stabilità rispetto a una serie di forze esterne, a differenti tipologie di superfici sulle quali camminare e a carichi di diversa massa e forma da trasportare. Vediamoli nel dettaglio.

Immagine che ritrae i test di laboratorio sulla stabilità del robot umanoide controllato dal modello di Reinforcement Learning sviluppato dall’University of California, rispetto a: A) forze esterne B) differenti superfici sulle quali camminare e (C) carichi di diversa massa e forma da trasportare (credit: “Real-world humanoid locomotion with reinforcement learning” - https://www.science.org/doi/10.1126/scirobotics.adi9579).
Test di laboratorio sulla stabilità del robot umanoide controllato dal modello di Reinforcement Learning sviluppato dall’University of California, rispetto a: A) forze esterne B) differenti superfici sulle quali camminare e (C) carichi di diversa massa e forma da trasportare (credit: “Real-world humanoid locomotion with reinforcement learning” – https://www.science.org/doi/10.1126/scirobotics.adi9579).

Robustezza rispetto alle forze esterne

I ricercatori dell’University of California hanno verificato se il loro robot “cieco”, controllato dal modello di Reinforcement Learning, fosse capace, mentre camminava, di fare fronte al palesarsi di brusche forze esterne dirette contro di lui, date, ad esempio, dal lancio di una palla gigante, da spinte improvvise mediante un bastone di legno e dall’esercitare una resistenza tale da rallentare l’avanzare della macchina lungo il suo percorso.

L’esito di questo test ha confermato che il controllo sull’umanoide da parte del modello LR in questione, è in grado di renderlo stabile in ognuno dei tre scenari riprodotti artificiosamente, mettendolo nelle condizioni di «reagire in poche frazioni di secondo e di adattare le proprie azioni per evitare di cadere».

Robustezza rispetto alla natura del terreno sul quale camminare

Questo requisito, specie se il terreno è accidentato, è stato testato dagli autori coprendo il pavimento del laboratorio con gomma, stoffe, cavi e materiale per imballaggi, in modo da ricreare diversi livelli di ruvidità, col rischio, per il robot – al quale veniva comandato di camminare in avanti a una velocità costante di 0,15 m/s – di inciampare, scivolare o cadere.

«Nonostante questi ostacoli, il nostro controller ha permesso al robot di attraversato tutti i tipi di superfici. Infine, abbiamo valutato le sue prestazioni anche su due diversi pendii, con simulazioni che includevano pendenze fino all’8,7%. I risultati dimostrano che la macchina è stata in grado di attraversarli entrambi, con maggiore robustezza a velocità più elevate (0,2 m/s) su pendii più ripidi» fanno notare.

Robustezza in presenza di carichi di diversa massa e forma da trasportare

La forza della stabilità del robot umanoide nel caricarsi di diversi tipi di pesi mentre cammina in avanti, è un’altra abilità messa alla prova dal team americano, facendo – di volta in volta – trasportare alla macchina uno zaino vuoto, uno zaino pieno, una borsa di stoffa, un sacco della spazzatura carico e un sacchetto di carta.

Tutti compiti che sono stati completati senza sbilanciamenti. Ma l’aspetto interessante di quest’ultimo esperimento – viene rimarcato – è che il controller basato sull’apprendimento per rinforzo ha fatto sì che il robot si adattasse alla presenza di un sacco della spazzatura pieno, attaccato al suo braccio, tenendo quest’ultimo immobile per non farlo cadere, «nonostante l’addestramento abbia previsto movimenti di oscillazione del braccio per il bilanciamento del corpo». Ecco un chiaro esempio di adattamento del comportamento in base al contesto (anche senza percepirlo visivamente), che è il nocciolo concettuale del Reinforcement Learning.

L’implementazione all’aperto

Le prove all’aperto hanno visto il robot camminare all’interno di spazi quali piazze, passaggi pedonali, marciapiedi, piste da corsa e campi in erba, su terreni di varia natura sotto il profilo dei materiali, tra cui cemento, mattonelle, gomma, erba e legno, con l’umidità del mattino e sotto il sole del pomeriggio.

Immagine che ritrae l’implementazione all’aperto, su differenti tipologie di terreno, del robot umanoide controllato dal modello LR dell’University of California (credit: “Real-world humanoid locomotion with reinforcement learning” - https://www.science.org/doi/10.1126/scirobotics.adi9579).
L’implementazione all’aperto, su differenti tipologie di terreno, del robot umanoide controllato dal modello LR dell’University of California (credit: “Real-world humanoid locomotion with reinforcement learning” – https://www.science.org/doi/10.1126/scirobotics.adi9579).

Il team rammenta che il sistema di controllo descritto è stato addestrato esclusivamente con dati video tratti da simulazioni di locomozione in ambienti esterni. Dunque, il contatto del robot umanoide col mondo reale è stato del tutto inedito. Ad esempio – specificano i ricercatori – «le proprietà del terreno riscontrate all’esterno non sono state riscontrate nei dati di allenamento del modello. Ma, nonostante questo, il controller è stato comunque in grado di camminare stabilmente su tutti i terreni testati».

Nel corso di una settimana di prove all’aperto, durate, ognuna, una giornata intera, non sono state osservate cadute da parte del robot. Ad ogni modo, poiché il controller illustrato – come già accennato – è un transformer causale, esso utilizza come input tutto lo storico (ricevuto durante l’addestramento) delle osservazioni dell’ambiente e delle azioni propriocettive in risposta a questo e, poggiandosi su tali dati, prevede l’azione successiva, agendo, quindi, solo sulla base della cronologia delle osservazioni e delle azioni, senza l’ausilio di telecamere per la visione dell’ambiente. E questo ha fatto sì che, talora, urtasse qualche elemento o che rimanesse intrappolato, ad esempio, in ostacoli come i gradini. Ma «è sempre riuscito ad adattare i propri movimenti alle caratteristiche spaziali per evitare di cadere».

Glimpses of Futures

In futuro, un sistema di controllo predittivo come quello descritto – basato su algoritmi di Reinforcement Learning – capace di abilitare la camminata fluida all’aperto, simile a quella umana, di un robot umanoide addirittura privo di “occhi”, potrebbe essere impiegato per perfezionare i comportamenti e i movimenti dei robot dalle sembianze umane negli spazi esterni, su qualsiasi tipo terreno, anche sul più accidentato. Per svariate applicazioni a contatto con l’essere umano.

Con l’obiettivo di anticipare possibili scenari futuri, proviamo ora a delineare – avvalendoci della matrice STEPS – gli impatti che l’evoluzione del transformer causale per il controllo della locomozione umanoide al di fuori dei laboratori potrebbe avere su più fronti.

S – SOCIAL: in uno scenario futuro, macchine umanoidi sempre più evolute dal punto di vista cognitivo, interattivo e percettivo, nonché sempre più abili nel muovere braccia, mani e gambe, nel camminare e nel correre, nel salire e scendere le scale, anche nei luoghi aperti più remoti e impervi, potrebbero collaborare con gli umani – ad esempio, con la Protezione civile o le Forze dell’Ordine – o persino sostituirli nelle operazioni più rischiose, nell’ambito di attività all’aperto che prevedano interventi in situazioni di pericolo, a difesa di persone, animali e ambienti. È il caso di incendi, terremoti e altri eventi estremi, in cui un robot ad altezza d’uomo, che sappia usare contemporaneamente mani, braccia e gambe, esattamente come l’essere umano, resistendo a forze e a disturbi esterni e trasportando pesi, potrebbe rappresentare un aiuto strategico. Negli Stati Uniti, a Singapore, nel nostro stesso Paese e in altre parti del mondo, esistono già esempi di “robot poliziotto” e di “robot pompiere” – quadrupedi e bipedi – a sostegno delle Forze di Polizia e dei Vigili del Fuoco, che operano in spazi esterni, ma non si tratta di robot umanoidi (dunque non sono provvisti di gambe dalle fattezze umane) e la loro locomozione è attivata da motori. Lo stesso dicasi per i dispositivi robotici atti all’esplorazione di grotte, pozzi, tunnel e altri terreni sotterranei.

T – TECHNOLOGICAL: la rete neurale creata dal team dell’University of California, cuore del sistema di controllo dell’umanoide presentato, si caratterizza per un’architettura semplice, lontana dalla ricorrenza e dalle convoluzioni delle reti neurali più profonde e complesse, che necessitano di maggiori quantitativi di dati per l’addestramento. Questo modello di rete (transformer) «è più facile da scalare con dati e calcoli aggiuntivi e, inoltre, consente di incorporare nuove modalità di input». Ma, in futuro, data la necessità di lavorare sulla produzione di traiettorie sempre più puntuali, sulla simmetria nei movimenti delle gambe dell’umanoide e su una maggiore esattezza nel tracciare la loro velocità, potrebbe esserci la necessità di una rete neurale più profonda e dell’impiego di altre tecniche di intelligenza artificiale, come, ad esempio, il deep learning, per la locomozione della macchina umanoide all’aperto.

E – ECONOMIC: in futuro, immaginando l’evolvere delle tecnologie per il controllo della locomozione dei robot umanoidi anche in ambienti naturali – che consentirebbe loro di eseguire compiti a supporto di quelle professioni che si svolgono all’aperto – si renderà necessario, a livello di singolo Paese, prendere posizione in merito alla spinosa questione del lavoro umano sostituito dalle macchine. Su tale tema, non sono rosee le previsioni contenute nel Forrester Job Forecast 2020-2040 che, analizzando le prospettive, da qui al 2040, di Paesi come Regno Unito, Germania, Francia, Italia e Spagna, stima la scomparsa di 12 milioni di posti di lavoro, con vendita al dettaglio, ristorazione e ospitalità i comparti più a rischio. Uscendo dall’Europa, ne 2023, nel tentativo di arginare il fenomeno, l’Assemblea dello Stato di New York ha proposto una “tassa sui robot” (“robot tax”) a quelle aziende che licenziano i propri dipendenti perché, al loro posto, “assumono” macchine. Ma, ad oggi, aprile 2024, questo disegno di legge è ancora fermo in Commissione, accompagnato da polemiche e da un acceso dibattito sostenuti dagli imprenditori. L’idea, in realtà, non è nuova. Ne parlò già Bill Gates nel 2017, lanciandola come provocazione. Nell’UE, compresa l’Italia, se ne dibatte da alcuni anni ma, come nel resto del mondo, relativamente alle forme e alle modalità del prelievo tributario da effettuare, tutto attiene ancora alle riflessioni in ambito accademico.

P – POLITICAL: l’abilitazione della mobilità umanoide nei contesti esterni – come promette il sistema di controllo predittivo basato su algoritmi di apprendimento per rinforzo – rifocalizza l’attenzione sulla sicurezza delle macchine autonome che interagiscono con le persone nei luoghi di lavoro. Ampia eco ebbe, nel 2021, l’aggressione ai danni di un ingegnere, in una fabbrica Tesla, in Texas, da parte di un robot umanoide impiegato nell’azienda. E a novembre 2023, in un impianto di confezionamento di verdure in Corea del Sud, un robot industriale ha causato la morte di un operaio, schiacciandolo contro un nastro trasportatore. Se, da un lato, regolamenti come quello che ha sostituito la direttiva macchine 2006/42/CE – ossia il regolamento 2023/1230, pubblicato il 29 giugno 2023 e applicabile a partire dal 20 gennaio 2027 – impone ai produttori nuovi componenti di sicurezza e agli utenti nuovi requisiti di protezione nell’ambito della collaborazione uomo-macchina, è altresì importante che le aziende abbiano chiare non solo le regole da seguire, ma anche la centralità di una corretta gestione dei robot al loro interno, oltre alle proprie responsabilità sotto il profilo giuridico in caso di gestione inefficiente, potenzialmente responsabile di eventi nefasti come quelli ricordati.

S – SUSTAINABILITY: in un futuro in cui, grazie all’evoluzione del sistema di controllo basato su algoritmi diReinforcement Learning, i robot umanoidi avranno conquistato il proprio spazio al di fuori dei laboratori, delle case, delle fabbriche, dei magazzini, dei ristoranti e dei negozi, si imporrà una riflessione sull’impatto dell’intelligenza artificiale (ovvero il “cervello” di queste macchine) sotto il profilo della sostenibilità ambientale. Impatto ambivalente, in quanto positivo e negativo allo stesso tempo, come osservano gli autori di un interessante studio illustrato in “Artificial intelligence for carbon emissions using system of systems theory” (rivista “Ecological Informatics”, settembre 2023), portando, come esempio, il paradosso emblematico per il quale «non si può negare il fatto che l’intelligenza artificiale rappresenti uno strumento efficace nel combattere il cambiamento climatico. Ma non si può nemmeno ignorare il suo ruolo nel contribuire alle emissioni di carbonio». Tuttavia, le emissioni dell’AI differiscono in base alle tecniche utilizzate, dunque è fondamentale concentrarsi su quelle pratiche AI sostenibili durante tutto il ciclo di vita, come spiega il gruppo di ricerca: «sebbene il deep learning possa essere necessario per alcuni obiettivi specifici, algoritmi di machine learning più semplici conducono spesso a risultati simili, ma con minore potenza ed energia computazionali».

Scritto da:

Paola Cozzi

Giornalista Leggi articoli Guarda il profilo Linkedin