Superare lo schema classico del Multi-Agent Reinforcement Learning, garantendo il coordinamento tra robot (agenti) decentralizzati in compiti non strutturati e complessi e - soprattutto - privi del meccanismo di ricompensa: questo l’obiettivo dello studio a cura del Grainger College of Engineering dell’Università dell'Illinois, protagonista della ventunesima International Conference on Autonomous Agents and Multiagent Systems.

TAKEAWAY

  • L’Ateneo dell’Illinois ha lavorato allo sviluppo di algoritmi AI in grado di rilevare quell’azione del singolo agente/robot utile al gruppo di macchine in cui è inserito, perché ha un impatto positivo sull’esecuzione del compito globale e sul raggiungimento dell’obiettivo fissato.
  • Sottoposto al test di prova in ambiente Capture the Flag – complesso, multi-agente e, come tale, carente dal punto di vista della ricompensa finale – il nuovo sistema di addestramento dei robot al lavoro di squadra ha dato esito positivo, bocciando, invece, le strategie classiche, basate sullo schema difesa-riduzione del rischio-ricompensa.
  • Nei piani di ricerca futura, l’approfondimento del nuovo metodo per l’addestramento di squadre composte da differenti tipologie di agenti (ad esempio, robot, droni e veicoli a guida autonoma), nonché lo studio di specifici compiti del singolo, riferiti a determinati obiettivi del gruppo.

La collaborazione tra robot finalizzata al lavoro di squadra implica, da parte delle macchine coinvolte, oltre ad abilità relative alla segmentazione dello spazio e alla coordinazione del movimento, anche una decisionalità fluida, sia di fronte ad attività poco strutturate che in presenza di più dispositivi decentralizzati, spesso all’origine di poca chiarezza in merito ai compiti di ciascuno e ai relativi obiettivi.

Tra le tecniche di intelligenza artificiale adottate per addestrare agenti autonomi – tra cui, appunto, i robot – il Reinforcement Learning (o “apprendimento per rinforzo”) è quella maggiormente deputata all’acquisizione, da parte delle macchine, della capacità di selezionare date azioni per il conseguimento di dati obiettivi all’interno di uno specifico ambiente.

Più in particolare – secondo la definizione che ne dà Wikipedia – l’apprendimento per rinforzo è una tecnica di machine learning utilizzata per risolvere «problemi di decisioni sequenziali, in cui l’azione da compiere dipende dallo stato attuale del sistema e ne determina quello futuro. La qualità dell’azione è data da un valore numerico di “ricompensa”, ispirata al concetto di “rinforzo”, che ha lo scopo di incoraggiare comportamenti corretti dell’agente».

Andando più nel dettaglio, quando le azioni da svolgere sono particolarmente complesse e gli agenti impiegati sono molteplici, è il Multi-Agent Reinforcement Learning – MARL (o “apprendimento per rinforzo multi-agente”) la tecnica di machine learning più idonea nell’ambito del Reinforcement Learning.

«Tuttavia, una delle sfide del Multi-Agent Reinforcement Learning è la definizione di funzioni di utilità privata che garantiscano il coordinamento durante la formazione di agenti decentralizzati. Sfida particolarmente avvertita nelle attività non strutturate, con scarse ricompense e molti agenti»

si legge nello studio dal titolo “Disentangling Successor Features for Coordination in multi-agent reinforcement learning”, condotto dai ricercatori dell’Università dell’Illinois Urbana-Champaign e teso a mettere a punto un metodo per addestrare più agenti a lavorare insieme all’interno di ambienti complessi, distinguendo tra l’impatto del singolo sul valore globale del compito da svolgere e l’impatto del lavoro dell’intera squadra. Vediamo insieme di che cosa si tratta.

Robot e lavoro di squadra: l’apprendimento per rinforzo multi-agente in architetture centralizzate e decentralizzate

In tema di robot e lavoro di squadra, l’approccio classico all’apprendimento per rinforzo multi-agente – spiegano gli autori dello studio – «proprio per garantire il coordinamento tra tutti i dispositivi coinvolti, implementa architetture centralizzate». E qui sta il nodo.

«Poiché gli approcci completamente centralizzati incontrano, poi, difficoltà di fronte a spazi di azione ampi e a vincoli di comunicazione, è – al contrario – l’esecuzione “decentralizzata” dei compiti all’interno del gruppo di macchine che aiuta a risolvere questi problemi, consentendo addirittura agli agenti di prendere decisioni indipendenti senza comunicare tra loro»

osservano. Una questione aperta del MultiAgent Reinforcement Learning è, quindi, come garantire il coordinamento tra tali robot decentralizzati, in particolare in presenza di compiti non strutturati, ricompense/rinforzi scarsi e numerosi dispositivi.

Precedenti lavori hanno affrontato questo problema definendo “funzioni di utilità privata” – denominate anche “funzioni di valore individuale” – per l’ottimizzazione delle azioni dei singoli robot.

Ma impiegando tali funzioni – fa notare il team di studio – i metodi attuali faticano a garantire un apprendimento scalabile e stabile da parte di tutti gli agenti calati in ambienti complessi.

Ecco perché, in questo lavoro – presentato alla ventunesima International Conference on Autonomous Agents and Multiagent Systems (AAMS), tenutasi da remoto dal 9 al 13 maggio 2022 – gli autori introducono le “Successor Features – SFs” (letteralmente “caratteristiche successive”) come quelle caratteristiche atte a «districare l’impatto del singolo agente sulla funzione del valore globale da quello di tutti gli altri agenti, indagando se questo districamento consenta effettivamente un addestramento più efficace degli agenti decentralizzati».

Detta con parole più semplici, gli algoritmi sviluppati dal gruppo di ricerca sono in grado di rilevare quell’azione del singolo robot che, all’interno della squadra, contribuisce in modo positivo all’obiettivo globale fissato, che è utile al gruppo insomma e, al contempo, quell’azione che, al contrario, non è utile e ha un impatto negativo sull’azione della squadra.

Valutare in modo indipendente l’azione del singolo robot e l’azione della squadra

In tema di robot e lavoro di squadra, il sistema di Multi-Agent Reinforcement Learning messo a punto dai ricercatori dell’Università dell’Illinois sfrutta le Successor Features per distinguere – fissati l’obiettivo e il compito per conseguirlo – l’impatto dell’azione del singolo robot dall’impatto dell’azione complessiva del gruppo.

Tale distinzione è considerata strategica per supportare l’apprendimento da parte del singolo agente e, di conseguenza, per migliorare il coordinamento delle attività di tutta la squadra. Precisa il team:

«La nostra architettura utilizza un codificatore Successor Features condiviso tra tutti gli agenti della squadra, basato sul concreto lavoro svolto da ognuno nel conseguimento dell’obiettivo. L’ipotesi di partenza è che, utilizzando gli SFs, sia possibile modellare le caratteristiche spaziali e dinamiche dell’ambiente, riducendo la sua complessità e aprendo la strada all’addestramento eterogeneo tramite l’apprendimento per rinforzo multi-agente»

Il sistema di intelligenza artificiale sviluppato è stato testato attraverso una serie di esperimenti che hanno visto protagonisti alcuni videogiochi di simulazione, tra cui anche il popolare StarCraft e il gioco Capture the Flag.

In particolare, nel gioco simulato predatore-preda, il cui obiettivo era la cattura – da parte di tre agenti predatori – di un agente in movimento casuale il più veloce possibile, l’ambiente (tutto sommato semplice, perché popolato solo da quattro elementi) richiedeva comunque un elevato coordinamento per portare a termine il compito in modo efficiente e rapido.

Ebbene, in questo test, i diversi metodi utilizzati – incluso quello sviluppato dai ricercatori dell’Ateneo dell’Illinois – sono stati in grado di risolvere “con sufficienza” il compito, riducendo al minimo il tempo impiegato per catturare la preda.

Nel caso specifico del framework Disentangled SFs for Coordination (così è stato denominato il paradigma elaborato dal team USA), «sebbene questo converga verso prestazioni ottimali, notiamo che è più lento rispetto ad altri metodi di addestramento. E riteniamo che ciò sia dovuto alla maggiore complessità nell’apprendimento dei Successor Features per modellare la funzione del valore. Diciamo che, per un ambiente semplice come quello di questo gioco, si tratta di una complessità che non vale la pena applicare».

Immagine vettoriale che spiega come i ricercatori hanno testato i loro algoritmi AI per mezzo di giochi simulati, tra cui il popolare StarCraft. Qui si notano l’ambiente complesso, popolato da due squadre di agenti addestrati a un compito specifico, dove in quella di destra è presente un’architettura centralizzata (indicatori verdi) e in quella di sinistra un’architettura decentralizzata, con la stima del valore dell’azione del singolo agente (indicatori verdi e blu). (Credit: Grainger College of Engineering, Università dell'Illinois, USA).
I ricercatori hanno testato i loro algoritmi AI per mezzo di giochi simulati, tra cui il popolare StarCraft. Qui si notano l’ambiente complesso, popolato da due squadre di agenti addestrati a un compito specifico, dove in quella di destra è presente un’architettura centralizzata (indicatori verdi) e in quella di sinistra un’architettura decentralizzata, con la stima del valore dell’azione del singolo agente (indicatori verdi e blu). (Credit: Grainger College of Engineering, Università dell’Illinois, USA).

Robot e lavoro di squadra: il test di prova in ambiente Capture the Flag

In tema di robot e lavoro di squadra, l’approccio del team di studio è stato testato anche in ambiente Capture the Flag, più complesso e popolato del precedente e caratterizzato da un sistema di ricompensa definito “scarso”.

«Qui due squadre di agenti competono l’una contro l’altra per catturare la bandiera dell’avversario, difendendo contemporaneamente la propria. Le interazioni di ognuno sono focalizzate sulla cattura delle bandiere, impegno che dipende da fattori quali la forza del singolo agente e la vicinanza ad altri agenti» spiegano i ricercatori.

E, a proposito dei risultati, fanno notare che il loro metodo supera «significativamente gli altri, le cui prestazioni mediocri sono dovute essenzialmente a un addestramento che spinge verso una strategia difensiva, in cui gli agenti rimangono sul proprio territorio per limitare il rischio di essere sopraffatti dalla squadra avversaria e, per questo, di essere sostituiti all’interno del gioco e, dunque, di perdere la ricompensa».

Strategia, questa – osserva il gruppo di ricerca – correlata all’ambiente densamente popolato e, parallelamente, allo scarso valore di ricompensa riferita al singolo.

Nel caso di una squadra in competizione con un’altra, l’addestramento più consono è quello fondato su un approccio che valuta l’azione del singolo nel più ampio quadro di coordinamento con tutti gli altri agenti. Qui decade il valore della ricompensa/rinforzo esterno in sé, per privilegiare l’impatto negativo/positivo dell’azione di ogni singolo robot sull’azione globale e sul raggiungimento dell’obiettivo finale.

Il lavoro futuro

In questo studio in tema di robot e lavoro di squadra, si dà risalto alla funzione del valore individuale del singolo agente in seno al gruppo, a sua volta inserito in ambienti eterogenei multi-agente. Valore centrale nell’addestrare agenti/robot decentralizzati, in modo che cooperino in maniera coordinata e stabile, portando a termine i compiti assegnati, ad esempio all’interno di un magazzino, nell’ambio dei trasporti (flotte di veicoli a guida autonoma) o della sorveglianza territoriale per mezzo dei droni.

In futuro, il team di studio suggerisce di esplorare il medesimo sistema di intelligenza artificiale per l’addestramento di squadre composte da differenti tipologie di agenti, tra cui – oltre ai robot – droni e veicoli a guida autonoma.

Ulteriori sviluppi di questa ricerca potrebbero essere in grado di sfruttare specifici compiti del singolo agente per identificare potenziali ruoli o specializzazioni riferiti a un determinato lavoro e a un determinato obiettivo.

Scritto da:

Paola Cozzi

Giornalista Leggi articoli Guarda il profilo Linkedin