Un elemento che limita la scalabilità e la generalizzazione dei modelli di apprendimento per rinforzo deputati ai processi decisionali complessi, è dato dalla loro fragilità in presenza di cambiamenti nell'ambiente. A tale riguardo, i ricercatori del MIT hanno definito un metodo che, sovrapponendosi a quelli basati sul Reinforcement Learning tradizionale, aspira a risolvere i problemi LR legati al contesto.

Lo studio e lo sviluppo di agenti AI sempre più autonomi nel prendere decisioni in merito a diverse tipologie di compiti, sono andati intensificandosi nel corso dell’ultimo decennio. Al riguardo, sono ricorrenti gli esempi dei processi decisionali dei sistemi di intelligenza artificiale nell’ambito del controllo del traffico stradale, della guida autonoma, della diagnostica clinica e in campo finanziario (suggerimenti di investimenti, concessione di prestiti), solo per citare i più ricorrenti.

L’AI, dunque, ha sempre più un ruolo di decisore. Ma addestrare la macchina a prendere decisioni corrette e sicure, per l’utente e l’ambiente in cui essa opera, non è un’imprese lineare.

Prendiamo il caso dell’impiego dell’artificial intelligence nella gestione del traffico cittadino, in cui impatto di scelte equilibrate e affidabili da parte del sistema va dal rendere più agili e rapidi – per gli automobilisti – il percorso e il raggiungimento delle destinazioni, fino al miglioramento della sicurezza stradale e della sostenibilità urbana.

Eppure, i modelli di apprendimento per rinforzo (in inglese Reinforcement Learning – LR) che sono alla base dei processi decisionali di questo tipo, spesso – ancora oggi – falliscono di fronte a variazioni anche minime nei compiti per cui sono stati originariamente addestrati.

Che cosa significa, nel concreto? Che, nel citato caso del traffico urbano, il modello LR in questione potrebbe avere difficoltà nel controllare, ad esempio, un’area in cui sono presenti più incroci con limiti di velocità diversi o un numero di corsie differenti. Vediamo per quale motivo.


L’equilibrio sul quale si fonda l’apprendimento per rinforzo, teso a bilanciare azioni che derivano dall’esperienza presente e azioni tratte dall’esperienza passata, viene messo in crisi da compiti dominati da variabilità e instabilità, in cui né l’esplorazione dello scenario presente (che risulta mutevole), né lo sfruttamento di dati già acquisiti dal sistema AI (che non possiede informazioni standard circa scenari cangianti), portano a una scelta che sia sicura e affidabile per gli utenti e l’ambiente.
Il recente lavoro a cura del Massachusetts Institute of Technology introduce un nuovo algoritmo – denominato Model-Based Transfer Learning (MBTL) – per addestrare modelli di Reinforcement Learning a processi decisionali condizionati dalla presenza di elementi variabili, non ordinati e non prevedibili.
Negli anni a venire, più evoluti algoritmi MBTL potrebbero essere estesi ad applicazioni che prevedono, da parte degli agenti AI, la presa di decisioni in merito a problemi più grandi e ancora più complessi, come, ad esempio, quelli che caratterizzeranno – si prevede – i sistemi di mobilità di prossima generazione e, più in generale, la futura smart city.

L’apprendimento per rinforzo e la sua valenza nei processi decisionali

Nell’ambito degli studi che fanno capo all’AI, il Reinforcement Learning è quella tecnica di machine learning in grado di abilitare la macchina a un “ragionamento” finalizzato alla scelta di determinate azioni da compiereper raggiungere taluni traguardi, attraverso l’interazione con l’ambiente circostante.

Nel paper “Decision-Making in Reinforcement Learning”, curato dal dipartimento di Computer Science & Engineering della Gautam Buddha University, viene definito come “apprendimento di cosa fare”, «al fine di massimizzare le ricompense e mappare le situazioni in azioni».

L’agente RL non sa quali azioni eseguire – spiegano gli autori – ma scopre quali sono le azioni che danno i massimi risultati attraverso l’esperienza, ossia attraverso una serie di tentativi ed errori (esplorazione), oppure in base a informazioni già in suo possesso (sfruttamento).

E mentre lo sfruttamento sta alla base di una modalità di scelta preferibile nei casi in cui si vogliano massimizzare ricompense già certe, l’esplorazione dà l’opportunità di acquisire una ricompensa maggiore nel lungo periodo.

Nell’apprendimento per rinforzo, dunque, si pone un compromesso tra esplorazione e sfruttamento, che è stato per decenni oggetto di studio da parte di matematici e ricercatori, ma senza – tuttavia – giungere a una soluzione, commenta il gruppo di lavoro.

«Nell’apprendimento per rinforzo, bilanciare esplorazione e sfruttamento è una sfida importante. La macchina LR deve poter decidere di eseguire sia azioni che le derivano dall’esperienza presente, tentando e sbagliando, sia azioni tratte dalla sua esperienza passata e che si sono rivelate ottimali per ottenere ricompense».

Tale equilibrio, però, è messo in crisi da compiti dominati da variabilità e instabilità (si vedano gli esempi degliincroci stradali con limiti di velocità diversi e dei numeri di corsie differenti), in cui né l’esplorazione dello scenario presente (che risulta mutevole), né lo sfruttamento di dati già acquisiti dal sistema AI (che non possiede informazioni standard circa scenari cangianti), portano a una scelta che sia sicura e affidabile per gli utenti e l’ambiente.

Addestrare la macchina a eseguire una sequenza di attività correlate

Il recente lavoro del Massachusetts Institute of Technology – descritto in “Model-Based Transfer Learning for Contextual Reinforcement Learning” – che verrà ufficializzato a NeurIPS 2024 (Conference on Neural Information Processing Systems, dal 10 al 15 dicembre 2024 a Vancouver), introduce un nuovo algoritmo per allenare modelli di Reinforcement Learning a processi decisionali complessi, in quanto condizionati dalla presenza di elementi variabili, non ordinati e non prevedibili.

«L’apprendimento per rinforzo ha fatto passi da gigante nell’affrontare problematiche legate ai processi decisionali in vari ambiti – osserva il team del MIT – Ma, nonostante tale successo, gli algoritmi RL spesso mostrano vulnerabilità quando esposti a piccole variazioni, come i dati relativi al diverso numero di corsie stradali, alle diverse condizioni meteo all’interno di una stessa regione o alle differenti densità di flusso nei parametri di riferimento del traffico. Variazioni che limitano significativamente la loro scalabilità e generalizzazione».

Il nuovo algoritmo – illustrano i ricercatori – è stato sviluppato per selezionare una serie di “attività” inerenti a un dato compito. Attività alle quali addestrare l’agente AI, in modo che esso possa portarle a compimento correttamente all’interno di una raccolta, di una sequenza, di attività correlate.

Nel caso specifico del controllo del traffico stradale, ad esempio, ogni suddetta “attività” potrebbe riguardare il controllo di ogni incrocio presente in un determinato spazio urbano (caratterizzato, ognuno, da limiti di velocità diversi), che – a sua volta – comprende tutti gli incroci della città:

«Concentrandosi su un numero minore di intersezioni che contribuiscono maggiormente all’efficacia complessiva dell’algoritmo, questo metodo massimizza le prestazioni dell’agente decisore»

Ma che cosa ha condotto gli autori a questa soluzione?

AI e processi decisionali complessi: focus sul Model-Based Transfer Learning

Per allenare un sistema LR a controllare tutti i semafori degli incroci all’interro di una precisa area cittadina – per poi giungere a una decisione equilibrata e safe – il gruppo di studio ha esaminato due vie: addestrare un algoritmo per ciascuna attività in modo indipendente, utilizzando solo i dati di quell’intersezione; addestrare un algoritmo più grande, utilizzando i dati di tutte le attività e, quindi, applicarli a ciascuna di esse.

Entrambi gli approcci presentano criticità. L’addestramento di un algoritmo separato per ogni attività implica un processo dispendioso in termini di tempo, di dati e di calcoli, mentre l’addestramento di un algoritmo più robusto per tutte le attività, spesso, porta a prestazioni inferiori alla media.

Il team, a quel punto, decide di selezionare un sottoinsieme di attività e addestra un algoritmo per ciascuna di esse, in modo indipendente. E aggiunge: «… è importante sottolineare che abbiamo selezionato strategicamente le singole attività che hanno maggiori probabilità di migliorare le prestazioni complessive dell’algoritmo in tutte le attività».

Come accennato, per identificare quali attività selezionare per massimizzare le prestazioni di tutte le altre, gli autori hanno messo a punto un algoritmo denominato Model-Based Transfer Learning (MBTL), composto da due parti: una modella il rendimento di ciascun algoritmo come se fosse addestrato in modo indipendente su un compito specifico; l’altra lo modella tenendo conto di «quanto le prestazioni di ciascun algoritmo peggiorerebbero se fossero trasferite a ciascun altro compito». Concetto – quest’ultimo – noto come “prestazioni di generalizzazione” (“generalization performance”).

Ed è proprio la modellazione esplicita delle prestazioni di generalizzazione che consente all’algoritmo MBTL di stimare il valore della formazione su una nuova attività.

«Esso esegue questa operazione in sequenza, scegliendo per prima l’attività che porta al massimo miglioramento delle prestazioni, quindi selezionando attività aggiuntive che forniscono i successivi miglioramenti marginali».

Glimpses of Futures

Se è vero che i sistemi AI, oggi, hanno sempre più un ruolo di decisori nello svolgimento di molteplici attività, manca ancora, per quanto concerne quei processi decisionali attivati in contesti mutevoli (l’esempio del traffico cittadino è emblematico), un modello scalabile e generalizzabile che plasmi le prestazioni dell’apprendimento per rinforzo.

Il lavoro del MIT va in questa direzione, aprendo a ulteriori, future, indagini su metodologie affidabili basate su modelli di Reinforcement Learning contestuale.

Con l’intento di anticipare possibili scenari futuri, proviamo ora a delineare – grazie alla matrice STEPS – l’impatto che l’evoluzione del framework descritto potrebbe avere su più fronti.

S – SOCIAL: in futuro, complice l’evoluzione delle tecniche di apprendimento per rinforzo applicate ai processi decisionali in contesti mutevoli, gli algoritmi di Model-Based Transfer Learning potrebbero essere estesi ad applicazioni che prevedono – da parte degli agenti AI – la presa di decisioni in merito a problemi più grandi e intricati, come, ad esempio, quelli posti dagli spazi di attività ad alto tasso di flussi variabili (di persone e di veicoli), che caratterizzeranno – si prevede – i sistemi di mobilità di prossima generazione e, più in generale, la futura smart city, dove la gestione intelligente del traffico, il monitoraggio intelligente della qualità dell’aria e il controllo intelligente dell’illuminazione – grazie all’impiego di sistemi AI sempre più autonomi nel prendere decisioni sicure e affidabili – convergeranno in una più efficiente riduzione di emissioni e di consumi di energia.

T – TECHNOLOGICAL: quando gli autori hanno testato la nuova tecnica di Reinforcement Learning per processi decisionali in contesti mutevoli – simulando decisioni relative al controllo dei segnali stradali e alla gestione degli avvisi di velocità in tempo reale – questa si è rivelata da cinque a cinquanta volte più efficiente rispetto alla tecnica di RL tradizionale. Il che significa che, in futuro, con la sua evoluzione, si potrebbe arrivare alla stessa soluzione addestrando i modelli per mezzo di molti meno dati. Ad esempio, spiega il team, «con un aumento di efficienza di 50 volte, l’algoritmo di Model-Based Transfer Learning potrebbe essere allenato solo con i dati inerenti a due attività e ottenere le stesse prestazioni di un metodo standard che utilizza i dati di cento attività». Una riduzione delle risorse di calcolo, quindi, che andrà a snellire le procedure e le tempistiche di “formazione” dei modelli AI. E non solo (si veda l’ultimo punto)

E – ECONOMIC: sugli impatti economici del comparto AI decision-making, è interessante – e fuori dal coro rispetto agli entusiasti a tutti i costi – il pensiero dell’economista Daron Kamer Acemoğlu (professore di economia al MIT, Premio Nobel per l’economia nel 2024 e tra i dieci economisti più citati al mondo), il quale sostiene una prospettiva più modesta e realistica circa gli incrementi di produttività trainati dall’AI. In “Don’t believe the artificial intelligence hype” – apparso su Financial Review a maggio 2024 – l’esperto stima gli effetti macroeconomici di quest’ultima, pari a non più di un aumento dello 0,71% della produttività totale in dieci anni. Il documento, inoltre, sostiene che anche queste stime potrebbero essere “esagerate”, in quanto fanno riferimento a performance riguardanti compiti semplici da apprendere per la macchina, «mentre alcuni degli effetti futuri deriveranno da compiti più difficili, caratterizzati da diversi fattori dipendenti dal contesto che influenzano i processi decisionali».

P – POLITICAL: chi è il giudice delle decisioni errate prese dai sistemi di intelligenza artificiale? Chi risponde dell’incidente causato da un veicolo a guida autonoma o dell’investimento sbagliato suggerito da un agente AI? Da alcuni anni, sono domande particolarmente frequenti, a livello globale. E che, nel caso in cui il framework proposto dai ricercatori del MIT, in futuro, dovesse evolvere al punto da rendere le macchine sempre più abili nel prendere decisioni in tutte le tipologie di contesti, anche nei più complessi e variabili, diventerebbero ancora più urgenti. A tale proposito, ricordiamo la proposta del Parlamento europeo di direttiva sulla responsabilità da intelligenza artificiale (Artificial Intelligence Liability Directive – AILD) del 28 settembre 2022, che, rispetto all’EU AI Act, aggiorna il quadro dell’UE in tema di responsabilità civile riferita agli agenti AI, introducendo per la prima volta norme specifiche per i danni causati dalle tecnologie AI alle persone, le quali avranno diritto al risarcimento (da parte del proprietario del sistema di artificial intelligence) come se avessero subito danni in qualsiasi altra circostanza.

S – SUSTAINABILITY: allenare modelli di Reinforcement Learning contestuale, abilitati da algoritmi di Model-Based Transfer Learning, per consentire alla macchina di attivare processi decisionali in contesti complessi e mutevoli, comporta l’impiego di sempre più ampie quantità di dati e di calcoli, con ore ed ore di addestramento e inevitabili impatti sui consumi di energia e sulla relativa impronta di carbonio. È questa l’altra faccia della medaglia dello sviluppo di tecniche AI sempre più evolute e performanti, anche in ambito decision-making. Uno studio condotto da analisti dell’area Energy sul futuro carico elettrico della cosiddetta robotificazione sociale” (“Direct and Indirect Impacts of Robots on Future Electricity Load”) – ad esempio – stima che, negli Stati Uniti, entro il 2025, il consumo energetico delle macchine aumenterà fino allo 0,5-0,8% della domanda totale di elettricità del Paese.

Scritto da: