Dal lavoro di un gruppo di studio capitanato dal Massachusetts Institute of Technology, la messa in luce del potenziale dei dati sintetici per l’addestramento di sistemi di apprendimento automatico deputati alla classificazione delle azioni umane rappresentate all’interno di immagini e videoclip.

TAKEAWAY

  • Domandandosi se un modello di machine learning allenato su dati video ottenuti artificialmente presenti le medesime prestazioni di un modello allenato su dati video reali, un team di ricerca guidato dal MIT ha costruito un dataset completamente sintetico, osservando poi l’attività del sistema AI addestrato con esso a riconoscere diverse categorie di azioni.
  • I test di prova hanno dimostrato un livello di accuratezza maggiore nel processo di riconoscimento da parte del sistema di apprendimento automatico addestrato su dati sintetici, specie laddove i videoclip analizzati mostrano una bassa distorsione della scena, “costringendo” il sistema a lavorare con un forte focus sull’azione rappresentata.
  • Tra gli obiettivi futuri della ricerca, l’affinamento del dataset sintetico messo a punto, oltre allo sviluppo di un “catalogo” di modelli di machine learning allenati mediante dati sintetici e dalle prestazioni molto simili – se non più elevate – rispetto a quelle dei modelli già esistenti in letteratura.

Ad oggi, nella letteratura esistente in tema di intelligenza artificiale – e, più in particolare, di machine learning – sono presenti pochi approfondimenti sul potenziale dell’addestramento dei modelli per mezzo di dati sintetici, che sappiamo essere generati da algoritmi di apprendimento automatico o più semplicemente da computer, anziché acquisiti dal mondo reale, come normalmente accade.

Essi entrano in gioco, ad esempio, nei casi in cui gli sviluppatori AI non abbiano a disposizione dati video reali, per motivi legati a una reperibilità onerosa o a questioni di riservatezza e protezione della privacy, al fine di non incorrere in immagini in cui siano ben visibili volti di persone, numeri di targhe o indicatori di posizione.

Talora accade che grandi dataset, contenenti milioni o miliardi di immagini reali, non siano disponibili pubblicamente. Un’altra questione ancora, che induce ad avvalersi di dati sintetici, riguarda il rischio di bias correlati all’etnia o al genere, difficili da controllare nei set di dati video su larga scala esistenti.

Una domanda, a questo punto, è d’obbligo: se è chiaro il ruolo dei dati video sintetici in sostituzione di quelli reali, non lo è ancora la loro bontà nell’addestrare algoritmi di intelligenza artificiale ad analizzare e a classificare il mondo reale. Ovvero, un modello AI allenato con dati video sintetici possiede abilità simili a quelle apprese da un modello allenato con dati video tradizionali?

Su questo, si è interrogato un team composto da ricercatori del Massachusetts Institute of Technology (MIT), del MIT-IBM Watson AI Lab, della Goethe University di Francoforte e della Boston University che, in un paper dal titolo “How Transferable are Video Representations Based on Synthetic Data?”, illustra la costruzione di un set di dati sintetici costituito da 150.000 tra fotografie e videoclip, utilizzato per addestrare modelli di machine learning. Vediamo insieme che cosa ne è emerso.

La costruzione del dataset sintetico

L’obiettivo del gruppo di studio in tema di machine learning e dati sintetici era mettere a punto un dataset artificiale che fosse in grado, dopo la sua creazione, di generare autonomamente un numero illimitato di immagini e di video modificando volti, pose, sfondi, colori e illuminazione.

Punto di partenza sono stati tre set di dati disponibili pubblicamente, ciascuno contenente video sintetici – a loro volta generati da un computer che utilizza modelli 3D – rappresentanti una serie di azioni umane, tra cui salutare, darsi la mano, tuffarsi in piscina, saltare, cadere e altro ancora.

Da questi tre gruppi, è derivato un dataset – battezzato dai ricercatori Synthetic Action Pre-training and Transfer (SynAPT) – all’interno del quale si trovano ben 150 categorie di azioni, con mille videoclip per ogni categoria, impiegato per addestrare tre modelli di apprendimento automatico a riconoscere una serie di azioni compiute dall’essere umano.

Più nel dettaglio – spiega il team – ognuno dei tre modelli AI è stato addestrato a riconoscere un determinato gruppo di azioni e, sulla base dei parametri appresi, a imparare altre azioni ancora per mezzo di un altro set di dati, in un processo di apprendimento continuo.

Terminato l’addestramento, è seguita una fase di test realizzata utilizzando sei set di dai video reali, all’interno dei quali sono state inserite classi di azioni diverse (da riconoscere) rispetto a quelle contenute nei dati sintetici di addestramento. Che cosa è accaduto? Quali sono state le differenze tra le prestazioni?

Machine learning e dati sintetici: il confronto con sistemi AI allenati su dati reali

Ciò che il test ha rilevato è che, su quattro dei sei set di dati impiegati, le prestazioni dei tre modelli di machine learning allenati con dati video sintetici sono state – nel riconoscere le diverse categorie di azioni – superiori se paragonate a quelle dei modelli addestrati con videoclip reali.

In particolare – fanno notare i ricercatori – il livello di accuratezza nel processo di riconoscimento è stato molto elevato «per quei dataset che contenevano videoclip caratterizzati da una bassa distorsione della scena», in cui – cioè – «il riconoscimento delle azioni avviene mediante una forte focalizzazione sull’azione stessa, escludendo lo sfondo e altri oggetti presenti nella scena».

Il che significa – specificano gli autori dello studio – che se al sistema viene chiesto di classificare le azioni di una persona a cavallo, esso non le identifica osservando il prato verde attorno oppure i filari di alberi sullo sfondo, bensì concentrandosi esclusivamente sul movimento dell’animale e sulla posizione del soggetto rispetto all’animale.

Sia nelle fotografie che nei videoclip con bassa distorsione della scena, è la successione delle azioni il dato saliente da cogliere rispetto agli oggetti presenti e allo sfondo. Dato – questo – che, in base ai risultati ottenuti dallo studio, sembrerebbe rilevato con maggiore velocità e precisione quando, per l’addestramento del sistema di intelligenza artificiale, si adottano dati sintetici.

Al contrario, un’elevata distorsione della scena (spesso caratterizzante i dati di addestramento reali) rappresenta un ostacolo per il sistema AI che, distratto dal captare l’azione in sé (ad esempio, il cavalcare), potrebbe essere indotto a classificare una determinata azione solo guardando gli oggetti (il prato, gli alberi o il solo cavallo), cadendo spesso in errore.

Schema a blocchi con, in alto, un estratto dei dati video sintetici dal dataset Synthetic Action Pre-training and Transfer (SynAPT) e, in basso, alcuni compiti di riconoscimento delle azioni. Osserviamo che i modelli addestrati su video sintetici possono persino superare quelli allenati su video reali quando i set di dati a valle hanno una bassa distorsione dell'oggetto e della scena (Fonte: “How Transferable are Video Representations Based on Synthetic Data?” - https://openreview.net/pdf?id=lRUCfzs5Hzg).
In alto, un estratto dei dati video sintetici dal dataset Synthetic Action Pre-training and Transfer (SynAPT) e, in basso, alcuni compiti di riconoscimento delle azioni. Osserviamo che i modelli addestrati su video sintetici superano quelli allenati su video reali quando i set di dati a valle hanno una bassa distorsione della scena (Fonte: “How Transferable are Video Representations Based on Synthetic Data?” – https://openreview.net/pdf?id=lRUCfzs5Hzg).

Machine learning e dati sintetici: gli sviluppi futuri

Questo lavoro in tema di machine learning e dati sintetici – rimarcano gli autori – «pone in evidenza che, benché i sistemi di intelligenza artificiale addestrati su dati video non reali siano esposti a oggetti più deboli dal punto di vista della definizione dell’immagine e a elementi distraenti della scena di sfondo, essi presentano funzionalità fortemente correlate alla successione delle azioni rappresentate, risultando perfino più utili laddove vi è una distorsione di rappresentazione inferiore».

Come accennato, oggetti (presenti nella scena da analizzare) più forti sotto il profilo della definizione dell’immagine – tipici dei dati video reali – spesso costituiscono un fattore di disturbo, soprattutto in quei casi in cui i dati di addestramento contengano bias.

Tra gli obiettivi futuri di ricerca, l’inclusione di più classi di azione all’interno del dataset sintetico SynAPT e, parallelamente, lo sviluppo di un vero e proprio catalogo di modelli di apprendimento automatico addestrati mediante dati sintetici.

Alla base vi è l’intenzione di costruire modelli di intelligenza artificiale allenati su dati sintetici dalle prestazioni molto simili – o addirittura più elevate – rispetto a quelle dei modelli AI esistenti in letteratura, «senza alcun rischio di incorrere in pregiudizi insiti nei dati di addestramento o in questioni relative alla privacy dei soggetti ripresi nelle immagini“.

Un altro intento è quello di esplorare “come” (non quanto) – al di là della misurazione delle performance – i sistemi di artificial intelligence apprendono se allenati con dati video sintetici. In altre parole, apprendono sviluppando altri meccanismi?

Un’altra direzione della ricerca è data dalla generazione di dati video sintetici sempre più accurati e realistici: ad oggi, infatti – conclude il team – sebbene i costi da sostenere per mettere a punto un dataset sintetico siano inferiori rispetto alla creazione di un set di dati reali, «i ricercatori non possono contare su un numero di dati sintetici tale da competere con i più grandi set di dati video reali ed etichettati».

Lo scopo dello studio descritto è, dunque, quello di fungere da stimolo per ulteriori sviluppi futuri di dati di addestramento ottenuti artificialmente.

Scritto da:

Paola Cozzi

Caporedattrice Leggi articoli Guarda il profilo Linkedin