Da uno studio guidato dal Massachusetts Institute of Technology su come dotare i sistemi di Generative AI quali DALL-E di una maggiore comprensione degli input di testo particolarmente complessi e del relativo contenuto visivo da creare, lo spunto per un’applicazione dell’intelligenza artificiale generativa che va oltre la pura produzione di immagini.
La Generative AI Gartner l’ha inserita nei suoi Top Strategic Technology Trends di questo 2022 in quanto ritenuta tra le applicazioni emergenti dell’intelligenza artificiale, definendola una «tecnologia in grado di generare artefatti che in precedenza si basavano sulla creatività dell’uomo, garantendo risultativi innovativi». Detta anche “intelligenza artificiale generativa”, produce dati sintetici a supporto delle capacità e delle attività creative dell’essere umano. Tra le tecnologie che abilitano la Generative AI, quelle che consentono ad algoritmi di machine learning – allenati per mezzo di dataset a tema – la creazione di immagini di varia natura, tra cui anche quelle generate a partire da una serie di descrizioni scritte elaborate da un sistema di Natural Language Processing.
È il caso di DALL-E, algoritmo di intelligenza artificiale sviluppato da OpenAI nel 2021, e della sua versione più recente DALL-E 2 (gennaio 2022), entrambi addestrati – attraverso milioni di immagini (comprese quelle di dipinti) presenti in rete e delle relative didascalie – a produrre contenuti visivi (output) sulla base di richieste espresse in forma scritta (input).
Un team di ricerca guidato dal Computer Science and Artificial Intelligence Laboratory (CSAIL) in seno al MIT – Massachusetts Institute of Technology ha messo a punto un metodo in grado di dotare i sistemi di Generative AI come DALL-E 2 di una maggiore comprensione degli input di testo particolarmente complessi e della relativa “scena” da generare.
Lo studio, descritto in un documento dl titolo “Compositional Visual Generation with Composable Diffusion Models”, ha preso il via da una considerazione precisa, ossia – spiegano gli autori – il fatto che DALL-E 2, per produrre una data immagine, tenti di codificare l’input di testo in una descrizione. «Ma, nel caso in cui il testo scritto contenga molteplici dettagli – viene fatto notare – è difficile per una singola descrizione catturarli tutti. Inoltre, sebbene siano altamente flessibili, tali modelli di Generative AI faticano a comprendere il significato di determinati concetti, talora confondendo gli attributi o le relazioni tra oggetti diversi».
Generative AI e creazione di immagini: si è ancora lontani dalla comprensione del mondo reale da parte della macchina
In tema di Generative AI e creazione di immagini, che cosa accade a un modello come DALL-E quando riceve un input di testo scritto la cui richiesta è correlata alla parola “gatto”? Che molto probabilmente genererà un’immagine che assomiglierà alle tante immagini di gatto presente in Internet con le quali è stato addestrato.
«Allenati sulla base di immagini e di dipinti che l’essere umano ha creato in passato e che oggi sono presenti in rete, i modelli di Generative AI come DALL-E sono simili a “cristallizzazioni” di ciò su cui le persone hanno speso la propria creatività per centinaia di anni. Arrivano sì a creare opere d’arte molto simili a ciò che gli umani hanno realizzato in passato, ma è molto difficile che producano da soli immagini creative inedite o dipinti mai visti prima»
osservano i ricercatori del CSAIL. Questi modelli, insomma, non sono capaci di generare nulla che sia nuovo. «Se chiedi loro di produrre una configurazione stabile di blocchi, sicuramente la genereranno. O se chiedi di creare “un albero vicino a un lago”, sono più o meno in grado di farlo» prosegue il team.
Sembra, dunque, che questi modelli abbiano, in parte, acquisito – mediante l’enorme mole di dati di addestramento – un ampio aspetto del ragionamento logico. «Ma il problema che rende questi modelli di intelligenza artificiale ancora molto lontani dalla piena comprensione del mondo reale, è che quando si tenta di dare loro come input combinazioni non usuali di parole, essi falliscono».
Un esempio? Se, in tema di Generative AI e creazione immagini, si ordina a un modello come DALL-E “metti un cucchiaio sopra un piatto”, l’immagine che esso creerà sarà, con ogni probabilità, corretta. Ma se si ordina “metti un piatto sopra un cucchiaio”, non otterremo l’immagine corrispondente, perché si tratta di una scena che non ha mai appreso:
«Tali modelli imparano a ricapitolare tutte le immagini e tutte le relative didascalie sulle quali sono stati addestrati. Non sono abili a generalizzare e a tradurre in immagini combinazioni di parole che non hanno mai appreso, tra cui, appunto, “cucchiaio sopra un piatto”»
Un altro esempio noto, citato dagli autori, è quello dell’astronauta a cavallo, immagine che un modello di Generative AI come DALL-E può creare con facilità. Ma se gli diamo come input la frase “un cavallo a cavallo di un astronauta”, esso genera comunque una persona a cavallo:
«Sembra che questi modelli stiano cogliendo molte correlazioni tra i concetti presenti nei set di dati con i quali vengono allenati, ma non ne stanno cogliendo i meccanismi causali sottostanti».

Generative AI e creazione di immagini: un nuovo approccio per superare gli attuali limiti
In tema di Generative AI e creazione di immagini, il nuovo metodo definito dai ricercatori del MIT si propone quale alternativa alla tecnica che sta alla base di DALL-E e DALL-E 2. L’obiettivo è tentare di compiere un passo avanti nel fare fronte alle criticità illustrate, arrivando a sviluppare un sistema di intelligenza artificiale generativa in grado di produrre contenuti visivi più complessi di quelli appresi in sede di addestramento, a partire da una comprensione del testo scritto più profonda e puntuale.
In sostanza, il nuovo metodo si propone di andare oltre la singola descrizione con la quale DALL-E codifica l’input di testo per poi generare l’immagine corrispondente, di andare oltre, cioè, il singolo modello provvisto di un grafico computazionale fisso.
Il team del CSAIL punta a un’immagine prodotta componendo un insieme di descrizioni (dette “modelli di diffusione”), ognuna delle quali modella un determinato componente dell’immagine.
Si chiama Composable Diffusion ed è un framework costituito «da una serie di modelli insieme, in cui tutti cooperano per generare le immagini desiderate che catturano molteplici aspetti, come richiesto dal testo o dalle etichette di input. Per creare un’immagine caratterizzata da due componenti, a loro volta descritte da due frasi di descrizione, ogni modello affronta un particolare componente dell’immagine».
L’approccio si foda su un’acquisizione più accurata dei dettagli contenuti all’interno del testo scritto, codificando le parole come un’unica lunga frase: ad esempio – spiegano gli autori – dato “un cielo giallo” e “una montagna rossa all’orizzonte” e “fiori di pesco davanti alla montagna”, il nuovo modello è in grado di produrre esattamente l’immagine risultante.
Le applicazioni al di fuori del dominio delle immagini
In tema di Generative AI e creazione di immagini, la nuova tecnica vuole che – dati suggerimenti assai complessi – si possano comporre insieme più modelli indipendenti e fare in modo che ogni singolo modello rappresenti una parte della scena che si desidera produrre.
L’aspetto probabilmente più interessante di tale approccio è che fa dell’intelligenza artificiale generativa una tecnica idonea all’impiego in diversi ambiti e per differenti tipologie di applicazioni.
È vero che, da parte della Generative AI, la produzione di immagini è l’applicazione attualmente maggiormente in uso. Ma la Composable Diffusion ispira ulteriori segmenti di studio, «consentendoci di avvicinarci, ad esempio, al mondo della robotica per generare diversi comportamenti nei robot o per consentire una migliore comprensione della scena in cui questi sono inseriti» sottolineano i ricercatori.
Quello della robotica, dunque, risulta essere un settore di forte interesse per la ricerca futura in tema di Generative AI basata sulla tecnica dei modelli di diffusione, focalizzata, in particolare, sulla generazione di diverse traiettorie di percorso per i sistemi robotici.
I prossimi anni – prevede il team – saranno segnati da tale tendenza: «componendo diversi modelli di input insieme – come si è visto nella produzione di immagini basate su input del linguaggio scritto – diverremo probabilmente anche in grado di generare traiettorie con diverse combinazioni di abilità per le macchine».
Se – come accade per la creazione di immagini da parte di DALL-E – si possiedono le specifiche scritte affinché un sistema robotico possa saltare ed evitare un ostacolo, allora da queste specifiche è possibile codificare più modelli insieme e, quindi, generare traiettorie di robot in grado di saltare o di evitare un dato ostacolo: è questo il principio che guiderà gli studi futuri in materia.