Un’intelligenza artificiale capace di lavorare in simultaneità, plastica e adattabile, che impara in autonomia a svolgere più compiti, anche quelli che le sono sconosciuti: forse siamo vicini al primo step di un lungo viaggio.
TAKEAWAY
- Gli attuali sistemi di intelligenza artificiale difettano di abilità simultanee a causa dell’utilizzo di più algoritmi monouso per l’apprendimento di competenze diverse.
- Il recente sviluppo di un algoritmo auto-supervisionato apre una finestra sulla possibilità di unificare il processo di apprendimento delle macchine.
- L’obiettivo di fondo è, in futuro, macchine che imparano dall’ambiente – da un filmato, dalla lettura di un testo o dall’ascolto di un parlato – e con l’esigenza di pochi dati etichettati per il loro addestramento iniziale.
L’intelligenza artificiale è ancora ben distante dalle capacità e abilità simultanee proprie del cervello biologico. Le funzioni cognitive dell’essere umano consentono di riconoscere, attraverso la percezione visiva, l’immagine di un cane e contemporaneamente (ossia in parallelo) di comprendere – mediante la percezione uditiva del linguaggio – che si sta parlando dello stesso cane.
La simultaneità di più processi (in questo caso specifico, di visione e linguaggio) è il tratto distintivo del cervello umano, che già i programmi per calcolatori degli anni ’80, basati su evoluti modelli connessionistici della mente, erano molto lontani dal riprodurre.
Oggi, le tecniche di intelligenza artificiale – tra cui quelle che fanno capo all’ambito di studi delle reti neurali profonde – sebbene divenute assai ferrate nell’identificare le immagini di oggetti contenuti nelle foto e nel capire e riprodurre il linguaggio naturale, arrivando, in molti casi, a performance di livello elevato per entrambe le abilità separatamente (in due momenti diversi), sono ancora incapaci di tali competenze in parallelo.
Gli addetti ai lavori indicano, tra le cause del problema, il fatto che abilità diverse vengano apprese dalle macchine per mezzo di algoritmi differenti. Ed è questo, espresso in estrema sintesi, lo scoglio più grosso allo sviluppo della cosiddetta Intelligenza Artificiale Generale (AGI), capace di realizzare macchine in grado di pensare e di comportarsi come l’essere umano, simulandone perfettamente il funzionamento del cervello. Un sogno, una visione futuristica con molte sfide sul proprio cammino. Cammino sul quale, recentemente, ha incontrato un algoritmo sviluppato dal team di Meta AI (ex Facebook AI Research) che ha l’ambizione di arrivare ad addestrare – da solo – una rete neurale a riconoscere simultaneamente immagini, linguaggio scritto e linguaggio parlato.
Intelligenza artificiale e abilità simultanee delle macchine: si va oltre l’apprendimento supervisionato e gli algoritmi monouso
In tema di intelligenza artificiale e abilità simultanee, il nuovo algoritmo (Data2vec è il suo nome) è auto-supervisionato e funziona per più modalità, tra cui visione artificiale e attività di elaborazione del linguaggio naturale (Natural Language Processing – NLP).
Che cosa significa “auto-supervisionato”? Se l’apprendimento supervisionato – sul quale poggia l’addestramento della maggior parte dei sistemi di intelligenza artificiale odierni – funziona sulla base di dati etichettati, «l’auto-supervisione consente alle macchine di conoscere il mondo semplicemente osservandolo e, quindi, di apprendere in modo autonomo la struttura di immagini, parole e testo e a classificarli».
Gli algoritmi monouso, per ciascuna modalità, prevedono unità diverse, vale a dire i pixel per quanto riguarda le immagini, i vocaboli per i testi e i fonemi per il linguaggio parlato. Tre unità assai diverse – come è intuibile – per la tipologia dei dati raccolti, motivo per cui la progettazione stessa dell’algoritmo monouso segue modalità specifiche e, dunque, lavora in modo differente in ciascuna modalità.
L’algoritmo di cui stiamo parlando, invece, semplifica questo schema, addestrando modelli di apprendimento in grado di prevedere le proprie rappresentazioni dei dati in ingresso, indipendentemente dalla modalità che viene utilizzata. Focalizzandosi su tali rappresentazioni (che vano a costituire i diversi gli strati della rete neurale profonda), anziché prevedere, singolarmente, pixel di immagini, passaggi di testo oppure fonemi, è capace di lavorare con tutti i tipi di input relativi a ciascuna di tali modalità.
L’AI è tesa al multitasking
In tema di intelligenza artificiale e abilità simultanee, il nuovo algoritmo si propone di unificare il processo di apprendimento delle macchine. E lo fa avvalendosi di due reti neurali, in cui la prima “insegna” e la seconda “apprende”.
La “rete insegnante” viene addestrata sulla base di immagini, testi o linguaggio parlato, apprendendo – attraverso un data set di esempi – a “prevedere” ciò vede, legge o ascolta nel momento cui le vengono mostrati nuovi esempi, al punto che, quando le viene mostrata la foto di un gatto, lo riconosce come tale.
La novità del nuovo algoritmo è data dalla rete che apprende (la “rete studente”), «che viene addestrata a prevedere le rappresentazioni della rete insegnante», ovvero a prevedere «che cosa vedrà la prima rete neurale quando le viene mostrata la foto di un gatto».
Va detto che, al momento, l’algoritmo è sì in grado di addestrare ad abilità diverse (riconoscere immagini, linguaggio scritto e linguaggio parlato), ma una alla volta. Spiega il team di sviluppatori:
«Una volta che il sistema AI ha imparato a riconoscere le immagini, deve ricominciare da capo per imparare a riconoscere il linguaggio. Insegnare più abilità contemporaneamente è complesso, ma è un traguardo che ci proponiamo di conseguire passo passo, nel tempo»
Data2vec, insomma, rappresenta un buon punto di partenza verso un apprendimento olistico che superi i limiti propri degli algoritmi monouso ai quali siamo abituati. La strada è lunga ma percorribile, ci fano sapere i suoi autori.
Intelligenza artificiale e abilità simultanee: il futuro sarà fatto di sistemi AI che apprendono osservando e ascoltando quanto li circonda
L’obiettivo di fondo degli sviluppatori, attraverso il modello messo a punto, è arrivare – come si è accennato all’inizio – a un’intelligenza artificiale “generale”, che impari a fare più cose contemporaneamente, a svolgere molteplici compiti, soprattutto quelli di cui non sa proprio nulla. Un’intelligenza che, ad esempio, oltre a riconoscere cani, gatti e giraffe – le cui immagini sono inserite nei dati con i quali è stata allenata – sia tanto plastica da adattarsi a riconoscere altri animali al solo racconto delle loro caratteristiche fisiche. E se lo si può fare utilizzando un unico algoritmo auto-supervisionato dalla doppia rete neurale, si ha un’economia di sforzi e di tempo rispetto ai comuni algoritmi monouso.
Lavorare su intelligenza artificiale e abilità simultanee apre a prospettive future in cui la stessa macchina, visionando filmati, leggendo articoli o ascoltando conversazioni, apprenda nuovi contenuti, acquisisca nuove competenze, ad esempio in merito a un gioco di carte, all’esecuzione di una ricetta culinaria o – spingendoci oltre – a un tema di politica. L’idea, inoltre, è quella di avvicinarsi a uno scenario in cui i sistemi di intelligenza artificiale avranno davvero bisogno di pochi dati etichettati per svolgere compiti diversi.
Insomma, si pensa a un’AI sempre più autonoma, competente e onnisciente. Il che non può che andare ad arricchire di nuove sfumature il dibattito sull’etica dell’intelligenza artificiale, ponendo l’accento sulla questione della trasparenza e dell’affidabilità di macchine che assorbono come spugne dall’ambiente in cui vengono inserite e sull’esigenza di regolamentazioni circa la legittimità del loro utilizzo in determinati contesti e il loro uso consapevole e corretto.
E intanto, in attesa di future riflessioni sul bene e sul male delle tecnologie che vi sono alla base, Mark Zuckerberg fa sapere che sta pensando ad applicazioni che sfruttano il metaverso, integrando, ad esempio, il nuovo algoritmo nei visori di realtà aumentata, con l’utente che viene guidato da un assistente vocale AI, che lo aiuta a cucinare una pietanza o a svolgere un compito più complesso, avvisandolo se manca qualcosa (un ingrediente, nel primo caso) o invitandolo a compiere una data azione. Insomma, non ci resta che attendere gli sviluppi.