Le sfide da superare per addestrare i sistemi AI nell’ambiente fisico, a stretto contatto col mondo reale, sono grandi quanto quelle affrontate, in passato, per le loro esercitazioni in ambienti simulati.
TAKEAWAY
- La riflessione di un docente del Dipartimento di Computer Science dell’Università di Oxford in merito alla mancanza di addestramento nell’ambiente fisico da parte dei sistemi di artificial intelligence particolarmente complessi, offre lo spunto per ragionare sulle capacità di metacognizione dei grandi modelli linguistici basati sull’AI.
- I modelli linguistici di grandi dimensioni (come lo è, ad esempio, GPT-3) non hanno alcuna esperienza del mondo reale. Sono una raccolta assai ampia di “simboli” che servono a correlare i diversi termini appresi. Dei concetti dietro a ognuno di questi, comprendono solo l’aspetto linguistico, ma non il senso. Il che potrebbe non essere grave dal punto di vista della loro utilità, ma certo ne limita le capacità.
- È recente l’esempio di un sistema AI di grandi dimensioni (Gato), il cui addestramento prevede sia dataset linguistici molto estesi, sia dati robotici derivati da esercitazioni in ambiente fisico. L’obiettivo futuro è arrivare a fare in modo che l’AI possa sempre più esperire il reale, confrontandosi con oggetti, contesti e persone ai quali sono destinate le sue applicazioni.
Sembrerebbe una questione puramente filosofica e, invece, la riflessione che pone a confronto, da un lato, i più evoluti sistemi di intelligenza artificiale e, dall’altro, la loro esperienza (nel senso di “esperire”) nel mondo reale, è arrivata a coinvolgere scienziati e realtà accademiche.
Quale utilizzo concreto potrebbe avere, nella realtà – ad esempio – un sistema AI per la produzione automatica di testi scritti, addestrato attraverso un enorme corpus di dati linguistici, ma incapace di descrivere il concetto di “umido” riferito alla pioggia?
A porsi la domanda è un docente del Dipartimento di Computer Science dell’Università di Oxford – Michael Wooldridge – in un interessante scritto dal titolo “What Is Missing from Contemporary AI? The World”, pubblicato sulla testata di divulgazione scientifica Intelligent Computing.
«Così come non permettiamo a un robot di imparare a cucinare un pasto lasciandolo liberamente sperimentare nella nostra cucina, così non lasciamo libere per le strade le auto a guida autonoma prive di conducente, affinché apprendano da sole a muoversi nello spazio reale»
osserva il professore. Motivo per cui i ricercatori sviluppano i loro modelli di intelligenza artificiale avvalendosi di mondi virtuali – proprio come accade nell’ambito dei videogiochi – ricorrono agli ambienti simulati per farli esercitare oppure optano per la totale assenza di contatto e di confronto col mondo reale, come succede con i modelli linguistici di grandi dimensioni.
Ma in questo modo – fa notare – «rischiamo di entusiasmarci per una generazione di sistemi di intelligenza artificiale che, semplicemente, non hanno la capacità di operare nell’ambiente più importante di tutti: il nostro mondo».
Più grande è il set di dati di addestramento, maggiori sono le competenze dell’AI?
Ragionando sulle implicazioni derivanti dai sistemi di intelligenza artificiale sviluppati in ambienti simulati o, al contrario, nel mondo reale, le considerazioni di Wooldridge partono da una premessa e cioè che tutti i progressi compiuti, nell’ultimo decennio, dalla ricerca sull’AI sono dominati dall’impiego di set di dati via via più estesi per l’allenamento degli algoritmi e da risorse di calcolo sempre maggiori, conducendo a modelli computazionali sempre più grandi e complessi.
“Più estesi”, “maggiori”, “più grandi”: se ci focalizziamo sugli aggettivi comunemente usati da sviluppatori, tecnici e aziende del settore – rimarca il docente – ci è chiaro come, oggi, l’enfasi sia sulle “dimensioni” dell’intelligenza artificiale:
«Se, fino a quindici anni fa, la ricerca sull’AI si basava sul presupposto che l’intelligenza è principalmente un problema di “conoscenza”, gli attuali modelli poggiano sull’assunto che questa sia, invece, un problema di dati. Somministrando più dati di addestramento a sistemi di grandi dimensioni, ci si aspetta che ne derivino più competenze»
Torniamo alla produzione automatica di testi, citando, in questo caso, GPT-3 (Generative Pre-trained Transformer 3), modello linguistico fondato su tecniche di deep learning che simula il linguaggio naturale umano, definito da Michael Wooldridge «esempio canonico di Large Language Model (LLM)», probabilmente il più grande degli ultimi tempi, addestrato utilizzando tutti i testi in inglese disponibili sul World Wide Web.
«GPT-3 ha dimostrato di avere capacità senza precedenti nella generazione del linguaggio naturale. Forse ancora più interessante è che sembra anche aver acquisito una certa competenza nel ragionamento basato sul buon senso», ma soffermiamoci a pensare a ciò che un grande modello linguistico come il Generative Pre-trained Transformer 3 apprende. È questo l’invito dell’esperto di Computer Science dell’Ateneo inglese.
Intelligenza artificiale nel mondo reale: l’esempio dei modelli linguistici
Un modello linguistico di intelligenza artificiale di grandi dimensioni viene innanzitutto allenato mediante la somministrazione di un corpus molto ampio di testi di varie lingue. Corpus che incarna la conoscenza di tutte le parole che abitualmente usiamo per descrivere “le cose nel mondo”.
«Così, ad esempio, un modello linguistico di grandi dimensioni potrebbe benissimo apprendere che “la pioggia è bagnata” e, al quesito se la pioggia sia bagnata o secca, probabilmente risponderà correttamente dicendo che la pioggia è bagnata» spiega il professore.
Tuttavia la questione è un’altra, come già illustrato in un servizio pubblicato su Tech4Future in merito non tanto all’abilità del GPT-3 nello scrivere come noi, quanto alla sua capacità nel “capire” il linguaggio che esso stesso produce.
L’intelligenza artificiale non ha esperienza della pioggia, né dell’umidità nel mondo reale. Questa è l’evidenza. «Il termine “bagnato”, dunque, per lui non è altro che un simbolo utilizzato in relazione a parole come “acqua”, “neve” e, appunto, “pioggia”».
Ma, detto questo, il modello comprende in qualche modo il concetto di “umido”? Dal punto di vista linguistico, sì. «Saprebbe, con tutta probabilità, scrivere un saggio plausibile sull’umidità. Ma i modelli linguistici di grandi dimensioni come GPT-3 non hanno sperimentato nulla nel mondo reale. Tutto ciò che hanno sperimentato è una raccolta molto ampia di simboli – i loro dati di allenamento – che stanno in determinate relazioni tra loro, come la parola “bagnato” usata in relazione a “pioggia”».
In alcun momento c’è un fondamento per questi simboli, nessun senso in cui venga dato loro un significato rispetto a concetti che sono stati sperimentati nel mondo reale.
L’AI senza esperienza ha capacità limitate
Riguardo all’intelligenza artificiale nel mondo reale, la tesi contraria alla posizione assunta dal professor Wooldridge vuole che, se ci sono comunque dati di addestramento sufficienti e “descrizioni” sufficienti delle esperienze – anche senza esperienze dirette nell’ambiente fisico – «la mancanza di fondamento cessa di avere importanza».
Per farla breve – tornando ai modelli linguistici e al concerto di “umidità” – un sistema AI come GPT-3 potrebbe convincerci del fatto che davvero capisce che cosa si intende per ”pioggia” e per “umido”.
Il fatto, poi, che un sistema di intelligenza artificiale non abbia avuto esperienze nel mondo reale, non gli impedisce di essere utile, né di essere in qualche modo “esperto” in un ambito specifico.
«Mette, piuttosto, in dubbio la possibilità che un tale sistema abbia il nostro stesso status rispetto a questioni come la comprensione» puntualizza il docente, dicendosi scettico sul fatto che sistemi così ampi e complessi, generati con questa metodologia, possano esibire un’intelligenza artificiale forte, ossia capace di comportarsi in maniera del tutto autonoma, a prescindere dal contesto e dal compito che gli viene assegnato. E conclude:
«Una preoccupazione meno filosofica è che i modelli AI senza esperienza del mondo abbiano, in realtà, capacità di intelligenza limitate».
Intelligenza artificiale nel mondo reale: piccoli passi verso l’ambiente fisico
Fare esercitare i sistemi di intelligenza artificiale nel mondo reale presenta maggiori difficoltà rispetto a quanto accade con i mondi simulati e virtuali. «Il problema è che l’ambiente fisico non ci è dato in strutture di dati ordinate».
Eppure, annuncia nel suo scritto Wooldridge, ci sono alcuni segnali che qualcosa sta cambiando. Ad esempio, a maggio 2022 DeepMind ha annunciato il sistema Gato, costituito da una rete neurale artificiale sviluppata per una serie di attività complesse, i cui dati di allenamento includono sia corpus linguistici di grandi dimensioni (come è stato per GPT-3), sia un addestramento su dati robotici che prevede esercitazioni in un ambiente fisico, seppure molto semplice e con tutte le misure di sicurezza del caso.
Gato rappresenta i primi piccoli passi fatti nel mondo fisico da un modello di intelligenza artificiale di grandi dimensioni e basato su vaste mole di dati. Ma le sfide, spesso, si portano avanti a piccoli step protratti nel tempo.
L’obiettivo ultimo è arrivare a fare in modo che l’AI possa esperire il reale, confrontandosi con oggetti, contesti e persone ai quali sono destinate le sue applicazioni.