Oggi, la questione che si pone la comunità scientifica non è se il GPT-3 sappia davvero scrivere come l’essere umano, ma se capisce il linguaggio che genera, cogliendone semantica, nessi, e contesto linguistico.
TAKEAWAY
- Un sistema di elaborazione del linguaggio evoluto è capace di cogliere il senso logico delle frasi che produce? E i moderni test a disposizione sono in grado di valutarlo?
- La convinzione diffusa tra gli addetti ai lavori è che, alle sempre più elevate prestazioni degli attuali modelli linguistici, non corrisponda, in realtà, l’effettiva comprensione della semantica delle frasi generate.
- Manca la comprensione del reale, “la comprensione del mondo”. In futuro, un metodo atto ad addestrare chatbot che capiscano a che cosa si riferisce un pronome all’interno di una frase, potrebbe ispirarsi all’apprendimento del linguaggio nei bambini, per fasi e, soprattutto, basato sull’acquisizione di capacità pre-linguistiche.
Originariamente, le macchine dotate di tecniche che fanno capo all’ambito di studi dell’intelligenza artificiale non erano in grado né di produrre (in forma scritta e parlata) un linguaggio che si avvicinasse in qualche modo a quello umano, né di cogliere il linguaggio naturale scritto. È stato grazie alla messa a punto di tecniche di deep learning sempre più evolute, capaci di identificare – all’interno di ampie raccolte di testo – correlazioni relative all’utilizzo delle singole parole e alla strutturazione delle frasi, che la ricerca in tema di elaborazione del linguaggio naturale (Natural Language Processing – NLP) ha portato, nel tempo, a traguardi interessanti. Tale indirizzo di studi, lo ricordiamo, segna il più ampio filone di ricerca sull’Artificial General Intelligence (AGI) – o Intelligenza Artificiale Generale – la cui grande sfida è proprio la «realizzazione di macchine in grado di pensare e di agire come l’uomo».
In questa direzione, un esempio recente è dato dal Generative Pre-trained Transformer 3 (GPT-3), sviluppato da OpenAI, modello di linguaggio basato sul deep learning – addestrato utilizzando testi contenuti in migliaia di siti Web, libri ed enciclopedie – per generare testo scritto simile a quello umano.
Intelligenza artificiale e linguaggio naturale: quali strumenti abbiamo per determinare se una macchina capisce?
In tema di intelligenza artificiale e linguaggio naturale, per molti anni, esattamente dal 1950, è stato il Test di Turing (o “Imitation Game”, com’era denominato all’inizio) – ideato da colui che è considerato il padre dell’informatica – a sondare la capacità delle macchine di comprendere, utilizzandolo, il linguaggio umano. E in un modo molto semplice: un giudice umano, ascoltando il parlato di una persona e di una macchina, entrambe nascoste alla sua vista, doveva pronunciarsi su chi, delle due, non fosse umana. Nel caso in cui il giudice avesse avuto dei dubbi, ecco che la macchina avrebbe superato brillantemente il test.
Ma questo strumento aveva molti punti deboli e, soprattutto – notano gli scienziati in ambito AI – non teneva conto della facilità con la quale le macchine sono in grado di ingannare l’essere umano. Basti solo ricordare il chatbot Eliza che, nel 1966, fingendosi psicoterapeuta, teneva conversazioni strutturando i contenuti attorno alle affermazioni degli stessi pazienti, che lo scambiavano per un umano.
Così, nel 2012, arriva la svolta. In un articolo in, cui per la prima volta, si parla del Winograd Schema Challenge, un team di informatici della New York University propone «un test più obiettivo, dal nome dell’informatico statunitense e professore presso la Stanford University, Terry Allen Winograd, da allora adottato nella comunità linguistica dell’IA come nuovo metodo per valutare il livello di comprensione della macchina».
In breve sintesi, lo Schema di Winograd prevede coppie di frasi che si differenziano per una sola parola (contenente un pronome complemento oggetto, che capovolge il senso della frase), alle quali seguono due domande (per un totale di 273), una per ogni frase:
1) Ho versato il latte dal contenitore nel bricco fino a riempirlo
Domanda: Che cos’è pieno, il contenitore o il bricco?
2) Ho versato il latte dal contenitore nel bricco fino a svuotarlo
Domanda: Che cos’è vuoto, il contenitore o il bricco?
Un test più sofisticato per valutare la comprensione della semantica delle frasi
In tema di intelligenza artificiale e linguaggio naturale, il Winograd Schema Challenge è stato messo a punto con l’intenzione di testare la comprensione della semantica della frase da parte dei modelli di deep learning alla base dei sistemi elaborazione del linguaggio naturale che, a partire dal 2018, hanno raggiunto un livello di precisione assai elevato.
Tuttavia, un nuovo pensiero critico, nel 2019, in un articolo a cura dell’Allen Institute of Artificial Intelligence, pone l’accento sul nocciolo della faccenda: le macchine non capiscono quello che leggono e scrivono, mettendo, così, in discussione l’efficacia dello Schema di Winograd.
E il problema non è da poco, se si pensa che chatbot e assistenti vocali che sfruttano il linguaggio naturale trovano applicazione all’interno di molteplici settori, tra cui, solo per citarne alcuni, Finance ed Health, dove una non corretta e non puntuale comprensione del linguaggio umano, scritto e parlato, ha un impatto negativo sui servizi erogati.
A quel punto, sempre nel 2019, un team di ricercatori dello stesso Allen Institute for Artificial Intelligence dà vita a WinoGrande, ovvero a un test più ampio dello schema originale di Winograd che, anziché contenere diverse centinaia di frasi, ne presenta 44mila su argomenti diversificati, «eliminando, in particolare, quelle frasi che potrebbero consentire scorciatoie statistiche». Come previsto, spiega il gruppo di ricerca:
«Le frasi all’interno del nuovo test hanno presentato una sfida più difficile per le macchine, rispetto alla raccolta originale di schemi di Winograd. Mentre gli umani hanno ancora ottenuto punteggi molto alti, i modelli linguistici della rete neurale che avevano eguagliato le prestazioni umane sul set originale hanno, invece, ottenuto punteggi molto più bassi sul set WinoGrande»
La non-comprensione del senso logico e del contesto linguistico
In materia di intelligenza artificiale e linguaggio naturale, quello che è accaduto a partire dal lancio di WinoGrande ad oggi, è che i modelli linguistici sono evoluti, grazie allo sviluppo di reti neurali sempre più complesse e allenate sulla base di set di dati sempre più grandi e ricchi dal punto di vista qualitativo, raggiungendo una media del 90% di correttezza nel Test, contro il 94% degli essere umani.
Un aumento considerevole della qualità delle prestazioni, dunque, direttamente proporzionale alle dimensioni dei modelli linguistici della rete neurale e ai loro dati di addestramento. Questo si traduce, finalmente, nella comprensione, da parte dei sistemi AI, del senso logico delle frasi e del loro contesto linguistico? Ancora una volta, parrebbe di no.
Innanzitutto – poiché le 44mila frasi di WinoGrande provengono da coloro che lavorano sulla piattaforma di crowdsourcing Amazon Mechanical Turk – la qualità della scrittura del Test non è sempre regolare e, inoltre, la tecnica AI utilizzata per eliminare quelle frasi che potrebbero portare a scorciatoie statistiche e per scartare quelle troppo facili da risolvere, «potrebbe essere stata poco sofisticata per una grande e complessa rete neurale» osserva il gruppo di ricerca.
Quello che è chiaro, per il team che ha creato WinoGrande, è che determinare – solo osservando e misurando le sue prestazioni – se un sistema AI davvero comprende la lingua che elabora, è impresa ardua. Alcune parti del Test potrebbero essere di facile soluzione, altre potrebbero indurre la macchina a eseguire un ragionamento di tipo squisitamente statistico, senza formulare alcuna correlazione tra quanto legge e il contesto al quale rimanda il piano linguistico, senza cioè cogliere il nesso e il senso logico delle frasi.
Intelligenza artificiale e comprensione del linguaggio naturale: quale scenario futuro?
A questo punto, è forse necessaria una riflessione di respiro più ampio. Se le macchine eseguono, ma non capiscono il nesso di quanto eseguono e se questo schema è ancora più vero quando parliamo di intelligenza artificiale e comprensione del linguaggio naturale, dovremmo pensare per un attimo ai bambini e allo sviluppo cognitivo per fasi che caratterizza la loro acquisizione di abilità, compreso il linguaggio.
Il bambino, nei primi anni di vita, imita l’adulto, ma non è ancora in grado di capire il significato di quello che imita, né di spiegarlo. E apprende a parlare mentre fa esperienza del mondo fisico, ricevendo di continuo input linguistici che lo aiutano a contestualizzare le cose. Ebbene, «la comprensione del linguaggio richiede la comprensione del mondo e una macchina esposta solo al linguaggio non può ottenere tale comprensione».
Tornando all’esempio citato in precedenza, e contenuto nello Schema di Winograd, una macchina – prima di rispondere a quesiti linguistici – dovrebbe sapere che cos’è il latte, come va scaldato, cos’è un bricco e a che cosa serve.
Sul tema, un filone della psicologia dell’età evolutiva sostiene che l’apprendimento della lingua nell’essere umano poggia su competenze innate pre-linguistiche fondamentali. Ecco, si potrebbe considerare, per i sistemi AI, un percorso similare, in cui questi vengono dotati di capacità che precedono l’elaborazione del linguaggio e dove, per valutare la loro capacità di comprensione, si parta dalla valutazione di tali “capacità primordiali”.
Addestrare una macchina per fasi, come fosse un bambino, non è affatto una regressione rispetto agli importanti progressi nell’ambito dell’intelligenza artificiale, comprese la potenza e l’abilità del modello di linguaggio GPT-3. Rappresenta, invece, allo stato attuale, una via percorribile che porta a una «comprensione vera e affidabile del linguaggio umano», a macchine che capiscono a che cosa si riferisce un pronome all’interno di una semplice frase e come questo abbia il potere di trasformarne completamente il senso.