Uno studio dell’University of Southern California ha indagato un aspetto molto particolare della generazione di linguaggio naturale da parte della macchina: la comprensione del contesto in cui si inserisce la frase. Giungendo alla conclusione che c’è ancora molto da lavorare sulle modalità di addestramento degli algoritmi AI, affinché riproducano un linguaggio che non sia solo grammaticalmente e sintatticamente corretto, ma che abbia anche un senso logico.
Il linguaggio naturale – o linguaggio umano – è la lingua che si usa nel quotidiano, nella vita di tutti i giorni, diversa in base al Paese in cui ci si trova. E l’elaborazione del linguaggio naturale, detta anche NLP – Natural Language Processing, è quell’ambito di studi che, coniugando informatica, tecniche di intelligenza artificiale e linguistica, punta al trattamento automatico dei diversi linguaggi, decifrandoli, comprendendone e interpretandone il senso e riproducendoli.
Data la complessità del linguaggio umano, caratterizzato da ambiguità di vocabolario e da mille sfumature di significato, il processo di elaborazione del linguaggio naturale appare come un percorso affatto semplice e lineare, nel quale diventa condizione imprescindibile il fatto che la macchina possieda una conoscenza puntuale del contesto nel quale un determinato linguaggio viene utilizzato.
Per tale ragione, il processo di elaborazione del linguaggio naturale comprende diverse fasi, in cui analisi morfologica, sintattica, semantica, relativa al contesto del linguaggio, alle sue finalità e alla fonologia si susseguono, dando vita a diverse applicazioni, tra cui i chatbot, software in grado di simulare una conversazione con un essere umano; i natural speeching, software che interpretano il linguaggio naturale; i text recognition, software capaci di riconoscere testi e di trascrivere file audio in note.
Negli ultimi anni, l’elaborazione del linguaggio naturale ha visto un’importante evoluzione sotto il profilo tecnologico. Ma oggi, la domanda che gli studiosi della materia si pongono è: quanto davvero comprende, di ciò che legge e ascolta, un sistema di intelligenza artificiale?
Meno di quanto pensiamo, secondo i ricercatori del Dipartimento di informatica della University of Southern California. I quali hanno scoperto che, nonostante i progressi, l’intelligenza artificiale non possiede ancora il “buon senso” necessario per generare frasi plausibili.
AI e linguaggio naturale: il problema è la comprensione del contesto
Gli algoritmi degli attuali modelli AI di elaborazione del linguaggio naturale sono in grado di generare un linguaggio – scritto e parlato – di qualità soddisfacente. Ma, semplicemente, imitano ciò che imparano durante la fase di addestramento.
“Il nostro obiettivo è capire se questi modelli sono, oggi, in grado di generare frasi per descrivere scenari, situazioni, anche semplici, della nostra vita quotidiana“
Spiega Xiang Ren, docente di Computer Science presso il Dipartimento di informatica della University of Southern California, a capo del gruppo di studio che comprende anche ricercatori dell’Allen Institute of Artificial Intelligence di Washington e dell’Allen School of Computer Science & Engineering dell’Università di Washington.
Nello specifico, il team ha testato la capacità di ragionamento dei più recenti modelli AI ed è riuscito a dimostrare che esiste (ancora) un grande divario tra i modelli di generazione di testo attuali e le prestazioni umane.
Ecco alcuni esempi concreti, che rimandano ad alcuni dei test svolti dai ricercatori. Dato un insieme di nomi e di verbi comuni, i modelli AI di elaborazione del linguaggio naturale avevano il compito di comporre frasi sensate, che descrivessero una semplice situazione di vita quotidiana. Che cosa è accaduto? Che, sebbene i modelli generassero frasi grammaticalmente corrette, erano spesso incoerenti dal punto di vista logico. Ad esempio, ecco una frase generata utilizzando le parole “cane, frisbee, lanciare, prendere”: “due cani si lanciano frisbee a vicenda”
Il test si basa sul presupposto che non può essere generata alcuna frase coerente, che rimanda, a sua volta, a un’immagine coerente (in questo caso, “una persona lancia un frisbee e un cane lo prende”), senza consapevolezza del suo senso logico, che è più della semplice comprensione del linguaggio: significa comprendere la situazione, il contesto al quale tale linguaggio viene applicato.
Questa, oggi, a fine 2020, è l’ennesima sfida del campo di studi che fa capo all’intelligenza artificiale. E l’importanza di tale sfida non coinvolge soltanto il mondo accademico, ma anche (e soprattutto) il pubblico, chi fruisce di chatbot e assistenti vocali per le ragioni più semplici e banali, fino ad arrivare al mondo del lavoro e a tutti quei casi in cui l’interazione tra il robot e l’uomo (si pensi all’assistenza ai malati) è alla base dell’applicazione stessa dell’elaborazione del linguaggio naturale. Insomma, se si chiede a un robot del latte caldo, ci si aspetta che sappia che ci si riferisce a una tazza e non all’intero contenitore.
Il test sul senso logico delle frasi generate dalle macchine
In particolare, il gruppo di studio capitanato dal professor Xiang Ren ha testato il “buon senso”, ovvero il senso logico delle frasi generate da alcuni sistemi AI di elaborazione del linguaggio naturale, servendosi di un modello di generazione di testo chiamato CommonGen.
Più nel dettaglio, i ricercatori hanno sottoposto alle macchine prese in esame un set di dati composto da 35.141 concetti, associati a 77.449 frasi. E hanno scoperto che il modello AI con le migliori prestazioni raggiungeva un tasso di precisione del 31,6%, contro il 63,5% degli esseri umani.
“Siamo rimasti sorpresi dal fatto che i modelli che abbiamo testato non riescano a ricordare, neanche dopo numerosi esempi somministrati, la semplice associazione in base alla quale ‘una mano che lancia un frisbee’ esprime un senso logico maggiore rispetto a ‘un cane che lancia un frisbee’. E anche il modello più potente, chiamato T5, dopo l’allenamento con un ampio set di dati, commette ancora errori di logica che definiremmo stupidi”
Ha commentato Xiang Ren. Studi precedenti si sono concentrati prevalentemente sul “buon senso discriminante”, testando le macchine attraverso domande a scelta multipla, dove il margine di scelta era limitato a tre, massimo quattro opzioni. Ad esempio:
Domanda: “Dove gli adulti utilizzano la colla stick?”
Risposta a scelta tra:
- A: a scuola
- B: in ufficio
- C: nel cassetto della scrivania
La risposta qui, ovviamente, è la B. E anche le macchine sono in grado di capirlo, senza troppi problemi: nei compiti di ragionamento discriminatorio, infatti, con un buon allenamento dell’algoritmo, è molto facile ottenere prestazioni valide.
Al contrario, l’ambiente di generazione di testo – come quello proposto dal modello CommonGen – è aperto: qui, alla macchina viene chiesto di generare lei stessa, senza schemi, una frase di senso logico partendo da concetti dati. Non vi è alcuna possibilità di scelta tra più opzioni.
Il team di Xiang Ren si augura che il modello da loro messo a punto (CommonGen), e il set di dati individuato, servano da nuovo punto di riferimento a beneficio della ricerca futura sull’introduzione del senso logico, del “buon senso”, nella generazione del linguaggio naturale da parte delle macchine. Hanno persino stilato una classifica con i punteggi raggiunti dai modelli AI più popolari, col fine di aiutare altri ricercatori a definire la fattibilità degli studi futuri.