Dal Bayesian Program Learning un sistema AI che apprende le regole linguistiche e le spiega

È stato presentato nei giorni scorsi il primo sistema di intelligenza artificiale che sintetizza algoritmicamente un aspetto fondamentale del linguaggio umano: la morfo-fonologia, dove i modelli sonori di una data lingua si coniugano alla struttura delle singole parole.

TAKEAWAY

  • Spiegare le regole in base alle quali, in tutte le lingue del mondo, le singole parole all’interno delle frasi cambiano nel momento in cui devono esprimere differenti funzioni grammaticali: questo l’obiettivo della macchina messa a punto da un recente lavoro guidato dal MIT, che emula il ragionamento dei linguisti.
  • La tecnica di machine learning utilizzata è il Bayesian Program Learning, che ha permesso al sistema AI non solo di apprendere i contenuti della linguistica, ma anche di elaborare un “programma” di quanto appreso, uno schema generale dell’insieme delle regole che disciplinano ogni lingua.
  • Al di là dello specifico ambito esplorato, lo studio descritto, proprio per l’approccio adottato, apre scenari di ricerca inediti, che guardano all’intelligenza artificiale quale strumento che, se opportunamente addestrato, è in grado di compiere deduzioni in differenti domini.

È possibile insegnare a un sistema di intelligenza artificiale ad analizzare i suoni delle diverse lingue parlate nel mondo, la loro morfologia e le strutture grammaticali e sintattiche che le governano, così come lo farebbe un esperto di linguistica?

La domanda è strettamente correlata al desiderio, da parte di coloro che studiano le lingue dal punto di vista scientifico, di poter mettere a punto «sistemi in grado di apprendere modelli di set di dati rappresentati in modo tale che gli esseri umani possano comprendere». In beve sintesi, i linguisti si interrogano sulla possibilità, che tali sistemi, anziché semplicemente apprendere le lingue del mondo, possano apprenderne le regole e spiegarle.

«Un modello di apprendimento automatico potrebbe, ad esempio, imparare che la lettera “a” deve essere aggiunta alla fine di una parola per rendere femminile la forma maschile nella lingua serbo-croata. Così, la forma maschile della parola “bogat” diventa, al femminile, “bogata”»

si legge in un articolo pubblicato su Nature Communications il 30 agosto 2022, “Synthesizing theories of human language with Bayesian program induction”, in cui un gruppo di ricercatori provenienti dal Quebec Artificial Intelligence Institute, nonché dai Dipartimenti di linguistica, di computer science e di scienze cognitive del Massachusetts Institute of Technology (MIT), della Cornell University, nello Stato di New York, e della McGill University, in Canada, illustrano la ricerca che ha condotto allo sviluppo di un sistema di intelligenza artificiale capace di apprendere da solo le regole e gli schemi dei linguaggi umani. Vediamo di che cosa si tratta.

Intelligenza artificiale per la linguistica: l’AI spiega la grammatica

Questo studio – che vede le tecniche di intelligenza artificiale applicate alla linguistica – ha origine dalla precisa volontà di spiegare, avvalendosi dell’apprendimento automatico, le regole che spiegano “perché” le singole parole, in una data lingua, dall’italiano al rumeno, dallo spagnolo al russo, all’interno delle frasi cambiano nel momento in cui devono esprimere differenti funzioni grammaticali, relative, ad esempio, alle maiuscole e alle minuscole, al genere femminile e maschile o ai tempi verbali.

Per fare questo, il team di ricerca ha addestrato un modello di machine learning utilizzando 70 set di dati – provenienti da libri di linguistica – che coprono la morfo-fonologia di ben 58 lingue.

In particolare, l’attenzione è andata agli esercizi di linguistica in cui figuravano un insieme di parole e le corrispondenti modifiche alla loro forma (lettere maiuscole e minuscole, declinazione al femminile e al maschile, coniugazione dei tempi verbali). Al sistema veniva chiesto di elaborare una serie corretta di regole che descrivessero e spiegassero le modifiche attuate.

Nello dettaglio, si è scelto di indagare l’interazione tra fonologia, ossia lo studio dei modelli sonori di una data lingua, e morfologia, che rimanda allo studio della struttura delle singole parole.

Certo – fanno notare gli autori – gli esercizi contenuti nei libri di linguistica possono essere facilmente risolti dagli studenti universitari. Ma stiamo parlando di persone che possiedono una conoscenza della materia, supportata da abilità acquisite durante le esercitazioni pratiche in aula.

L’obiettivo di questo lavoro è quello di emulare il ragionamento dei linguisti, arrivando a costruire una macchina intelligente in grado di pensare come l’essere umano, deputata – in questo specifico caso – alla soluzione di problemi grammaticali esattamente come farebbe un docente della materia o uno studente.

L’apporto del Bayesian Program Learning (BPL)

In tema di intelligenza artificiale per la soluzione di problemi di linguistica, la messa a punto di un modello AI che apprendesse la grammatica e fosse poi in grado di spiegarla ha reso necessario – precisa il team – l’impiego di una tecnica di machine learning nota come Bayesian Program Learning.

Tale tecnica di apprendimento automatico non solo ha consentito al sistema AI di “imparare” i contenuti della linguistica per poi riuscire a svolgerne autonomamente gli esercizi riportati nei libri di testo, ma anche di elaborare un programma esplicativo di quanto appreso, ovvero l’insieme delle regole linguistiche che disciplinano ogni lingua del mondo.

Riguardo all’elaborazione del programma, gli autori dello studio hanno preferito procedere per gradi, spiegando dapprima alcune regole grammaticali, quindi proseguendo via via con la stesura di un programma più ampio, atto a integrare e a modificare quello più piccolo.

Una peculiarità del sistema di intelligenza artificiale al centro di questo lavoro è la sua capacità di apprendere alcune regole generali a partire, ad esempio, dalla soluzione di semplici problemi relativi a una determinata lingua, per poi applicarle alla soluzione di un problema più articolato riguardante un’altra lingua simile alla prima. È il caso del russo e del polacco, due lingue assai vicine per fonetica e struttura.

Intelligenza artificiale per la linguistica: la fase di test

In tema di intelligenza artificiale per la linguistica, la fase di test al quale è stato sottoposto il sistema ha visto l’utilizzo dell’ampio set di dati usati per il suo addestramento, tratti dai libri di linguistica e relativi a ben 58 lingue.

I risultati ottenuti parlano – per il 60% dei casi – della definizione di schemi grammaticali corrispondenti in modo puntuale all’insieme delle parole contenute negli esercizi e – per il 79% dei problemi di linguistica risolti dalla macchina – della corretta corrispondenza tra tali schemi e la maggior parte delle modifiche apportate alle parole.

Inoltre, è emerso un altro dato: il sistema è stato anche in grado, in alcuni esercizi, di avanzare autonomamente soluzioni non attese. Ad esempio, relativamente a un esercizio di lingua polacca, ha scoperto un errore di analisi linguistica nel libro di testo, suggerendo che il modello, in futuro, opportunamente implementato, potrebbe trovare applicazione in operazioni di revisione dei testi.

Tuttavia – osserva il gruppo di lavoro – la vera sfida posta da questa ricerca è stata capire se i dati di output del sistema AI avessero una propria logica, ossia se la macchina stesse formulando regole coerenti. Non si tratta, in questo caso, di un’AI che dà risposte giuste o sbagliate, che decide per un sì oppure per un no, quanto di un sistema chiamato a scegliere, tra una vasta gamma di possibili soluzioni, quella più ragionevole dal punto di vista linguistico.

Spunti per la ricerca futura

Questo lavoro in tema di intelligenza artificiale per la linguistica inaugura un nuovo filone di ricerca che, in futuro, potrebbe, ad esempio, focalizzarsi – servendosi sempre del Bayesian Program Learning – su come i bambini acquisiscono il linguaggio e, più in particolare, su quali aspetti linguistici i bambini sembrano essere concentrati durante questa fase. Ma la portata dell’approccio seguito dagli autori è più ampio:

«Lo stesso algoritmo AI che abbiamo sviluppato cattura molteplici dinamiche di apprendimento, acquisendo nuove regole morfo-fonologiche a partire da uno o da pochi esempi. Questi risultati suggeriscono percorsi verso una scoperta più potente, abilitata dalla macchina, di modelli interpretabili nella linguistica e in altri domini scientifici»

Più in generale – sottolineano – gli strumenti e gli approcci sviluppati fanno pensare a sistemi Ai futuri sempre più in grado di «apprendere la struttura causale del mondo».

Sebbene questo obiettivo rimanga lontano – concludono – vale la pena fare il punto su dove questo lavoro ci lascia, ovvero sulla strada verso un’intelligenza artificiale capace di compiere deduzioni a partire da una data teoria. E allora, «quali sono le prospettive per scalare un approccio come il nostro ad altri domini del linguaggio o, più in generale, ad altri domini della scienza?».

Immagine predefinita
Paola Cozzi

Giornalista dal solido background acquisito lavorando presso i più prestigiosi Editori italiani | Ventidue anni di esperienza nello sviluppo di prodotti editoriali b2b, cartacei e digitali | Vent'anni alla direzione di una testata b2b in tema di Sicurezza anticrimine di tipo fisico | Attualmente si dedica al Giornalismo Digitale ed esplora nuove tecniche e nuovi stili di comunicazione

Articoli: 290

Newsletter Updates

Inserisci il tuo indirizzo email qui sotto per iscriverti alla nostra newsletter