Verrà ufficialmente presentato a maggio 2024, in occasione dell’International Conference on Learning Representations, un lavoro che va ad aggiungere un nuovo tassello all’ampio mosaico sulla comprensione del funzionamento dei modelli linguistici di grandi dimensioni.
I Large Language Model (LLM) o, più semplicemente, “modelli linguistici di grandi dimensioni”, rientrano in quell’ambito di studi dell’intelligenza artificiale focalizzato sullo sviluppo di sistemi in grado di generare testi scritti a partire da un preciso input linguistico. Testi declinati in traduzioni automatiche, in risposte a domandenell’assistenza ai clienti o alle query degli utenti nelle ricerche online, solo per citare le applicazioni più note. L’esempio ricorrente, quando si parla di LLM, è il chatbot ChatGPT di OpenAI, oggi giunto alla sua quarta versione.
Alla base dei Large Language Model, un’architettura di rete neurale denominata “transformer”, di cui parlò per la prima volta un gruppo di ricerca – impegnato presso Google Brain e Google Research – in un documento, “Attention Is All You Need”, presentato durante l’edizione 2017 della conferenza internazionale Neural Information Processing Systems (NeurIPS).
Nel descriverla, il team parla di «una nuova e più semplice architettura di rete, fondata esclusivamente su meccanismi di attenzione, eliminando completamente la ricorrenza e le convoluzioni», tipiche delle reti neurali complesse, azzardando, sette anni fa, che «alcuni esperimenti di traduzione automatica evidenziano come i modelli transformer siano di qualità superiore, pur essendo più parallelizzabili e richiedendo molto meno tempo per l’addestramento».
In particolare, nell’analizzare un input linguistico, il meccanismo di attenzione del transformer model di cui parlano i ricercatori non si sofferma sulle singole parole del testo, bensì sulla struttura della frase in cui queste sono inserite, cogliendone le relazioni e il contesto [fonte: “Transformers and Large Language Models” – Stanford University].
Takeaway
I transformer models e il concetto di “relazioni tra entità”
Ritorna sul tema, per approfondirne i significati chiave, uno studio congiunto a cura del Computer Science and Artificial Intelligence Laboratory (CSAIL) del Massachusetts Institute of Technology, della Northeastern University, dell’Israel Institute of Technology e dell’Harvard University – “Linearity of relation decoding in transformer language models” – pubblicato tra i paper dell’International Conference on Learning Representations (ICLR), di scena a Vienna dal 7 all’11maggio 2024.
Cuore della ricerca, l’analisi delle relazioni tra i diversi elementi che compongono le informazioni linguistiche che vengono decodificate dai transformer models, ossia – come già detto – l’architettura di rete dei Large Language Model.
La domanda esplicita, che apre i lavori, verte sul modo in cui i transformer models rappresentano le “relazioni tra entità” e sul modo in cui essi le recuperano quando ne hanno necessità, vale a dire quando sono chiamati a decodificare nuovi testi in ingresso.
Le informazioni contenute nei testi in input, che vengono via via decodificate e, nel tempo, memorizzate dai modelli – spiegano gli autori – sono di varia natura. Ad esempio, possono riguardare “fatti del mondo” (l’elezione di un presidente, lo sbarco sulla Luna, la storia di un personaggio) o conoscenze che derivano da «associazioni di buon senso», come “i bagnini lavorano sulle spiagge” o “i chirurghi operano nelle sale operatorie”.
Sia i fatti che le conoscenze, al loro interno, presentano una serie di relazioni tra elementi diversi (le “entità”, appunto), che possono essere «proprietà o semplici elementi lessicali».
Nel concentrarsi sulle relazioni tra entità, i transformer models analizzano un fatto espresso all’interno di un testo scritto (“Louis Armstrong è stato un trombettista”) come una relazione che collega un’entità soggetto (Louis Armstrong) con un’entità oggetto (la tromba). Fatti simili (“Jimi Hendrix è stato un chitarrista”) possono essere rappresentati per mezzo dello stesso tipo di relazione, ovvero “Jimi Hendrix (entità soggetto) suona la chitarra (entità oggetto)”.
Large Language Model: quale meccanismo per il recupero di fatti memorizzati?
In tema di Large Language Model e recupero di informazioni già immagazzinate, alcuni studi precedenti – ricorda il team – hanno dimostrato che le domande poste nei testi in ingresso (“Chi era Louis Armstrong?”) «agiscono esse stesse come chiavi per il recupero di fatti già in memoria: dopo che un testo in input menziona un dato argomento, i transformer models costruiscono rappresentazioni delle relazioni tra le entità contenute nei dati pregressi su tale argomento». Ed è da questo processo inferenziale che la rete neurale dei LLM apprende a rispondere in modo pertinente a ogni domanda.
Per intenderci, se si interroga il modello chiedendogli che strumento suonava Jimi Hendrix, questo dovrebbe rispondere indicando lo strumento “chitarra” e non “pianoforte”, andando a ripescare la specifica relazione tra entità soggetto ed entità oggetto presente nelle informazioni su Hendrix all’interno di testi scritti già decodificati in passato dalla rete neurale.
Tuttavia, “Inspecting and Editing Knowledge Representations in Language Models” – lavoro dell’Artificial Intelligence Laboratory del MIT che risale a maggio del 2023 – per meglio inquadrare il processo atto al recupero di informazioni specifiche già decodificate, mette in guardia dal non confondere tra i fatti che, molto semplicemente, provengono dal dataset impiegato per l’addestramento della rete neurale transformer(dove, ad esempio, una rappresentazione della parola “tromba” codifica il fatto che le trombe sono strumenti musicali) e quei fatti densi di significato che, effettivamente, derivano dai testi in ingresso, dove una frase tipo “Ho versato tutto il latte contenuto nel bricco” è correlata a informazioni già decodificate, in cui la rappresentazione delle relazioni tra le entità suggerisce che “il bricco si è svuotato”.
Lo studio dell’ottobre 2023 “Dissecting Recall of Factual Associations in Auto-Regressive Language Models”, che vede coinvolti Google DeepMind, Google Research e la Tel Aviv University, riprende, invece, la tesi sui meccanismi di attenzione elaborata dai pionieri dei transformer models e arriva a sostenere che il recupero di fatti specifici già decodificati dai modelli avviene mediante «una distribuzione su più livelli di attenzione». Ma attraverso quali calcoli? Questa è la questione, ad oggi, ancora aperta.
Funzioni lineari specifiche per ogni tipologia di informazione da ripescare
Recuperare la precisa informazione “Louis Armstrong suonava la tromba”, estrarla da tutti i testi contenenti altri dati – memorizzati da tempo – relativi allo stesso soggetto, al fine di generare un testo scritto in risposta a uno stimolo linguistico in ingresso, sottende un meccanismo complesso, ancora inesplorato in profondità e che gli autori del già citato paper in presentazione, a maggio 2024, in seno all’International Conference on Learning Representations, hanno inteso mettere a fuoco, sviluppando un LLM con rete neurale artificiale dall’architettura transformer, per poi testarlo attraverso una serie di esperimenti.
Nel dettaglio, hanno rilevato che i Large Language Model, grazie ai transformer models e servendosi delle relazioni tra entità, «decodificano le informazioni utilizzando una semplice funzione lineare e che ognuna di tali funzioni è specifica per il tipo di fatto o di conoscenza da recuperare».
Questo significa che la rete neurale ricorrerà a una differente funzione di decodifica a seconda che debba ripescare un’informazione riguardante – ad esempio – lo strumento suonato da un celebre musicista o che debba rispondere a una domanda sul luogo di nascita di quella stessa persona.
Con l’obiettivo di indagare la quantità di queste diverse funzioni, il team di studio ha messo a punto un metodo ad hoc che lo ha portato al calcolo di funzioni di decodifica per ben quarantasette tipi di relazioni tra entità, in risposta a stimoli in ingresso come “vincitore del campionato di football americano”, “capitale di uno Stato”, “presidente in carica in un dato Paese” e via discorrendo.
A proposito della composizione del set di dati con i quali è stata addestrata la rete neurale, questa ha visto la presenza delle quarantasette tipologie di relazioni tra entità, a loro volta stratificate in quattro diversi gruppi di informazioni già decodificate: il gruppo delle informazioni attinenti ai fatti del mondo, alle conoscenze che derivano dalle associazioni di buon senso, agli elementi linguistici e ai pregiudizi.
Ogni funzione è stata testata modificando, di volta in volta, l’oggetto, per verificare se fosse in grado di recuperare sempre informazioni corrette su quello specifico oggetto: ad esempio, la funzione per “capitale di uno Stato” dovrebbe recuperare Atene se il soggetto è la Grecia e Roma se il soggetto è l’Italia e non viceversa.Ebbene, durante gli esperimenti – fanno sapere i ricercatori – le funzioni hanno recuperato le informazioni corrette per oltre il 60 per cento dei casi.
Glimpses of Futures
In futuro – annunciano gli autori dello studio – un altro interessante segmento di ricerca potrebbe essere quello che ha come oggetto le informazioni testuali non archiviate in modo corretto da parte dei Large Language, ree di compromettere, tutta la dinamica sulla quale poggia il recupero di fatti già decodificati e memorizzati e, dunque, la piena comprensione degli input linguistici in ingresso, dai quali generare testi scritti coerenti. Perché l’obiettivo è uno: evitare che i transformer models producano testi errati nel contenuto e – rischio ancora più grave – falsi.
Ora, impiegando la matrice STEPS, cerchiano di anticipare possibili scenari futuri, analizzando gli impatti che l’evoluzione del filone di studi sui processi che guidano il recupero di informazioni già decodificate dai modelli linguistici di grandi dimensioni potrebbe avere dal punto di vista sociale, tecnologico, economico, politico e della sostenibilità.
S – SOCIAL: affinare l’indagine circa i meccanismi di recupero delle informazioni testuali già decodificate – sulla base delle quali decodificare in maniera sempre più precisa quelle in ingresso e creare output sempre più puntuali – da parte di sistemi di intelligenza artificiale come i chatbot, chiamati a tenere conversazioni scritte anche complesse e a rispondere a domande di ogni tipo da parte degli utenti, significherà, in futuro, poter contare su macchine ancora più affidabili sotto il profilo delle performance e sempre più sicure sotto il profilo dell’interazione con l’essere umano, contribuendo ad abbassare il livello di rischio dato dall’eventuale generazione di testi dai contenuti non rispondenti al vero – e, dunque, potenzialmente manipolatori – fino ad arrivare a quelli discriminatori, offensivi e lesivi della dignità personale.
T – TECHNOLOGICAL: in futuro, l’indirizzo di studi descritto non potrà non fare i conti con l’approfondimento della struttura che connota la particolare architettura di rete dei Large Language Model e con il suo meccanismo di attenzione. Più in particolare, l’evoluzione dei metodi e delle tecniche di recupero delle informazioni immagazzinate dovrà misurarsi con modelli sempre più grandi e, quindi, con una quantità sempre maggiore di input linguistici in ingresso. A quel punto sarà interessante studiare come operano le funzioni lineari di decodifica specifiche per ogni tipo di fatto e di conoscenza da ripescare, ma soprattutto quante saranno, in riferimento a modelli linguistici molto estesi e, di conseguenza, a maggiori quantità di relazioni tra entità.
E – ECONOMIC: il team di ricerca, oltre a sondare i processi di recupero, da parte dei LLM, di determinati dati testuali già memorizzati, ha messo a punto anche uno strumento che ha chiamato “lente degli attributi” (“attribute lens”), per mezzo del quale sviluppatori e produttori di sistemi AI che creano testi a partire da input linguistici, in futuro, potranno visualizzare, all’interno dei molteplici strati della rete neurale transformer, dove e quando vengono archiviati fatti e conoscenze del passato. La finalità è di tipo correttivo: grazie agli attribute lens, infatti, chi opera nel settore dei Large Language Model potrà intervenire, gestendole e correggendole, su tutta la mole di informazioni archiviate dal modello in fase di sperimentazione, in modo tale da impedire che vengano immessi sul mercato generatori di testi dai contenuti inesatti, scorretti, menzogneri o privi di etica, in linea con i principi fondanti dell’EU AI Act – approvato il 13 marzo 2024 dal Consiglio Europeo – garante di un’intelligenza artificiale affidabile, sicura, rispettosa dei diritti fondamentali e dei principi etici.
P – POLITICAL: i chatbot rientrano tra i sistemi AI che il già citato EU AI Act (o Legge sull’intelligenza artificiale)ha classificato come “a rischio limitato”, in quanto, rispetto a quegli strumenti adottati – solo per fare qualche esempio – nell’ambito della selezione del personale o della valutazione dei candidati idonei a fruire di talune prestazioni o servizi, il loro utilizzo non espone a una pericolosità tale da dover essere soggetto a più vincoli normativi. Resta, però, un punto fermo l’obbligo – imposto dall’AI Act – di “trasparenza” nei confronti degli utenti che fanno uso di generatori di testi scritti, i quali devono sempre essere informati, dalle aziende produttrici, in merito a caratteristiche, funzioni e applicazioni di tali sistemi.
S – SUSTAINABILITY: sotto il profilo della sostenibilità ambientale, tutti i processi che abilitano le funzionalità dei Large Language Model, compresi quelli legati al recupero di informazioni già decodificate, così come quelli che hanno a che fare con la attività di implementazione, scalabilità e manutenzione dei modelli, richiedono milioni di ore di elaborazione, alle quali corrispondono emissioni di elevate quantità di CO2. Sappiamo che il problema riguarda tutte le tecniche di intelligenza artificiale e, più in generale, il mondo del digitale, la cui impronta di carbonio rappresenta il lato oscuro, non sempre rendicontato in modo dettagliato e trasparente. In futuro, i diversi comparti del settore dovranno, invece, condurre più studi empirici sui consumi di energia da parte di differenti sistemi AI, favorendo il confronto tra le loro emissioni.