I potenziali utilizzi malevoli di Large Language Models come, ad esempio, ChatGPT possono essere contrastati incorporando nel testo generato dal chatbot una serie di “segnali” invisibili all’occhio umano, ma rilevabili algoritmicamente.

TAKEAWAY

  • I bot conversazionali più evoluti nascondono un grosso rischio: divenendo più pervasivi, aumenta la probabilità che vengano utilizzati per scopi malevoli, ad esempio per campagne elettorali manipolatorie sulle piattaforme social o per la creazione di notizie false sul Web. Il tutto senza che nessuno possa accorgersene.
  • Uno strumento per rendere identificabili i testi generati dall’intelligenza artificiale, distinguendoli così dai testi scritti da un essere umano, è rappresentato da una filigrana per chatbot, che può essere incorporata nel modello linguistico senza creare impatti sulla qualità del testo e rilevata utilizzando un algoritmo open source.
  • Riguardo alla filigrana di recente messa a punto dai ricercatori dell’Università del Maryland, rimane aperto un interrogativo, ossia in che modo essa potrà trovare applicazione su altri modelli linguistici – tra cui ChatGPT di OpenAI – dal momento che è stata testata su un Large Language Model più piccolo rispetto ai modelli più popolari.

Perché si parla di una filigrana per i chatbot, affinché si possano rendere identificabili i testi da loro prodotti? Perché i modelli linguistici di grandi dimensioni (i cosiddetti Large Language Models – LLM) – segmento di studi dell’intelligenza artificiale dedito allo sviluppo di sistemi capaci di dare origine a testi scritti a partire da un preciso input linguistico – sono, oggi, in grado di generare testi così fluidi e scorrevoli da essere facilmente scambiati per testi scritti da un essere umano.

È il caso di ChatGPT (dove GPT sta per Generative Pre-trained Transformer), il chatbot immesso sul mercato il 30 novembre 2022 da OpenAI, che sta facendo tanto discutere per le sue conversazioni scritte complesse e intelligenti, assai simili alle nostre, arrivando a rispondere a domande di ogni tipo.

«Man mano che questi sistemi diventano più pervasivi, aumenta il rischio che possano essere utilizzati per scopi malevoli, comprese campagne elettorali manipolatorie sulle piattaforme social, la creazione di notizie false e di contenuti Web che rasentano il plagio»: è l’allarme ribadito dai ricercatori dell’Università del Maryland (USA) nel paper “A Watermark for Large Language Models”, secondo i quali la capacità di rilevare i testi generati dalla macchina è un principio chiave della strategia di «riduzione dei rischi» che presentano i Large Language Models.

Ma vediamo in che cosa consiste la “capacità di rilevare” gli scritti dei chatbot, di cui parlano gli autori.

Un algoritmo di watermarking per rilevare la fonte di un frammento di testo

Nel paper citato, viene illustrato uno studio che conduce a un algoritmo di watermarking per modelli linguistici proprietari. Nel dettaglio, si tratta di una filigrana per chatbot, che può essere incorporata senza creare impatti sulla qualità del testo e che può essere rilevata utilizzando un algoritmo open source, consentendo, così, a terze parti (ad esempio, piattaforme di social network) di impiegarlo autonomamente.

«Una filigrana è un modello nascosto all’interno del testo, in grado di renderlo identificabile algoritmicamente come “sintetico”, ovvero prodotto da una macchina» spiegano i ricercatori. Come avviene tutto questo? Il meccanismo di funzionamento dei Large Language Models prevede la generazione di un testo scritto, vocabolo dopo vocabolo. In sostanza, dopo ogni parola, l’algoritmo di watermarking opera una divisione casuale all’interno del vocabolario dell’LLM, tra termini che inserisce in una “lista verde” e termini che inserisce in una “lista rossa”.

Ad esempio, relativamente all’aggettivo “bello”, la filigrana potrebbe classificare la parola “fiore” come verde e “orchidea” come rossa. Fatto questo, esorta il modello linguistico a scegliere le parole poste all’interno della lista verde.

È più probabile che il modello linguistico che incorpora l’algoritmo di filigrana utilizzi, nei suoi testi, il più generico e semplicistico termine “fiore” anziché “orchidea”. «In un testo, più elevato sarà il numero di parole della lista verde, maggiore sarà la probabilità che questo sia stato prodotto da un chatbot – specifica il team – Il testo scritto da una persona tende, infatti, ad essere caratterizzato da mix più casuale, vario e ricco di termini».

Tabella che illustra un esempio di output di un modello linguistico, sia con che senza l'applicazione di una filigrana al suo interno (Fonte: “A Watermark for Large Language Models” - Università del Maryland - https://arxiv.org/pdf/2301.10226.pdf).
Esempio di output di un modello linguistico, sia con che senza l’applicazione di una filigrana al suo interno (Fonte: “A Watermark for Large Language Models” – Università del Maryland – https://arxiv.org/pdf/2301.10226.pdf).

Le alternative a una filigrana per chatbot

Un’alternativa all’algoritmo di watermarking, ovvero a una filigrana per rendere individuabili i testi “scritti” dai chatbot, consiste nello sviluppare modelli di rilevamento che eseguono un’analisi successiva del testo generato dalla macchina, ad esempio avvalendosi delle caratteristiche stesse del modello linguistico oppure allenando i Large Language Models esistenti affinché si comportino essi stessi come rilevatori.

«Questi rilevatori funzionano perché i modelli AI linguistici lasciano ancora segnali rilevabili nel testo generato. I dettagli di implementazione, come le strategie di campionamento, possono essere decodificati dal testo. Tuttavia, gli approcci di rilevamento stanno lentamente perdendo terreno man mano che le capacità dei modelli linguistici aumentano. Ad esempio, una serie di strategie di rilevamento messe a punto per GPT-2 di OpenAI non sono valide per il più evoluto modello linguistico GPT-3» commentano gli autori del paper.

Mentre gli sforzi per fornire rilevatori di testi prodotti dall’AI sempre più potenti proseguono, alla fine i progressi delle funzioni dei modelli linguistici potrebbero rendere impossibile il rilevamento.

Tutti i metodi di rilevamento successivo alla produzione dei testi si basano sul fatto che il modello linguistico sia «significativamente deviato rispetto al testo umano», con differenze importanti nella scelta dei vocaboli.

Accade, però, che per gli attuali LLM, questo margine si sia ridotto, portando – in molti casi – a etichettare il testo umano come “falso positivo”. Questo è il rischio. Specie per quei testi dalle caratteristiche insolite, che si discostano dai modelli base, perché, ad esempio, scritti da persone non madrelingua oppure da persone con disabilità che, per scrivere, vengono assistiti da strumenti informatici.

«Lo schema di watermarking è, invece, progettato in modo tale che i falsi positivi siano statisticamente improbabili, indipendentemente dai modelli di scrittura di un dato essere umano» fa notare il team. I suoi limiti, semmai, sono di altro genere.

I limiti della filigrana e la ricerca futura sul tema

Rimangono ancora numerose questioni aperte in merito all’adozione di una filigrana per rendere identificabili i testi generati dai chatbot. Innanzitutto, qual è il modo migliore per testare la filigrana in un contesto di streaming o in un contesto in cui un breve intervallo di testo con filigrana risiede all’interno di un intervallo più lungo senza filigrana?Questo interrogativo rimanda a un tema che gli autori affermano di voler approfondire in ricerche future.

Un’altra questione è relativa al fatto che la filigrana funziona (e ha senso) solo se viene incorporata dagli sviluppatori – fin dall’inizio – all’interno del loro Large Language Model. Ad esempio, circolano voci in base alle quali OpenAI starebbe lavorando alla messa a punto di un proprio metodo per rendere individuabile il testo prodotto dal suo ChatGPT (compresa la filigrana), sebbene – al momento – il suo lavoro di ricerca resti riservato e non se ne conoscano i contenuti.

Relativamente all’algoritmo di watermarking creato dai ricercatori dell’Università del Maryland, quello che non è chiaro è in che modo esso potrà trovare applicazione su altri modelli linguistici, tra cui proprio ChatGPT, dal momento che la filigrana in questione è stata testata su un Large Language Model più piccolo rispetto ai modelli più popolari.

Infine c’è la questione sicurezza. Sull’argomento, gli autori fanno sapere che sono necessari ulteriori test, al fine di verificare altre modalità atte a invalidare il metodo della filigrana per i chatbot e a rendere, così, impossibile rendere identificabili i testi generati dalla macchina.

Scritto da: