Sebbene i Large Language Models multimodali non siano specificatamente progettati e addestrati per il rilevamento dei deepfake, la variegata conoscenza del mondo racchiusa nelle loro reti neurali e il ragionamento semantico che li governa, in futuro, potrebbero trovare applicazione anche in questo ambito.
I contenuti multimediali online costruiti ricorrendo a immagini, audio e video manipolati con tecniche di intelligenza artificiale, per il fatto di essere sempre più utilizzati come strumenti di disinformazione e di mistificazione della realtà in molteplici campi, sono percepiti come una minaccia e sono, ormai, divenuti motivo di preoccupazione costante.
L’ultimo, eclatante, esempio risale al periodo di tempo compreso tra l’8 dicembre 2023 e l’8 gennaio 2024, quando, su facebook, circolarono oltre cento annunci video deepfake assai realistici, aventi come protagonista l’ex primo ministro britannico Rishi Sunak impegnato in discorsi che nulla avevano di vero, né di aderente al suo pensiero, con chiaro tentativo di manipolazione politica, a sei mesi esatti dalle elezioni generali del 4 luglio 2024 nel Regno Unito.
Il tabloid inglese The Guardian, nel dare la notizia, rimarcò che «i falsi video potrebbero aver raggiunto fino a 400.000 persone». I deepfake includevano anche il video in cui una nota giornalista della BBC, leggendo le ultime notizie, annunciava un inventato scandalo attorno a Sunak, «reo di aver segretamente intascato somme colossali da un progetto di opere pubbliche».
Tutto questo è reso sempre più possibile da strumenti di generative AI accessibili a tutti, senza l’esigenza di conoscenze tecniche specifiche e con una spesa economica minima. Chiunque, insomma, con poco impegno e con poco denaro, può generare immagini, video e contenuti audio contraffatti e metterli in rete spacciandoli per veri.
La sfida futura – mettono in guardia gli analisti del World Economic Forum in “4 ways to future-proof against deepfakes in 2024 and beyond” (12 febbraio 2024) – sarà data da deepfake generati in tempo reale da chatbot AI in grado di dare forma a manipolazione altamente personalizzate e ancora più puntuali.
I rischi, dunque, sembrano destinati ad aumentare sotto i colpi dell’evoluzione dell’artificial intelligence. Motivo per cui occorrono sistemi di rilevamento dei deepfake altrettanto innovativi.
Takeaway
Gli attuali metodi di rilevamento dei deepfake
Gli approcci esistenti sfruttano modelli di machine learning che poggiano su reti neurali particolarmente profonde, addestrate per mezzo di dati tratti dal mondo dei media online, contenenti deepfake riconosciuti.In particolare, negli ultimi anni, la ricerca si è focalizzata sullo sviluppo di algoritmi di rilevamento di determinati punti di riferimento facciali (gli occhi e la bocca, in primis), oltre che sullo studio approfondito delle tecniche di contraffazione di immagini e video che hanno contribuito a rendere così convincenti e realistici i deepfake, come, ad esempio, i sistemi basati sulle Generative Adversarial Networks (GAN) e sui Variational Autoencoders (VAE), capaci, questi ultimi, di generare dati audio e video assolutamente inediti [fonte: “Celeb-DF: A Large-scale Challenging Dataset for DeepFake Forensics” – arXiv, 2020].
Uno studio congiunto, a cura dell’Università Federico II di Napoli e della Technical University of Munich (“ID-Reveal: Identity-aware DeepFake Video Detection” – Computer Vision Foundation, 2021), mette in evidenza il fatto che, «essendo, per lo più, addestrati a rilevare “uno specifico” metodo di falsificazione, i più recenti algoritmi di rilevamento dei deepfake possiedono una scarsa capacità di generalizzazione tra diversi tipi di manipolazioni facciali. È questa, secondo gli autori, la sfida odierna.
Al fine di migliorare la generalizzazione, il team propone un sistema di apprendimento automatico che non necessita di dati di addestramento provenienti da immagini e da video falsi, ma che si allena solo su video reali e si avvale di «funzionalità semantiche di elevato livello».
Il lavoro dell’University of Science and Technology of China, in collaborazione con Microsoft Cloud AI (“Multi-attentional Deepfake Detection” – Computer Vision Foundation, 2021), presenta, invece, una metodologia “multi-attenzione” che, coniugando meccanismi di auto-attenzione, attenzione spaziale e attenzione temporale, consente al modello di intelligenza artificiale deputato al rilevamento dei deepfake di concentrarsi «su regioni essenziali, filtrando, al contempo, i dati estranei, in modo da acquisire informazioni contestuali, sia globali che locali, all’interno dei video artefatti».
Sull’importanza dei segnali audio nel rilevamento dei deepfake, si è soffermata la divisione Facebbok AI in “Joint Audio-Visual Deepfake Detection” (IEEE – Institute of Electrical and Electronics Engineers, 2021), facendo notare come «i video manipolati spesso mostrino discrepanze tra componenti audio e video, a causa delle difficoltà legate alla sincronizzazione dell’audio falso con il contenuto visivo fasullo».
La soluzione degli autori sposa un sistema di rilevamento congiunto, che passa in rassegna, simultaneamente, sia gli elementi audio che quelli video all’interno del medesimo contenuto multimediale. La tecnica AI impiegata è quella del deep learning, col compito di «estrarre le caratteristiche rilevanti da entrambe le modalità, per poi integrarle e prendere una decisione congiunta sull’autenticità del contenuto».
L’apporto dei Large Language Models multimodali, tra cui ChatGPT-4 Vision
Recentemente, un gruppo di ricerca guidato dall’Università di Buffalo, nello Stato di New York, nel passare in rassegna gli attuali approcci al rilevamento dei deepfake, ha preso in considerazione anche i Large Language Models (LLM) – o “modelli linguistici di grandi dimensioni” – che, negli ultimi anni, si sono distinti come strumenti versatili, dalle applicazioni estese.
Ricordiamo che i Large Language Models rientrano in quell’ambito di studi dell’AI dedito, originariamente, allo sviluppo di sistemi in grado di generare testi a partire da un preciso input linguistico.
Hanno alla base un’architettura di rete neurale denominata “transformer”, fondata su un meccanismo di attenzione che non si sofferma sui singoli elementi in input (come possono essere, ad esempio, le singole parole di un testo), bensì sulla struttura in cui essi sono inseriti, cogliendone le relazioni e il contesto [fonte: “Transformers and Large Language Models” – Stanford University].
Addestrati su enormi volumi di testo provenienti dal Web, le loro declinazioni più note sono gli agenti conversazionali come ChatGPT di Open AI, Google Gemini e i Large Language Models open source di Meta.
«Negli ultimi anni, i LLM hanno dimostrato una forte capacità di codificare vaste basi di conoscenza dal corpus di testi esistente. Questa capacità è stata ulteriormente estesa a immagini e video, poiché i Large Language Models più recenti introducono modelli di linguaggio visivo per una comprensione multimodale, come mostrato nel più recente ChatGPT-4 Vision»
spiega il team di studio diretto dall’Ateneo di Buffalo nell’articolo “Can ChatGPT Detect DeepFakes? A Study of Using Multimodal Large Language Models for Media Forensics”, pubblicato su arXiv, l’11 giugno 2024.
Nel dettaglio, ChatGPT-4 Vision (o, più semplicemente, GPT-4V), rilasciato da Open AI a settembre 2023, ha aggiunto, alle abilità di lettura, scrittura, ascolto e parola di ChatGPT-4, la capacità di “vedere”, riuscendo a decodificare immagini in input, insieme alle istruzioni di testo fornite dall’utente.
E il lavoro dei ricercatori USA si propone proprio di testare, attraverso una serie di esperimenti, le prestazioni di GPT-4V nell’identificare le immagini di volti umani generate dall’intelligenza artificiale, seguendo determinate richieste, espresse sotto forma di testo.
Perché ChatGPT-4V è potenzialmente utile al rilevamento dei deepfake
Quelli condotti dagli autori sono esperimenti iniziali, i quali, tuttavia, hanno già stimolato alcune intuizioni di rilievo sui Large Language Models multimodali, di cui ChatGPT-4V è un’estensione.
Innanzitutto, essi possiedono le competenze atte a discernere tra immagini naturali e immagini frutto dell’AI. Competenze che attingono alle loro conoscenze semantiche, alla base delle funzioni con le quali sono stati concepiti. I Large Language Models multimodali – come, in particolare, GPT-4V – sanno leggere, vedere, ascoltare e “spiegare”, in modalità sia scritta che orale.
In secondo luogo, la distinzione, operata da ChatGPT-4 Vision, tra immagini “genuine” di volti umani e deepfake è facilmente comprensibile e interpretabile dagli esseri umani, rispetto ai tradizionali metodi di rilevamento tramite machine learning.
C’è, però, un “ma”. GPT-4V presenta abilità, nel riconoscere le immagini contraffatte dall’intelligenza artificiale, che il team giudica “soddisfacenti”, con un punteggio di valutazione assai alto. Il suo grado di precisione, invece, nel riconoscere le immagini autentiche, è inferiore.
Questo divario nelle prestazioni deriva dal fatto che la mancanza di incoerenze semantiche, propria delle immagini non manipolate, non è di per sé sufficiente – per un modello LLM come ChatGPT-4 Vision – a confermare automaticamente la loro veridicità e naturalezza.
«Le capacità di rilevamento automatico di questi LLM non possono essere sfruttate appieno attraverso semplici istruzioni binarie, il che può portare al rifiuto di fornire risposte chiare» precisano i ricercatori dell’Università di Buffalo, i quali, a questo punto, suggeriscono prompt più efficaci e ficcanti, proprio per «massimizzare il potenziale di ChatGPT-4 Vision nel differenziare tra immagini reali e generate dall’AI».
I primi dati degli esperimenti iniziali
I test effettuati dal gruppo di lavoro si sono basati su mille immagini di volti umani reali, tratti dal dataset FFHQ (Flickr-Faces-HQ), e su duemila immagini di volti umani create da modelli di intelligenza artificiale generativa, tutte sottoposte al rilevamento da parte di GPT-4V:
«Per ogni batteria di immagini dei volti in input, c’è un messaggio di testo (prompt) che richiede una risposta Sì/No sul fatto che le immagini siano prodotte dall’intelligenza artificiale oppure, al contrario, che siano autentiche, accompagnata – in caso di risposta affermativa – da spiegazioni da parte della macchina»
Nell’esempio sotto riportato, a sinistra (area in rosa) troviamo una serie di immagini deepfake, mentre a destra (area in verde) immagini reali (al sistema viene solo chiesto se sono artefatte oppure no). Vengono visualizzati sia i casi di successo da parte di GPT-4V (con segni di spunta verde) che quelli di fallimento (crocette rosse).
![Figura che mostra alcuni esempi di analisi di immagini deepfake da parte di ChatGPT-4 Vision con i relativi Prompt, in cui viene richiesta una risposta Sì/No sul fatto che le immagini siano prodotte dall'intelligenza artificiale oppure, al contrario, che siano autentiche, accompagnata da spiegazioni da parte della macchina: a sinistra (area in rosa) figurano i casi in cui le immagini in input sono generate da modelli AI, mentre a destra (area in verde) troviamo i casi di immagini reali. Vengono visualizzati sia i casi di successo da parte di GPT-4V (con segni di spunta verde) che quelli di fallimento (crocette rosse) [Credit: “Can ChatGPT Detect DeepFakes? A Study of Using Multimodal Large Language Models for Media Forensics” - Università di Buffalo, Stato di New York - https://arxiv.org/pdf/2403.14077].](https://tech4future.info/wp-content/uploads/2024/07/deepfake-di-volti-umani-il-ruolo-di-chatgpt-per-individuarli-esempi.png)
Se messe a confronto con le performance dei metodi tradizionali, nell’insieme – commentano gli autori – quelle di ChatGPT-4 Vision sono solo «leggermente migliori, ma non competitive rispetto alle prime» L’aspetto saliente di ChatGPT-4 Vision riguarda le spiegazioni semplici e, al contempo, chiare che è in grado di fornire a corredo del processo di rilevamento.
Tra i due approcci esiste una differenza sostanziale nel modo di lavorare: i modelli di apprendimento automatico per il rilevamento dei deepfake colgono le differenze statistiche a livello di segnale tra i dati video acquisiti durante l’addestramento con immagini reali e i dati video acquisiti durante l’addestramento con immagini fake. Al contrario, «le decisioni del Large Language Model multimodale si basano sulle anomalie rilevate a livello semantico, come si evince dalle stesse spiegazioni contenute nelle risposte fornite», in quanto ChatGPT-4 Vision viene allenato mediante ampi dataset di immagini abbinate a brevi testi descrittivi, affinché apprenda a mettere in relazione immagini e parole.
Come già sottolineato, il lato positivo del meccanismo degli LLM risiede nel fatto che il ragionamento semantico porta a risultati (e a spiegazioni) più comprensibili per l’essere umano.
La maggior parte degli errori compiuti da GPT-4V durante questa prima parte degli esperimenti, si sono verificati durante il rilevamento delle immagini reali – osservano i ricercatori – con una precisione di classificazione di circa il 50%, «drasticamente diversa da quella che ha caratterizzato il rilevamento delle immagini generate dall’intelligenza artificiale, che è superiore al 90%».
Glimpses of Futures
Benché i Large Language Models multimodali, in generale, e ChatGPT-4 Vision, in particolare, non siano stati progettati per rilevare deepfake di volti umani, la variegata conoscenza del mondo che essi possiedono potrebbe, in futuro, trovare applicazione per questo tipo di compito, con decisioni finali più accessibili per gli utenti, più friendly.
Proviamo, ora, ad anticipare possibili scenari futuri, analizzando – per mezzo della matrice STEPS – gli impatti che l’evoluzione dell’approccio illustrato potrebbe avere sotto più punti di vista.
S – SOCIAL: in uno scenario futuro in cui la ricerca spingerà sull’ampliamento delle applicazioni di ChatGPT-4 Vision nell’ambito del rilevamento automatico dei deepfake, includendo, oltre all’analisi delle immagini di volti umani sospettati di manipolazione, anche l’analisi di contenuti video e audio potenzialmente falsificati, è ipotizzabile l’apertura verso un approccio integrato alla lotta contro la diffusione di informazioni false sul Web, generate ricorrendo a tecniche di intelligenza artificiale. Questi progressi dei Large Language Models multimodali nell’elaborazione automatica di tutte le tipologie di contenuti mutimediali, potrebbero, un giorno, fungere da sostegno a tutte quelle attività legate all’analisi forense dei media, dove il ragionamento semantico dei LLM e le loro spiegazioni in merito alle decisioni prese, rispetto a una certa astrusità dei tradizionali sistemi di apprendimento automatico, risulterebbero di maggior supporto agli operatori.
T – TECHNOLOGICAL: ricordando che gli esperimenti realizzati dal team di studio sono nella fase iniziale e che, finora, sono state testate solo query semplici, in futuro si dovrà lavorare allo sviluppo di strategie per l’elaborazione di prompt più articolati sotto il profilo concettuale, da sottoporre al LLM. L’obiettivo è andare oltre le istruzioni binarie (adottate nei tradizionali sistemi di rilevamento dei deepfake), con le quali non si ottengono, da ChatGPT-4 Vision, risposte chiare alle richieste in compiti di differenziazione tra immagini reali e immagini derivate dall’impiego dell’AI. Il conseguimento di questo traguardo potrebbe gettare le basi, negli anni a venire, per conversazioni interattive con GPT-4V in materia di riconoscimento dei deepfake, finalizzate all’ottenimento di risposte sempre più ricche e rilevanti da parte della macchina, in grado di guidare, chi la interroga sul tema, verso una maggiore comprensione del contenuto manipolato e aprendo a una futura, possibile, interazione uomo-macchina contro tale fenomeno e le sue conseguenze.
E – ECONOMIC: «I deepfake rappresentano sempre più una minaccia per le aziende» rimarcano gli analisti del World Economic Forum nel già citato articolo “How can we combat the worrying rise in the use of deepfakes in cybercrime?”. Nel 2022 – in base ai dati in loro possesso – il 66% dei professionisti della sicurezza informatica, nel mondo, è stato vittima di attacchi deepfake all’interno delle proprie organizzazioni. E non senza danni di tipo economico. «I deepfake hanno un costo elevato», come testimonia, sempre nel 2022, il 26% delle piccole aziende e il 38% delle grandi che, a livello globale, hanno subito frodi deepfake con perdite fino a 480.000 dollari. Siamo di fronte a una nuova sfida di cybersecurity, che è urgente mitigare con misure di difesa nuove e dalle performance inedite. L’applicazione di ChatGPT-4 Vision rappresenterebbe, in futuro, un mezzo di rilevamento automatico, in tempo reale, dei deepfake, reso più ricco e completo, rispetto ad altri metodi, da spiegazioni sempre più esaustive fornite agli utenti, tali da renderli più preparati e consapevoli riguardo ai pericoli (compresi gli impatti di natura economica) correlati ai contenuti multimediali contraffatti ad arte.
P – POLITICAL: la ricerca di sempre nuove metodologie per il rilevamento automatico dei deepfake all’interno di tutti i tipi di contenuti mutimediali, come quella proposta dal gruppo di lavoro USA, deve poter essere supportata da un solido quadro normativo in materia. Per quanto riguarda, nello specifico, l’Europa, ricordiamo che a febbraio 2024 la Commissione UE ha sostenuto la redazione di un nuovo libro bianco sulle sfide poste dalla generative AI – oltre che sulle questioni etiche relative al suo utilizzo per finalità non virtuose – e che il 21 maggio 2024 è stato approvato in via definitiva l’EU AI Act (la cui pubblicazione sulla Gazzetta Ufficiale è attesa entro luglio 2024), il quale colloca tra i “sistemi AI a rischio inaccettabile” anche quelli in grado di manipolare le persone mediante tecniche subliminali o ingannevoli. Nel nuovo libro bianco sull’intelligenza artificiale generativa, l’attenzione degli autori è posta altresì sul «visibile squilibrio di potere tra i creatori di contenuti, gli accademici e i cittadini da un lato e le grandi aziende tecnologiche (come, ad esempio, OpenAI, Microsoft, Google e Meta) che sviluppano e vendono modelli di IA generativa dall’altro».
S – SUSTAINABILITY: ogni volta che si parla di Large Language Models, il pensiero va agli impatti negativi che la loro applicazione implica sotto il profilo della sostenibilità ambientale. Sia che si faccia riferimento alla decodifica del linguaggio umano, scritto e palato, sia che si tratti della generazione di testi, scritti e parlati o, come nel caso di ChatGPT-4 Vision, della comprensione multimodale e della decodifica di immagini in input, i processi che abilitano tali funzionalità richiedono milioni di ore di addestramento e di elaborazione, alle quali corrispondono emissioni di elevate quantità di CO2. Il problema, naturalmente, non è solo dei modelli linguistici di grandi dimensioni, ma attiene, più in generale, a tutte le tecniche di intelligenza artificiale e al mondo del digitale, la cui impronta di carbonio rappresenta l’altra faccia della medaglia, di cui, però, ancora poco sappiamo in termini di rendicontazione dettagliata e trasparente.