Il ruolo delle tecniche di machine learning nella rilevazione automatica di contenuti fake in rete

Un inedito progetto tuttora in corso, che vede a capo l’Universitat Oberta de Catalunya, mira a distinguere automaticamente - avvalendosi dell’intelligenza artificiale - i contenuti multimediali digitali originali da quelli falsi.

TAKEAWAY

  • L’UOC di Barcellona è alla guida di un progetto in essere – avviato a giugno 2021 – per rilevare contenuti multimediali digitali falsi, intercettando, con strumenti diversi, quei segnali lasciati dalle operazioni di manipolazione.
  • Tra gli strumenti di rilevazione previsti, un sistema basato sulla filigrana digitale – da incorporare nel file originale del contenuto che si intende mettere online – e un sistema di intelligenza artificiale che, sfruttando diverse tipologie di reti neurali, estrae e seleziona le caratteristiche dell’immagine, del video o dell’audio ritenute “negative”.
  • In futuro, è prevista l’implementazione di una piattaforma di valutazione del progetto. L’obiettivo è fare esperimenti con dati video e audio derivati da casi concreti, per testare l’intero sistema di rilevazione sul campo.

Dibattere di intelligenza artificiale e di informazioni online non corrispondenti al vero e, più in particolare, di tecniche di machine learning e di fakenews, rimanda a un tema che, per certi versi, contiene alcune contraddizioni, dovute al fatto che l’AI è – a seconda dell’uso che si intende farne – generatrice, essa stessa, di contenuti fake in rete e, al contempo, strumento in grado di svelarli.

Basti pensare al deepfake e alla tecnica di apprendimento automatico sulla quale si fonda – capace di creare immagini, audio e video originali attraverso la manipolazione delle loro versioni esistenti – e agli algoritmi AI capaci di individuare automaticamente le notizie false.

Gli autori del progetto descritto nel paper “Architecture of a fake news detection system combining digital watermarking, signal processing, and machine learning” – guidato dall’Internet Interdisciplinary Institute dell’Universitat Oberta de Catalunya (UOC), a Barcellona, con la collaborazione della Warsaw University of Technology, in Polonia, e dell’Okayama University, in Giappone – precisano che:

«… esistono, in rete, due tipi distinti di fakenews. Innanzitutto, alcune notizie false vengono create da contenuti che sono di origine legittima, ma che sono stati manipolati, ad esempio, sostituendo l’audio o creando un deepfake da un video autentico. E poi esistono notizie false create da zero, senza manipolare alcun contenuto originale legittimo»

La consapevolezza dell’esistenza del “falso” sotto varie forme, intenzionalmente diffuso allo scopo di ingannare, disinformare, fuorviare i lettori, influenzandoli negativamente e controllandone le opinioni, con impatti sulle loro vite reali (uno dei molti esempi è dato da quanto avvenuto durante le elezioni presidenziali USA del 2016, vinte da D. Trump, quando sui social media americani vennero diffusi vari tipi di fakenews sui candidati, con effetti sul processo elettorale) deve andare di pari passo – osserva il team dell’Ateneo spagnolo – con la consapevolezza della sfida che la disinformazione online pone a tutti noi e con l’azione concreta contro le centinaia di migliaia di contenuti fake caricati ogni giorno, in tutto il mondo, su Internet e sulle piattaforme dei social media, fatta di metodi di rilevamento automatizzati, da applicare in molteplici contesti.

Già nel 2019, Amazon Web Services, Microsoft e Facebook, «con l’obiettivo di stimolare i ricercatori di tutto il mondo a sviluppare tecnologie innovative, atte a smascherare deepfake e media manipolati» hanno lanciato DeepFake Detection Challenge.

Il progetto internazionale guidato all’UOC punta, invece, a mettere a punto strumenti per rilevare contenuti multimediali digitali falsi, concentrandosi sui «segnali innaturali lasciati dalle operazioni di elaborazione e di manipolazione, nonché dai dispositivi di segnalazione utilizzati». Ma andiamo in profondità, per capire insieme a quali soluzioni rimanda il progetto citato.

Tecniche di watermarking digitale e strumenti di rilevamento

In tema di machine learning e fakenews, gli strumenti ai quali fa riferimento il progetto dal nome inequivocabile – “Dissimilar” – avviato a giugno del 2021, prevedono la progettazione di un sistema basato sulla filigrana digitale e lo sviluppo di sistemi rilevamento.

Nel primo caso, si tratta della messa a punto di una serie di tecniche per incorporare filigrane di autenticazione (in inglese “watermarking”) – impercettibili o, al contrario, ben visibili e udibili – nel file originale dell’immagine, dell’audio o del video che l’utente intende mettere in rete. Filigrane non facilmente rimovibili senza intaccare il contenuto:

«Qualsiasi modifica applicata sarà rilevabile e identificabile automaticamente. Di conseguenza, il sistema sviluppato, integrato nelle piattaforme di social media online, sarà in grado di proteggere qualsiasi tipo di contenuto multimediale digitale e di avvisare gli utenti quando ricevono contenuti contraffatti. Inoltre, in molti casi, sarà anche possibile identificare l’origine della propagazione dei contenuti falsi».

Ma il processo di watermarking rappresenta solo una parte del progetto di svelamento del falso in rete. Poiché le fakenews, in molti casi, vengono distribuite attraverso applicazioni al di fuori dei consueti canali social, è necessario uno strumento in grado di analizzare anche i minimi segnali innaturali indotti dalla generazione di contenuti falsi. Segnali provenienti dalle caratteristiche dei dispositivi hardware utilizzati o dalle operazioni software realizzate per manipolare contenuti o creare da zero fakenews. Ed è qui che entra in scena l’intelligenza artificiale.

Machine learning e fakenews: come interviene l’AI nel processo di svelamento del falso

Gli algoritmi di machine learning – spiega il team del progetto – «apprendono la mappatura del percorso che, da una determinata informazione in ingresso, conduce a un output. Nel caso di problemi di classificazione dell’input, apprendono la funzione – nota come “limite di decisione” – atta a separare due o più classi per un determinato compito. Il che aiuta a determinare se un dato input appartiene a una classe positiva o negativa».

Nel caso specifico della classificazione di contenuti falsi e di fakenews, viene prima estratta da un contenuto target una caratteristica o una funzionalità richiesta per eseguire una determinata attività e, successivamente, l’algoritmo di apprendimento automatico calcola una metrica per “selezionare” se tale caratteristica o tale funzionalità appartiene a una classe positiva o negativa.

Sono le reti neurali ricorrenti (o Recurrent Neural Network – RNN) e le reti neurali convoluzionali (Convolutional Neural Network – CNN o ConvNet) tra le tecniche AI deputate ai processi di estrazione e di selezione di caratteristiche dell’input, testo o immagine che sia.

In particolare, le prime – opportunamente addestrate – sono in grado di acquisire le informazioni sequenziali presenti nei dati di input (ad esempio, la correlazione tra le parole all’interno di un testo) nel momento stesso in cui eseguono le previsioni.

«Le CNN, invece, sono in grado di catturare le “caratteristiche spaziali” da un’immagine. Tali caratteristiche si riferiscono alla disposizione dei pixel e alla relazione tra loro all’interno dell’immagine. E consentono di identificare l’oggetto, la sua posizione nello spazio e la sua relazione con gli altri oggetti presenti».

La funzione delle reti neurali artificiali nella classificazione delle immagini

In tema di machine learning e fakenews, come accennato all’inizio, sappiamo che, per mezzo di tecniche ML – più precisamente, per mezzo di reti generative avversarie (o Generative Adversarial Network – GAN), si rende possibile il deepfake, ad esempio scambiando il viso di una persona con il viso di un’altra e sintetizzando il movimento del viso in base al parlato audio manipolato.

Le manipolazioni facciali – ricordano gli autori del progetto – possono essere classificate in quattro gruppi:

  • sintesi dell’intero volto
  • scambio di identità
  • manipolazione degli attributi del volto
  • scambio di espressioni del volto

Addestrando una Convolutional Neural Network a classificare i volti in base alle caratteristiche delle manipolazioni facciali elencate, è possibile rilevare automaticamente il contenuto fake.

I primi studi in quest’area – rammenta il team – si sono concentrati sugli artefatti audiovisivi esistenti nella prima generazione di video falsi, spingendosi fino ad analizzare le incongruenze tra i movimenti delle labbra e il parlato audio.

Oggi le capacità di rilevamento dell’AI sono migliorate, grazie anche all’utilizzo delle già citate reti RNN (le reti neurali ricorrenti), «che permettono la classificazione di contenuti falsi a partire da alcuni aspetti visivi come il colore degli occhi, i riflessi mancanti e i dettagli mancanti nelle aree degli occhi e dei denti».

Mentre, la Support Vector Machine (SVM) – un modello di machine learning correlato ad algoritmi di apprendimento per la classificazione delle immagini – consente al sistema di rilevamento dei contenuti fake di isolare e analizzare sia le espressioni facciali che i movimenti della testa.

Schema che illustra l’architettura di rilevamento e tracciabilità delle fakenews online, secondo il progetto dell’Universitat Oberta de Catalunya (Fonte: “Architecture of a fake news detection system combining digital watermarking, signal processing, and machine learning” - UOC - http://isyou.info/jowua/papers/jowua-v13n1-2.pdf).
Architettura di rilevamento e tracciabilità delle fakenews online, secondo il progetto dell’Universitat Oberta de Catalunya (Fonte: “Architecture of a fake news detection system combining digital watermarking, signal processing, and machine learning” – UOC – http://isyou.info/jowua/papers/jowua-v13n1-2.pdf).

Machine learning e fakenews: la futura ricerca del vero

In tema di machine learning e fakenews, il progetto dell’UOC, oltre ad essere attento agli aspetti pratici legati alla lotta contro le informazioni false in rete e i contenuti manipolati, proponendo strumenti concreti, per mezzo dei quali “agire”, guarda anche a una maggiore sensibilizzazione – specie tra i più giovani – e alla collaborazione con il mondo della ricerca, come a obiettivi altrettanto importanti da perseguire in risposta alla sfida del fake.

«Intendiamo condividere la piattaforma che abbiamo fiora messo a punto, in modo che altri ricercatori e sviluppatori possano contribuire con soluzioni più efficaci, modificando alcuni suoi componenti» concludono gli autori.

Tra le tappe future del progetto, anche l’implementazione di una piattaforma aperta di valutazione dell’intero sistema di rilevazione, il cui scopo è quello di eseguire esperimenti per diversi approcci di rilevamento e per differenti contesti di applicazione, utilizzando set di dati tratti da casi pratici relativi a contenuti multimediali in rete.

Immagine predefinita
Paola Cozzi

Giornalista dal solido background acquisito lavorando presso i più prestigiosi Editori italiani | Ventidue anni di esperienza nello sviluppo di prodotti editoriali b2b, cartacei e digitali | Vent'anni alla direzione di una testata b2b in tema di Sicurezza anticrimine di tipo fisico | Attualmente si dedica al Giornalismo Digitale ed esplora nuove tecniche e nuovi stili di comunicazione

Articoli: 276

Newsletter Updates

Inserisci il tuo indirizzo email qui sotto per iscriverti alla nostra newsletter