I dati sintetici costituiscono un’alternativa sempre più diffusa alla controparte reale. Tra le principali ragioni di questo successo ritroviamo una maggiore accessibilità dal punto di vista economico e la possibilità di rendere anonimi i dati, nel rispetto del GDPR. Non mancano, tuttavia, le note dolenti, come gli utilizzi impropri del deepfake.
TAKEAWAY
- I dati sintetici consentono a molte aziende che non potrebbero permettersi l’impiego dei dati reali di definire le fonti di dati utili ad allenare i loro algoritmi di Machine Learning.
- I dati sintetici consentono di rendere anonimi i dati delle persone, in modo da poterli impiegare nell’analisi medica e scientifica, nel rispetto della normativa GDPR.
- I deepfake costituiscono un’arma a doppio taglio, ricordandoci quanta sia ancora la strada da fare per normare l’impiego su larga scala dei dati sintetici. Il futuro è alle porte.
Uno degli argomenti emergenti nell’ambito dell’Intelligenza Artificiale è costituito dai dati sintetici che, anziché essere acquisiti dal mondo reale, vengono generati da algoritmi di Machine Learning dotati di feature generative. Ne esistono vari tipi e servono per supportare una grande varietà di applicazioni, sia quando il dato reale risulta di difficile o onerosa reperibilità, sia quando è necessario renderlo anonimo secondo le disposizioni delle normative vigenti in materia di protezione dei dati personali [per approfondimenti sull’AI, consigliamo la lettura della nostra guida all’Intelligenza Artificiale che spiega cos’è, a cosa serve e quali sono gli esempi applicativi – ndr].
Il dibattito sui dati sintetici è più che mai aperto e riguarda questioni alquanto eterogenee, che spaziano dall’ambito tecnologico alle considerazioni di carattere etico, senza prescindere dai vincoli espressi dalle normative vigenti e da quelle che potranno circoscrivere gli scenari della privacy nel futuro prossimo.
La generazione di dati sintetici è un’attività che esiste almeno dagli anni Novanta, quando i tempi non erano ancora maturi per parlarne come possiamo fare oggi, disponendo ormai di grandi capacità di archiviazione e calcolo in cloud, utili a ospitare i Big Data e ad analizzarli grazie a una grande varietà di tecniche sempre più evolute, come gli algoritmi di sintetizzazione e le reti generative avversarie (GAN).
Scrivere di dati sintetici vuol dire raccontare un tema nuovo, che possiamo immaginare alla stregua della sua somiglianza con i dati provenienti dal mondo reale, ma le cui piene potenzialità sono tuttora ignote, trattandosi di un mondo le cui storie sono ancora tutte da scrivere.
In questa circostanza, limiteremo le nostre attenzioni a tre particolari contesti in cui i dati sintetici vedono già un largo impiego: l’apprendimento automatico, l’anonimizzazione dei dati sensibili e i deepfake proibiti.
Dai dati sintetici una grande opportunità per l’apprendimento automatico
Le tecnologie di apprendimento automatico sono sempre più diffuse in vari ambiti di business e si basano sulla disponibilità di una risorsa fondamentale: i dati. Per apprendere, un sistema di Intelligenza Artificiale deve essere allenato con opportuni data set, il cui contenuto può essere caratterizzato da uno storico di eventi, così come da una serie di elementi somiglianti.
Senza annoiarci, almeno in questa sede, con le teorie del Machine Learning, ci basti sapere che disporre di grandi quantità di dati strutturati (documenti tabellari) e non strutturati (contenitori, immagini, video, ecc.) comporta dei costi tutt’altro che indifferenti.
Se le grandi industrie acquisiscono nativamente i dati a loro occorrenti o sono dotate dell’adeguata quantità di moneta utile ad acquisirli da origini esterne, per una piccola realtà che vuole sfruttare l’Intelligenza Artificiale per rendere più efficienti i suoi processi o dare forma a nuove idee, l’economia dei propri sogni può rivelarsi ben presto proibitiva. Si verifica quello che nel gergo delle start-up viene definito l’avviamento a freddo (cold bootstrap), ossia l’infelice condizione in cui non si dispone di una quantità di dati etichettati sufficiente per allenare in maniera efficace i propri algoritmi di Machine Learning.
Anche se probabilmente è ancora prematuro cercare di sfuggire alla legge dei grandi numeri, i dati sintetici possono offrire una soluzione efficace per uscire da questa situazione di impasse. Esistono, infatti, dei simulatori software che si ispirano a ridotte quantità di dati reali per generare i dati sintetici da impiegare massivamente per il training degli algoritmi. Se svolta consapevolmente, si tratta di una procedura molto più sostenibile dal punto di vista economico rispetto alle metodologie tradizionali.
La procedura non è comunque esente da rischi, dal momento che il dato sintetico non è affidabile a priori e nel caso in cui la sua qualità non fosse adeguata al tipo di impiego che si prospetta, i risultati dell’apprendimento automatico potrebbero rivelarsi insoddisfacenti, così come le applicazioni finali.
Se i dati sintetici consentono, almeno in linea di principio, di democratizzare il Machine Learning, rendendolo accessibile a una maggior varietà di iniziative imprenditoriali, tale eventualità assume un senso soltanto qualora venga garantita la loro accuratezza comportamentale nei confronti del contesto reale a cui inequivocabilmente si ispirano.
Il Considerando 26 del GDPR tra privacy e anonimizzazione: la sfida aperta dei dati sintetici nella ricerca medica e scientifica
Molte applicazioni di ricerca, specie quelle legate all’ambito medico-scientifico, necessitano di dati riferibili a casi reali, basati direttamente sulla storia clinica dei pazienti. Esistono però delle normative che pongono evidenti limiti sul trattamento dei dati personali, al punto da costringere ad approcci differenti, come l’impiego di dati del tutto anonimi, da cui non sia possibile risalire all’identificazione dell’origine.
I dati sintetici si ispirano a un testo fondamentale, il Considerando 26 del GDPR (Regolamento Generale sulla Protezione dei Dati Personali) che, in estrema sintesi, oltre definire gli estremi dell’identificabilità di una persona, afferma che se i dati vengono anonimizzati non sono più soggetti alle restrizioni di trattamento previste dagli articoli del GDPR stesso. Tale considerazione apre, di fatto, a un mondo di possibilità.
Per rendere anonimi i dati, vengono utilizzati algoritmi di sintetizzazione, la cui funzione prevede la creazione di un nuovo data set a partire dalle informazioni contenute nei dati identificabili che sono stati acquisiti all’origine. L’obiettivo è quello di renderli non identificabili ma, al tempo stesso, capaci di produrre le stesse risposte quando vengono interrogati allo stesso modo. In altri termini, il data set reale e quello fittizio ad esso ispirato non sono in alcuni modo riconoscibili, ma risultano del tutto equivalenti ai fini dell’impiego analitico.
Nell’ampio campionario di soluzioni impiegate per de-identificare i dati senza consentirne il processo inverso, ritroviamo, ad esempio, la differential privacy, una tecnica algoritmica che aggiunge un rumore controllato al data set iniziale, in modo da non intaccare in alcun modo i risultati, rendendo al tempo stesso alquanto complesso risalire alla fonte.
Sul fronte analitico, non si può prescindere dal fatto che le proprietà statistiche dei dati sintetici corrispondano a quelle dei dati originali, pena l’inaffidabilità nel loro impiego. Si tratta di un problema di non facile soluzione, in cui occorre destreggiarsi con grande abilità nel rimuovere elementi che possono consentire l’identificazione senza compromettere la riconoscibilità statistica dei dati sintetici che vengono creati.
Il curioso caso dei deepfake: quando i dati sintetici fanno inevitabilmente discutere
I dati sintetici attualmente più popolari sono costituiti dai deepfake: vengono generati delle GAN, che in italiano possiamo localizzare come “reti generative avversarie” e, di fatto, consentono di creare ex novo delle immagini del tutto realistiche, di fatto non distinguibili dal vero.
Tale tecnica può essere utilizzata con intenzioni nobili come il restauro virtuale di un’opera d’arte, e meno nobili, come la generazione di un contenuto revenge porn, utilizzando il cosiddetto face-swap (sostituzione facciale), procedura che consente di sostituire il volto agli attori presenti nel video originale con quello della vittima designata, con le conseguenze che si possono facilmente immaginare.
Se un tempo, per creare un deepfake era necessario allenare un sistema di Machine Learning con un data set composto anche da diverse migliaia di immagini, oggi è possibile generare un’immagine falsa a partire da una sola immagine, che consente al software di simulare l’intero processo di face-swapping. Tale operazione può farla una comunissima app come Reface, che oltre 100 milioni di utenti hanno già scaricato sui loro smartphone. Seguendo alcuni semplici step guidati, chiunque, anche senza alcuna particolare competenza informatica, può creare un contenuto falso del tutto credibile dal punto di vista del realismo.
Anche se le applicazioni di questo genere nascono con un evidente intento ludico, una ormai celebre analisi di Sensity ha rilevato come già nel 2019 il 96% dei contenuti deepfake facesse riferimento a contenuti porno non consensuali. Ad oggi non vi è una grande attenzione mediatica sull’impiego improprio dei deepfake, ma milioni di donne in tutto il mondo sono già rimaste vittime di episodi di revenge porn o di scherzi decisamente mal riusciti.
Si corre inevitabilmente ai ripari soprattutto per evitare conseguenze dal punto di vista legale. I principali marketplace di contenuti per adulti stanno implementando filtri sempre più efficaci, basati a loro volta sull’Intelligenza Artificiale, per riconoscere i dati sintetici rispetto a quelli autentici. Allo stesso modo i social e altri portali generalisti dispongono di filtri capaci di riconoscere elementi pornografici ed escluderli immediatamente dalle librerie di contenuti proposti al pubblico indifferenziato.
Il fine giustifica i mezzi?
Un ulteriore elemento di dibattito relativo all’impiego dei dati sintetici insiste sulla convenienza o meno che l’utente finale sappia che il contenuto che sta guardando sia sostanzialmente falso, specie quando non saprebbe in alcun modo distinguerlo dal vero. Tale evenienza non è soltanto associabile al fenomeno dei deepfake illegali, ma a tutti i contesti in cui il dato creato dall’algoritmo non corrisponde a una situazione equivalente alla realtà.
Per distinguere i dati sintetici da quelli reali, alcuni esperti propongono ad esempio l’apposizione di un watermark che specifichi come l’immagine sia stata generata artificialmente. Altri si mostrano fermamente contrari a questa ipotesi, in quanto contribuirebbe a sminuire le situazioni in cui il dato sintetico genera un evidente valore aggiunto in funzione della propria credibilità in un contesto virtuale.
In attesa di capire quale sia la sottile linea che divide il costo della sincerità dall’opportunità del falso, ci si avvia ad una lunga stagione di dibattiti, da cui dovranno scaturire gli strumenti fondamentali per normare l’applicazione dei dati sintetici nei vari contesti di riferimento, senza porre inutili e controproducenti barriere nei confronti dell’innovazione.