Protezione dei dati utilizzati in fase di allenamento degli algoritmi AI: novità dal MIT

L'apprendimento federato è una tecnica di machine learning che consente di addestrare un algoritmo di intelligenza artificiale mantenendo decentralizzati i dati impiegati. Tuttavia, tale metodo pone alcune sfide legate alla privacy e alle prestazioni dei modelli. Vediamo in che modo possono essere affrontate e superate.

TAKEAWAY

  • Un nuovo studio del Massachusetts Institute of Technology ha lavorato al superamento di alcune criticità del federated learning nel mantenere privati i dati sensibili utilizzati in sede di addestramento degli algoritmi di apprendimento automatico.
  • Grazie all’applicazione di una particolare tecnica di potatura – normalmente utilizzata per sfoltire le reti neurali estese e complesse – è possibile ottenere modelli di apprendimento federato più piccoli, dunque maggiormente personalizzabili dagli utenti e trasferibili ai server centrali in modo più agile, senza però indebolirne le prestazioni
  • La ricerca lascia aperte alcune questione ancora da esplorare, tra cui l’analisi di quei fattori che potrebbero portare, nel tempo, a un mutamento del modello iniziale, col conseguente rischio per la tutela della privacy e la riservatezza dei dati utilizzati.

Dopo la presentazione dello studio a cura della North Carolina State University in cui viene descritto un nuovo paradigma dell’apprendimento federato, torniamo a parlare di tecniche di intelligenza artificiale – e, più in particolare, di tecniche di machine learning – per la riservatezza dei dati e la protezione delle informazioni sensibili.

Il terreno è sempre quello dei dati (talora migliaia, milioni e addirittura miliardi) utilizzati per l’addestramento degli algoritmi AI destinati a sistemi di analisi e di classificazione di immagini, come accade, ad esempio, in ambito sanitario con i dati video tratti da radiografie, TAC, risonanze magnetiche o attraverso altre tecniche di imaging biomedico.

Dati che attengono alla sfera più intima dei pazienti e che, anche se resi anonimi, sono etichettati e recano genere, età e provenienza delle persone alle quali appartengono. Motivo per cui il loro trattamento è disciplinato da normative a livello nazionale (nell’UE vige il GDPR – General Data Protection Regulation) e la loro raccolta – specie in set di grandi dimensioni – è resa difficile e talora del tutto impossibile da realizzare.

Nel paper “A Practical Approach to Federated Learning”, i ricercatori del Massachusetts Institute of Technology (MIT) illustrano una nuova soluzione, facente capo, anch’essa, al all’ambito di studi del federated learning, una particolare tecnica di machine learning per mezzo della quale è possibile allenare un algoritmo mediante l’impiego di dispositivi decentralizzati, secondo la definizione che ne dà Wikipedia.

«L’apprendimento federato è un metodo col quale addestrare un modello di apprendimento automatico a mantenere privati i dati sensibili degli utenti. Centinaia o migliaia di utenti addestrano ciascuno il proprio modello utilizzando i propri dati sul proprio dispositivo. Quindi, gli utenti trasferiscono i loro modelli a un server centrale, che li combina per sviluppare un modello ancora più performante che invia a tutti gli utenti»

spiegano gli autori del nuovo studio. Un esempio pratico di applicazione di tale metodologia è dato da una rete di strutture ospedaliere dislocate in diversi paesi del mondo che, avvalendosi del federated learning, allena un sistema di intelligenza artificiale a rilevare tracce di tumore analizzando le immagini diagnostiche e proteggendo, allo stesso tempo, i dati sensibili dei pazienti mantenendoli sui loro server locali.

Intelligenza artificiale per la protezione dei dati: i limiti del federated learning

In tema di intelligenza artificiale per la protezione dei dati, il metodo descritto non è, però, privo di criticità. Innanzitutto, il fatto di trasferire un modello di machine learning da un server a un altro significa, ogni volta, spostare grandi quantità di dati, ponendo problemi di sicurezza oltre che di costi, in quanto tutto il pacchetto dovrà essere movimentato per un numero indefinito di volte.

Un secondo problema riguarda la raccolta dei dati da parte di ciascun utente, in modo indipendente, ossia senza seguire i medesimi schemi e standard, con un impatto negativo sulle performance del «modello combinato», che non è concepito per essere personalizzato in base ai dati di ognuno.

L’obiettivo degli autori è stato proprio quello di mettere a punto una tecnica capace di fare fronte ai lati oscuri del federated learning, superandone le problematiche.

In particolare, ciò su cui hanno lavorato è il livello di precisione e di accuratezza del modello, modificandone le dimensioni, rendendo così più agile la comunicazione tra utenti e server centrale e facendo in modo che «ognuno di loro possa contare su un modello personalizzato per il proprio ambiente», elevando in questo modo le prestazioni.

«Durante la progettazione di un ambiente di apprendimento federato, è importante comprendere il corretto equilibrio tra privacy, efficienza e accuratezza. Sviluppatori AI e progettisti dovrebbero essere in grado di scegliere, di volta in volta, parametri diversi e confrontare più scenari per trovare i giusti compromessi per il loro ambiente»

osserva il team di studio. Per questo motivo – prosegue – sono fondamentali i “simulatori” di ambienti federated learning. Innanzitutto per valutarne l’accuratezza, il tempo totale impiegato per la comunicazione tra server distanti (che può divenire assai costosa) e il tempo impiegato per la convergenza.

Il primo dei due simulatori progettati dai ricercatori del MIT è PrivacyFL, il cui tratto saliente è la rapidità delle comunicazioni tra i server e (soprattutto) il fatto che queste avvengono in parallelo.

È in grado di supportare facilmente l’aggiunta di nuovi algoritmi di tutela della privacy degli utenti e, oltre alla simulazione di ambienti federati che utilizzano uno o più server centrali, simula anche ambienti completamente decentralizzati, tipici di sistemi di apprendimento federato senza un server centralizzato.

DyanmoFL, invece, è un’infrastruttura di federated learning plug-and-play, che consente di supportare in pochi minuti l’apprendimento federato tra client/dispositivi.

Tutela della privacy sfruttando la tecnica “The lottery ticket hypothesis”

Simulatori di ambienti federated learning a parte, il lavoro del Massachusetts Institute of Technology in tema di intelligenza artificiale per la protezione dei dati ha condotto a un nuovo meccanismo di apprendimento federato teso alla tutela della privacy e basato sulla tecnica di machine learning denominata “The lottery ticket hypothesis”.

Il sistema messo a punto – chiamato FedLTN – sfrutta il principio definito nel 2019 da due ricercatori del Computer Science and Artificial Intelligence Laboratory (CSAIL), in seno al MIT, correlato alle tecniche di sfoltimento delle reti neurali.

Ricordiamo che, costituite da milioni o addirittura miliardi di parametri, che vanno a formare la fitta trama delle connessioni tra i neuroni artificiali che le compongono, le reti neurali artificiali sono assai complicate da costruire e da addestrare.

«Le tecniche di sfoltimento standard consentono di ridurre il conteggio dei parametri di oltre il 90%, diminuendo così i requisiti di archiviazione e migliorando le prestazioni computazionali. Tuttavia, l’esperienza insegna che le architetture sparse prodotte da questo tipo di potatura sono poi difficili da addestrare fin dall’inizio» spiegano i due studiosi.

Le tecniche di potatura mirate – proseguono – vanno invece a scoprire le “sottoreti”, «le cui inizializzazioni le hanno rese capaci di auto-addestrarsi in modo efficace». È sulla base di questi risultati che i due ricercatori del CSAIL hanno elaborato “The lottery ticket hypothesis” (letteralmente, in italiano, “ipotesi del biglietto della lotteria”), dandone la seguente descrizione:

«Le reti fitte contengono sottoreti – paragonabili a “biglietti della lotteria vincenti” – che, se addestrate in isolamento, raggiungono un’accuratezza paragonabile a quella della rete originale. I “biglietti vincenti” vincono alla “lotteria dell’inizializzazione”, in quanto le connessioni delle sottoreti possiedono proprietà che rendono il loro allenamento particolarmente efficace».

Intelligenza artificiale per la protezione dei dati sensibili: la tecnica della potatura iterativa applicata all’apprendimento federato

Detto con parole più semplici, all’interno delle reti neurali artificiali particolarmente fitte vi sono sottoreti, ovvero reti molto più piccole ma dalle performance assai elevate. Trovarne una – per usare la metafora della lotteria – equivale a trovare il biglietto vincente. Che significa, nel concreto? Che è un’operazione complicata, come cercare un ago nel pagliaio.

Per questo, si ricorre alla “potatura iterativa”: quando l’accuratezza del modello risulta più elevata rispetto a una data soglia, vengono eliminati (sfoltiti) una serie di nodi e di connessioni della rete neurale per renderla più snella, verificando comunque che le sue prestazioni rimangano al di sopra della soglia.

Questa tecnica di sfoltimento, di potatura, applicata all’apprendimento federato dà origine a modelli di machine learning più piccoli, dunque maggiormente personalizzabili e trasferibili ai server centrali in modo più agile. Il rischio, però, è che vengano indebolite le loro performance.

Per ovviare a questo inconveniente, il gruppo di ricerca del MIT ha introdotto una tecnica per fare in modo che, dopo la sua potatura, «le parti restanti della rete neurale sfoltita non si riavvolgano ai loro valori originali» e hanno, poi, addestrato il modello prima di sfoltirlo.

In tema di intelligenza artificiale per la protezione dei dati, il test per mettere alla prova il sistema FedLTN ha portato a risultai positivi, raggiungendo – ad esempio – la stessa precisione di un modello di federated learning tradizionale con solo 5 megabyte, dove il primo ne necessitava 45. E, in un altro esperimento, laddove occorrevano 12.000 megabyte di comunicazione tra utenti e server per addestrare un modello, il nuovo approccio ne richiedeva solo 4.500.

Prospettive future

Lo studio del MIT in tema di intelligenza artificiale per la protezione dei dati necessita – avvertono i suoi autori – di ulteriori approfondimenti, volti a migliorare il metodo sviluppato,

Ci sono alcuni problemi aperti ancora da esplorare, tra cui – ad esempio – l’analisi di quei fattori che potrebbero portare, nel tempo, a un cambiamento dei modelli di apprendimento federato sviluppati e dei dati sottostanti. Il rischio, nel caso di cambiamenti inattesi, è che venga messa a rischio la tutela della privacy e la riservatezza dei dati utilizzati.

Un’altra questione da prendere in esame riguarda l’alimentazione, da parte degli utenti, di eventuali modelli volutamente errati oppure non conformi alle metriche di equità individuale e di gruppo. A tale proposito, la riflessione futura dovrà vertere sulle misure atte a favorire la generazione di modelli AI equi e obiettivi da parte degli algoritmi di federate learning.

L’augurio che il team di studio formula è che questo lavoro possa essere fonte di ispirazione per altri gruppi di ricercatori, in modo che il filone di ricerca sul federated learning non si fermi qui e prosegua all’interno di altri Atenei, affrontandone le tematiche da un punto di vista sempre più ampio, evitando il focus su singoli aspetti.

Immagine predefinita
Paola Cozzi

Giornalista dal solido background acquisito lavorando presso i più prestigiosi Editori italiani | Ventidue anni di esperienza nello sviluppo di prodotti editoriali b2b, cartacei e digitali | Vent'anni alla direzione di una testata b2b in tema di Sicurezza anticrimine di tipo fisico | Attualmente si dedica al Giornalismo Digitale ed esplora nuove tecniche e nuovi stili di comunicazione

Articoli: 290

Newsletter Updates

Inserisci il tuo indirizzo email qui sotto per iscriverti alla nostra newsletter