Un paradigma alternativo alla tecnica standard di apprendimento federato permette di sviluppare algoritmi di intelligenza artificiale rispettosi della riservatezza dei dataset con cui vengono addestrati e, al contempo, di rispondere al problema della loro eterogeneità statistica.
Per comprendere appieno la correlazione che esiste tra le tecniche di machine learning e quanto attiene al tema della protezione dei dati personali, è utile fare riferimento a una ricerca del 2021, ancora in piena pandemia, realizzata presso l’Addenbrooke’s Hospital di Cambridge, il cui fine era sviluppare un sistema di intelligenza artificiale in grado di prevedere la quantità di ossigeno extra di cui un paziente Covid poteva aver bisogno nei primi giorni di cure ospedaliere, utilizzando una vasta mole di dati clinici provenienti da ben quattro continenti.
Per rispettare le esigenze di massima riservatezza dei dati personali di ogni paziente, la tecnica AI utilizzata per analizzare e incrociare le informazioni a livello globale desunte dalle radiografie del torace e dalle cartelle cliniche elettroniche dei pazienti ospedalieri con sintomi del virus, è stata quella del “federated learning” (o “apprendimento federato”), «tecnica di apprendimento automatico che – secondo la definizione che ne dà Wikipedia – permette di addestrare un algoritmo attraverso l’utilizzo di dispositivi decentralizzati, senza la necessità di scambiare i dati stessi».
In particolare – spiega il team di studio – «i dati dei pazienti sono stati resi completamente anonimi e, ad ogni ospedale, è stato inviato un algoritmo di machine learning, in modo che nessun dato grezzo venisse condiviso. Una volta che l’algoritmo è stato addestrato per mezzo del dataset del singolo presidio ospedaliero, gli esiti dell’analisi sono stari accorpati, per creare uno strumento di intelligenza artificiale unico, generalizzabile, valido per l’impiego in qualsiasi parte del mondo».
Al di là della sua applicazione in ambito sanitario, il federated learning rappresenta fin dal suo esordio, nel 2016, un importante traguardo in tema di tutela della privacy in ambito AI, consentendo – in fase di addestramento di un modello di machine learning – di attingere a più set di dati, provenienti da luoghi diversi, senza comprometterne la riservatezza.
In questi giorni – più esattamente dal 17 al 23 luglio 2022 – a Baltimora, in seno alla trentanovesima International Conference on Machine Learning (ICML), verranno ufficialmente resi noti i risultati di un recente studio a cura della North Carolina State University, contenuti nel paper dal titolo “Neural Tangent Kernel Empowered Federated Learning”, in cui viene descritto un nuovo paradigma dell’apprendimento federato, reso più potente dallo schema Neural Tangent Kernel. Vediamo di che cosa si tratta e in che modo il nuovo federated learning differisce da quello tradizionale, a totale vantaggio di sviluppatori, ricercatori e tecnici AI.
Machine learning e protezione dati: come funziona l’apprendimento federato
In tema di machine learning e protezione dei dati, la peculiarità del federated learning – spiegano gli autori del paper – è data dall’eterogeneità statistica, ossia da una distribuzione dei dati diversa per ogni set impiegato nell’addestramento degli algoritmi.
Iniziamo col dire che, nell’apprendimento federato, ad essere coinvolti, sono più server di dati, ognuno dei quali allena il proprio modello locale di intelligenza artificiale, intervenendo più volte – durante questa fase – per ottimizzare le sue prestazioni.
Al termine, ogni server locale invia i propri modelli e i loro aggiornamenti al server centrale, il quale ha il compito di mettere a punto un modello AI ibrido, dalle prestazioni superiori a quelle dei singoli modelli locali.
Quindi, il modello ibrido viene, a sua volta, inviato a ogni server locale. E tale processo si ripete fino a quando le prestazioni del sistema AI non sono state ottimizzate, raggiungendo un livello di accuratezza e di precisione definite in precedenza.
Quello che talora può accadere – osserva il team di studio – è che le modifiche e gli aggiornamenti al modello locale, «se ben si applicano ai dati contenuti nel server di riferimento, non si addicono ad altri set di dati».
In sintesi, «l’eterogeneità dei dati del singolo server può indurre a modificare il modello AI locale in un modo che, però, rischia di compromettere le prestazioni del modello finale». Il che rappresenta una criticità non da poco. Non sotto il profilo della privacy riferita ai dati, quanto sotto il profilo dell’efficienza e dell’affidabilità del sistema di intelligenza artificiale sviluppato per una specifica applicazione.
Il superamento dell’eterogeneità statistica
In tema di machine learning e protezione dei dati di addestramento, il problema dell’eterogeneità statistica del federated learning, negli ultimi anni, è stato affrontato da diversi studi, che hanno, via via, avanzato strategie differenti.
«Una possibile soluzione è rappresentata dal condividere un unico, vasto set di dati a livello globale. Anche se, nella pratica, un tale dataset potrebbe non essere disponibile oppure essere comunque troppo piccolo per compensare un’eterogeneità frutto di molteplici set di dati a livello locale».
Un’altra soluzione è quella che poggia su un’aggregazione non lineare dei dati. Ma, anche in questo caso – fa notare il team – si tratterebbe di una «routine di ottimizzazione di modelli AI separata, che ripropone la dicotomia tra dati e modelli dei server locali e modello ibrido del serve centrale».
Nel recente lavoro della North Carolina State University viene, invece, ipotizzato un paradigma di apprendimento federato reso più robusto dal Neural Tangent Kernel, schema che consente la descrizione dell’evoluzione delle reti neurali artificiali durante il loro addestramento.
L’obiettivo è quello di raggiungere la precisione e l’affidabilità nello sviluppo degli algoritmi di federated learning attraverso un minor numero di round di comunicazione tra i server locali e il server centrale, riducendo tempistiche e sforzi e garantendo, allo stesso tempo, un elevato grado di protezione dei dati.
Machine learning e protezione dati: l’introduzione dello schema Neural Tangent Kernel
In tema di machine learning e protezione dei dati, che cosa accade, in sostanza, col nuovo paradigma di apprendimento federato supportato dal Neural Tangent Kernel? Innanzitutto, gli aggiornamenti che i server locali inviano al server centrale vengono riformattati, in modo da preservare la privacy dei dati ma, al contempo, fornendo al server centrale informazioni puntuali sulle caratteristiche di quei dati rilevanti ai fini delle performance del modello di intelligenza artificiale.
Nel dettaglio, i server locali inviano le informazioni al server centrale sotto forma di “matrici Jacobiane”, ovvero di elementi che derivano dalle funzioni matematiche di più variabili. A questo punto, il server centrale inserisce tali matrici in un algoritmo di federated learning che, a sua volta, dà origine a un sistema AI perfezionato.
E qui si avvia il processo al quale si è accennato: il server centrale rinvia il nuovo modello ai server locali e questi ultimi al primo, con aggiornamenti continui del modello che migliorano le prestazioni del sistema. Ma il tutto avviene in modo differente e più rapido rispetto all’apprendimento federato standard:
«La novità introdotta dal Neural Tangent Kernel consiste nell’evitare di allenare il modello locale su ciascun server, lasciando invece che sia il server entrale a produrre direttamente un modello ibrido ottimizzato, basato sulle matrici Jacobiane trasmesse dai server locali»
Con questo approccio – sottolineano i ricercatori – non solo si impedisce all’algoritmo di federated learning di essere sottoposto a più cicli di comunicazione server locali-server centrale, ma si fa in modo che gli aggiornamenti locali divergenti non inquinino il modello ibrido.
In particolare, i risultati dei test di prova del nuovo federated learning – si legge nel paper – oltre a dimostrare un livello di precisione e di accuratezza pari (e, in alcuni casi, anche superiore) alle tecniche FL standard, hanno evidenziato un minore numero di round di comunicazione tra server locali e server centrale:
«Occorrono, mediamente, circa 284 cicli di comunicazione per raggiungere una precisione dell’85% in uno dei set di dati di test. Ebbene, la nuova metodologia è stata in grado di raggiungere l’85% di precisione in 26 cicli. Un risparmio notevole di tempo e di forza lavoro, preservando la riservatezza di tutti i dati utilizzati»
Direzioni della ricerca futura
In tema di machine learning e protezione dei dati, quello illustrato nel documento a cura della North Carolina State University è un «lavoro esplorativo», come precisano gli stessi ricercatori. Niente affatto esaustivo, né concluso del tutto.
Viene suggerito un paradigma di federated learning alternativo, capace di scavalcare il problema dell’eterogeneità statistica dei diversi dati di addestramento ricorrendo a una specifica architettura di rete neurale.
In futuro, sarà utile poter estendere la nuova metodologia anche ad altre architetture di reti, tra cui – ad esempio – le reti neurali convoluzionali (dette anche Convolutional Neural Network – CNN), le “residual network” (ResNets) e le reti neurali ricorrenti (Recurrent Neural Network – RNN.
Inoltre, la ricerca futura dovrà approfondire anche il livello di efficienza delle prestazioni derivate dallo schema Neural Tangent Kernel, indagandone gli ulteriori vantaggi in risposta alle sfide del machine learning in termini di privacy dei dati utilizzati per l’allenamento dei suoi algoritmi.