Un team di ricercatori provenienti dalle Università di Madrid, Berlino e Cipro, servendosi di algoritmi di machine learning, ha sviluppato un "classificatore" automatizzato di siti Web, in grado di identificare gli URL dai contenuti sensibili, di avvisare l’utente prima che questo vi atterri e venga profilato e di bloccare i Web tracker.

In materia di trattamento dati personali, intesi come qualsiasi informazione riguardante la persona fisica, è il GDPR – General Data Protection Regulation a dettare le regole in Europa.

Ai sensi del Regolamento UE, la persona fisica si considera identificabile con riferimento al nome, ai dati relativi all’ubicazione, all’identificativo online o a un elemento caratteristico della sua identità fisica, fisiologica, genetica, economica, culturale o sociale.

In particolare, il GDPR pone restrizioni importanti alla raccolta e al trattamento di dati personali sensibili, ovvero di quei dati che rivelano l’origine razziale o etnica delle persone, le loro opinioni politiche, le loro convinzioni religiose o filosofiche o l’appartenenza sindacale, che identificano in modo univoco una persona fisica (dati biometrici), di quei dati relativi alla salute, alla vita sessuale o all’orientamento sessuale, con implicazioni severe per qualsiasi organizzazione al mondo che si rivolga ai cittadini dell’Unione Europea.

In quanto “titolare del trattamento”, ogni azienda o organizzazione deve supervisionare tutte le attività di trattamento dei dati personali, inclusi quelli trattati da terzi – i cosiddetti “responsabili del trattamento” – tra i quali figurano anche i fornitori di Software-as-a-Service e coloro che offrono servizi che tracciano e profilano i visitatori del sito Web dell’azienda o dell’organizzazione.

I titolari e i responsabili del trattamento dati devono poter sempre rendere conto delle tipologie dei dati trattati, delle finalità del trattamento e dei Paesi e delle terze parti ai quali i dati vengono, eventualmente, trasmessi.

Nel caso in cui i dati personali vengano inviati a organizzazioni che non rientrano nel campo di applicazione del GDPR, è necessario che l’utente ne sia informato in modo specifico e che sia messo al corrente dei rischi che corre. E tutti i consensi devono essere registrati come prova del fatto che sono stati effettivamente concessi.

A tale riguardo, il 4 maggio 2020 il Comitato europeo per la protezione dei dati (European Data Protection Board – EDPB, massima autorità di controllo, responsabile dell’applicazione del GDPR in tutta l’UE) ha adottato delle linee guida sul consenso valido ai sensi del GDPR.

Che cosa si intende per “consenso valido ai sensi del GDPR”? L’indicazione libera, specifica e inequivocabile delle intenzioni dell’utente, ossia un’azione chiara e affermativa da parte sua.

Nello specifico, le linee guida dell’EDPB chiariscono che lo scorrimento o la continuazione della navigazione su un sito Web non costituiscono, da parte dell’utente, un consenso valido, che i cookie banner non possono avere caselle preselezionate e che i cookie wall (consenso forzato) sono giudicati non conformi.

Trattamento dati personali sul Web: lo studio congiunto delle Università di Madrid, Berlino e Cipro

Un team internazionale di ricercatori – capitanato da Nikolaos Laoutaris dell’IMDEA Networks Institute di Madrid e composto da professori del Politecnico di Berlino e dell’Università di Cipro – servendosi di algoritmi di machine learning, ha sviluppato un classificatore automatizzato, in grado di identificare, sul Web, gli URL dai contenuti sensibili, tra cui quelli relativi, ad esempio, a patologie croniche, sessualità e ad altri argomenti che toccano la sfera privata e intima delle persone.

Dopo due anni di lavoro su un corpus di circa un miliardo di URL (per la maggior parte di lingua inglese), il gruppo di studio ha rilevato che circa 150 milioni di questi includono contenuti sensibili relativi a salute, convinzioni politiche e orientamento sessuale degli utenti.

Mediante l’utilizzo dei classificatori messi a punto dal team, potranno essere messe in atto misure proattive da parte degli utenti, tese a proteggere i propri dati sensibili dalla profilazione e dal tracciamento automatico senza consenso. In che modo? Mediante un alert che avvisa l’utente prima che questo faccia clic su quegli URL che puntano a siti Web contenenti dati sensibili o, una volta atterrati su tali siti, mediante il blocco dei Web tracker.

Fare questo, però, dipende dalla capacità dell’algoritmo di identificare con precisione e, soprattutto, in tempo reale, gli URL dai contenuti sensibili. La difficoltà sta proprio nel real time. E il motivo ha a che fare con l’ambiguità dei termini utilizzati dai siti Web.

Prendiamo, ad esempio, il termine “salute”: lo ritroviamo nell’URL di una miriade di siti, correlato ai temi più disparati, tra cui alimentazione, sport, alimenti biologici, ma anche a tematiche più serie e complesse come patologie croniche, malattie sessualmente trasmissibili e cancro.

Lo sforzo dei ricercatori nello sviluppare una macchina che classifica gli URL, è stato proprio quello di riuscire a individuare esempi corretti da traferirle, allo scopo di allenare l’algoritmo di machine learning a distinguere tra un utilizzo davvero “sensibile” di termini come salute e benessere da un utilizzo che lo è meno o che non lo è affatto, perché legato, ad esempio, alla pratica di un determinato sport o a gusti culinari.

Rendering 3D dell’intelligenza artificiale e del concetto di protezione dati
Trattamento dati personali: un team di ricercatori, servendosi di algoritmi di machine learning, ha sviluppato un classificatore automatizzato, in grado di identificare, sul Web, gli URL dai contenuti sensibili.

Trattamento dati personali e privacy: l’AI aiuta a intervenire prima della violazione

I risultati di questa ricerca verranno presentati, come documento scientifico, in occasione dell’Internet Measurement Conference 2020, che si terrà dal 27 al 29 ottobre a Pittsburgh. Commenta Nikolaos Laoutaris dell’IMDEA Networks Institute di Madrid:

Solitamente, si ricorre alla legge sulla privacy solo dopo che si è verificata una violazione. Ma come possiamo fare in modo che la tecnologia, l’intelligenza artificiale, le macchine, ci proteggano prima che si verifichino situazioni che ledono il diritto di tutti alla riservatezza dei propri dati?

Il team di ricerca di Laoutaris sta puntando ai fatti, a una soluzione concreta per gli utenti del Web. E aggiunge:

Il monitoraggio degli utenti che visitano siti Web dai contenuti che appartengono alla sfera di quei dati che il GDPR definisce ‘sensibili’, è il vero ‘elefante’ nella stanza della privacy. La maggior parte di noi non si preoccupa di essere profilato e tracciato per questioni che consideriamo futili o comunque che non incidono sul nostro privato. Ma saremmo turbati dal sapere che le loro nostre visite a siti Web che trattano di patologie cliniche specifiche vengono registrate e rilasciate a terze parti sconosciute

Scritto da:

Paola Cozzi

Giornalista Leggi articoli Guarda il profilo Linkedin