Da uno studio della George Washington University, un metodo manuale coniugato a tecniche di apprendimento automatico per analizzare sette tipi di contenuti che incitano all'odio all’interno di post pubblicati su più piattaforme social.
L’incitamento all’odio online è, a livello globale, uno degli aspetti più critici caratterizzanti le dinamiche dei social media. E benché finora siano stati compiuti molti passi avanti nel monitoraggio e nel rilevamento del fenomeno, sono rari, ad oggi, gli studi che hanno adottato le tecnologie emergenti, tra cui le tecniche di intelligenza artificiale, a supporto dell’analisi automatica di più tipologie di hate speech, sia sulle piattaforme tradizionali che su quelle più marginali.
La letteratura in materia – ricordano gli autori dello studio “Offline events and online hate”, a cura del Political Science Department, del Physics Department e dell’Institute for Data, Democracy & Politics della George Washington University – «si concentra prevalentemente sulla classificazione dell’incitamento all’odio online come fatto binario – ossia, odio o non odio – oppure sulla classificazione di un piccolo insieme di hate speech online».
Inoltre – osservano – la maggior parte dei lavori tende a trarre dati soltanto da una o da due piattaforme di social media, di solito mainstream. E un recente sondaggio ha rilevato che è Twitter la fonte maggiormente studiata quando si parla di rilevamento automatico dell’incitamento all’odio online.
«Tali approcci – spiegano i ricercatori – hanno due limiti: in primo luogo, è probabile che l’incitamento all’odio vari sistematicamente tra le piattaforme. In secondo luogo, è necessaria una classificazione più puntuale delle differenti tipologie di hate speech online, per comprendere appieno il fenomeno anche alla luce di sempre più frequenti eventi offline correlati». Ma vediamo la metodologia adottata dallo studio americano e i dati emersi.
Intelligenza artificiale ed hate speech: metodologia e raccolta dei dati
Il lavoro in tema di intelligenza artificiale ed hate speech condotto dal team della George Washington University si è focalizzato sull’analisi di sette tipologie di incitamento all’odio online su sei piattaforme di social media, esaminando 59 milioni di post in lingua inglese pubblicati in un arco di tempo compreso tra giugno 2019 e dicembre 2020.
Le piattaforme incluse nella ricerca sono Facebook, Instagram e VKontakte (popolare social network in Russia e in tutta la comunità degli Stati indipendenti dell’ex Unione Sovietica) – che, negli anni, hanno e applicato, a vari livelli, politiche contro gli hate speech – così come le piattaforme meno moderate Gab (social network e microblogging statunitense), Telegram e 4Chan (sito web imageboard in lingua inglese).
«Il nostro sforzo di raccolta dei dati ha preso il via con l’identificazione delle comunità online che incitano all’odio, ovvero forum in cui è più probabile che vengano utilizzati hate speech. Sono molte, ormai, le piattaforme di social media che offrono agli utenti i mezzi per unirsi con coloro i quali la pensano allo stesso modo su determinate tematiche, come le pagine dei fan su Facebook, i canali su Telegram e le bacheche anonime su 4Chan» specificano gli autori.
La classificazione come “comunità d’odio” ha seguito il criterio dei due (o più) post sui venti più recenti, i cui contenuti negativi:
- rientrano nelle disposizioni del Codice degli Stati Uniti in materia di crimini ispirati dall’odio
- non sono conformi alle linee guida del Dipartimento di Giustizia USA
- supportano o promuovono ideologie fasciste o qualsiasi tipo di regime totalitario
Il processo di identificazione – effettuato manualmente – ha portato a una lista di 1150 comunità di odio online, presenti all’interno dei social network presi in esame. Una prima individuazione dei post pubblicati all’interno di queste comunità (comprendenti solo testo e privi di immagini, video e audio) è avvenuta utilizzando una combinazione di metodi automatizzati e manuali. Più in particolare, i post in lingua diversa da quella inglese sono stati evidenziati – per poi essere rimossi – grazie all’impego di Compact Language Detector 2 di Google.
I ricercatori fanno sapere che non sono state raccolte informazioni correlate all’identificazione degli autori dei post, né informazioni generali sugli utenti delle pagine oggetto dello studio. «Tutti i dati sono anonimi» precisano.
Rete neurale artificiale con classificatore BERT
In tema di intelligenza artificiale ed hate speech, la scelta delle tipologie di incitamento all’odio sulle quali focalizzarsi è stata compiuta dal team tenendo conto della frequenza dei discorsi rilevati all’interno dei post:
«Il nostro studio ha codificato sette tipi hate speech, tra cui discorsi che prendono di mira etnia, genere, fede religiosa, identità di genere incrociata con l’orientamento sessuale – segnalati con la sigla GI/SO, Gender Identity/Sexual Orientation – immigrazione, temi su etnia incrociati con immigrazione e nazionalismo – segnalati con la sigla E/I/N, ossia Ethnicity/Immigration/Nationalism – e, infine, antisemitismo»
In totale, i post codificati manualmente sono stati 31.323. Di questi, 26.354 sono sttai utilizzati per addestrare un algoritmo di apprendimento automatico supervisionato e 4.969 per testarne le prestazioni.
Più nel dettaglio, il gruppo di studio ha sviluppato otto architetture di reti neurali artificiali deputate alla classificazione automatica dei post contenenti le sette tipologie di incitamento all’odio prescelte, ciascuna delle quali è stata a sua volta impiegata per allenare sette diversi modelli di machine learning – uno per ogni tipo di incitamento all’odio – ognuno dei quali apprende separatamente dai dati di addestramento.
«Ciascuno di questi sette modelli fornisce una codifica binaria, che indica se un determinato post contiene o meno il tipo applicabile di incitamento all’odio. Abbiamo, quindi, confrontato le prestazioni di questi modelli per scegliere l’architettura di rete con le migliori performance» spiegano gli autori.
L’architettura prescelta ha utilizzato un classificatore con incorporamenti BERT (Bidirectional Encoder Representations from Transformers), vale a dire un modello di Natural Language Processing (NLP) messo a punto dai ricercatori di Google AI Language nell’ambito di attività che includono – tra le altre – sentiment analysis, classificazione dei testi e predizione di frasi successive.
Nei test, il grado di precisione della rete ha registrato variazioni comprese tra 91,7% al 98,3%, a seconda del tipo di incitamento all’odio che era chiamata ad analizzare. I risultati illustrati di seguito si basano su quanto rilevato e classificato dai sette modelli di apprendimento automatico supervisionato che utilizzano l’architettura di rete con classificatore BERT.
Intelligenza artificiale ed hate speech: i risultati emersi dello studio
In materia di intelligenza artificiale ed hate speech, la tipologia di incitamento all’odio di gran lunga più comune all’interno delle comunità monitorate dal gruppo di studio è quella di matrice razzista, che compare in quasi 7 milioni di post.
Queste comunità – commentano gli autori – spesso discutono di questioni non correlate tra loro, con post che spesso contengono più di un tipo di incitamento all’odio. Inoltre, la loro attività varia non solo in base al giorno della settimana, ma anche in concomitanza di determinati eventi offline:
«Ci sono due picchi particolarmente notevoli nell’attività totale che abbiamo registrato. A fine maggio/inizio giugno del 2020 e all’inizio di novembre 2020. Gli eventi offline chiave discussi nei post durante questi periodi sono stati l’uccisione di George Floyd, il 25 maggio 2020, da parte degli agenti di polizia di Minneapolis – e le conseguenti proteste organizzate dal movimento Black Lives Matter – e le elezioni statunitensi del novembre 2020»
Non solo ci sono stati molti più post del solito durante questi due eventi – emerge dallo studio – ma c’è stato anche un aumento dell’intensità stessa degli hate speech.
Tuttavia, i dati rilevati indicano che i due eventi offline hanno avuto effetti diversi sulla frequenza relativa dell’incitamento all’odio all’interno di queste comunità: «durante i primi giorni delle proteste successive alla morte di George Floyd BLM, la percentuale di post che contenevano incitamento all’odio è aumentata, non solo in termini assoluti ma anche rispetto alla quantità di altri post».
Al contrario – sottolinea il team – «durante il periodo delle elezioni americane del novembre 2020, la percentuale di post che contenevano hate speech è diminuita. C’è stato un aumento dei post di odio, ma in termini relativi la loro frequenza è calata, cioè i post complessivi sono aumentati a un ritmo maggiore rispetto ai post contenenti incitamento all’odio».

Alcune riflessioni conclusive
Pur essendo riuscito a definire un elenco assai completo di comunità di odio online, lo studio in tema di intelligenza artificiale ed hate speech presenta un limite importante, dato dal fatto – come rimarcano gli stessi autori – che non è possibile identificare l’intera popolazione delle comunità di odio sul Web per riuscirne a prelevare un campione ancora più ampio, «sia perché l’ecologia delle piattaforme di social media è assai vasta e in continua evoluzione, sia perché il monitoraggio e l’acquisizione dei dati sono limitati dai termini di servizio e dai problemi di privacy».
Il punto, ora, è comprendere in che modo sia possibile, in futuro, implementare i modelli di machine learning impiegati in questo lavoro, al fine di ampliare il campione di popolazione autrice di hate speech online, sempre nel rispetto dell’anonimato e delle regole di ogni piattaforma.
Un altro limite di questa ricerca riguarda, infine, la difficoltà nello stabilire una precisa inferenza causale tra i fenomeni osservati offline e gli hate speech online. Su questo versante, resta ancora molto lavoro da fare. Specie per quanto concerne l’individuazione di relazioni complesse tra i fatti: ad esempio, elevati livelli di incitamento all’odio online sono spesso predittivi di crimini di odio offline, con la possibilità che questi ultimi inneschino un’ampia cascata di nuovo incitamento all’odio sul Web, in un pericoloso effetto circolare difficile da interrompere.
Anche in questo caso, i ricercatori della George Washington University confidano nel supporto di ulteriori tecniche di intelligenza artificiale nell’ambito – ad esempio – dell’identificazione e dell’analisi di altre tipologie di dati online relativi agli hate speech. Insomma, i lavori sono aperti e puntano a risultati sempre più puntuali.