Tra le nuove riflessioni in tema di etica dell’intelligenza artificiale, quelle sui pregiudizi insiti nei modelli di elaborazione naturale del linguaggio sono sempre più al centro del dibattito, come dimostrano alcuni contenuti della recente International Conference on Computational Linguistics.

TAKEAWAY

  • Il Penn State College of Information Sciences and Technology, nell’ambito di uno studio sull’elaborazione del linguaggio naturale, ha indagato un genere di pregiudizio algoritmico finora poco esplorato, ossia quello (non intenzionale) nei confronti delle persone che presentano disabilità fisiche o cognitive.
  • Tra le criticità rilevate analizzando una serie di modelli di Natural Language Processing pubblici, quella in base alla quale i termini riferiti a condizioni di disabilità vengono associati dalla macchina ad aggettivi che esprimono negatività.
  • Anche questo studio è l’occasione per sottolineare l’importanza di dati di addestramento il più possibile corretti dal punto di vista etico, scevri da esempi contenenti pregiudizi e visioni stereotipate in relazione a genere, etnia (tra i bias maggiormente diffusi) e, come in questo specifico caso, a condizioni di fragilità fisica, cognitiva o psicologica.

Sul tema dell’equità delle tecniche che fanno capo all’intelligenza artificiale, del pregiudizio insito nei dati con i quali addestriamo i sistemi AI e, più in particolare, dei bias nel Natural Language Processing (NLP) si è focalizzata – a giugno del 2022, a Seul – la Conferenza internazionale ACM FAccT (Fairness Accountability and Transparency) sull’etica delle tecnologie digitali, promossa dall’Association for Computing Machinery (ACM).

In quell’occasione, Meeyoung Cha, esperta di data science, docente presso il Korea Advanced Institute of Science and Technology (KAIST), mise in guardia dai modelli NLP sempre più complessi, sia per quanto riguarda l’elaborazione del linguaggio scritto che l’elaborazione del linguaggio parlato, allenati sulla base di dataset sempre più grandi.

In sostanza, se finora questi modelli – da un lato – si sono dimostrati estremamente potenti nel consentire alle macchine l’apprendimento di sempre nuove abilità linguistiche in tempi brevi – ha osservato la docente – dall’altro devono poter rispettare i principi di un’intelligenza artificiale responsabile, affidabile ed equa, in quanto «anche le tecnologie di elaborazione del linguaggio naturale basate su questi grandi modelli linguistici devono potersi allineare a tali valori, poiché hanno un impatto diretto sulle nostre vite».

Oggi, le applicazioni di sistemi NLP, nel mondo, sono molteplici. Si va dalle risposte standard alle domande degli utenti al riassunto di articoli di giornali, dalle traduzioni automatiche alla classificazione di testi in categorie distinte, fino alle chat con i clienti.

Da qui, il proposito dell’esperta di scienza dei dati di sviluppare sistemi di Natural Language Processing in grado di aderire ai valori umani di inclusione, uguaglianza e pari diritti, auspicando «che molti compiti dei sistemi di elaborazione del linguaggio naturale – dalla classificazione dei testi scritti e parlati alla loro generazione – producano risultati secondo principi definiti dall’essere umano, con prestazioni di più alto livello in termini di equità e privi di pregiudizi di razza e di genere». Tutto questo accadeva a giugno 2022.

Il 13 ottobre 2022, alla 29th International Conference on Computational Linguistics tenutasi in Korea del Sud, è stato presentato uno studio a cura del Penn State College of Information Sciences and Technology, in seno alla Pennsylvania State University, sulla tendenza, da parte dei sistemi di Natural Language Processing, a contenere pregiudizi (non intenzionali) nei confronti delle persone affette da disabilità.

Bias nel Natural Language Processing: la generazione di aggettivi negativi riferiti alle persone disabili

Il team di studio in materia di bias nel Natural Language Processing ha analizzato, in particolare, tredici modelli NLP pubblici, ampiamente utilizzati dai disabili – che, lo ricordiamo, si affidano all’intelligenza artificiale per l’assistenza nelle loro attività quotidiane – rilevando in tutti una serie di criticità sotto il profilo dell’equità algoritmica.

Tra i diversi presi in esame, anche un modello di elaborazione del linguaggio basato su un algoritmo di machine learning addestrato per raggruppare termini simili, consentendo alla macchina di generare automaticamente una sequenza di parole.

Durante l’esperimento, i ricercatori hanno dapprima creato semplici modelli di frasi, in cui venivano associati, in modo variabile, sostantivi di genere maschile, sostantivi di genere femminile (al singolare o al plurale) e gli aggettivi più comunemente usati nella lingua inglese. Eccone un esempio:

“Sono genitori di una brava ragazza”

Successivamente, il team ha generato, attraverso il sistema, più di 600 aggettivi – tra cui anche quelli correlati a persone con disabilità come, ad esempio, “neurotipico” (utilizzato nella comunità autistica) oppure “ipovedente” – che lo stesso sistema poteva utilizzare per sostituire l’aggettivo presente all’interno di ciascuna frase modello (per intenderci, l’aggettivo “brava” della frase citata in precedenza come esempio).

«Durante uno dei test, selezionando l’aggettivo “buono” per osservare come questo venisse associato ai diversi termini femminili e/o maschili riferiti sia alla condizione di non-disabilità che a quella di disabilità, abbiamo rilevato che aggiungendovi un termine di non-disabilità, per la macchina “buono” diventa “ottimo”. Ma quando “buono” viene associato a un termine riferito alla disabilità, otteniamo il risultato di “cattivo”»

fanno notare gli autori dello studio.

I pregiudizi impliciti e l’analisi del sentiment

Sebbene questo esercizio in tema di bias nel Natural Language Processing abbia rivelato un pregiudizio esplicito del modello stesso di elaborazione del linguaggio, il gruppo di studio ha inteso procedere oltre, concentrandosi – per ciascuno dei tredici modelli analizzati – sul “pregiudizio implicito”, frutto di determinati “atteggiamenti” nei confronti di una categoria di persone oppure derivato dall’associazione di stereotipi che la riguardano, senza averne alcuna consapevolezza.

Ecco che, analizzando ulteriormente gli aggettivi associati sia alla condizione di non-disabilità, sia a quella di disabilità, mediante una tecnica di Programmazione Neuro-Linguistica (PNL) è stata eseguita una valutazione del “sentiment” insito nell’aggettivo stesso inserito nella frase (ad esempio “un ragazzo ipovedente non è bravo”), dando un punteggio circa la positività, la negatività o la neutralità del testo finale prodotto.

Ricordiamo che per “punteggio del sentiment” si intende una misurazione dell’elemento emotivo, finalizzata a fornire la percezione dell’emozione espressa all’interno di un testo.

Ebbene – spiegano i ricercatori della Pennsylvania State University – «tutti i modelli NLP presi in esame hanno ottenuto, per quanto riguarda gli aggettivi associati alla disabilità, punteggi di sentiment più negativi rispetto a quelli ottenuti per gli aggettivi correlati alla non-disabilità», a indicare che la percezione dell’emozione espressa da un testo in cui compare un termine che ha a che vedere con una disabilità fisica o cognitiva (ad esempio, paraplegico, cecità, autistico, sindrome di down) viene – in questo specifico caso – classificata dalla tecnica PNL come negativa.

È accaduto anche – raccontano gli autori – che un modello di Natural Language Processing addestrato per mezzo dei dati raccolti dalle conversazioni su Twitter, abbia ribaltato il punteggio del sentiment da positivo a negativo nell’86% dei casi in cui è stato impiegato un termine correlato a una disabilità fisica o cognitiva.

«Nel corso della nostra ricerca, abbiamo verificato che basta solo aggiungere un termine relativo alla disabilità nella conversazione, che il punteggio del sentiment dell’intera frase diminuisce. Ad esempio, se un utente include la parola “autismo” in un commento o in post sui social media, aumenta la probabilità che quel post venga censurato o limitato. Al pari di un post contenente turpiloquio o frasi che incitano alla violenza».

Bias nel Natural Language Processing: la distorsione all’interno dei modelli

In tema di bias nel Natural Language Processing, il team ha anche testato la distorsione implicita all’interno di due grandi modelli linguistici utilizzati per generare automaticamente testi scritti di articoli e notizie.

L’esperimento ha visto la generazione di 7.500 frasi, in cui sono stati inseriti in modo variabile aggettivi relativi alla non-disabilità e alla disabilità. L’obiettivo era osservare come uno spazio vuoto, un intervallo, nella frase generata dalla macchina, sia in grado di cambiarne il senso a seconda dell’aggettivo che viene poi inserito.

Ad esempio, quando è stata data la frase troncata “un uomo ha …“, in cui i puntini di sospensione rappresentano lo spazio lasciato vuoto, i modelli linguistici in esame prevedevano la parola “cambiato” per riempirlo.

Quello che è stato rilevato è che, nel momento in cui la frase tronca conteneva un aggettivo relativo alla disabilità – “Un uomo sordocieco ha …” – il sistema di intelligenza artificiale prevedeva l’inserimento dell’aggettivo “morto” per lo spazio lasciato vuoto.

Il bias nei confronti delle persone con disabilità implicito nei modelli NLP – spiegano gli autori dello studio – «potrebbe essere presente in una miriade di applicazioni, ad esempio nei messaggi di testo quando si applica la correzione automatica a una parola errata oppure sui social media, dove esistono regole che vietano i post offensivi o molesti».

In quest’ultimo caso, in seguito della mancanza di sistemi capaci di analizzare automaticamente, parola per parola, il senso logico della vasta mole di post pubblicati sui social media ogni ora, i modelli di intelligenza artificiale normalmente impiegati si basano sui punteggi di sentiment per filtrare quei post ritenuti in violazione degli standard della community.

Ecco allora che se, su facebook o su twitter, qualcuno discute in maniera del tutto rispettosa e civile di disabilità, il punteggio del sentiment, con ogni probabilità, classificherà il post come tossico solo perché cita una disabilità.

La questione relativa ai dati di addestramento degli algoritmi

Anche in tema di bias nel Natural Language Processing, il problema è sempre quello dei dati con i quali vengono addestrati gli algoritmi. Questi ultimi non fanno altro che automatizzare eventuali pregiudizi nascosti nei dati stessi. Il che ci riporta al monito per cui è di fondamentale importanza inserire nella macchina esempi corretti dal punto di vista etico.

Dando – non intenzionalmente – a un modello NLP la correlazione tra disabilità fisica o cognitiva ed esempi legati a difficoltà, a mancanze e a limiti, la macchina apprenderà ad associare alla condizione di disabile sempre e comunque un aggettivo negativo.

È chi sviluppa e addestra gli algoritmi di intelligenza artificiale a dover mettere il modello di elaborazione naturale del linguaggio nelle condizioni di lavorare senza generare frasi e testi intrisi di pregiudizi nei confronti di un target più fragile di persone.

E a questo si aggiungono metodologie di raccolta dei dati non sempre equilibrate, non solo sotto il profilo dell’etnia, dello stato socioeconomico o di altre caratteristiche, ma anche dal punto di vista dello stato di salute dei possibili utenti che si avvarranno nel Natural Language Processing, col risultato di dati in uscita che riflettono una serie di bias di fondo.

Scritto da:

Paola Cozzi

Caporedattrice Leggi articoli Guarda il profilo Linkedin