A ventisette anni dall’avvento dell’Affective Computing, nel tempo confluita nell’emotion AI, oggi l’intelligenza artificiale emotiva esplora il tema della Complex Expression Generation e prepara il futuro delle macchine che si emozionano.

Non esiste, ad oggi, una definizione univoca che spieghi che cosa sono le “emozioni”. Lo psicologo statunitense Robert Plutchik (1927 – 2006) sosteneva che, nel corso del ‘900, fossero oltre novanta le definizioni coniate, responsabili di aver reso lo studio delle emozioni «uno dei capitoli più confusi (e ancora aperti) della storia della psicologia, con molto disaccordo tra i teorici nel concettualizzale» [fonte: American Scientist].

Attingendo al dizionario dell’American Psychological Association, diremmo che le emozioni sono caratterizzate da componenti diverse, di natura fisiologica, comportamentale ed esperienziale. In generale, rimandano a uno «schema di reazione che coinvolge tali elementi, mediante il quale un individuo tenta di affrontare una questione o un evento personalmente significativo».

Paul Ekman, psicologo USA, autore della teoria neuroculturale delle emozioni, ha distinto sei “emozioni base universali“ – tristezzafelicitàpaurarabbiadisgusto e sorpresa – uguali per tutte le etnie e le culture del mondo.

L’ambito di studi dell’intelligenza artificiale da tempo si occupa delle emozioni umane, abilitando sistemi e macchine in grado di riconoscerle, classificarle e di adattarvi il proprio comportamento, attraverso l’analisi di un grande quantitativo di dati, relativi – ad esempio – alle espressioni del volto, ai toni delle voce, alla gestualità e persino all’andatura, al ritmo cardiaco e alla pressione arteriosa.

È l’emotion AI – o intelligenza artificiale emotiva – il segmento dell’artificial intelligence deputato a tale filone di ricerca, la cui pioniera è stata l’americana Rosalind Wright Picard, ricercatrice e docente di Media Arts and Sciences al Massachusetts Institute of Technology (MIT), dove ha fondato e diretto l’Affective Computing Research Group.

Nel suo libro “Affective Computing”, edito per la prima volta nel 1997, si parla di “informatica affettiva”, materia fino ad allora sconosciuta, incrocio di saperi afferenti all’informatica, alla psicologia e alle scienze cognitive, confluita, anni dopo, nell’emotion AI. «Se vogliamo che i computer siano veramente intelligenti e interagiscano in modo naturale con noi, dobbiamo dare loro la capacità di riconoscere, comprendere e persino provare e esprimere emozioni» scriveva ben ventisette anni fa.


«Se vogliamo che i computer interagiscano in modo naturale con noi, dobbiamo dare loro la capacità di riconoscere, comprendere e persino provare e esprimere emozioni»: così scriveva, nel suo primo libro sull’informatica affettiva, la ricercatrice USA Rosalind Wright Picard, colei che ha spianato la strada agli studi dell’AI in tema di emozioni umane.
Dal semplice rilevamento dei movimenti facciali dei primi sistemi di Affective Computing alle attuali tecniche di emotion AI che abilitano sistemi di riconoscimento multimodale delle emozioni, oggi, per una macchina dotata di percezione visiva e uditiva, è possibile ricostruire lo stato emotivo di un essere umano mettendo insieme molteplici fonti di dati.
In futuro, robot sempre più abili nel riconoscere le emozioni delle persone e nel rispondervi in maniera puntuale, avrebbero un ruolo ancora più decisivo in ambito medicale, a contatto con pazienti affetti da disabilità e deficit, per i quali ogni feedback sotto forma di sorriso o di gesto che esprime emozione positiva si tradurrebbe in un vero e proprio “strumento di cura”.

Riconoscimento delle emozioni sulla base di più fonti di dati

Dal 1997, lo sviluppo dell’Affective Computing è stato progressivo, passando dal semplice rilevamento dei movimenti facciali ai complessi sistemi di riconoscimento multimodale delle emozioni, grazie ai quali, per una macchina che possieda percezione visiva e uditiva, è possibile arrivare a definire in modo completo lo stato emotivo di un essere umano integrando differenti fonti di dati, dal linguaggio parlato ai dati testuali per l’analisi del sentiment, dalle micro e macro espressioni del volto alle variazioni del tono della voce, alla postura e ai gesti.

Allo stato attuale, per l’emotion AI la sfida maggiore è proprio quella di riuscire a identificare in modo puntuale e accurato le emozioni umane a partire da una mole di dati complessi e diversificati.

Fino a un decennio fa, allo scopo, venivano impiegati una varietà di modelli di intelligenza artificiale, «con risultati soddisfacenti nei test di laboratorio ed esiti ancora da dimostrare nelle applicazioni sul campo», dove «la percezione e l’analisi degli stati emotivi umani hanno il potenziale per ottimizzare e perfezionare l’interazione uomo-macchina» [fonte: “Artificial Intelligence in Emotion Quantification: A Prospective Overview” – CAAI Artificial Intelligence Research, agosto 2024].

Le espressioni del volto

Il rilevamento, mediante telecamera, delle espressioni facciali, dalle più impercettibili (micro) alle più evidenti, rappresenta la “base” dalla quale prende il via il processo di riconoscimento dello stato emotivo della persona (Facial Expression Recognition). È il viso, dunque, il punto di partenza.

Nel dettaglio, i sistemi di intelligenza artificiale emotiva si avvalgono di tecniche per mezzo delle quali le immagini dei volti, dopo essere state acquisite tramite un sistema video, vengono analizzate, riconosciute e classificate.

Le tecniche più recenti vanno «dall’acquisizione di espressioni del volto statiche al monitoraggio continuo dei cambiamenti di espressione dinamica». In particolare, sono le tecniche di deep learning – più nello specifico, le reti neurali convoluzionali – a trovare maggiore impiego «nell’interpretazione accurata di stati emotivi complessi», riuscendo a distinguere, sui visi umani, le emozioni “neutre” da quelle che, invece, esprimono paura, piacere e dolore, arrivando a cogliere le sottili differenze tra le emozioni rilevate sui volti maschili e quelle colte sui volti femminili [fonte: “Visual Analysis of Emotions Using AI Image-Processing Software: Possible Male/Female Differences between the Emotion Pairs “Neutral”–“Fear” and “Pleasure”–“Pain” – Association for Computing Machinery, giugno 2021].

Il riconoscimento delle microespressioni emozionali del viso (Facial Micro-expression Recognition) si focalizza, invece, su una tipologia di espressioni facciali definite di “breve durata” e “minimali”, presenti, in genere, sul volto di coloro che «cercano di nascondere le loro vere emozioni». La ricerca attuale è concentrata sullo studio di strumenti e metodologie atti a captare questi movimenti facciali brevi e sottili, utilizzando – ad esempio – telecamere ad alta velocità combinate con tecniche di elaborazione delle immagini basate sul deep learning [fonte: “Facial micro-expression recognition based on the fusion of deep learning and enhanced optical flow” – Multimedia Tools and Applications, 2021].

Un altro campo di indagine dell’emotion AI in tema di riconoscimento delle emozioni è quello della Complex Expression Generation, dedito allo sviluppo di robot in grado, essi stessi, di assumere espressioni facciali. Le sue tecniche stanno evolvendo rapidamente, attraverso approcci che coniugano deep learning e Large Language Models (LLM). A tale riguardo, ricordiamo la testa robotica di nome Eva, che legge il volto di chi ha di fronte e ne rispecchia le emozioni, messa a punto nel 2021 dal Creative Machines Lab presso la Columbia University di New York.

A proposito di LLM, sono i framework come le Generative Adversarial Networks (GAN) e l’architettura di rete neurale Variational Autocoders (VAE) a rappresentare, in questo momento, l’apice della ricerca in fatto di riconoscimento e capacità di generare microespressioni dinamiche [fonte: “Shikra: Unleashing Multimodal LLM’s Referential Dialogue Magic” – arXiv, 2023].

Tabella riassuntiva degli attuali ambiti di ricerca nel campo del riconoscimento delle emozioni (credit: “Artificial Intelligence in Emotion Quantification: A Prospective Overview” - CAAI Artificial Intelligence Research - https://www.sciopen.com/article/10.26599/AIR.2024.9150040).
Gli attuali ambiti di ricerca nel campo del riconoscimento delle emozioni (credit: “Artificial Intelligence in Emotion Quantification: A Prospective Overview” – CAAI Artificial Intelligence Research – https://www.sciopen.com/article/10.26599/AIR.2024.9150040).

Riconoscimento delle emozioni attraverso la voce

Dopo il volto, è la voce la seconda “via” delle emozioni. Le tecniche di emotion AI per analizzare le caratteristiche acustiche del parlato (Speech Emotion Recognition) costituiscono un altro importante strumento per giungere a riconoscere gli stati emotivi.

In particolare, le ricerche più recenti fanno ampio uso delle tecniche di deep learning associate al Natural Language Processing (NLP) per l’esame delle emozioni espresse per mezzo della voce.

Uno studio del 2023 introduce un approccio innovativo alle interazioni vocali uomo-macchina, ricorrendo a una tecnica di Audio Emotion Recognition basata sulla «combinazione tra elaborazione avanzata del linguaggio naturale e analisi del sentiment vocale con “logica fuzzy”». Quest’ultima – spiegano gli autori, provenienti dall’Engineering College di Thiruvallur, in India – viene utilizzata, in particolare, per estrarre dal parlato i livelli di sentiment meno nitidi, “sfumati”, in base ai diversi toni della voce [fonte: “A Fuzzy Logic and NLP Approach to Emotion Driven Response Generation for Voice Interaction” – IEEE (Institute of Electrical and Electronics Engineers), 2023].

Sempre nel 2023, in “Speech Emotion Recognition Based on Multiple Acoustic Features and Deep Convolutional Neural Network” (Electronis, 2023), viene presentato un nuovo metodo, che vede l’applicazione di reti neurali convoluzionali profonde all’analisi di più tipologie di caratteristiche acustiche insieme, «raggiungendo una precisione superiore al 93% nel riconoscimento delle emozioni vocali» fa notare il team di lavoro.

Punto critico dei sistemi di Speech Emotion Recognition resta, tuttora, la rilevazione, insieme alle emozioni espresse tramite la voce, del contesto semantico dell’audio. Contesto dato «dalla complessità delle diverse lingue, dall’accento, dal genere, dall’età e dall’intensità del discorso. Per cui lo sviluppo di sistemi di Speech Emotion Recognition affidabili rimane una sfida aperta» fanno osservare gli autori di “Speech Emotion Recognition Using Deep Learning” (Artificial Intelligence XL, 2023), in cui propongono un nuovo approccio al problema, sviluppando un sistema di deep learning addestrato su quattro set di dati: RAVDESS (Ryerson Audio-Visual Database of Emotional Speech and Song), TESS (Toronto Emotional Speech), CREMA-D (CRowd sourced Emotional Multimodal Actors-Dataset) e SAVEE (Surrey Audio-Visual Expressed Emotion). Si tratta di ampie raccolte di file audio vocali (oltre 1.400 ciascuna) realizzate con la partecipazione di attori e attrici professionisti di diverse etnie che, con accenti diversi, esprimono le sei emozioni base (più la “neutralità”) in lingua inglese.

Finora, questo rimane un lavoro unico nel suo genere, meritevole di aver portato alla messa a punto di una rete neurale convoluzionale a 4 strati che, testata sui dati di addestramento, è stata in grado – al momento – di raggiungere una precisione del 76%.

Le emozioni gestuali: focus sui movimenti del corpo

Per quanto concerne le tecniche di riconoscimento delle emozioni espresse attraverso i gesti – più precisamente, tramite i movimenti della parte alta del corpo – i progressi degli ultimi anni hanno investito, in particolare, le metodiche di rilevamento dei “movimenti dello scheletro” (Skeleton-based Emotion Recognition), complice anche l’evoluzione delle telecamere in grado di restituire una visione in profondità, con un campo visivo sempre più ampio.

Esempio di sistema di riconoscimento dei movimenti dello scheletro che sfrutta questa tipologia di telecamere è SAGN, creato nel 2021 dal lavoro congiunto di due Atenei cinesi (l’University of Posts and Telecommunications di Pechino e l’East China Normal University di Shanghai). Più nel dettaglio, il sistema si avvale di dispositivi video con, a bordo, algoritmi di deep learning che lavorano su Graph Convolutional Networks (varianti delle reti neurali convoluzionali che operano su dati strutturati in grafi), capaci di analizzare in profondità i movimenti dell’intero corpo umano, anche all’interno di dati visivi dinamici, per poi interpretarne il linguaggio emozionale  basandosi sul contesto semantico del video, pregno di significati che rimandano al luogo, al genere, all’età e alle espressioni facciali del soggetto [fonte: “SAGN: Semantic Adaptive Graph Network for Skeleton-Based Human Action Recognition” – Digital Library, 2021].

Negli anni più recenti, le tecniche video di riconoscimento delle emozioni gestuali si sono orientate verso un approccio multimodale fatto di due fasi: nella prima, si ha un tracciamento/riconoscimento del volto; nella seconda, il tracciamento della persona basato sullo scheletro. Successivamente, il sistema di intelligenza artificiale contestualizza i due gruppi di dati video nel medesimo «spazio semantico» [fonte: “Two stage Multi-Modal Modeling for Video Interaction Analysis in Deep Video Understanding Challenge” – Digital Library, 2022].

Le direzioni future della ricerca in questo specifico segmento dell’emotion AI prevedono studi su come utilizzare in maniera ancora più proficua la complessa mole di dati sui movimenti del corpo, al fine di elevare il rigore e il livello di precisione dell’intero processo di riconoscimento delle emozioni [fonte: “An ongoing review of speech emotion recognition” – Neurocomputing, 2023].

Le applicazioni dell’emotion AI

Dopo il successo del suo libro, la già citata Rosalind Wright Picard, nel 2009, a Boston, avvia, insieme ad altri ricercatori, la prima attività nel campo dell’Affective Computing, dedita alla ricerca pubblicitaria e alla guida sicura.

«Le tecniche di informatica affettiva catturano le reazioni viscerali e subconsce dei consumatori, che abbiamo scoperto essere fortemente correlate al loro comportamento reale, che va dalla semplice condivisione di un annuncio pubblicitario all’acquisto effettivo del prodotto» spiega uno dei fondatori della società. Inoltre, se applicate all’interno dell’abitacolo di un’auto, sono in grado di riconoscere le emozioni negative del conducente – monitorando le espressioni del suo volto il tono della voce e la pressione sanguigna – ad esempio in seguito a un litigio con un passeggero a bordo oppure telefonico, arrivando persino a intervenire regolando la velocità del veicolo [fonte: “Emotion AI, explained“ – The Sloan School of Management (MIT), 2019].

Queste sono state le prime applicazioni dei sistemi di intelligenza artificiale emotiva che, in uno scenario futuro, potrebbero evolvere in sistemi di monitoraggio della salute mentale, capaci di analizzare, anche solo per telefono, la voce degli utenti e rilevare, da questa, emozioni che rimandano a stati d’ansia e depressione.

L’emotion AI del futuro guarda, preminentemente, ad applicazioni in ambito psicologico e psichiatrico, a supporto degli specialisti dei due settori, nell’ottica di un «approccio interdisciplinare ai disturbi della sfera psico-emotiva che combina neuroscienze, deep learning e analisi dei big data per ottimizzare strumenti diagnostici e strategie di trattamento» [fonte: “Artificial Intelligence in Emotion Quantification: A Prospective Overview” – CAAI Artificial Intelligence Research, agosto 2024].

Da qui ai prossimi dieci anni, il progredire degli studi in materia potrebbe trasformare i sistemi di intelligenza artificiale emotiva da strumenti di riconoscimento delle emozioni a vere e proprie piattaforme avanzate, in grado di comprendere profondamente gli stavi emotivi umani e di interagire con essi.

Glimpses of Futures

In tema di riconoscimento delle emozioni, la ricerca sulle tecniche di emotion AI ha prodotto, specie negli ultimi tre anni, una grande varietà di studi. E altrettanti ne sono in corso. Che cosa dobbiamo aspettarci nei prossimi anni? Quali possibili scenari futuri possiamo ipotizzare?

Proviamo ad anticiparli, avvalendoci della matrice STEPS, valutando gli impatti che l’evoluzione delle tecnologie descritte potrebbe avere sotto il profilo sociale, tecnologico, economico, politico e della sostenibilità.

S – SOCIAL: una macchina che ci legge in viso, attenta non solo a “quello che diciamo, ma anche a “come” lo diciamo, riuscendo altresì a percepire i nostri movimenti e a cogliere in tutto questo il nostro sentire profondo e a classificarlo, in futuro contribuirebbe a rendere assai più rapido (e accessibile da ogni luogo) il processo di diagnosi di quei malesseri che hanno a che fare con la dimensione interiore dell’essere umano. Inoltre, robot sempre più performanti nel riconoscere le emozioni delle persone a partire da molteplici informazioni e a rispondere a queste in modo pertinente, negli anni a venire assumerebbero un valore ancora maggiore in ambito riabilitativo, a contatto con pazienti non sempre in grado di esprimere a parole ciò che provano a causa di deficit neurologici di varia entità, per i quali il feedback sotto forma di sorriso o di gesto che esprime emozione positiva si tradurrebbe in un vero e proprio strumento di cura.

T – TECHNOLOGICAL: in futuro, l’area di studi dell’emotion AI dalla quale ci si attende maggiori sviluppi sotto il profilo tecnologico è quella della Complex Expression Generation, focalizzata sulla creazione di robot in grado di esprimere, attraverso il volto, le sei emozioni base dell’essere umano, in risposta a emozioni palesate dalle persone. Sarà un lungo percorso, in cui diverrà centrale la costruzione di reti neurali artificiali dalle strutture sempre più profonde. In particolare, sarà nodale l’apporto dei Variational Autocoders, ossia architetture di reti neurali specificatamente progettate col fine di codificare i dati in ingresso (in questo caso specifico, le emozioni di una persona, riconosciute da movimenti del viso, gesti, movimenti del corpo, toni di voce), riducendoli a una somma di tratti ed elementi essenziali, per poi decodificare l’input originale a partire dalla rappresentazione compressa che si è fatta. Questo comprimere e decomprimere mole di dati avrà un impatto sulle future macchine capaci di “emozionarsi”.

E – ECONOMIC: immaginare un futuro in cui la relazione uomo-macchina si giocherebbe anche sul piano delle emozioni – non solo decifrate e riconosciute da entrambi, ma anche espresse – impone una riflessione sull’esatta definizione di ruoli e funzioni in quegli ambienti lavorativi in cui, accanto a figure professionali in carne e ossa, si affiancherebbero robot, a supporto, ad esempio, di trattamenti terapeutici, riabilitativi e di sostegno a persone fragili dal punto di vista psico-fisico. Il mondo del lavoro – se le tecniche AI illustrate evolveranno ulteriormente – dovrà fare i conti con la presenza di macchine in contesti diversi rispetto a quelli in cui siamo soliti incontrare robot collaborativi e interattivi, come, ad esempio, i magazzini, i siti industriali, l’ambito della ristorazione, dove essi sono meri operai e camerieri e non coach.

P – POLITICALle tecniche AI per il riconoscimento delle emozioni umane pongono più di un dubbio di carattere etico. Fin dove può spingersi l’intelligenza artificiale emotiva che “spia” quello che proviamo? E pur richiedendo il nostro esplicito consenso per le sue applicazioni, chi ci assicura che i dati raccolti (che, riguardando specificatamente gli stati emotivi, sono in relazione con la sfera psico-affettiva e, dunque, sono dati particolarmente sensibili) non vengano poi utilizzati per altri fini? Nell’Unione Europea, l’EU AI Act (Legge sull’intelligenza artificiale) è molto chiaro su questo punto: fa rientrare i sistemi che rilevano le emozioni sulla base di dati biometrici tra i “sistemi a rischi limitato”, per i quali impone obblighi di trasparenza, al fine di risultare affidabili nel loro impiego e fare in modo che gli utenti siano sempre correttamente informati al riguardo. È però vietato l’uso di sistemi AI per intercettare le emozioni delle persone nei luoghi di lavoro e nei contesti educativi, eccetto per motivi medici o di pubblica sicurezza.

S – SUSTAINABILITY: in un futuro in cui le tecnologie descritte verranno implementate, esse dovranno essere “adatte a tutti” (senza distinzioni di genere, di età e, soprattutto di etnia), non solo al sottoinsieme della popolazione utilizzata per l’addestramento degli algoritmi sviluppati. L’impatto dell’evoluzione dell’emotion AI sotto il profilo della sostenibilità sociale e dell’inclusione potrebbe essere negativo se sviluppatori, aziende produttrici ed eticisti non affronteranno la questione dell’adattamento interculturale dei suoi sistemi, perché«riconoscere le emozioni in un volto afroamericano a volte può essere difficile per una macchina addestrata su volti caucasici. E alcuni gesti o inflessioni della voce in una cultura possono significare qualcosa di molto diverso in un’altra» e lo sviluppo futuro dei modelli di intelligenza artificiale emotiva dovrebbe tenerne conto per garantire applicazioni globali. [fonte: “Emotion AI, explained“ – The Sloan School of Management (MIT), 2019].

Scritto da: