Dalla giapponese Kyoto University, un sistema di intelligenza artificiale che insegna ai robot a rispondere (condividendole) alle risate delle persone in seno alle conversazioni, rendendo, in questo modo, più empatica ed efficace l’interazione con esse, sia in ambito lavorativo che nei luoghi di assistenza e caregiving.
TAKEAWAY
- Il sistema AI sviluppato dall’Ateneo giapponese di Kyoto – e integrato nel robot umanoide Erica – è in grado di rilevare la risata umana emessa dall’interlocutore, di generare la risata condivisa da parte del robot e di selezionarne la tipologia più idonea.
- Obiettivo di questo lavoro non è progettare un robot che impari a ridere, ma un robot che apprenda a rispondere con coerenza alla risata umana, in uno scambio funzionale all’interazione uomo-macchina in tutti quei contesti in cui il primo e la seconda sono chiamati a collaborare.
- La ricerca futura sul tema dovrà innanzitutto verificare se la metodologia proposta è applicabile ad altri linguaggi che non siano il giapponese e con un set di dati più ampio ed eterogeneo in fatto di risate, condivise e non.
Quello della robotica e del dialogo empatico è un filone di studi relativamente nuovo che, di recente, ha incluso anche l’analisi della funzione della risata condivisa nell’interazione uomo-robot.
La letteratura scientifica sul dialogo umano insegna che sentire gli altri ridere innesca, a sua volta, la nostra risata, in una sorta di mimetismo del comportamento che conduce – appunto – alla “risata condivisa”, le cui tipologie, intensità e tempistiche sono state sistematicamente studiate per identificarne i diversi modelli.
Che cosa accade, invece, nei robot, tenuto anche conto della loro sempre più frequente funzione di caregiver – specie in paesi come Stati Uniti e Cina – sia a livello domiciliare che all’interno di ospedali e centri per anziani, a stretto contatto con pazienti in difficoltà, con i quali sono chiamati a interagire?
«Tra gli esseri umani, i sistemi di dialogo parlato devono essere in grado di esprimere empatia per ottenere un’interazione naturale. E la generazione di risate richiede un alto livello di comprensione della conversazione. Pertanto, dato il permanere di problematiche quali il corretto riconoscimento vocale e il tempismo del feedback da parte della macchina, l’implementazione della risata nei robot rappresenta una grossa sfida» osservano i ricercatori della Kyoto University, in Giappone, autori dello studio dal titolo “Can a robot laugh with you?: Shared laughter generation for empathetic spoken dialogue” in cui viene presentato un modello computazionale della risata condivisa nell’ambito delle interazioni uomo-robot.
Vediamo insieme di che cosa si tratta [per approfondimenti, consigliamo la lettura della nostra guida alla robotica, che spiega cos’è, come funziona e quali sono gli esempi applicativi – ndr].
Robotica e dialogo empatico: il campionamento delle risate per l’addestramento del modello AI
La ricerca su robotica e dialogo empatico ha preso il via dalla generazione di campioni di risate condivise con cui poi addestrare il sistema di intelligenza artificiale deputato a rispondere in modo appropriato alle risate umane, «al fine di creare un “senso di empatia nel dialogo uomo-robot».
In particolare, il team si è avvalso di un corpus di dialoghi tra soggetti umani e il robot umanoide giapponese Erica, gestito – per quanto riguarda il parlato e i comportamenti non verbali come cenni del capo, sguardi e gesti – da un operatore presente all’interno di una stanza attigua.
I dialoghi – ciascuno della durata compresa tra 10 e 15 minuti, per un totale di 82 sessioni – sono avvenuti durante una serie di speed dating ai quali hanno preso parte, insieme a Erica, un gruppo di studenti di sesso maschile reclutati all’interno dell’Ateneo nipponico. In uno speed dating – ricorda il team di studio – lo scopo del dialogo è conoscere l’altro, cercando di rendersi amichevoli e divertenti.
Dal corpus di speed-dating, i ricercatori hanno estratto – a partire dalle risate degli studenti – campioni identificati come “risate vocali”, includendo sia le “risate soliste” (cioè gli “ah ah”) che le “risate verbali” (il parlare mentre si ride) – per un totale di 2.453 unità di risate complessive – e 27.443 unità di campioni di risate definiti negativi, in quanto costituiti da “non risate” e da risate verbali che non si sono concluse con una risata.
Inoltre, hanno etichettato come “risate condivise” quel campione in cui il robot umanoide Erica ha riso in risposta alla risata iniziale dell’utente in modo tempestivo, determinando – per questa risata – una soglia di intervallo di tempo di 2 secondi:
«… se Erica ha risposto a un campione di risata con una risata, entro 2 secondi dopo la fine della risata iniziale, tale campione è stato annotato come “risata condivisa”. In totale, abbiamo selezionato 268 campioni di tali risate da parte del robot umanoide».
L’architettura del sistema AI per la generazione di risate condivise
In tema di robotica e dialogo empatico, raccolti i dati per l’addestramento del sistema di machine learning per la generazione di risate condivise, gli autori dello studio hanno definito la sua architettura, composta da tre moduli:
- un modulo atto a rilevare la risata emessa dal soggetto umano col quale la macchina interagisce
- un secondo modulo volto a generare la risata condivisa da parte del robot
- un terzo modulo preposto a selezionare il tipo di risata (allegra o sociale) da emettere
In particolare, il primo modulo esegue una classificazione degli input verbali ricevuti dall’utente, rappresentati da espressioni segmentate da pause caratterizzate da determinate sequenze, il cui output è dato da «un valore binario corrispondente alla probabilità che l’enunciato termini con una risata».
Il rilevamento delle risate viene eseguito da una rete neurale ricorrente (detta anche Recurrent Neural Network – RNN), ossia da una tipologia di rete neurale artificiale i cui neuroni sono connessi tra loro in un ciclo, «in cui i valori di output di uno strato di un livello superiore sono utilizzati come valori di ingresso di uno strato di livello inferiore»,secondo la definizione che ne dà Wikipedia.
Il secondo modulo del sistema è, invece, finalizzato alla previsione delle risate dal soggetto in base alle caratteristiche acustiche e prosodiche della risata rilevata dal modulo precedente. La generazione di risate condivise da parte del robot dipende da tale previsione.
La scelta della tipologia di risata del robot – compito del terzo modulo del sistema – ricade sulle risate classificate come “allegre” e “sociali”, dove le prime «sono suscitate da stati d’animo positivi ed espresse verso il dialogo stesso, mentre le risate sociali tendono a essere utilizzate per aumentare e “riempire” la conversazione, sebbene l’umorismo non sia coinvolto».
Robotica e dialogo empatico: i risultati dei test di prova
In materia di robotica e dialogo empatico, il sistema di intelligenza artificiale per la generazione di risate condivise sviluppato dal gruppo di lavoro è stato messo alla prova mediante quattro dialoghi di pochi minuti tra uno studente e il robot umanoide.
Durante il primo di tali dialoghi, Erica ha emesso soltanto risate condivise di tipo “sociale”; nel secondo e nel terzo dialogo soltanto risate condivise “allegre”, mentre nell’ultimo dialogo sono state generate entrambe le tipologie di risate condivise.
In un secondo test, composto da altri due brevi dialoghi, il robot umanoide si è, dapprima, dimostrato poco empatico, senza generare alcuna risata condivisa, mentre nella seconda prova ha risposto con una ristata sociale alle risate del soggetto umano, senza però mai utilizzare entrambe le risate condivise, dando prova di essere in grado di comprendere il contesto della conversazione e di sapere – in base a questo – selezionare in maniera accurata la tipologia di risposta. Di sapere se e quando rispondere alla risata, insomma.
Il team di ricerca ha anche raccolto, su base volontaria, oltre 120 persone per approfondire ulteriormente i tre diversi scenari (nessuna risata; una tipologia di risata condivisa; entrambe le risate), correlandoli a variabili quali maggiore empatia e maggiore naturalezza da parte dal soggetto umano. In questo caso, il sistema AI ha dato risultati migliori rispetto ai precedenti.
Il fatto stesso che esperimenti diversi abbiano condotto a risultati diversi – fa notare il team – non fa che confermare la capacità del sistema di apprendimento automatico sviluppato di «andare oltre il semplice meccanismo di rilevamento delle risata umana e di risposta ad essa».
Naturalmente, le tipologie di risate da pendere in considerazione in futuro per addestrare meglio il sistema, sono innumerevoli. Così come sarà necessario analizzare anche le risate non condivise, assai numerose all’interno delle normali conversazioni. Benché queste non siano espressione di un dialogo empatico, accompagnano le risate condivise e definiscono con maggiore precisione la natura della conversazione.
Prospettive future
In tema di robotica e dialogo empatico, qui il punto non è il robot che sa ridere, ma il robot che “sa rispondere”coerentemente alla risata di una persona con cui, ad esempio, lavora o che assiste. Il che presuppone che la macchina capisca il senso logico del dialogo in corso, il suo tono e il perché della risata in ingresso.
Certamente, il lavoro qui descritto in modo sintetico presenta alcuni limiti, il cui superamento gli autori affidano a futuri studi. In primis – come accennato – quello dato dalla moltitudine di tipologie di risate in seno alle conversazioni tra esseri umani. «Si prevede che sarà necessario un set di dati più ampio per l’implementazione di funzionalità più avanzate, come i dati linguistici e i video».
Inoltre – precisa il team – dovrà anche essere convalidata l’efficacia della risata condivisa in altri compiti di dialogo e si dovrà provare a integrare il sistema AI all’interno di altri robot umanoidi (in questi studio, è stato protagonista solo il robot giapponese Erica).
Un altro aspetto critico riguarda, poi, la lingua: questa ricerca è stata condotta in lingua giapponese – ricordano i suoi autori – e con un numero limitato di campioni. Tuttavia, la metodologia avanzata può essere applicata anche ad altre lingue:
«La risata è un comportamento non linguistico, ma dipende dal contesto del dialogo, compresa la cultura. Pertanto, è compito futuro verificare la generalizzabilità del metodo proposto in altri linguaggi e con dati su larga scala».