Ispirata alle più recenti scoperte in tema di memoria uditiva del cervello umano, la ricerca sul riconoscimento vocale da parte dei sistemi di intelligenza artificiale guarda a reti neurali profonde capaci di percepire parole pronunciate a qualsiasi velocità, indipendentemente dai dati utilizzati per il suo addestramento.
TAKEAWAY
- Il lavoro congiunto di tre Atenei USA ha portato allo sviluppo di una rete neurale convoluzionale in grado di comprendere dati audio in ingresso a ritmi lenti e rapidi, differenti rispetto ai ritmi appresi durante la fase di allenamento.
- I test di prova eseguiti dal team di ricerca hanno convalidato l’abilità della CNN messa a punto nel decodificare il linguaggio parlato in ingresso con velocità aumentata o ridotta, attingendo alle informazioni audio contenute nella sua memoria interna compressa.
- L’ambito applicativo più vicino a questa acquisita capacità di riconoscimento vocale da parte delle macchine è, in questo momento, quello dell’assistenza alle persone anziane e a quanti sono affetti da difficoltà nel pronunciare le parole a un ritmo normale.
Gli attuali sistemi di intelligenza artificiale hanno problemi di udito, ovvero hanno difficoltà che riguardano le loro abilità di riconoscimento vocale? Parrebbe di sì.
Gli autori dello studio “A deep convolutional neural network that is invariant to time rescaling”, presentato il 19 luglio 2022 alla trentanovesima International Conference on Machine Learning (ICML), a Baltimora, spiegano che molti problemi di percezione del parlato da parte della macchina richiedono l’integrazione dei dati audio in un “tempo continuo”, mentre, invece, negli esseri umani, l’integrazione può svolgersi su scale temporali diverse.
«Ad esempio, si vorrebbe un sistema di riconoscimento vocale in grado di identificare le parole pronunciate più rapidamente del solito – forse perché l’utente ha fretta – oltre che più lentamente, perché l’utente è stanco oppure perché soffre di una patologia neurologica che lede il centro della parola»
osserva il team composto dai ricercatori del Department of Psychology dell’University of Virginia, del Department of Computer Science dell’Indiana University e del Department of Psychological and Brain Sciences della Boston University.
Il cervello biologico si adatta in modo naturale a serie temporali presentate a velocità differenti. «Non così le reti neurali profonde, che devono essere addestrate su un’ampia gamma di scale temporali».
Questo l’assunto di base dal quale ha preso il via la ricerca statunitense, conclusasi con la messa a punto di una rete neurale convoluzionale profonda (CNN o ConvNet, dall’inglese Convolutional Neural Network) che, generalizzando i dati audio in ingresso, è in grado di percepire e di comprendere parole pronunciate a velocità diverse rispetto a quelle per le quali è stata addestrata. Vediamo di che cosa si tratta.
Intelligenza artificiale e riconoscimento vocale: una CNN profonda per simulare la memoria uditiva umana
Sono stati i recenti lavori nell’ambito delle neuroscienze a ispirare il team di studio in tema di intelligenza artificiale e riconoscimento vocale.
Più in particolare, sono state «le scoperte sul modo in cui il cervello dei mammiferi conserva, nel tempo, la memoria uditiva – relativa, cioè, a dati audio del passato – ad avere fornito una nuova strategia per sviluppare reti neurali profonde “invarianti”, costanti, rispetto al ridimensionamento dei loro dati audio in ingresso».
Popolazioni di neuroni denominate “cellule del tempo”, all’interno dell’area del cervello denominata ippocampo, si attivano in sequenza dopo uno stimolo scatenante, formando «una rappresentazione di ciò che è accaduto in passato», evidenziano i ricercatori.
Seguendo il modello delle cellule del tempo, la rete CNN in questione (battezzata “SITHCon”) – costituita da più strati di “rappresentazioni” (memorie) di una mole di dati audio appresi mediante addestramento e raggruppati tra loro a simulare una memoria temporale “compressa” (da decomprimere secondo necessità) – presenta dati in uscita (output) che non variano rispetto alle differenze temporali (riferite a velocità o a lentezza) dei dati in ingresso (input), potendoli percepire e comprendere allo stesso modo, senza, ad esempio, incepparsi in presenza di suoni emessi molto lentamente da parte di una persona con problemi di linguaggio.
Detto con parole più semplici, questa rete neurale consente al sistema di intelligenza artificiale di memorizzare le rappresentazioni (le memorie) di una determinata quantità e tipologia di suoni, che risulteranno utili in seguito per decodificare differenti dati in ingresso.
I test di prova utilizzando una rete convoluzionale temporale come termine di paragone
In tema di intelligenza artificiale e riconoscimento vocale, la rete neurale convoluzionale profonda costruita dal team è stata testata utilizzando come metro di paragone una rete convoluzionale temporale, detta anche Temporal Convolution Network (TCN). Quest’ultima – ricordano gli autori dello studio – «è una tipologia di CNN profonda per applicazioni di riconoscimento vocale, oltre che di modellazione di sequenze e riconoscimento di dati video. Poiché utilizza una memoria temporale standard, lineare, è stata addestrata – in questo caso – solo per riconoscere il parlato a velocità specifiche, senza variazioni».
Le prestazioni di SITHCon e della rete TCN sono state testate per mezzo di tre differenti attività di classificazione di dati (eseguite cinque volte per ciascuna rete), per le quali entrambe le reti sono state addestrate su un’unica scala di dati.
In particolare, l’esperimento è iniziato chiedendo alle reti di classificare i 43 segnali a intermittenza del codice Morse (finalizzati a trasmettere lettere, numeri e segni di punteggiatura), presentati come serie temporali.
In questo caso, il codice Morse – precisano i ricercatori – proprio perché comprende diverse sequenze di punti e di trattini – ossia periodi di attivazione brevi seguiti da periodi lunghi, ciascuno separato da brevi periodi di silenzio – rappresenta un metodo “standardizzato” per codificare il testo in un’unica serie temporale.
«Differenziare i 43 diversi segnali del codice Morse è un problema di classificazione di serie temporali relativamente semplice, perché ogni simbolo del codice è uno schema unico di punti e di trattini».
Nel compito successivo, invece, alle due reti è stato chiesto di apprendere a sommare i numeri di due cifre del codice Morse, presentate all’interno di un flusso continuo di cifre e contrassegnate da bit in una serie temporale parallela.
Compito – questo – che richiedeva sia il riconoscimento delle cifre trasmesse attraverso il codice, sia la memoria di quanto appreso nel primo esperimento. Infine, la terza attività ha richiesto alle due reti di classificare le cifre (da 0 a 9) pronunciate da più soggetti.
Intelligenza artificiale e riconoscimento vocale: gli esiti del confronto tra le prestazioni della CNN e della TCN
In tema di intelligenza artificiale e riconoscimento vocale, quello che è emerso dalle tre attività di test – fanno notare gli autori dello studio – è che «la rete neurale convoluzionale profonda, a differenza della rete convoluzionale temporale, decodifica in modo robusto i dati anche con ridimensionamenti di circa un ordine di grandezza, semplicemente estendendo l’intervallo della memoria temporale compressa».
In sintesi, la rete SITHCon è in grado di percepire il linguaggio parlato in ingresso con velocità aumentata o ridotta, attingendo alle informazioni audio contenute nella sua “memoria” interna compressa, mentre il modello di rete adottato come metro di paragone non è riuscito a decodificare le informazioni in ingresso a velocità che non ha appreso durante la fase di addestramento.
«Come previsto», sottolinea il team, durante l’allenamento, sia la CNN che la TCN hanno dato «prestazioni perfette». Ma, nel momento in cui la scala dei dati utilizzata durante i test si è discostata dalla scala di addestramento, la Temporal Convolution Network ha subito un rapido deterioramento delle prestazioni, arrivando addirittura a «funzionare male su larga scala. Al contrario, la prima ha mantenuto bassi tassi di errore per i cambiamenti di scala tra 0,6 e 2,4».
Gli impatti
L’abilità – da parte di un sistema di intelligenza artificiale – di riuscire a percepire in modo chiaro le parole pronunciate a velocità diverse, molto lentamente oppure molto velocemente, e comunque a intervalli di tempo diversi rispetto a quelli per i quali è stato allenato, non solo contribuirà a migliorare l’esperienza dell’utente finale, ma eleverà la qualità del processo di elaborazione dei dati, avvicinando il “ragionamento” della macchina a quello dell’essere umano.
Certo, la ricerca in tema di intelligenza artificiale e riconoscimento vocale presentata la scorsa settimana all’International Conference on Machine Learning di Baltimora necessita di essere, in futuro, perfezionata attraverso ulteriori e più complessi test di prova e coinvolgendo un numero elevato di partecipanti.
Al momento, l’ambito applicativo più vicino a questa nuova, acquisita capacità di riconoscimento vocale è quello dell’assistenza domiciliare alle persone anziane e a quanti sono affetti da problemi del linguaggio. Applicazione che, a tendere, potrà estendersi anche alla guida autonoma e ai luoghi di lavoro in cui le macchine dotate di AI a bordo stanno divenendo sempre più centrali nel supportare le attività normalmente delegate all’uomo.