Il ricercatore Ruidong Zhang ha costruito gli EchoSpeech, occhiali potenziati dall'intelligenza artificiale che possono tradurre il labiale in testo su smartphone

Potrebbe sembrare che Ruidong Zhang stia parlando da solo, ma in realtà lo studente di dottorato nel campo delle scienze dell’informazione sta ‘parlando’ con i suoi occhiali, per trascrivere un testo sullo smartphone.

Ruidong Zhang, ricercatore e inventore degli EchoSpeech
Ruidong Zhang, ricercatore e inventore degli EchoSpeech

Il ragazzo ha inventato i cosiddetti EchoSpeech che, come indica il nome, possono ascoltare il parlato di chi li indossa o di una persona di fronte, anche se a bassa voce. Il loro utilizzo? Creare una nuova interfaccia tra uomo e tecnologia, anche per eliminare le barriere e favorire l’accessibilità. Sviluppato dallo Smart Computer Interfaces for Future Interactions (SciFi) Lab della Cornell University, l’interfaccia indossabile a basso consumo richiede solo pochi minuti di dati di addestramento dell’utente prima che riconosca i comandi e possa essere eseguita su uno smartphone. Zhang è l’autore principale dello studio EchoSpeech: Continuous Silent Speech Recognition on Minimally-obtrusive Eyewear Powered by Acoustic Sensing, che sarà presentato a fine mese alla Association for Computing Machinery Conference on Human Factors in Computing Systems (CHI) ad Amburgo, in Germania.

«Per le persone che non possono vocalizzare il suono, questa tecnologia vocale silenziosa potrebbe essere un eccellente input per un sintetizzatore vocale. Potrebbe restituire ai pazienti la loro voce», ha detto Zhang.

Nella sua forma attuale, EchoSpeech potrebbe essere utilizzato per comunicare con altri tramite smartphone in luoghi in cui parlare è scomodo o inappropriato, come un ristorante rumoroso o una biblioteca. L’interfaccia vocale silenziosa può anche essere abbinata a uno stilo e utilizzata con software di progettazione come CAD, eliminando del tutto la necessità di tastiera e mouse.

Come funzionano gli EchoSpeech

Dotati di un paio di microfoni e altoparlanti più piccoli delle gomme da matita, gli occhiali EchoSpeech diventano un sistema sonar indossabile basato sull’intelligenza artificiale, che invia e riceve onde sonore attraverso il viso e rileva i movimenti della bocca. Un algoritmo di deep learning, anch’esso sviluppato dai ricercatori di SciFi Lab, analizza quindi questi profili di eco in tempo reale, con una precisione di circa il 95%.

«Stiamo spostando il sonar sul corpo», ha detto Cheng Zhang , assistente professore di scienze dell’informazione presso il Cornell Ann S. Bowers College of Computing and Information Science e direttore dello SciFi Lab. «Siamo molto entusiasti di questo sistema”, ha affermato, “perché spinge davvero avanti il ​​campo in termini di prestazioni e privacy. È piccolo, a basso consumo e atento alla privacy, tutte caratteristiche importanti per l’implementazione di nuove tecnologie indossabili nel mondo reale».

Lo SciFi Lab ha sviluppato diversi dispositivi indossabili che tracciano i movimenti del corpo , delle mani e del viso utilizzando l’apprendimento automatico e videocamere indossabili in miniatura. Di recente, il laboratorio si è allontanato dalle fotocamere e si è rivolto al rilevamento acustico per tracciare i movimenti del viso e del corpo, citando una maggiore durata della batteria; maggiore sicurezza e privacy; e hardware più piccolo e compatto. EchoSpeech si basa sul dispositivo di rilevamento acustico, già sviluppato dal laboratorio, e chiamato EarIO, un auricolare indossabile che tiene traccia dei movimenti facciali.

Ad oggi, la maggior parte della tecnologia nel riconoscimento vocale è limitata a un insieme selezionato di comandi predeterminati e richiede all’utente di affrontare o indossare una fotocamera, il che non è né pratico né fattibile. Ci sono anche grandi problemi di privacy che riguardano le telecamere indossabili, sia per l’utente che per coloro con cui l’utente interagisce.

La tecnologia di rilevamento acustico come EchoSpeech elimina la necessità di device del genere, poiché i dati audio sono molto più piccoli dei dati immagine o video, richiedono meno larghezza di banda per l’elaborazione e possono essere inoltrati a uno smartphone tramite Bluetooth in tempo reale.

«E visto che i dati vengono elaborati localmente su smartphone invece di essere caricati sul cloud, le informazioni sensibili non lasciano mai il tuo controllo».

Anche la durata della batteria migliora in modo esponenziale, dieci ore con rilevamento acustico contro 30 minuti con una fotocamera. Il team sta esplorando la commercializzazione della tecnologia alla base di EchoSpeech, grazie in parte a Ignite: Cornell Research Lab to Market gap funding.

Nel prossimo lavoro, i ricercatori di SciFi Lab esploreranno le applicazioni smart-glass per tracciare i movimenti del viso, degli occhi e della parte superiore del corpo.

«Pensiamo che gli occhiali saranno un’importante piattaforma di personal computing per comprendere le attività umane negli ambienti quotidiani», ha affermato Cheng Zhang.

Gli altri co-autori sono il dottorando in scienze dell’informazione Ke Li, Yihong Hao, Yufan Wang e Zhengnan Lai.

Scritto da:

Antonino Caffo

Giornalista Leggi articoli Guarda il profilo Linkedin