Creare in 3D gli ambienti osservati dallo sguardo in una foto: un’operazione ancora imperfetta ma possibile

Non siamo ancora ai livelli di Minority Report o di Vanilla Sky ma il dado è tratto. Alcuni ricercatori sono infatti riusciti a raggiungere la ricostruzione 3D degli ambienti di una stanza partendo dal riflesso di mura e oggetti negli occhi di una persona ritratta in foto. Fantascienza? L’incipit è quello ma la realtà è molto più vicina di quanto si pensi. Tutto grazie alla tecnologia applicata al campo di radianza neurale (NeRF), che sta iniziando a mostrare alcune incredibili capacità nella ricostruzione 3D di immagini e video 2D.

Il lavoro si deve ai ricercatori dell’Università del Maryland, che hanno dimostrato la possibilità di acquisire varie immagini ad alta definizione di una persona che si muove in una stanza, per ingrandire i riflessi nelle cornee, capovolgerle, rimuovere il colore e i dettagli che le iridi potrebbero aver aggiunto e, infine, trattare le informazioni grezze per la ricostruzione 3D degli ambienti circostanti.

Come anticipato, non si tratta di modelli 3D ad altissima risoluzione (anche perché si tratta, a tutti gli effetti, di una ricostruzione 3D): possiamo distinguere un oggetto dall’altro ma non in modo dettagliato e, soprattutto, non senza ricorrere ad un po’ di fotoritocco. Il punto è: c’è bisogno di una simile tecnologia? Forse non oggi ma per una scena del crimine nel 2030 magari si, chi può dirlo.

I ricercatori hanno creato uno scenario del mondo reale per testare un po’ di soluzioni atte a raggiungere il loro scopo. Il primo punto: ingrandire i riflessi degli occhi dai videoclip di Miley Cyrus e Lady Gaga, sperando di sfruttare la visione ravvicinata di qualità e le condizioni di illuminazione favorevoli. Sfortunatamente, però, la risoluzione non era abbastanza alta, e il massimo risultato a cui sono giunti è che Miley Cyrus guardava una serie di luci… Niente di straordinario o poco attendibile. Poi la svolta: trattare quelle immagini in tre dimensioni e non solo due.

Ricostruzione 3D dell’immagine, come un rendering fatto partendo dalla visione 2D

All’interno dell’immagine sono presenti tutti i tipi di artefatti dell’occhio, la complessità delle trame dell’iride e i riflessi identificabili, a bassa risoluzione, catturati in ogni istante. Per rimuovere l’iride dalle immagini, i ricercatori hanno eseguito una decomposizione della trama, grazie all’addestramento di un software di Intelligenza Artificiale che apprende in che modo è composta la trama di un’iride, unica e irripetibile, per eliminarla.

Sfruttando la geometria della cornea, che è approssimativamente la stessa in tutti gli adulti, sono stati effettuati calcoli per tracciare esattamente dove guardano gli occhi di una persona ripresa in foto. Ciò consente anche di determinare l’angolazione della telecamera, tracciando le coordinate delle immagini sulla geometria curva e impostando una direzione di visualizzazione per la tecnologia NeRF da utilizzare in seguito, così da procedere con la ricostruzione 3D.

Nonostante sottili imprecisioni nella posizione della cornea e nelle stime geometriche, il metodo è stato efficace nella ricostruzione della scena. Le luci dell’area poste ai lati della persona (fuori dall’inquadratura) sono state utilizzate per illuminare l’oggetto di interesse mentre alla persona fotografata è stato chiesto di muoversi all’interno del campo visivo della telecamera mentre venivano catturate più immagini.

Più che l’applicazione in sé, la conseguenza principale di tale esperimento riguarda i passi compiuti dalla tecnologia Neural Radiance Field, (NeRF), che sta avanzando con risultati sbalorditivi. Basti pensare che ci sono servizi per l’utente finale, come LumaLabsAI, che usano proprio la tecnica per donare effetti diversi ad un semplice video ripreso con il cellulare.

Tra i vari ambiti applicativi, l’Università di Berkeley ha combinato una rete di modellazione NeRF con un modello linguistico, per creare il modello “Language Embedded Radiance Field”, o LERF, che consente di cercare elementi particolari in una scena 3D, utilizzando il linguaggio naturale.

Immaginare un domani in cui dati singoli non sono più informazioni autoreferenziali ma tasselli di un ecosistema aperto, sempre richiamabile e analizzabile per un’infinità di motivi è tanto realistico quanto preoccupante.

Scritto da:

Antonino Caffo

Giornalista Leggi articoli Guarda il profilo Linkedin