Un recente studio del MIT guarda in modo critico ai dataset di immagini standard utilizzati per addestrare gli attuali modelli di visione artificiale. Dataset giudicati troppo “facili”, troppo “semplici”. E un allenamento “facile” porta a risultati scadenti.

L’addestramento dei sistemi di computer vision al riconoscimento puntuale delle immagini e, dunque, degli oggetti che popolano la scena da analizzare, presenta un vizio di fondo.

A sollevare la questione, un gruppo di ricercatori del Computer Science and Artificial Intelligence Laboratory (CSAIL) e del Center for Brains, Minds and Machines (CBMM) – entrambi in seno al Massachusetts Institute of Technology (MIT) – autori dello studio illustrato in “How hard are computer vision datasets? Calibrating dataset difficulty to viewing time” e presentato alla conferenza annuale “Neural Information Processing Systems” (NeurIPS), che si è tenuta a New Orleans dal 10 al 16 dicembre 2023.

Iniziamo col dire che, nell’ambito degli studi sull’intelligenza artificiale, l’abilità di “riconoscere” un’immagine presuppone l’identificazione di cose, persone e luoghi presenti al suo interno e rappresenta la “base” dei compiti richiesti a un modello di visione artificiale. Da tale abilità derivano, poi, operazioni più raffinate e complesse, tra cui la classificazione e la segmentazione della stessa immagine, l’analisi delle interazioni tra gli oggetti che la compongono, nonché dei loro movimenti nello spazio in esame.

Secondo il team del MIT, il vizio di fondo sta nel fatto che, nonostante i numerosi lavori degli ultimi anni, volti a migliorare il livello di precisione e le tempistiche di analisi dei modelli di artificial intelligence deputati al riconoscimento delle immagini, i dataset standard con i quali essi vengono allenati continuano ad essere caratterizzati dalla presenza di «dati video troppo semplici».

L’approccio di chi li crea tende al «sottocampionamento delle immagini considerate difficili per la macchina», commenta il gruppo di ricerca. Il che porta, inevitabilmente, a set di dati sbilanciati verso immagini meno complesse e alla conseguente sovrastima delle prestazioni in laboratorio. Quando, invece, è alle performance nel mondo reale che si deve guardare. Specie a quelle in cui le immagini da analizzare presentano forme distorte, bassa definizione, occlusioni o variazioni nella distribuzione all’interno dello spazio rappresentato.


Se, per molto tempo, l’esigenza di chi crea dataset standard per allenare sistemi di visione artificiale al riconoscimento delle immagini, è stata quella della “quantità”, oggi non è più possibile ignorare quegli aspetti legati alla difficoltà, alla complessità dei dati video da analizzare.
Ispirati dall’allungamento dei tempi di elaborazione degli stimoli visivi nell’essere umano quando si trova di fronte a immagini ritenute “difficili”, i ricercatori del MIT hanno definito una metodologia con la quale calcolare il livello di difficoltà dei dati di addestramento.
I test effettuati per provare la validità della nuova metodologia si sono serviti di immagini tratte da due noti dataset standard come ImageNet e ObjectNet, dimostrando le ipotesi di partenza formulate dal team e cioè che entrambi i database sono sbilanciati verso immagini semplici, riconoscibili in tempi brevi.

Computer vision e riconoscimento immagini: urge misurare il grado di difficoltà dei dati di addestramento

La bontà di un sistema di intelligenza artificiale è direttamente proporzionale alla bontà dei dati utilizzati per addestrarlo. Non dovremmo mai ignorare questo assunto. A maggior ragione quando parliamo di computer vision e riconoscimento delle immagini, le cui applicazioni vanno dalla guida autonoma all’imaging diagnostico, dalla videosorveglianza più evoluta alla manutenzione predittiva in ambito industriale, solo per citarne alcune.

«In generale – sottolineano gli autori – il problema dei dataset standard di addestramento persiste, perché gli sviluppatori AI non possiedono indicazioni circa il loro livello di difficoltà. E senza queste informazioni diventa complicato valutare oggettivamente i progressi di un sistema di visione artificiale, il suo avvicinarsi alle prestazioni umane, coprendone tutta la gamma».

Per anni, la preoccupazione maggiore di chi assembla set di dati per allenare algoritmi AI al riconoscimento delle immagini, è stata quella della loro dimensione: lo slogan era “più grande è meglio”, “più dati mettiamo insieme, migliore sarà l’addestramento”. È stato completamente ignorato il concetto di “complessità”, che invece è proprio della visione umana.

Concentrandosi, invece, sulle tecniche e le modalità atte a misurare la difficoltà dei dati video man mano che questi vengono raccolti, è possibile calibrare i dataset e creare le risorse necessarie alla messa a punto di sistemi AI più equilibrati sotto il profilo delle performance, rimarca il team.

La metrica del “tempo minimo di visione” (Minimum Viewing Time)

Alcuni dati video richiedono più tempo per essere elaborati, riconosciuti e classificati dal sistema visivo umano. Questo allungamento delle tempistiche è dovuto, ad esempio, a scarsa illuminazione, a immagini poco nitide, a una scena disordinata, affollata, in cui gli oggetti sono sovrapposti, non in primo piano oppure in parte occultati.

Sulla base di questo principio assoluto, gli autori dello studio in tema di computer vision e riconoscimento delle immagini hanno sviluppato una metrica denominata “Minimum Viewing Time” (MVT) – ossia “tempo minimo di visione” – «in grado di quantificare la difficoltà nel riconoscere un’immagine in base al tempo impiegato da un soggetto a visualizzarla prima di effettuare una sua corretta identificazione» spiegano.

La nuova metrica è stata testata su un campione di persone impiegando sottoinsiemi di ImageNet e ObjectNet. Il primo è un ampio set di immagini reali tratte dal Web (oltre 14 milioni, tutte etichettate), specificatamente realizzato per l’addestramento nel campo della visione artificiale; il secondo è un dataset simile, ma – a differenza del precedente – gli oggetti ritratti presentano sfondi, punti di vista e rotazioni del tutto casuali.

ImageNet e ObjectNet, due dataset standard sotto esame

Durante il test, ai partecipanti sono state mostrate immagini lampeggianti su uno schermo, per una durata di tempo compresa tra 17 millisecondi e 10 secondi. Il compito consisteva nel classificare l’oggetto in modo corretto, scegliendo tra 50 opzioni.

Le immagini che hanno richiesto brevi flash per essere riconosciute, sono quelle reputate “facili” da identificare, mentre quelle che hanno richiesto secondi di visualizzazione rientrano nella categoria delle “difficili”. L’obiettivo era uno: verificare il livello di difficoltà delle immagini tratte da ImageNet e ObjectNet, che i ricercatori del MIT hanno sempre ritenuto essere sottocampionate. Questa era l’ipotesi di partenza.

Ebbene, dopo oltre 200.000 prove, entrambi i dataset sono apparsi sbilanciati verso immagini più semplici, riconoscibili in tempi più brevi, con la stragrande maggioranza delle prestazioni derivate da immagini facili per i soggetti ai quali sono state somministrate.

Alcune delle immagini mostrate ai partecipanti durante il test col quale è stata messa alla prova la metrica “Minimum Viewing Time”: si parte dalle più semplici, a sinistra, per arrivare a quelle più complesse, a destra. In alto, i tempi minimi di visione prima che fossero riconosciute in modo corretto, dai 17 millisecondi ai 10 secondi (Fonte: “How hard are computer vision datasets? Calibrating dataset difficulty to viewing time” - Computer Science and Artificial Intelligence Laboratory (CSAIL) e Center for Brains, Minds and Machines (CBMM) del Massachusetts Institute of Technology).
Alcune delle immagini mostrate ai partecipanti durante il test col quale è stata messa alla prova la metrica “Minimum Viewing Time”: si parte dalle più semplici, a sinistra, per arrivare a quelle più complesse, a destra. In alto, i tempi minimi di visione prima che fossero riconosciute in modo corretto, dai 17 millisecondi ai 10 secondi (Fonte: “How hard are computer vision datasets? Calibrating dataset difficulty to viewing time” – Computer Science and Artificial Intelligence Laboratory (CSAIL) e Center for Brains, Minds and Machines (CBMM) del Massachusetts Institute of Technology).

Al termine dell’esperimento, il team ha reso disponibili i dataset utilizzati – le cui immagini sono state contrassegnate in base alla difficoltà di riconoscimento – oltre a una serie di strumenti per calcolare automaticamente il Minimum Viewing Time, consentendo così ad altri gruppi di lavoro di aggiungere tale metrica ai benchmark esistenti e di estenderla a varie applicazioni.

Computer vision e riconoscimento immagini: i prossimi step della ricerca

Per implementare le abilità delle macchine nell’elaborazione e nella classificazione dei segnali video, è importante lavorare a trovare quante più correlazioni possibili tra tali operazioni e le difficoltà espresse dal “tempo di visione” necessario. Il fine è generare versioni più difficili (oppure più facili) dei dataset di immagini impiegati in sede di addestramento. Il focus è la “calibrazione”, fa sapere il team di studio in tema di computer vision e riconoscimento immagini:

«Questo aiuterà a sviluppare parametri di riferimento più realistici, che porteranno non solo a miglioramenti delle performance dei sistemi di visione artificiale, ma anche a confronti più equi tra intelligenza artificiale e percezione visiva umana»

In futuro – prosegue – con modifiche al recente esperimento, «si potrebbe creare una metrica di difficoltà MVT anche per la classificazione di più oggetti contemporaneamente. Calibrare il nostro campo in base a ciò che gli esseri umani possono fare in un’ampia gamma di compiti di visione, in presenza di determinati set di dati e condizioni, rimane una sfida significativa, ma che ora riteniamo possa essere affrontata».

Anticipazione di scenari futuri

Che cosa dobbiamo attenderci – da qui a trenta, quaranta, cinquant’anni – da una macchina che percepisce tutti gli stimoli visivi del mondo reale (facili e difficili, semplici e complessi) meglio del nostro apparato ottico e che, poi, li elabora in modo ancora più rapido e preciso del nostro cervello?

Quello della computer vision e del riconoscimento immagini è un tema tra i più affascinanti dell’AI, ma che suscita anche qualche sussulto per la “potenza” che – in un futuro lontano – potrebbero avere le sue applicazioni concrete.

Al di là delle già citate guida autonoma e manutenzione predittiva in ambito industriale, sono quelli in ambito medico e nella videosorveglianza pubblica gli impieghi dalla portata, oggi, difficile da calcolare.

Pensiamo solo all’analisi delle immagini (radiografie, TAC, risonanza magnetica, PET) nella diagnosi precoce di malattie croniche gravi, di malattie neurodegenerative e di quelle oncologiche, in cui il dettaglio infinitamente piccolo oggi ancora sfugge. Molte vite si salverebbero o, comunque, si riuscirebbe a rallentare ulteriormente il decorso di alcune patologie, grazie a un sistema di visione artificiale spinto alla massima potenza.

Le telecamere con, a bordo, un sistema di analisi video in grado di analizzare qualsiasi tipo di scena in tempi brevissimi, potrebbero, tra 50 anni, essere sistematicamente utilizzate – nel pubblico come nel privato – per l’analisi predittiva anticrimine e non solo (come accade oggi) per semplice deterrenza.

Si tratta di scenari futuribili, che oggi possiamo anticipare mappandone gli impatti, allo scopo fronteggiare per tempo i cambiamenti, le rivoluzioni, che inevitabilmente essi porteranno con sé.

Scritto da:

Paola Cozzi

Giornalista Leggi articoli Guarda il profilo Linkedin