Una nuova tecnica apre ad analisi più sistematiche e approfondite dei comportamenti dei modelli di machine learning, ponendo a confronto - per delinearvi allineamenti o, al contrario, distanze - i meccanismi del ragionamento della macchina e quelli dell’essere umano nei processi decisionali.

TAKEAWAY

  • Nell’analizzare in che modo e perché un modello di computer vision prende determinate decisioni, il classico metodo del “calcolo della salienza” si focalizza su quelle aree di una data immagine (ad esempio, i pixel dell’immagine in input, da cui il sistema rileva un gatto) che risultano importanti per il modello stesso nel momento topico della scelta.
  • Il metodo delineato dal MIT CSAIL aggiunge a tale analisi un tassello, ossia il confronto tra i dati di salienza generati dal modello e i dati base dell’immagine, che sono gli stessi generati dal meccanismo della percezione umana. Quindi quantifica l’allineamento o, al contrario, il disallineamento tra i due gruppi, arrivando a validare oppure a invalidare la decisione della macchina.
  • Tra le future possibili applicazioni della nuova metodologia, anche l’analisi dei comportamenti dei modelli di machine learning in ambito sanitario, per verificare in che modo questi perpetuano e amplificano eventuali distorsioni e bias contenuti nei dati clinici dei pazienti, utilizzati per il loro addestramento.

Nel campo dell’intelligenza artificiale, tra gli interrogativi più affascinanti ai quali i ricercatori lavorano da tempo nel cercare, di volta in volta, risposte sempre più coerenti, quello sul “come”, da determinati dati in ingresso, derivino – per un modello di machine learning – determinati comportamenti in uscita.

Al di là della loro correttezza, in che modo e perché la macchina prende determinate decisioniPerché, ad esempio, un sistema AI prevede che una lesione cutanea rilevata dalle immagini cliniche sia cancerosa? Quale linea di “ragionamento” segue?

Un metodo consolidato, proprio di questo filone di studi – ricorda un recente lavoro del Computer Science and Artificial Intelligence Laboratory (CSAIL) del Massachusetts Institute of Technology (MIT) e IBM Research, in tema di machine learning e comportamenti dei modelli – è quello basato sul “calcolo della salienza”, descritto come «un insieme di tecniche per identificare l’importanza delle caratteristiche di input sull’output di un dato modello AI».

Semplificando, dato – per un modello di computer vision – un input (ad, esempio l’immagine di un animale), la “salienza” calcola un punteggio relativo all’importanza che ogni caratteristica dell’input (ad esempio, i pixel che designano l’immagine dell’animale) ha per il comportamento in uscita, ossia l’output (ad esempio, la classificazione dell’immagine come “gatto”): sono i pixel dell’immagine iniziale a fare sì che il modello di machine learning – opportunamente addestrato – riconosca, a partire da questi, l’immagine di un gatto.

Calcolare la salienza e interpretarla, richiede, però, ingenti risorse in termini di tempo, Inoltre – osservano gli autori dello studio – tale metodologia non fornisce informazioni aggiuntive di livello superiore a supporto degli analisti, in quali sono, così, «chiamati a basarsi esclusivamente sulla propria percezione visiva e sui precedenti per generare ipotesi realistiche circa il comportamento del sistema di intelligenza artificiale».

La risposta dei ricercatori del MIT CSAIL è la messa a punto di un nuovo metodo (Shared Interest) per l’analisi del comportamento dei modelli di machine learning, fondato su metriche che pongono a confronto – delineando analogie o, al contrario, distanze – i meccanismi del ragionamento della macchina e quelli dell’essere umano nei processi decisionaliTale metodo, in realtà, non sostituisce il precedente, bensì muove da questo, ne sfrutta le basi, per condurre analisi più sistematiche dei comportamenti dei modelli.

Machine learning e comportamenti dei modelli: il metodo di analisi Shared Interest

In tema di machine learning e comportamenti dei modelli, il metodo del calcolo della salienza pone in evidenza quelle aree di una data immagine che sono importanti per il modello, nel momento in cui questo prende la sua decisione (i pixel dell’immagine in input, da cui il sistema AI rileva l’immagine di un gatto):

«Queste aree sono visualizzate come un tipo di mappa termica, chiamata “mappa di salienza”, spesso sovrapposta all’immagine originale. Se il modello ha classificato l’immagine come “cane” e la testa del cane è evidenziata, significa che quei pixel erano importanti per il modello quando ha deciso che l’immagine conteneva un “cane”»

Quello che il metodo Shared Interest aggiunge a questa analisi è il confronto tra il metodo di salienza e i dati base dell’immagine (rispettivamente, aree evidenziate in arancione e aree evidenziate in giallo all’interno delle immagini mostrate nella Figura riportata in basso).

Esempio di immagini con punteggi bassi (Low Shared Interest Score) e alti (High Shared Interest Score), a seconda delle diverse metriche di analisi dei comportamenti dei modelli di machine learning. Ogni immagine è annotata con la sua etichetta (grigia), la previsione (verde se corretta, rossa in caso contrario), i suoi dati base (area evidenziata in giallo all’interno delle immagini) e le sue caratteristiche di salienza (area evidenziata in arancione).
Esempio di immagini con punteggi bassi (Low Shared Interest Score) e alti (High Shared Interest Score), a seconda delle diverse metriche di analisi dei comportamenti dei modelli di machine learning. Ogni immagine è annotata con la sua etichetta (grigia), la previsione (verde se corretta, rossa in caso contrario), i suoi dati base (area evidenziata in giallo all’interno delle immagini) e le sue caratteristiche di salienza (area evidenziata in arancione).
(Fonte: “Shared interest: measuring human-AI alignment to identify recurring patterns in model behavior” – CSAIL MIT – https://arxiv.org/pdf/2107.09234.pdf).

In un set di dati di immagini come quello mostrato, i dati base sono gli stessi generati dal meccanismo della percezione umana, tendente a captare i punti rilevanti di ciascuna immagine. Ad esempio, nelle immagini dei due cani in basso a destra, le aree incorniciate in giallo racchiudono l’intera figura dell’animale.

Dunque, Shared Interest confronta i dati di salienza generati dal modello (arancione) e i dati base generati dall’uomo (giallo) per la stessa immagine, con l’obiettivo di verificare in che modo essi si allineano e combaciano oppure, al contrario, sono distanti.

La tecnica – spiegano gli autori – impiega diverse metriche per quantificare l’allineamento (o, al contrario, il disallineamento).

E, una volta quantificato, attiva una decisione in una delle otto categorie previste, comprese tra “dati perfettamente allineati” (quando il modello ML fa una previsione corretta e l’area evidenziata nella mappa di salienza è identica al riquadro generato dall’uomo) e “dati completamente distanti” (il modello fa una previsione errata e non utilizza nessuna delle caratteristiche che si trovano nelle aree generate dall’uomo). A tale proposito, si vedano i Low Shared Interest Score e gli High Shared Interest Score nella medesima Figura in alto.

Oltre che nell’ambito della computer vision, questa tecnica è valida anche con i dati di testo nell’elaborazione del linguaggio naturale (NLP), in cui a essere evidenziate sono le parole chiave all’interno delle frasi, anziché specifiche aree dell’immagine.

Le prime fasi di test

In tema di machine learning e comportamenti dei modelli, il team di ricerca ha testato la validità del metodo Shared Interest nell’ambito di alcune applicazioni, tra cui la diagnostica clinica e un esempio di classificazione delle immagini.

Nel primo caso, il protagonista è un dermatologo alle prese con un modello di machine learning progettato per supportarlo nella diagnosi del melanoma sulla base dell’analisi di immagini di lesioni cutanee. Ebbene, in che modo la macchina giunge alla diagnosi? Qual è il suo ragionamento? Come arriva alle previsioni?

Quello che è stato possibile verificare applicando la tecnica che connota il nuovo metodo, sono gli esempi delle previsioni corrette e gli esempi delle previsioni errate compiute dal modello, grazie al confronto tra i dati di salienza generati dal modello stesso e i dati base generati dalla percezione visiva umana.

Il risultato ha portato alla decisione, da parte del medico specialista, di non continuare a consultare il modello di apprendimento automatico, in quanto reo di troppe previsioni basate su artefatti dell’immagine del melanoma (con i quali è stato, in precedenza, addestrato), piuttosto che sulle lesioni reali mostrate dai pazienti.

Il metodo è stato anche testato per approfondire un esempio specifico di classificazione delle immagini, in cui, manipolando l’area dei dati base (quella evidenziata in giallo nella Figura precedente) di una determinata immagine, è stato possibile condurre un’analisi di simulazione, finalizzata ad appurare quali caratteristiche dell’immagine fossero strategiche per formulare determinate previsioni.

Benché, nella sua prima fase di test, il nuovo metodo abbia dato esiti positivi, il gruppo di studio avverte che «la tecnica è valida quanto il metodo di salienza su cui si fonda. Se quest’ultimo contiene pregiudizi o è impreciso, Shared Interest erediterà tali limitazioni».

Machine learning e comportamenti dei modelli: scenari futuri di analisi

La nuova metodologia in tema di machine learning e comportamenti dei modelli, messa a punto dal CSAIL del MIT, apre a diverse applicazioni in contesti differenti.

Shared Interest potrebbe, ad esempio, trovare impiego – osserva il team – nell’analisi dei dati sanitari (con cui vengono addestrati gli algoritmi AI utilizzati nell’healthcare), contenenti informazioni sensibili dei pazienti: «si potrebbe immaginare di utilizzare una versione di Shared Interest per esaminare come un particolare comportamento dei modelli di apprendimento automatico in ambito sanitario possa perpetuare o amplificare la distorsione di dati di questo tipo».

Un altro possibile indirizzo di applicazione – sempre nel dominio della computer vision – è quello che vede il confronto tra diversi metodi di salienza, che vada, però, oltre l’analisi della loro corrispondenza a modelli sottostanti, caratterizzati prevalentemente da metriche che operano solo su singoli pixel. Si potrebbe, invece – rieseguendo gli studi fatti e quantificando i risultati in termini di metriche alla base del metodo Shared Interest – aumentare il livello di astrazione dei risultati.

Infine, un altro scenario è quello che prende in considerazione la nuova tecnica per l’addestramento dei modelli di machine learning, dato che la maggior parte del lavoro svolto finora e della letteratura esistente in materia si sono focalizzati sulle prestazioni dei modelli per validarli, trascurando l’analisi del loro allenamento.

Il nuovo metodo potrebbe, invece, trovare applicazione nel valutare proprio la “formazione” dei modelli, come essi “nascono”, confrontando anche il modo in cui le caratteristiche di salienza cambiano nel tempo. Informazioni – queste – che concorrerebbero a facilitare le future procedure di formazione dei modelli, «nonché ad ampliare il set di dati con esempi più informativi».

Scritto da: