Un gruppo di ricercatori del Google Brain Team ha identificato una nuova causa all’origine delle prestazioni scadenti della maggior parte dei modelli di machine learning fuori dal laboratorio. Vediamo di che cosa si tratta.

TAKEAWAY

  • È fatto abbastanza frequente che alcuni modelli di machine learning, il cui addestramento in laboratorio dà risultati pregevoli, falliscano nei contesti reali.
  • Un gruppo di ricercatori del Google Brain Team ha identificato una nuova causa all’origine delle prestazioni scadenti di alcuni modelli di ML fuori dal laboratorio: la “sottospecificazione”.
  • Nella sottospecificazione, anche se il processo di addestramento ha come esito un buon modello di ML, nel mondo reale potrebbe emergere una variante “cattiva” del modello.
  • Gli autori della ricerca non hanno ancora individuato una soluzione precisa al problema, ma stanno esplorando alcune modalità per migliorare il processo di “formazione” dei modelli. La chiave sembra questa.

Alcuni modelli di machine learning, il cui addestramento in laboratorio dà risultati positivi, falliscono applicati al contesto reale. Questo, in genere, è attribuito a una mancata corrispondenza tra i set di dati con i quali la macchina è stata allenata e i dati che, invece, incontra nel mondo reale (quando il Machine Learning diventa operativo e diffuso nei processi aziendali).

Problema, questo, noto come “data shift”, ovvero “spostamento dei dati”. L’esempio emblematico è il sistema di ML addestrato a individuare i segnali di una determinata patologia all’interno di immagini diagnostiche di alta qualità, che poi, invece, si trova di fronte, nella realtà, a immagini in bassa risoluzione, frutto di macchinari scadenti.

Un gruppo di quaranta ricercatori facenti parte di sette diversi team di ricerca Google a livello globale – chiamati Google Brain Team e focalizzati sullo studio delle tecnologie di intelligenza artificiale – ha identificato un’altra causa alla base del fallimento di alcuni modelli di machine learning fuori dal laboratorio: la “sottospecificazione“.

Machine learning, addestramento e prestazioni nel mondo reale: il problema della sottospecificazione

Il gruppo di lavoro, capitanato da Alexander D’Amour, ricercatore presso il Google Brain Team di Cambridge, nel Massachusetts, ha esaminato, in particolare, diverse applicazioni di machine learning, dal riconoscimento delle immagini all’elaborazione del linguaggio naturale – detta anche NLP (Natural Language Processing) – ai modelli di analisi predittiva in ambito medico.

Che cosa ne è emerso? La conferma che la “sottospecificazione” è alla base delle scarse prestazioni della maggior parte dei modelli di machine learning.

Sappiamo che la creazione, la formazione, di un modello di machine learning implica l’allenamento dell’algoritmo su una vasta mole di dati e di esempi e, successivamente, il test su una serie di esempi simili, ma che non ha ancora incontrato nella realtà. Se il modello in questione supera tale test, è considerato valido.

Quello che i ricercatori di Google sottolineano è che questo schema – allenamento in laboratorio + test in laboratorio – non è di per sé sufficiente. Per quale motivo? Il processo di addestramento – spiegano – produce più varianti dello stesso modello di machine learning, che possono superare anche tutti i test. Ma queste varianti – ed è questo il punto cruciale – non sono uguali: differiscono tra loro (anche se di poco) a seconda di fattori tra cui i valori attribuiti ai nodi della rete neurale artificiale (modello che imita la rete neurale propria del cervello umano) prima dell’addestramento stesso, il modo in cui i dati di addestramento vengono selezionati e il numero delle esecuzioni di addestramento.

Le piccole differenze esistenti tra le varianti dello stesso modello di ML prodotto – fanno notare i ricercatori – se non hanno ricadute sui test di laboratorio, di solito vengono trascurate. Salvo poi scoprire che sono all’origine di significative variazioni nelle prestazioni nel mondo reale.

In altre parole, oggi, il processo utilizzato per sviluppare la maggior parte dei modelli di machine learning non è in grado di dire quali modelli funzioneranno nel mondo reale e quali no. Non è la stessa cosa rispetto al problema dello “spostamento dei dati” al quale si è accennato all’inizio, in cui l’addestramento non riesce a produrre un buon modello di ML perché i dati utilizzati non corrispondono agli esempi del mondo reale.

La sottospecificazione rimanda a un problema diverso: anche se il processo di addestramento porta a un buon modello di machine learning, potrebbe, comunque, nelle applicazioni nel mondo reale, spuntare una variante “cattiva” del modello, che differisce da quest’ultimo anche solo di poco.

machine learning addestramento
Il processo di addestramento produce più varianti dello stesso modello di machine learning, che differiscono fra loro a seconda di fattori tra cui i valori attribuiti ai nodi della rete neurale artificiale.,

Machine learning e addestramento dei modelli: gli esperimenti dei ricercatori di Google Brain Team

I quaranta ricercatori Google hanno esaminato l’impatto della sottospecificazione su una serie di applicazioni diverse tra loro. Più nel dettaglio, hanno utilizzato gli stessi processi di formazione per produrre più versioni di uno stesso modello di machine learning e poi hanno messo alla prova tali versioni attraverso stress test progettati per evidenziare le differenze specifiche nelle loro prestazioni.

In particolare, hanno addestrato 50 versioni di un modello di machine learning di riconoscimento delle immagini sulla base di ImageNet, set di dati realizzato per l’utilizzo nell’ambito della Computer Vision e nel campo del riconoscimento di oggetti.

L’unica differenza tra le sessioni di addestramento sono stati i valori casuali assegnati alla rete neurale. Eppure, nonostante tutti le 50 versioni abbiano ottenuto più o meno lo stesso punteggio nel test di allenamento, le loro prestazioni sono variate in modo significativo durante lo stress test.

Nello stress test, in particolare, sono stati utilizzati ImageNet-C, ovvero un set di dati di immagini tratte da ImageNet ma pixelate (vale a dire ingrandite, perdendo così risoluzione) o la cui luminosità e il cui contrasto sono stati alterati, e ObjectNet, set di dati di immagini di oggetti di uso quotidiano ritratti in modo insolito, come sedie sulla schiena, teiere capovolte e magliette appese a ganci. Che cosa è accaduto?

Che alcune delle 50 versioni hanno dato buone prestazioni con le immagini pixelate, altre con gli oggetti di uso quotidiano in pose insolite e alcune, invece, si sono comportate bene in entrambe le situazioni.

I ricercatori hanno poi condotto esperimenti simili con due diversi modelli di elaborazione del linguaggio naturale e con tre modelli di analisi predittiva in ambito medico (previsione di patologie oculistiche sulla base di scansioni retiniche; analisi predittiva del cancro a partire da lesioni cutanee; previsione dell’insufficienza renale sulla base di determinati dati contenuti delle cartelle cliniche dei pazienti).

Ebbene, ogni sistema di machine learning preso in esame presentava lo stesso problema: quando veniva testato utilizzando dati del mondo reale – diverse tipologie di scansioni retiniche o tipi diversi di lesioni cutanee – non erano altrettanto accurati rispetto ai test in laboratorio.

La la cosa più importante e immediata da fare è eseguire molti più test personalizzati per ogni singola applicazione, utilizzando dati attinti dal mondo reale” osserva Alexander D’Amour. E Aggiunge:

Gli esiti di alcuni stress test sono in contrasto tra loro. Ad esempio, i modelli che si sono dimostrati abili nel riconoscere le immagini pixelate, spesso lo erano meno nel riconoscere le immagini ad alto contrasto. Il che suggerisce che non è sempre possibile addestrare un singolo modello di machine learning che sia poi in grado di superare tutti gli stress test

Quale soluzione? Perfezionare il processo di formazione dei modelli di ML

Un’opzione – osserva D’Amour – è progettare una fase aggiuntiva al processo di formazione e di test, in cui vengono prodotti contemporaneamente più modelli di ML anziché uno solo. Questi modelli “concorrenti” potrebbero essere nuovamente testati su attività specifiche del mondo reale, per poi selezionare quello con le migliori prestazioni.

Si tratterebbe di un’enorme mole di lavoro, ma per un’azienda come Google, che sviluppa e distribuisce grandi modelli AI, potrebbe valerne la pena” nota Yannic Kilcher, ricercatore di machine learning presso il Politecnico di Zurigo (ETH) e membro del team di studio.

Ad esempio, Google potrebbe offrire 50 diverse versioni di un modello di elaborazione del linguaggio naturale e gli sviluppatori di applicazioni potrebbero, poi, scegliere quella che dà le prestazioni migliori sul campo. Sono opzioni, suggerimenti. In realtà, gli autori della ricerca non hanno ancora individuato una soluzione precisa, ma stanno esplorando alcune modalità per migliorare il processo di formazione dei modelli.

Se vogliamo che l’intelligenza artificiale abbia tanto impatto all’esterno del laboratorio quanto all’interno, una soluzione si rende assolutamente necessaria. Sappiamo che, quando i sistemi AI hanno prestazioni inferiori nel mondo reale, le persone sono meno disposte a volerli utilizzare, perché non si fidano e ne hanno timore

conclude il ricercatore presso il Google Brain Team di Cambridge.

Scritto da:

Paola Cozzi

Giornalista Leggi articoli Guarda il profilo Linkedin