Per automatizzare la classificazione dell’enorme mole di immagini oceanografiche raccolte dai veicoli subacquei e dai sistemi robotici marini - strategica nello stimare gli effetti dei cambiamenti climatici sul ruolo chiave dei mari quali “termostati della Terra” - è necessaria la creazione di grandi dataset contenenti immagini etichettate e rappresentative delle molteplici comunità biologiche dell'oceano, con i quali addestrare algoritmi di intelligenza artificiale performanti.

TAKEAWAY

  • L’elaborazione tradizionale delle fotografie e dei filmati relativi agli organismi che popolano i mari è un processo che necessita di ingenti risorse sotto il profilo degli investimenti e dell’acquisizione di competenze specifiche da parte degli analisti.
  • L’adozione di tecniche di intelligenza artificiale, da tempo ormai, supporta l’imponente lavoro della comunità oceanografica nell’analisi dei dati. Eppure permangono una serie di criticità, prime fra tutte la mancanza di immagini che rispettino uno standard comune e che siano formattate ed etichettate.
  • Nel tentativo di scavalcare tali limiti, gli scienziati del Monterey Bay Aquarium Research Institute, in California, hanno di recente creato un repository di immagini che, aspirando a divenire il più grande dataset pubblico etichettato e completo, contenente dati video relativi a ogni specie di organismo presente in qualsiasi oceano del mondo, diventa il terreno di addestramento per sistemi AI in grado di classificare il mondo marino.

L’adozione di tecniche di intelligenza artificiale nell’ambito degli studi che fanno capo all’oceanografia rientra tra le strategie a supporto della lotta al cambiamento climatico. Per quale motivo?

Iniziamo col dire che il processo che sequestra il carbonio nelle masse d’acqua è una componente cruciale nella modellazione del clima terrestre.

«Gli oceani svolgono un compito essenziale nella regolazione del clima dell’intero Pianeta, assorbendo circa il 40% di tutta la CO2 emessa ogni anno nel mondo dalle attività antropiche» spiega il CNR-ISMAR (Istituto di Scienze Marine), osservando come le correnti oceaniche fungano da vero e proprio «termostato della Terra».

«Ma – ricorda l’Istituto – con l’aumento della temperatura globale, molte specie marine sono a rischio e anche il meccanismo delle correnti oceaniche sembra sul punto di incepparsi. Le conseguenze cominciano a vedersi anche nel nostro Paese, con un mare adriatico più caldo di 2°C negli ultimi trent’anni e ormai infestato dalle meduse».

L’oceano sta, dunque, subendo un cambiamento senza precedenti, che spinge la comunità scientifica globale a studiarne gli effetti sugli organismi che lo abitano, sui suoi ecosistemi e sui processi che ne regolano gli equilibri, per stimare quale ruolo possa competergli – oggi -nell’estrarre il carbonio dall’atmosfera e immagazzinarlo per lunghi periodi di tempo.

Rientra tra tali attività di studio, il progetto Global Ocean Biogeochemistry Array – avviato a marzo 2021 – a cura del Centro di ricerca oceanografica californiano Monterey Bay Aquarium Research Institute (MBARI), con l’obiettivo di schierare cinquecento galleggianti robotici contenenti un monitor e una serie di sensori biogeochimici per raccogliere dati sulla chimica e la biologia degli oceani, dalla superficie fino a una profondità di 2.000 metri, dal Pacifico settentrionale all’Oceano Indiano.

I punti deboli nell’analisi dei dati video oceanografici

In tema di intelligenza artificiale per l’oceanografia, in un articolo apparso di recente su Scientific Reports, dal titolo “FathomNet: a global image database for enabling artificial intelligence in the ocean”, lo stesso Centro di ricerca californiano si focalizza su alcune criticità relative all’analisi dei dati oceanici, in particolare di quelli video, dovute – ad esempio – all’assenza di standardizzazione e all’insufficienza di formattazione e di etichettatura.

«Il monitoraggio tramite telerilevamento satellitare delle condizioni oceaniche in prossimità della superficie, così come tramite i robot galleggianti, con una raccolta di dati in profondità, stanno spingendo verso nuove scale di osservazione» fa notare il team di ricercatori del MBARI.

La raccolta di immagini – va detto – consente agli oceanografi l’identificazione di molte specie animali, chiarisce la struttura della comunità e le relazioni spaziali in una varietà di habitat, oltre a rilevare il comportamento dei gruppi di animali.

Tuttavia – rimarcano gli autori dell’articolo – «l’elaborazione dei dati video, in particolare di quei dati che rimandano a scene e a organismi complessi, che richiedono la classificazione da parte di esperti, è un processo ad alta intensità di risorse, che non può prescindere da investimenti significativi, acquisizione di competenze specifiche e progressi nell’automatizzazione dell’operatività». Che fare, dunque?

Intelligenza artificiale per l’oceanografia: l’imaging nella campionatura dell’ecologia marina

Il gruppo di ricerca in tema di intelligenza artificiale per l’oceanografia precisa come l’imaging – inteso, in questa sede, quale produzione di dati video (fotografie e filmati) per lo studio dei mari – sia una metodologia ormai accreditata per «campionare comunità biologiche in una varietà di ambienti, grazie alla facilità con cui la tecnologia può essere implementata e al numero di piattaforme autonome e controllate a distanza che possono essere utilizzate». l fine è la loro condivisione con la comunità oceanografica mondiale mediante database open source.

Tuttavia, il nodo – come accennato – non sta tanto nella raccolta, quanto nella gestione e nell’analisi automatizzata dell’immensa mole di dati video oggi a disposizione della ricerca, a causa del numero limitato di esperti e dei costi proibitivi per l’archiviazione. Da qui lo sviluppo di soluzioni di intelligenza artificiale e di scienza dei dati destinate allo studio dell’ecologia oceanica.

Alcune tecniche AI – rammentano gli scienziati del Monterey Bay Aquarium Research Institute – sono già state utilizzate per studiare i sistemi marini. Ad esempio, tecniche di machine learning come l’apprendimento non supervisionato sono state impiegate in passato nell’ambito dell’imaging del plancton, «ottenendo la classificazione automatizzata di piante e animali su microscala, con precisioni superiori al 90%11».

Tra i “contro” relativi al ricorso a tale tecnica, «la sua limitatezza nell’automatizzare l’identificazione e la classificazione degli elementi contenuti in quelle immagini marine la cui granularità e il grado di dettagli sono a livello di sufficienza».

L’utilizzo, invece, di algoritmi di deep learning addestrati su dati video marini in cui tutti gli elementi sono stati identificati (si veda la Figura sotto riportata) ha portato le prestazioni di classificazione automatizzate a livelli tassonomici più fini. Ma questo approccio – aggiungono gli autori – necessita di set di dati video di addestramento etichettati e pubblicamente disponibili sul Web all’interno di repository di immagini.

Nelle immagini di sinistra (a e c), un esempio di dati video marini classificati in modo tradizionale (ossia, “per singolo concetto”) e, a destra (b e d), immagini etichettate per mezzo di algoritmi di deep learning, con annotazioni (vedi i riquadri di delimitazione) in linea con i principi metodologici della data science (Fonte: “FathomNet: a global image database for enabling artificial intelligence in the ocean” - Monterey Bay Aquarium Research Institute).
Nelle immagini di sinistra (a e c), un esempio di dati video oceanografici classificati in modo tradizionale (ossia, “per singolo concetto”) e, a destra (b e d), immagini etichettate per mezzo di algoritmi di deep learning, con annotazioni (vedi i riquadri di delimitazione). Fonte: “FathomNet: a global image database for enabling artificial intelligence in the ocean” – Monterey Bay Aquarium Research Institute.

I dataset pubblici per l’addestramento di algoritmi AI

ImageNet – ad esempio – è stato il primo dataset pubblico etichettato in base a tassonomie. Più recentemente, osserva il team di studio, è iNaturalist Species Classification and Detection Dataset il set di dati focalizzato sulla biologia – messo a punto a partire da immagini di animali raccolte dagli utenti – a contenere oltre 5.000 specie, con un numero complessivo di 675.000 immagini per l’addestramento di algoritmi di intelligenza artificiale.

Attualmente, grandi set di immagini marine etichettate “per concetti” e pubblicamente disponibili rappresentano principalmente comunità planctoniche. Ma sono strutturati principalmente per attività di classificazione, escludendo animali più grandi, quelli che si trovano nelle acque intermedie oppure a contatto con il fondo marino.

Anche il portale CoralNet, contenente immagini di coralli, è di un ordine di grandezza simile ai set di dati sul plancton, ma è ugualmente limitato a un particolare tipo di organismo. Dunque – rimarca il gruppo di ricerca in tema di intelligenza artificiale per l’oceanografia – al momento non esistono set di dati pubblici equivalenti per gli organismi oceanici macroscopici. Set di immagini di animali di questo tipo sono distribuiti in archivi individuali, talora difficili da recuperare.

L’esigenza, oggi, per gli oceanografi, è di un set di dati di immagini etichettato che sia rappresentativo di diverse comunità biologiche nell’oceano, al quale sia possibile accedere consultando un unico repository online, pubblicamente disponibile.

Intelligenza artificiale per l’oceanografia: lo sviluppo del Machine Learning-integrated Tracking

In tema di intelligenza artificiale per l’oceanografia, l’esigenza alla quale ha lavorato il centro di ricerca di Monterey Bay Aquarium Research Institute è quella di un grande set di dati pubblico, etichettato e completo, che contengafotografie e filmati relativi a ogni specie di organismo presente in qualsiasi oceano del mondo.

La risposta si chiama FathomNet, set di dati che – attingendo al database dello stesso Centro di ricerca – aggrega le immagini marine per più di 200.000 specie di organismi oceanici, con l’obiettivo di «ottenere mille osservazioni indipendenti per ciascuna specie, in diverse inquadrature e in diverse condizioni di imaging, portando a oltre 200 milioni di osservazioni che continueranno a crescere con l’aumento del numero di specie descritte».

Proprio come nell’ambito del monitoraggio della fauna selvatica, per il quale – ad esempio – sono stati sviluppati sistemi di tracciamento non invasivo delle specie in via di estinzione (attraverso la raccolta di immagini digitali delle impronte animali) che, grazie a tecniche di intelligenza artificiale – in particolare di deep learning – identificano migliaia di dati video per poi ordinarli e classificarli in base alla specie, alla tipologia di animale, al sesso e alla classe di età, anche in questo caso i ricercatori sono ricorsi alla messa a punto di un sistema di tracciamento basato su tecniche AI da integrare nei veicoli subacquei.

«Al fine di osservare il comportamento degli animali nell’oceano, sono fondamentali le piattaforme di osservazione che eseguono campionamenti mirati in modo non invasivo e che, mediante la presenza continua, osservano il comportamento della fauna marina per un lungo periodo di tempo» spiegano gli autori.

In particolare, negli ultimi anni, il tracciamento degli animali marini da parte dei veicoli subacquei ha riscontrato un rinnovato interesse grazie all’evoluzione delle tecniche di computer vision e di machine learning, «applicate soprattutto laddove è richiesta una durata maggiore dell’osservazione, con implementazioni di oltre 24 ore, come nel caso dello studio dei comportamenti critici degli animali, in particolare nelle acque centrali dell’oceano».

Ecco, allora, che gli oceanografi del centro californiano hanno sviluppato un algoritmo di Machine Learning-integrated Tracking (ML-Tracking), «che incorpora un modello di rilevamento multi-classe e un modulo supervisore che invia comandi a un controller del veicolo».

L’algoritmo è stato recentemente testato a bordo di un veicolo subacqueo presso il Santuario marino nazionale della Baia di Monterey, nell’Oceano Pacifico, al largo della costa californiana, in quasi cinquanta ore di riprese video ad alta definizione. Nello specifico, il test di monitoraggio continuo più lungo ha coinvolto un animale marino gelatinoso, per una durata di 18.987 ore.

Riflessioni conclusive

In tema di intelligenza artificiale per l’oceanografia, sono tre le finalità alle quali – attualmente – risponde un dataset come FathomNet:

  • elevare la velocità di analisi dei dati da parte di osservatori umani
  • contribuire alla generazione di sempre più dati video etichettati, per addestrare nuovi algoritmi AI destinati all’elaborazione dei dati oceanografici
  • sviluppare algoritmi da implementare sui veicoli robotici marini, per consentire campionamenti mirati e osservazioni, nel tempo, di determinati animali

«Le dimostrazioni che utilizzano algoritmi AI addestrati tramite dati video FathomNet e integrati nei veicoli subacquei, ci rendono ottimisti circa le future missioni abilitate dall’intelligenza artificiale per automatizzare completamente il campionamento mirato di organismi marini e le osservazioni nel tempo di determinati animali, nonché per portare a un campionamento meno invasivo delle risorse preziose contenute nell’oceano» concludono i ricercatori, sottolineando come questo approccio alla data science delle immagini oceaniche abbia, in sé, un enorme potenziale per accelerare la ricerca nell’intero settore, ad esempio coinvolgimento sempre di più il pubblico e andando a incidere positivamente sull’istruzione e la didattica in campo oceanografico, così come è accaduto per altre aree della ricerca.

Scritto da:

Paola Cozzi

Caporedattrice Leggi articoli Guarda il profilo Linkedin