L’identificazione automatica di eventi anomali all’interno di dati complessi, relativi a più sequenze temporali

Una nuova tecnica di machine learning potrebbe, in futuro, individuare - rapidamente e in tempo reale - guasti alla rete elettrica o alla rete idrica, così come anomalie nei dati video relativi al traffico stradale.

TAKEAWAY

  • Un recente studio congiunto, a cura della Pennsylvania State University e del MIT-IBM Watson AI Lab, illustra un nuovo metodo computazionale per rilevare e classificare automaticamente eventuali anomalie all’interno della vasta mole di dati raccolti dai sistemi di monitoraggio delle reti elettriche.
  • In particolare, il sistema di machine learning messo a punto – ricorrendo a rappresentazioni grafiche che “scompongo” le probabilità di anomalie in probabilità meno complesse – sembra trovare una soluzione al problema legato all’analisi di quei dati provenienti da centinaia di migliaia di sensori correlati tra loro e relativi a serie temporali multiple.
  • Tra le applicazioni future del nuovo approccio, oltre a sviluppare sistemi AI destinati all’analisi di altre tipologie di relazioni articolate tra i dati, anche il miglioramento dei processi di previsione a partire dai parametri rilevati dai sensori.

Le tecniche che fanno capo all’ambito di studi dell’intelligenza artificiale e il loro utilizzo hanno un proprio ruolo nel contribuire alla rilevazione e alla classificazione di eventuali anomalie all’interno di grandi set di dati, riferite, ad esempio, a eventi quali guasti o malfunzionamenti di macchinari all’interno delle linee produttive, oppure la presenza di intrusioni illecite all’interno di una determinata area videosorvegliata, solo per citare alcuni esempi.

Recentemente, le metodologie con le quali vengono effettuate tali rilevazioni attingono alle tecniche di deep learning, in particolare in presenza di dati complessi da analizzare, tra cui quelli relativi a più sequenze temporali (dette anche “serie temporali multiple”) che interagiscono tra loro all’interno di un dato sistema, come accade nelle reti elettriche, monitorate da centinaia di migliaia di sensori correlati tra loro, installati in diversi punti geografici sparsi sul territorio, che acquisiscono in tempo reale – spesso effettuando più registrazioni al secondo – una vasta mole di dati, tra cui anche informazioni critiche, inerenti a danneggiamenti al generatore, a sue interruzioni o ad anomalie nella tensione della rete stessa.

Il rilevamento di eventi anomali all’interno di serie temporali multiple risulta estremamente impegnativo, proprio in seguito all’elevata dimensionalità dei dati e alla loro interdipendenza, come rimarcato in un paper a firma di un ricercatore della Pennsylvania State University e di un collega del MIT-IBM Watson AI Lab, “Graph-augmented normalizing flows for anomaly detection of multiple time series” – i cui contenuti verranno discussi in seno all’International Conference on Learning Representations (ICLR), dal 25 al 29 aprile 2022 – dove viene presentato un metodo computazionale in grado di individuare automaticamente le anomalie nei flussi di dati altamente complessi, acquisiti dai sensori deputati al monitoraggio dei parametri delle reti elettriche.

Intelligenza artificiale e rilevazione di anomalie nelle reti elettriche

In tema di intelligenza artificiale e rilevazione di anomalie, con l’obiettivo di definire un paradigma sul quale lavorare, il punto di partenza è stato – per il team di studio – la definizione di “anomalia” all’interno della rete elettrica. La domanda, in sostanza, è stata: che cosa il sistema AI è chiamato a identificare? Quali “eventi” ritenuti anomali deve poter individuare? E la scelta è ricaduta sui “picchi di tensione”, definiti dai ricercatori come «eventi dalla bassa probabilità di verificarsi».

Seguendo questo filo logico, l’enorme mole di dati raccolti dai sensori che monitorano i parametri della rete elettrica sono connotati da “probabilità distribuite”, di cui è possibile stimare la densità identificando sia quegli eventi “ad alta densità”, sia quelli “a bassa densità” e corrispondenti alle anomalie.

Rilevazione di eventi a bassa probabilità – come accennato – all’interno di dati raccolti in più sequenze temporali. E a questo si aggiunge il fatto che «i sensori che acquisiscono i dati sono condizionati l’uno dall’altro, ossia sono collegati in una determinata configurazione e un sensore a volte può influire sugli altri» spiegano i ricercatori.

Per rispondere alla complessità di tale compito, è stato messo a punto un modello di machine learning denominato “flusso normalizzante”, in grado di calcolare la bassa densità di probabilità all’interno di un ampio campione di dati interdipendenti.

La centralità della relazione causale tra tutti i sensori che monitorano la rete

In tema di intelligenza artificiale e rilevazione di anomalie, l’apprendimento – da parte del modello di machine learning a flusso normalizzante – della relazione causale tra i molteplici sensori installati in diversi punti del territorio, è stato possibile supportando il modello per mezzo di una rappresentazione grafica detta “rete bayesiana”, atta a descrivere le relazioni probabilistiche tra le variabili di un sistema.

Il nocciolo del problema – sottolineano i ricercatori nel paper – sta proprio nel trasferire al modello ML tutte le informazioni frutto dell’interazione tra i sensori, frutto della loro interdipendenza. Dal cogliere e dall’analizzare queste complesse informazioni incrociate dipende, poi, il calcolo della probabilità di anomalie. E una tipologia di rappresentazione grafica coma quella bayesiana – capace di scomporre tutte le probabilità insite nei dati relativi alle sequenze temporali multiple in probabilità meno complesse e, quindi, più facili da apprendere e da analizzare – permette di giungere a una stima delle probabilità di rilevare, nei dati acquisiti dai sensori, quegli eventi (come, appunto, i picchi di tensione) che hanno una bassa probabilità di verificarsi, ovvero le anomalie

La stima delle probabilità dei picchi di tensione nella rete elettrica viene rappresentata graficamente dalla struttura GANF (Graph-Augmented Normalizing Flow) del metodo computazionale sviluppato. Struttua «progettata per riassumere le informazioni necessarie al sistema ML per calcolare la densità di probabilità di anomalie in serieche vengono rilevate identificando istanze a bassa densità».

Illustrazione di rete bayesiana a sinistra e, a destra, la struttura GANF (Graph-Augmented Normalizing Flow) alla base del metodo computazionale per la rilevazione di anomalie nei dati relativi a più sequenze temporali, sviluppato dal team di studio (Fonte: paper “Graph-augmented normalizing flows for anomaly detection of multiple time series” - https://openreview.net/pdf?id=45L_dgP48Vd)
Illustrazione di rete bayesiana a sinistra e, a destra, la struttura GANF (Graph-Augmented Normalizing Flow), alla base del metodo computazionale per la rilevazione di anomalie nei dati relativi a più sequenze temporali, sviluppato dal team di studio (Fonte: paper “Graph-augmented normalizing flows for anomaly detection of multiple time series” – https://openreview.net/pdf?id=45L_dgP48Vd)

Intelligenza artificiale e rilevazione di anomalie nei dati: le prospettive aperte

In tema di intelligenza artificiale e rilevazione di anomalie, la fase di sperimentazione del modello di machine learning a flusso normalizzante è stata condotta avvalendosi di set di dati che contenevano anomalie identificate – in passato – mediante calcoli eseguiti da operatori umano (non da macchine) e che il nuovo sistema è stato in grado di calcolare con percentuali addirittura più alte.

Riguardo, nello specifico, alla metodologia definita dai ricercatori, si tratta di un procedimento flessibile, che è possibile trasferire ad altre tipologie di applicazioni, ad esempio per la rilevazione di anomalie nei dati raccolti dai sistemi di monitoraggio delle reti idriche, così come nei dati video acquisiti dai sistemi di videosorveglianza del traffico stradale, identificando rallentamenti del flusso di veicoli, ingorghi o incidenti. In entrambi questi esempi, si tratta di situazioni in cui – come nelle reti elettriche – un ampio numero di sensori sparsi sul territorio e interconnessi raccolgono una mole considerevole di dati e di informazioni.

Un’altra peculiarità del modello è data dal fatto che, una volta implementato, è in grado di continuare ad apprendere, nel tempo, da un flusso costante di nuovi dati raccolti dai sensori.

Tra gli obiettivi del team di studio – oltre a impiegare l’approccio e il metodo definiti nell’ambito di questa ricerca per sviluppare sistemi di intelligenza artificiale in grado di analizzare altre relazioni complesse tra i dati – anche l’osservazione del modello di machine learning a flusso normalizzante alle prese con relazioni causali sempre più estese tra i sensori che monitorano la rete e con correlazioni tra i dati caratterizzate da milioni o miliardi di nodi. Infine, anziché rilevare anomalie all’interno dei dati, i ricercatori prevedono, in futuro, di utilizzare il nuovo modello ML per affinare i processi di previsione, così come per semplificare altre tecniche di classificazione dei dati.

Default image
Paola Cozzi

Giornalista dal solido background acquisito lavorando presso i più prestigiosi Editori italiani | Ventidue anni di esperienza nello sviluppo di prodotti editoriali b2b, cartacei e digitali | Vent'anni alla direzione di una testata b2b in tema di Sicurezza anticrimine di tipo fisico | Attualmente si dedica al Giornalismo Digitale ed esplora nuove tecniche e nuovi stili di comunicazione

Articles: 241

Newsletter Updates

Inserisci il tuo indirizzo email qui sotto per iscriverti alla nostra newsletter