In che modo il machine learning potenzia la cyber-security all’interno delle aziende?

Sono molteplici, nell’ambito della security, le aree all’interno delle quali il machine learning ha, oggi, un proprio ruolo, andando, innanzitutto, a semplificare i processi e a velocizzare le procedure, automatizzando le attività del reparto IT. Vediamo in che modo.

TAKEAWAY

  • Semplificare i processi e velocizzare le procedure sono i registri del machine learning nell’ambito della cyber-security. Entrambi volti ad automatizzare le attività del reparto IT.
  • È importante, però, considerare che, senza un set di dati ricco e completo – per mezzo del quale addestrare l’algoritmo – utilizzare correttamente il machine learning per applicazioni di cyber-security, è un’impresa non semplice.
  • Da un punto di vista meramente tecnico, la tendenza attuale è quella che vede la combinazione di apprendimento supervisionato e apprendimento non supervisionato nel rilevamento, classificazione e clustering delle minacce informatiche.

Qual è, oggi, il contributo fattivo delle tecniche che fanno capo all’ambito di studi dell’intelligenza artificiale – e, più nello specifico, del machine learning – alla sicurezza informatica? Come si coniugano, negli attuali ambienti digitali, machine learning e cyber-security?

Iniziamo col dire che, nella security, sono molteplici le aree all’interno delle quali il machine learning ha un proprio ruolo, andando, innanzitutto, a semplificare quei processi ripetitivi e dispendiosi in termini di tempo, tra cui, ad esempio, il rilevamento di malware, l’analisi dei registri di rete e l’analisi delle vulnerabilità.

E, poi, andando a velocizzare le procedure, tra cui l’assegnare priorità, l‘analizzare i precedenti attacchi informatici e mettere a punto misure di difesa appropriate. Semplificare e velocizzare sono, dunque i suoi registri. Entrambi volti ad automatizzare le attività del reparto IT.

Questo è, in estrema sintesi, lo scenario. Ma, prima di approfondire le sue dinamiche, è necessario considerare due fattori. In primo luogo, senza un set di dati ricco e completo – per mezzo del quale addestrare l’algoritmo ML – utilizzare correttamente il machine learning per applicazioni di cyber-security, non è impresa semplice.

Inoltre, l’apprendimento automatico – da solo – non è risolutivo. La sicurezza si compone di molte tessere, in cui l’elemento umano va a integrarsi alle tecnologie. Per essere in grado di identificare e rispondere alle minacce informatiche in modo corretto e puntuale, sono fondamentali le competenze dei reparti IT, non solo gli “strumenti”.

Ma ora vediamo come, nel concreto, l’intelligenza artificiale – grazie anche all’apporto umano – potenzia la cyber-security.

Machine learning e cyber-security: rilevazione e classificazione in tempo reale delle minacce

In tema di machine learning e cyber-security, una volta sviluppato l’algoritmo, per fare in modo che questo “apprenda” a identificare e a rispondere agli attacchi informatici, è necessario allenarlo utilizzando grandi insiemi di dati, contenenti, ad esempio, indicatori di intrusione illecita nel sistema, modelli di comportamenti dannosi e modelli di comportamento corretto e sicuro.

Quando il sistema di intelligenza artificiale riconosce eventi comparabili ai dati che gli sono stati somministrati, lavora per gestirli autonomamente.

Nel caso del phishing, ad esempio – in cui l’aggressore, mediante comunicazione, tenta di truffare la vittima cercando di estorcerle dati relativi a conti correnti e altre informazioni di carattere personale – i metodi di categorizzazione predittiva degli URL, basati sui più recenti algoritmi di apprendimento automatico, sono in grado di rilevare le tendenze che segnalano e-mail fraudolente.

Per farlo, gli algoritmi ML vengono addestrati sulla base di dati quali intestazioni delle email, caratteri e corpi delle lettere, modelli di punteggiatura e altri elementi, al fine di distinguere e poter classificare i messaggi di posta malevoli da quelli benevoli.

In caso, invece, di Web Shell – blocco dannoso del software, che consente agli aggressori di modificare i dati presenti nel server e di accedere illecitamente al database – il sistema AI, laddove l’azienda eserciti un’attività commerciale in rete, consente – ad esempio – di discernere tra un comportamento del carrello degli acquisti “normale” e un comportamento riconosciuto come dannoso.

L’importanza di determinare i livelli di rischio

In tema di machine learning e cyber-security, l’analisi del comportamento degli utenti da parte del sistema AI consente di rilevare eventuali violazioni dell’account e azioni interne malevole.

E se un dispositivo sulla rete esegue un’azione ritenuta anomala – come, ad esempio, un accesso fuori orario, un accesso da remoto considerato inaffidabile o un numero elevato di download – all’azione e all’utente che la compie viene assegnato un determinato livello di rischio.

Anche nell’esaminare i set di dati relativi a precedenti attacchi informatici e nel definire quali specifiche aree della rete, in passato, sono state prese di mira più frequentemente, l’algoritmo assegna diversi livelli di rischio.

A che cosa serve il punteggio? A “misurare”, a dare uno preciso valore di probabilità a eventuali futuri attacchi a quella specifica area della rete e ai loro effetti e a dare la priorità alle relative azioni di intervento.

Si tratta, in sostanza, di stabilire quali aree dell’attività della rete aziendale sono le più vulnerabili, se, ad esempio, il sistema CRM, il software di contabilità o il sistema di vendita.

Nel caso in cui – ad esempio – sia il reparto Human Resources a subire più frequentemente battute di arresto in seguito a cyber-attack, la valutazione complessiva potrebbe avere determinato un livello di rischio “basso”. Al contrario, se si tratta di attività di business, il livello rischio diventa assai alto.

Machine learning e cyber-security: apprendimento automatico supervisionato o non supervisionato?

Parlando di machine learning e cyber-security, una domanda, però, è d’obbligo e riguarda la scelta tra due diverse tecniche di apprendimento automatico: l’apprendimento supervisionato – in cui il sistema impara a prendere una decisione attraverso la correlazione tra i dati in ingresso e i dati in uscita – e l’apprendimento non supervisionato, in cuiil sistema apprende tramite l’analisi dei risultati, senza alcuna relazione diretta tra dati in ingresso e dati in uscita.

La differenza nodale tra le due tecniche sta nel fatto che l’algoritmo di apprendimento non supervisionato – non richiedendo dati etichettati per essere addestrato – viene utilizzato per “dedurre” la struttura del set di dati che gli viene somministrato.

In particolare, l’apprendimento non supervisionato utilizza tecniche di clustering per analizzare i dati e raggrupparli, con l’obiettivo di rispondere a domande del tipo “quello che sto analizzando è normale o anomalo?” oppure “il comportamento dell’utente è buono o cattivo?”

Mentre, invece, l’apprendimento supervisionato è diventato, nel tempo, uno strumento in mano ai professionisti della cyber-security laddove si renda necessaria una “classificazione”, ad esempio relativa agli URL, allo spam o all’antivirus.

Nel rispondere alle domande “è buono o è cattivo?”, “è normale o no?”, questa tecnica di machine learning non è in grado di offrire una visione puntuale e precisa circa l’esistenza o meno di una minaccia attiva o di un rischio, ma li rileva e li classifica.

Che cosa scegliere dunque? Qual è il consiglio da dare ai reparti IT delle aziende? La tendenza attuale è quella che vede la combinazione dei punti di forza di entrambe le tecniche, ossia la combinazione di meccanismi di rilevamento, classificazione e clustering per fare previsioni.

È quella che viene definita “difesa in profondità“, “sicurezza a livello profondo”, in cui l’algoritmo ML – in un primo livello di analisi – “decide” in autonomia se un’azione è “buona” oppure “cattiva”, se un comportamento è “anomalo” o “normale”.

E, nel livello successivo, se l’azione cattiva e il comportamento anomalo ci ricordano azioni e comportamenti passati, dunque eventi che avremmo potuto prevedere in base a ciò che abbiamo già visto. E, sulla base di tale deduzione, insieme al team IT viene costruita la misura difensiva.

Default image
Paola Cozzi
Giornalista dal solido background acquisito lavorando presso i più prestigiosi Editori italiani | Ventidue anni di esperienza nello sviluppo di prodotti editoriali b2b, cartacei e digitali | Vent'anni alla direzione di una testata b2b in tema di Sicurezza anticrimine di tipo fisico | Attualmente si dedica al Giornalismo Digitale ed esplora nuove tecniche e nuovi stili di comunicazione
Articles: 164