Sulla chiara comprensione di quanto accade all'interno di un modello di machine learning o su come sia possibile intervenire sulle sue modalità di apprendimento e sui suoi comportamenti una volta addestrato, c’è ancora molto lavoro da fare.
TAKEAWAY
- Che cosa significa studiare il processo di apprendimento dei modelli di machine learning? Secondo i ricercatori del Massachusetts Institute of Technology vuol dire guardare (anche) alla “robustezza” dei suoi algoritmi, cioè alla loro capacità di fare in modo che il modello si comporti in modo corretto in tutte quelle situazioni non contemplate in fase di addestramento.
- Un’area specifica di studio del MIT su come apprende l’intelligenza artificiale riguarda l’ottimizzazione dei modelli di machine learning nel caso in cui i dati di ingresso siano sotto forma di grafi, come accade in biologia in cui, a partire dai grafi delle molecole, vengono generati output che riguardano previsioni delle loro proprietà chimiche.
- Sono le Graph Neural Networks (GNN) a rappresentare, oggi, lo strumento maggiormente in uso in quelle attività mirate all’apprendimento di rappresentazioni di grafi. E dal MIT ne indicano gli aspetti sui quali c’è ancora da lavorare, tra cui l’ordine di grandezza dei grafi stessi e la correlazione con la capacità di generalizzazione delle reti neurali.
La notizia di questi giorni circa la nomina di Stefanie Jegelka – già membro del Computer Science and Artificial Intelligence Laboratory (CSAIL) e dell’Institute for Data, Systems, and Society (IDSS) del Massachusetts Institute of Technology – quale professore di ruolo presso il Dipartimento di Ingegneria Elettrica e di Informatica dello stesso Ateneo, riporta l’attenzione su quello che, in questo momento, è il focus della ricerca del MIT in tema AI, orientato a indagare come apprende l’intelligenza artificiale, quali sono le modalità che regolano questo processo e come si comportano, poi, i modelli AI una volta sviluppati e addestrati.
L’obiettivo di tali studi è arrivare ad attribuire un colore diverso all’ormai nota “scatola nera” (in gergo, “black box”), ossia rendere chiaro e comprensibile come, grazie alle tecniche di intelligenza artificiale, da determinati dati in ingresso, un sistema AI giunga a generare determinati output.
Portare luce all’interno della black box significa poter lavorare alla progettazione di sistemi di intelligenza artificiale “migliori”, sia perché se ne conoscono i meccanismi interni e si è, così, in grado di intervenire per implementarli, sia perché sicuri in quanto “controllabili” e gestibili dall’esterno [per approfondimenti su quest’ultimo punto, consigliamo la lettura del Quaderno di Tech4Future contenente una raccolta di articoli sull’etica dell’intelligenza artificiale pubblicati sulla nostra testata – ndr].
Come apprende l’intelligenza artificiale: il fattore “robustezza”
Nello specifico, studiare come apprende l’intelligenza artificiale vuol dire sondare i fondamenti delle tecniche di machine learning e, più recentemente – per i ricercatori del Massachusetts Institute of Technology – andare alla radice della questione relativa alla robustezza dei suoi algoritmi, intesa quale capacità di comportarsi in modo corretto ed equilibrato in situazioni impreviste, non contemplate in fase di addestramento.
Non è fatto inusuale che un modello di apprendimento automatico abbia prestazioni elevate con i dati utilizzati per il suo addestramento, per poi fallire quando viene testato su dati diversi, ovvero nel momento in cui viene messo alla prova nella pratica.
La robustezza di un sistema AI, dunque, ha a che vedere con la sua affidabilità. E l’aspetto cruciale consiste nell’individuare per mezzo di quali tipologie di dati allenarlo, per poterlo definire “affidabile” in ogni compito assegnatogli.
In particolare, sotto il profilo della robustezza, sono l’elaborazione e la classificazione delle immagini i compiti ritenuti più critici per un modello di machine learning. Ed è proprio in quest’area che i team di studio del Massachusetts Institute of Technology – di cui fa parte anche Stefanie Jegelka – stanno esplorando nuove metodologie.
Il nodo maggiore, in questo segmento della ricerca, è rappresentato dalla difficoltà nell’avere a disposizione vaste mole di dati etichettati con cui allenare gli algoritmi AI, in modo tale che questi, impiegati in attività specifiche di riconoscimento degli stimoli visivi, siano poi in grado di effettuare un ampio numero di correlazioni – dalle più semplici alle più complesse – per classificare in modo puntuale le immagini.
In breve sintesi, l’obiettivo è fare in modo che il modello apprenda il più possibile durante il suo addestramento, affinché possa applicare le conoscenze acquisite nei suoi compiti a valle.
Quando i dati di input sono sotto forma di grafi
Un’area specifica di studio del MIT su come apprende l’intelligenza artificiale riguarda l’ottimizzazione dei modelli di machine learning nel caso in cui i dati di ingresso siano sotto forma di grafi, vale a dire di strutture costituite da un insieme di oggetti e dalle correlazioni tra questi.
La complessità dei dati contenuti all’interno dei grafi pone più di una sfida ai ricercatori AI. Innanzitutto, si è di fronte a una pluralità di informazioni, corrispondenti alla struttura stessa del grafo e ai nodi (connessioni) che in esso figurano. In secondo luogo, gli sviluppatori devono tenere da conto della simmetria matematica propria dei grafi, che va rispettata nella messa a punto degli algoritmi di intelligenza artificiale.
L’esempio emblematico, in questo caso, proviene dalla biologia e, più nel dettaglio, dalle strutture delle molecole coinvolte nello sviluppo dei farmaci. Molecole che, rappresentate sotto forma di grafi, presentano “vertici” corrispondenti agli atomi e “angoli” corrispondenti ai legami chimici tra gli stessi atomi.
In particolare, Stefanie Jegelka si occupa dello studio di metodi volti a costruire modelli di machine learning in grado di cogliere i dati dei grafi come input e – a partire da questi – di produrre dati di output che, nel caso specifico delle molecole, possono, ad esempio, riguardare le previsioni delle loro proprietà chimiche.
Il che – come si legge in un articolo pubblicato su MIT News l’8 gennaio 2023 – «è particolarmente impegnativo, poiché le proprietà di una molecola sono determinate non solo dagli atomi al suo interno, ma anche dalle connessioni tra di essi».
Come apprende l’intelligenza artificiale: il punto sulle Graph Neural Networks
La stessa Stefanie Jegelka, in un articolo dal titolo “Theory of Graph Neural Networks: Representation and Learning“, in cui fa il punto sulle proprietà di apprendimento delle GNN, spiega come le architetture di reti neurali mirate all’apprendimento di rappresentazioni di grafi siano ormai diventate «un popolare modello di come apprende l’intelligenza artificiale nell’ambito di attività di previsione che prevedano nodi e configurazioni di punti».
Negli ultimi anni, c’è stato – osserva – un crescente interesse nella risoluzione di compiti di apprendimento automatico in presenza di dati di input sotto forma di grafi, le cui applicazioni sul campo includono previsioni di attività sui social media; sistemi di predizione di collegamenti, «in cui, dati due nodi, si chiede di prevedere un vantaggio»; previsione delle proprietà delle molecole, previsione delle interazioni farmacologiche, solo per citarne alcune.
Nel riepilogare le attività che segnano il processo di apprendimento delle GNN, la ricercatrice ricorda la rappresentazione dei grafi, la generalizzazione dei dati in essi contenuti e la loro estrapolazione.
Tuttavia – fa notare – rimangono molte domande. Una di queste concerne la capacità di approssimazione delle Graph Neural Networks, ad oggi «ancora costose dal punto di vista computazionale».
Inoltre, la maggior parte delle applicazioni potrebbe non richiedere la potenza del grafo completo: a questo punto, sarebbe interessante indagare se i sottografi consentono risultati altrettanto validi nei compiti di apprendimento.
Al contrario, quali modifiche apportate alle GNN consentirebbero loro di generalizzare a partire da grafi di ordine superiore?
In generale – conclude Jegelka – rivelare ulteriori connessioni matematiche potrebbe, in futuro, consentire la progettazione di modelli di Graph Neural Networks più ricchi, oltre a una comprensione più approfondita delle loro capacità e dei limiti di apprendimento e degli eventuali miglioramenti.