Utilizzando le cosiddette "iperreti grafiche", un gruppo di ricercatori è giunto a prevedere i parametri di reti neurali artificiali profonde a partire da una serie di architetture già date, risparmiando, così, il tempo, i costi e l’energia normalmente necessari alla loro costruzione e al loro addestramento.
TAKEWAY
- Nei recenti test ai quali è stata sottoposta, la nuova Graphic Hyper Network è riuscita a prevedere i parametri di 500 architetture di reti neurali artificiali sconosciute, con un’accuratezza media del 66,9%.
- Se paragonata alla tecnica classica di addestramento (Stochastic Gradient Descent) è, inoltre, stata capace di effettuare le previsioni dei parametri in meno di un secondo, andando a incidere positivamente sui costi energetici.
- Se il modello delle iperreti si imporrà, la costruzione e l’addestramento di deep neural network, in futuro, non saranno più riservati alle aziende economicamente più solide e con maggiori risorse in termini di dati da cui attingere.
Trattare di reti neurali artificiali e hyper networks rimanda alla complessità delle loro stesse architetture. Costituite da milioni o addirittura miliardi di parametri, che vanno a formare la fitta trama delle connessioni tra i neuroni artificiali che le compongono, le reti neurali artificiali sono assai complicate da costruire e da addestrare.
In un paper dell’International Conference on Learning Representations (ICLR) del 2016, dal titolo “Deep compression: compressing deep neural networks with pruning, trained quantization and huffman coding”, a cura di un gruppo di ricercatori della Stanford University (USA) e della Tsinghua University di Pechino, si parla addirittura di come le reti neurali artificiali, in diversi casi, presentino molti più parametri di quanti, in realtà, ne siano necessari all’esecuzione di un dato compito e di come si possa intervenire per ridurre il loro numero (senza ledere il livello di accuratezza della rete) rendendo, di fatto, più semplice il loro allenamento.
Nel 2018 arriva una prima svolta. Un team di ricerca presso l’Università di Toronto, progettando quella che è stata definita Graphic Hyper Network (GHN) – tradotto in italiano con l’espressione “iperrete grafica” – avvia un nuovo e affascinante filone di studi, dedito a mettere a punto reti neurali profonde a partire da una serie di architetture già acquisite [per approfondimenti sulle reti neurali artificiali e, più in generale, sull’AI, consigliamo la lettura della nostra guida all’intelligenza artificiale che spiega cos’è, a cosa serve e quali sono gli esempi applicativi – ndr].
Reti neurali artificiali e hyper networks: cos’è un’iperrete grafica e come funziona
Nel concetto di “iperrete grafica”, vi è l’idea – secondo i suoi autori – che:
«… l’architettura di una rete neurale profonda possa essere rappresentata come un grafo matematico, ossia come una raccolta di nodi collegati da linee, dove i nodi rappresentano le unità di calcolo – corrispondenti, a loro volta, a un intero livello della rete – e le linee il modo in cui queste unità sono interconnesse»
In tema di reti neurali artificiali e hyper networks, il funzionamento di un’iperrete grafica prevede, innanzitutto, la messa a punto di un campione qualsiasi di architettura di rete, di cui vengono previsti determinati parametri. Nel momento in cui, invece, vengono impostati i parametri di una rete neurale effettiva, ne vengono testati i valori sulla base del campione a disposizione. Insomma, si tratta di una metodologia che, a partire da alcuni set di campioni, mira a individuare la migliore architettura possibile di rete neurale artificiale.
Dal 2018 veniamo ai nostri giorni, con un team di studio presso l’Università canadese di Guelph (Ontario) che, prendendo spunto proprio dagli studi sulla prima Graphic Hyper Network, ha di recente progettato e addestrato un’iperrete “madre” di altre reti neurali artificiali. Come funziona? Partendo da una rete neurale profonda, progettata per attività specifiche ma non addestrata, ne prevede i parametri (ovvero le architetture profonde) in un tempo rapidissimo (addirittura pochi secondi), aprendo a nuove prospettive nell’ambito del machine learning.
Un rete neurale artificiale ”madre” di altre reti
In tema di reti neurali artificiali e hyper networks, la nuova iperrete si chiama GHN-2 e, rispetto alla Graphic Hyper Network del team dell’Ateneo di Toronto, compie alcuni passi in avanti.
Iniziamo col dire che riprende dalla prima GHN la struttura matematica propria del grafo e il proprio metodo di addestramento. Quest’ultimo, in particolare, poggia su due reti: la prima va ad agire sui calcoli del grafo candidato, aggiornandone i nodi; la seconda parte dai nodi aggiornati (che considera input) per “prevedere” i loro parametri (ossia le connessioni che danno vita all’architettura)
I dati di addestramento sono costituiti da «un campione casuale di architetture di reti neurali artificiali», di cui, per ognuna, si utilizza l’iperrete del grafo per fare previsioni. Completate queste ultime, si fano svolgere alla rete candidata alcuni compiti specifici, come, ad esempio, l’elaborazione del linguaggio oppure il riconoscimento di un’immagine, misurandone le prestazioni. Sulla base di queste, vengono via via aggiornati i parametri dell’iperrete, affinché possa lavorare sempre meglio e, successivamente, giungere a un livello di addestramento ottimale.
La svolta compiuta dal gruppo di lavoro dell’Ateneo di Guelph consiste nell’avere identificato quindici tipologie di nodi «che possono essere mescolati e abbinati per costruire quasi tutte le moderne reti neurali profonde» e nell’avere affinato l’accuratezza delle previsioni. Riguardo a quest’ultimo punto, spiegano i ricercatori:
«…. per garantire che la nuova iperrete impari a prevedere i parametri per un’ampia gamma di architetture di reti neurali target, abbiamo creato un unico set di dati con un milione di architetture le più diverse possibili»
Reti neurali artificiali e hyper networks: i risultati dei primi test
In materia di reti neurali artificiali e hyper networks, al termine dell’addestramento atto a prevedere i parametri per un compito di classificazione delle immagini, è stata messa alla prova la capacità della nuova iperrete di fare previsioni circa i parametri di qualsiasi architettura di rete neurale candidata, che «potrebbe avere proprietà simili al milione di architetture contenute nel set di dati di addestramento, oppure essere completamente diversa».
Ebbene, la nuova Graphic Hyper Network è stata in grado di prevedere i parametri di ben 500 architetture di reti neurali artificiali mai viste prima. Nel dettaglio, per quanto riguarda i set di dati video CIFAR-10 (solitamente utilizzati per addestrare gli algoritmi di computer vision), la precisione media dell’iperrete è stata del 66,9%, con un 60% per quelle architetture estranee al set di dati. Inferiori, invece, i risultati ottenuti con un set di dati video molto più ampio qual è ImageNet, dove ha riportato un’accuratezza del 27,2%, comunque superiore a un 25,6% ottenuto dalle stesse reti addestrate per mezzo della classica tecnica SGD – Stochastic Gradient Descent.
Va detto, inoltre, che, rispetto a quest’ultima tecnica di addestramento, la nuova GHN è riuscita a lavorare in un lasso di tempo nettamente inferiore, effettuando le previsioni dei parametri in meno di un secondo, riducendo in questo modo – sottolineano gli sviluppatori – i costi energetici legati elle elevate risorse computazionali necessarie, a loro volta responsabili di innalzare l’impronta di carbonio.
Scenari aperti e impatti della nuova Graphic Hyper Network
Sono previste, per la nuova Graphic Hyper Network, significativi margini di miglioramento. Se oggi può essere allenata per prevedere i parametri di una rete neurale artificiale in grado di svolgere un dato compito alla volta (la classificazione di dati video contenuti nel set CIFAR-10 oppure nel set ImageNet), in futuro – osservano i suoi autori – potrà spingersi oltre e «addestrare iperreti grafiche su una maggiore diversità di architetture e su diversi tipi di compiti: riconoscimento di immagini, riconoscimento vocale ed elaborazione del linguaggio naturale, ad esempio».
In tema di reti neurali artificiali e hyper networks, si prevedono, inoltre, impatti positivi sul processo di democratizzazione dell’intelligenza artificiale, in quanto, se le iperreti prenderanno piede, la messa a punto di reti neurali artificiali non costituirà più un privilegio di quelle organizzazioni con maggiori disponibilità economiche e più facile accesso ai big data, ma chiunque, servendosi del nuovo Graphic Hyper Network, potrà costruire e addestrare le proprie reti.
L’impatto negativo di un’eventuale standardizzazione dell’ottimizzazione delle reti neurali artificiali potrebbe, invece, essere rappresentato dal fatto che, una scatola nera (quello che, in realtà, è una neural network) che prevede i parametri di un’altra scatola nera, in caso di errore, reitererebbe quest’ultimo e renderebbe oltremodo difficile, nel tempo, la sua spiegazione.
Tuttavia, un punto di forza assoluto, rispetto alla GHN del 2018, è il fatto che la nuova iperrete ha la capacità di generalizzare a partire da alcune caratteristiche di una data architettura del tutto sconosciuta, non comprese nei data set di riferimento. Quello che fa è «trasferire la conoscenza da un’architettura a un’altra». Abilità dalla quale potrebbe scaturire, in futuro, una «nuova teoria delle reti neurali».