In questo momento, uno dei filoni di ricerca in ambito AI è volto ad addestrare modelli di machine learning al pensiero astratto e simbolico, spingendosi, in futuro, a modelli di apprendimento automatico in grado di comprendere addirittura le analogie. Sempre più vicini ai processi cognitivi umani, tali modelli spianano la strada ad applicazioni finora impensabili.
Il learning machine – o machine learning, in italiano “apprendimento delle macchine” o “apprendimento automatico” – è quel segmento dell’Intelligenza Artificiale in base al quale i sistemi sono in grado di apprendere automaticamente dai dati, identificare modelli e prendere decisioni in modo autonomo.
Il pensiero astratto, invece, è uno dei tratti distintivi dell’intelligenza umana, caratterizzato da operazioni mentali eseguite su contenuti non immediatamente percepibili, che si distaccano dalla sfera del concreto.
Dal pensiero astratto dipendono molte espressioni dell’intelligenza umana: il linguaggio, la matematica, l’arte e perfino la spiritualità sono collegate al sapere mettere in relazione simbolo (segno, suono, gesto) e significato.
Per un computer, per una macchina, tale organizzazione del pensiero non è affatto semplice da apprendere. Ma, a partire dagli ultimi anni, la ricerca sta tentando di avvicinarsi sempre di più a questo processo cognitivo umano, servendosi di modelli di learning machine addestrati e allenati su parole e immagini correlate tra loro. Vediamo in che modo.
Learning machine e ragionamento visivo
In occasione della recente edizione (virtuale) della “Conferenza europea sulla visione artificiale”, lo scorso agosto, è stato presentato uno studio che vede al centro un modello di machine learning fatto di linguaggio e di immagini, in grado di incrociare gli eventi contenuti in una serie di filmati e di elaborare i concetti che li mettono in relazione.
Modello che ha funzionato, in particolare, in due tipi di ragionamento visivo: individuare il filmato che, concettualmente, completava meglio il relativo set di parole e di significati e individuare il filmato che, al contrario, non vi si adattava.
“Con questo lavoro, abbiamo dimostrato che, ad oggi, è possibile integrare l’astrazione in un sistema di intelligenza artificiale, con l’obiettivo di eseguire attività di ragionamento visivo che si avvicinano al modello umano. A che cosa serve un modello di apprendimento automatico in grado di riconoscere eventi astratti? A fare previsioni più accurate e a facilitare i processi decisionali“
afferma Aude Oliva, tra gli autori dello studio, co-direttore del MIT Quest for Intelligence – progetto di ricerca del Massachusetts Institute of Technology (MIT) – e direttore del MIT-IBM Watson AI Lab.
Machine learning e reti neurali artificiali: abilità di riconoscimento e di ragionamento
Man mano che le reti neurali artificiali (neuroni artificiali) acquisiscono sempre più abilità nel riconoscere oggetti e azioni contenute all’interno di fotografie e video, i ricercatori puntano a traguardi ancora più ambiziosi: astrazione e modelli di addestramento per ragionare su ciò che la macchina vede. Dal riconoscimento al ragionamento, dunque.
Gli approcci a tale studio sono differenti. In un primo approccio, i ricercatori coniugano l’abilità delle reti neurali artificiali nel creare corrispondenze tra oggetti ed eventi e la capacità logica del gioco simbolico (basato sulla rappresentazione, mediante simboli, di qualcosa che non è realmente presente), col fine di insegnare al modello di machine learning a interpretare le complesse relazioni tra gli oggetti all’interno della scena.
In un altro approccio, invece, i ricercatori quantificano le relazioni insite nei significati delle parole, per conferire al modello di apprendimento automatico un maggiore potere di ragionamento visivo.
“Le rappresentazioni linguistiche ci consentono di integrare nei nostri modelli visivi le informazioni contestuali apprese dai database di testo” spiega Mathew Monfort, ricercatore presso il Computer Science and Artificial Intelligence Laboratory (CSAIL) del MIT e tra gli autori di un’altra ricerca sul tema. E fa notare:
“Parole come ‘corsa’, ‘sollevamento’ e ‘boxe’ condividono alcune caratteristiche comuni che le rendono più strettamente correlate al concetto di ‘esercizio fisico’, ad esempio, rispetto a quello di ‘guida’ “
Pensiero astratto artificiale e pensiero astratto umano
Utilizzando WordNet – database semantico-lessicale della lingua inglese elaborato dal linguista George Armitage Miller presso l’Università di Princeton – i ricercatori hanno creato alcune “classi di attività” per tutti i set di dati utilizzati.
Ne è derivato che parole come “scolpire”, “intagliare” e “tagliare”, ad esempio, nella ricerca del CSAIL del MIT venivano collegate a concetti superiori quali “artigianato”, “fare arte” e “cucina”. E, quando il modello riconosce un’attività come la scultura, è anche in grado di individuare attività concettualmente simili nel set di dati.
Questo schema di classi astratte viene utilizzato per addestrare il modello a eseguire due attività di base:
- dato un insieme di video, il modello crea, per ciascuno, una rappresentazione che si allinea con le rappresentazioni delle parole riferite alle azioni mostrate
- un modulo di astrazione raggruppa, quindi, tutte le rappresentazioni generate per ciascun video, creando così una “nuova rappresentazione”, che viene utilizzata per identificare l’astrazione condivisa da tutti i video
Per confrontare pensiero astratto artificiale e pensiero astratto umano, i ricercatori hanno chiesto a un gruppo di soggetti di eseguire la stessa serie di compiti di ragionamento visivo eseguita dal sistema di intelligenza artificiale. Ebbene, con loro sorpresa, il modello, in molti scenari, si è comportato come gli esseri umani.
E, a volte, con risultati inaspettati: ad esempio, dopo avere visto un video di qualcuno nell’atto di avvolgere un oggetto con carta da regalo e nastro adesivo, il modello di machine learning, come risposta, ha suggerito un filmato che mostra qualcuno in spiaggia mentre insabbia una persona, coprendola totalmente. Diciamo che, concettualmente, la riposta è pertinente, in quanto si tratta, effettivamente, di un’azione “coprente”, anche se diversa, per caratteristiche visive, dalla prima clip.
Learning machine e pensiero astratto: limiti e scenari futuri
Proprio questo esempio, che rimanda all’azione di “avvolgere” e al concetto di “coprente”, mostra i limiti del modello, che includono la tendenza a enfatizzare alcuni aspetti del ragionamento visivo e dell’associazione semantica.
In un altro caso, ad esempio, il modello ha suggerito di completare una serie di filmati in tema di sport, con un video di un bambino che gioca a palla, associando in maniera assoluta la palla ai concetti di “esercizio fisico” e di “competizione”.
In futuro, in modello di machine learning addestrato a pensare in modo sempre più astratto, potrebbe addirittura essere in grado di apprendere con meno dati a disposizione, affermano i ricercatori.
Certamente l’astrazione, nell’ambito dell’Intelligenza Artificiale, apre la strada a un ragionamento di livello superiore, più simile a quello umano. Peculiarità unica dei processi cognitivi umani è la capacità di descrivere qualcosa in relazione a qualcos’altro, di stabilire paralleli, fare confronti. E il tutto simultaneamente.
Conclude Aude Oliva, co-direttore del MIT Quest for Intelligence e direttore del MIT-IBM Watson AI Lab:
“Gli studi e le ricerche attuali, volti ad addestrare modelli di machine learning al pensiero astratto e simbolico, potrebbero aprire a modelli di apprendimento automatico in grado di comprendere addirittura le analogie, avvicinandoli sempre di più ai processi cognitivi umani e spianando la strada ad applicazioni finora impensabili”