Lo studio di due Atenei lituani propone un nuovo metodo per l’elaborazione e la classificazione delle immagini raccolte dai droni, relative alle condizioni delle facciate delle strutture architettoniche urbane.
Nell’ambito del monitoraggio dello stato di salute strutturale degli edifici urbani mediante l’impiego di droni, le tecniche di intelligenza artificiale sono in grado di svolgere un ruolo di supporto nelle attività di elaborazione e classificazione delle immagini raccolte, relative alle condizioni delle facciate delle strutture architettoniche prese in esame.
Ricordiamo che nei settori dell’ingegneria delle costruzioni e della gestione delle strutture, i droni sono diventati ormai uno strumento di raccolta di dati video quasi obbligatorio per l’analisi delle facciate degli edifici, portando a raccolte di set di dati di sequenza e di immagini di alta qualità da ogni angolazione, utilizzate prevalentemente per identificare difetti e problemi strutturali negli edifici storici.
«L’operazione diventa critica quando le immagini in questione variano nello stile, sono ostruite da numerosi altri oggetti o c’è una bassa possibilità di una visione chiara e senza ostacoli, come nel caso in cui si ha il compito di analizzare gli edifici dei tessuti urbani particolarmente complessi per estensione, traffico e densità di popolazione»
fanno notare gli autori dello studio “Building Façade Style Classification from UAV Imagery Using a Pareto-Optimized Deep Learning Network”, a cura dei ricercatori della Kaunas University of Technology, della Vilnius Gediminas Technical University – entrambe in Lituania – e dalla Silesian University of Technology, a Gliwice, in Polonia, i quali si sono focalizzati sulla definizione di una soluzione ad hoc per il supporto del monitoraggio delle facciate degli edifici della città di Vilnius, capitale della Lituania. Vediamo che cosa ne è emerso.
Intelligenza artificiale per la classificazione delle facciate degli edifici: il caso della città di Vilnius
In tema di intelligenza artificiale per la classificazione delle facciate degli edifici urbani, il lavoro di ricerca citato, concentrandosi su una città il cui centro storico – patrimonio mondiale UNESCO – è particolarmente ricco di edifici che variano per epoca, struttura, stile e dimensione, ha inteso indagare se gli algoritmi AI messi a punto fossero in grado di elevate performance in presenza di tale complessità sotto il profilo architettonico.
Nel dettaglio, lo studio ha preso in esame immagini del territorio cittadino riprese da droni, con l’obiettivo di aggiornare la mappa degli edifici di Vilnius per valutare il rapporto tra l’area occupata dai building e le aree verdi e valutare la condizione delle facciate degli edifici.
La difficoltà – in un contesto architettonico così sfaccettato – è consistita nel distinguere le facciate di ogni singolo edificio e nell’identificarle all’interno di un flusso video in tempo reale, dove – ad esempio – l’immagine di una data facciata viene ripresa davanti a un autobus cittadino in movimento.
«Immagini di questo tipo – osserva il team di studio – sono utili, semmai, per il rilevamento del contorno dell’edificio, ma non per la sua identificazione. Per estrarre le facciate degli edifici, invece, è raccomandabile l’utilizzo della tecnica della segmentazione semantica dei dati video».
Ricordiamo che, nell’ambito della visione artificiale, la segmentazione semantica è quel processo che, nell’analizzare dati video, raggruppa i pixel in base alla categoria di appartenenza delle immagini: ad esempio, i pixel appartenenti alla categoria “veicolo” vengono raggruppati separatamente rispetto ai pixel appartenenti alla categoria “edificio”. Ma andiamo nel dettaglio.
Segmentazione semantica dei dati video: focus sulla rete neurale Mask R-CNN
In tema di intelligenza artificiale per la classificazione delle facciate degli edifici urbani, la questione della segmentazione semantica delle immagini è stata risolta dagli autori ricorrendo a Mask R-CNN, rete neurale convoluzionale (CNN o ConvNet, dall’inglese Convolutional Neural Network) in grado di risolvere problemi di “segmentazione di singole istanze”, effettuando con precisione rilevamento, localizzazione e classificazione del singolo oggetto all’interno dell’immagine.
Si tratta di una tipologia di segmentazione che va oltre il semplice rilevamento, restituendo una chiara distinzione tra ogni oggetto classificato come simile: quando, ad esempio, tutti gli oggetti della scena sono persone, questo tipo di processo separa ogni persona in “singola entità”, in base al genere, all’altezza o al colore della pelle.
La raccolta dei dati di addestramento di Mask R-CNN ha visto un set di immagini contenente 8.768 fotografie scattate dai droni – da diverse angolazioni – a 611 edifici della città di Vilnius, in condizioni meteorologiche e di illuminazione variabili.
In tema di intelligenza artificiale per la classificazione delle facciate degli edifici, il 70% delle foto è stato utilizzato per l’allenamento della rete neurale. Mentre, la convalida è stata eseguita con il 20% delle foto e il restante 10% è stato utilizzato per i test. «Dopo la convalida – spiega il team – è stato eseguito un controllo circa la “robustezza” della rete per mezzo di immagini non utilizzate durante la fase di addestramento».
Infine, si è passati alla fase di test vero e proprio, in cui alla rete neurale è stato chiesto di classificare le facciate degli edifici assegnandole a uno dei diversi gruppi di stili selezionati:
- trasparente: sono presenti aperture, finestre, porte, fessure, facciate continue e altre caratteristiche che consentono una comunicazione senza ostacoli tra interno ed esterno
- opaco: non c’è una chiara distinzione visiva tra interno ed esterno a causa della presenza di grandi divisioni e chiusure
- composizioni miste
- forma composta: design fatto di proporzioni
- forma scomposta: sono presenti distorsioni e omissioni delle proporzioni
- forma mista: connessione tra distorsione o assenza di proporzioni e composizione di dettagli architettonici
Intelligenza artificiale per la classificazione delle facciate degli edifici: i risultati dei test
Lo studio in tema di intelligenza artificiale per la classificazione delle facciate degli edifici ha comportato una fase di test per mettere alla prova la funzione di segmentazione semantica propria della rete neurale impiegata.
Ebbene, i risultati della classificazione delle facciate degli edifici indicano una precisione media del 98,41% in condizioni di visualizzazione nitida, dell’88,11% in caso di pioggia e dell’82,95% quando l’immagine era parzialmente bloccata da altri oggetti o era nell’ombra.
«Per quanto concerne quella sezione del test in cui nessuna delle immagini sottoposte al sistema di intelligenza artificiale è stata utilizzata durante l’addestramento, il nostro approccio è stato comunque in grado di raggiungere un’accuratezza accettabile dell’88,6% nel rilevamento degli edifici. La rete, sfortunatamente, non è riuscita ad assegnare la classe corretta solo in presenza di immagini dall’alto, che mancavano di informazioni differenzianti sulla facciata»
commentano i ricercatori. Per valutare i limiti della metodologia sviluppata, gli autori hanno anche fatto una valutazione circa l’impatto del rumore ambientale sull’operatività della rete neurale. In primis – viene sottolineato – «l’elaborazione delle immagini all’aperto diventa problematica a causa delle condizioni meteorologiche che cambiano dinamicamente. Durante il giorno, quando il sole si trova in posizioni diverse, il contrasto tra i dettagli delle facciate degli edifici cambia notevolmente. E quando il sole colpisce l’obiettivo, il contrasto della foto diminuisce e l’immagine appare sfocata. Il che accade anche al tramonto».
Riflessioni conclusive
Lo studio in tema di intelligenza artificiale per la classificazione delle facciate degli edifici, pur con risultati che, nel complesso, suggeriscono che, in futuro, il sistema AI messo a punto potrebbe essere applicato al riconoscimento delle facciate di specifici edifici urbani, risente di limiti che hanno a che fare con un’accuratezza di rilevamento ancora in qualche modo dipendente dalle condizioni meteorologiche e dall’illuminazione generale.
Il gruppo di ricerca fa sapere che, prossimamente, lavorerà all’aumento e alla differenziazione dei dati video per l’addestramento della rete neurale, a loro avviso un fattore nodale nel tentare di superare le criticità correlate a variabili del tutto esterne. Intervenire sui dati di allenamento potrebbe, infatti, migliorare il livello di affidabilità dell’identificazione delle facciate degli edifici.
Un altro aspetto sul quale focalizzarsi in futuro riguarda, invece, il rischio che l’analisi di altre tipologie di edifici in un’altra area che non sia la capitale della Lituania richieda una modifica dell’architettura della rete stessa. Pensiamo solo agli edifici storici di una città come Roma, ad esempio. Che tipo di struttura di rete e che tipo di addestramento sarebbero necessari?
Si tratta di interrogativi aperti, in merito ai quali i ricercatori della Kaunas University of Technology, della Vilnius Gediminas Technical University – entrambe in Lituania – e della Silesian University of Technology, a Gliwice, in Polonia, cercheranno di rispondere nei prossimi step della ricerca.