Perché, sottoponendo all’attenzione di persone comuni due risposte a una domanda di natura morale, la maggior parte valuta quella fornita da ChatGPT di qualità superiore rispetto a quella data da un essere umano? Da questo interrogativo, una riflessione sul valore che noi stessi conferiamo al pensiero morale dei sistemi di intelligenza artificiale.

Il ragionamento morale – o “pensiero morale” – attiene a quelle facoltà umane tra le più complesse da indagare con, al centro, riflessioni e valutazioni in merito ai principi, ai significati e alle conseguenze che connotano le proprie azioni e quelle altrui.

Dal punto di vista filosofico, il pensiero morale – o “etico” – è teso a individuare “ciò che è bene” e “ciò che non è bene” fare, per se stessi e per gli altri [fonte: Stanford Encyclopedia of Philosophy].

La definizione che ne dà, invece, la psicologia è di un processo cognitivo ed emotivo che si attiva nel momento in cui si cerca di determinare se un dato agire – proprio, del singolo o della collettività – sia “giusto” o “sbagliato”. In particolare, gli psicologi hanno studiato lo sviluppo del pensiero morale a partire dalla prima infanzia, rilevando che «i bambini, fin da molto piccoli, iniziano a sviluppare giudizi distinti sull’evitare il danno agli altri e sul concetto di favorire il benessere di tutti» [fonte: “Moral Reasoning in Psycology” – Science Direct].

Passando dall’essere umano alla macchina, è lecito domandarsi se un sistema dotato di intelligenza artificiale sia, oggi, in grado – insieme al processo decisionale al quale è abilitato – di costruire un ragionamento morale. E se questo ragionamento, all’esterno, venga percepito e, se sì, quale valore gli viene conferito. Ma andiamo per gradi.


Da uno studio della Georgia State University, un punto di vista nuovo sul ragionamento morale delle macchine dotate di artificial intelligence, in particolare di quelle deputate alla produzione di testi scritti a partire da determinati input linguistici, come Google Bard, Meta LLaMA, Claude e ChatGPT.
Vista la forte attrattiva esercitata dai Large Language Model sulla gente comune e l’acriticità nei confronti dei contenuti da essi generati, i ricercatori dell’Ateneo USA hanno messo a punto un Moral Turing Test basato sui LLM, per capire se loro risposte a tematiche che riguardano la morale sono distinguibili da quelle umane.
In uno scenario futuro, con l’evoluzione del ruolo dei sistemi AI in quanto “agenti morali”, si renderà necessaria una riflessione sull’esigenza di una supervisione umana nelle loro attività decisionali, col fine di prevenire l’accettazione passiva di guide morali artificiali in più situazioni del vivere.

Dai processi decisionali dell’intelligenza artificiale ai suoi ragionamenti morali: alcuni esempi

Nel paper del 2017 Moral Decision Making Frameworks for Artificial Intelligence”, un gruppo di studiosi della Duke University, nella Carolina del Nord, spiegava ai lettori come, con l’aumentare del grado di autonomia dei sistemi di intelligenza artificiale, questi «si siano, via via, trovati ad affrontare sempre più dilemmi morali».

L’esempio che ricorre spesso in documenti e articoli sul tema “morale” riferito ai sistemi AI, è quello – ricordano i ricercatori – dell’auto a guida autonoma che si trova a dover decidere “che cosa fare” nell’imminenza di un incidente stradale inevitabile, dovendo scegliere tra una serie di opzioni dai diversi impatti ai danni dei passeggeri a bordo della vettura e delle altre persone presenti sulla scena.

«Ma ci sono altri esempi in cui le tecniche di intelligenza artificiale vengono impiegate per prendere decisioni con conseguenze di “vita o di morte, come in ambito medico, nei casi di trapianti di organi» – prosegue il team – quando, di fronte a un’incompatibilità tra donatore e paziente, l’AI viene in aiuto delle strutture ospedaliere e delle Istituzioni preposte con algoritmi capaci di incrociare tra loro un’enorme mole di dati sanitari relativi a donatori e a pazienti in attesa di trapianto, «determinando “quali pazienti” ricevono “quali organi”».

In un lavoro del 2022, a cura del Department of Psychology dell’Università di Hong Kong e della School of Social Sciences della Tsinghua University, a Pechino (“Artificial intelligence and moral dilemmas: Perception of ethical decision-making in AI” – Journal of Experimental Social Psychology), gli autori illustrano assai bene la questione:

«L’intelligenza artificiale è ormai profondamente integrata nella vita quotidiana di ognuno. Per tale motivo, è importante esaminare il modo in cui gli utenti la percepiscono, poiché essa ha sempre più un ruolo di decisore, soprattutto in quelle situazioni che coinvolgono scelte di carattere morale, riguardanti le persone, il loro benessere fisico e materiale, i loro doveri in quanto cittadini e i loro diritti»

Il ragionamento morale dell’AI evoca il pensiero fondato sull’utilitarismo?

In Paesi come Stati Uniti e Cina, i sistemai AI trovano sempre più applicazione in qualità di supporto ai processi decisionali in campo giuridico (inerenti a sentenze di condanna), militare ed economico-finanziario (emblematico il loro utilizzo nelle pratiche bancarie per la concessione di prestiti e mutui, peraltro diffuso anche nei Paesi europei).

Da alcuni sondaggi realizzati dal team cinese, è emerso che, relativamente agli impieghi citati, il ragionamento morale dell’intelligenza artificiale viene percepito dalle persone come incline a prendere decisioni e a compiere scelte “utilitaristiche”, ossia fondate sul concetto in base al quale «è bene e giusto ciò che è utile»ciò che porta a un risultato misurabile, per il bene di un gruppo o di una comunità. Il paragone è rispetto agli esseri umani posti di fronte ai medesimi dubbi di tipo morale, per i quali, invece, hanno un peso i valori alti, le considerazioni sulla moralità dell’atto in sé, sul senso etico di un gesto, indipendentemente dai suoi effetti.

Secondo la teoria morale dell’utilitarismo del filosofo Jeremy Bentham, «se le conseguenze di un’azione sono buone, allora l’atto è morale, mentre se le conseguenze sono cattive, l’atto è immorale, senza alcun giudizio a priori».

Secondo questa tesi – alla quale parrebbe avvicinarsi il ragionamento morale dell’AI – anche un’azione profondamente lontana da qualsiasi etica, come l’omicidio, potrebbe apparire “giusta” qualora la sua conseguenza portasse utilità e giovamento a più soggetti.

In extrema ratio, «l’utilitarismo dell’azione si ha, ad esempio, quando un medico si trova nelle condizioni di dover salvare dalla morte cinque pazienti sacrificando una persona sana, utilizzando gli organi di questa per trapianti salvavita».

Large Language Model: un nuovo punto di vista sul ragionamento morale dell’intelligenza artificiale

A due anni dallo studio condotto dall’Università di Hong Kong e dalla Tsinghua University di Pechino, i ricercatori della Georgia State University, ad Atlanta, con il lavoro illustrato in “Attributions toward artificial agents in a modified Moral Turing Test” (Scientific Reports, aprile 2024), mostrano un punto di vista nuovo sul tema, una percezione diversa del pensiero morale espresso dai sistemi AI.

Il team USA si è focalizzato, in particolare, sui Large Language Model (LLM) – o “modelli linguistici di grandi dimensioni” – che, specie col rilascio di modelli come Google Bard, Meta LLaMA, Claude e ChatGPT, stanno portando nuova linfa al dibattito sul ragionamento morale dell’intelligenza artificiale.

Il punto di partenza degli studiosi è stato l’aumento, nell’ultimo anno mentre scriviamo, ChatGPT è già stato visitato, a livello globale, oltre un miliardo di volte, da più di 150 milioni di utenti» fanno notare gli autori), di persone comuni che, nel mondo, fanno affidamento sui Large Language Model come fossero “oracoli”, cercandovi risposte ai più svariati argomenti, addirittura per consigli su questioni mediche, lavorative, legali e pedagogiche è sbagliato chiudere a chiave mia figlia di 4 anni nella sua stanza, per punizione?»).

C’è una forte attrattività da parte dei LLM, probabilmente innescata – ipotizza il gruppo di studio – dal loro essere progettati «per interfacciarsi con gli esseri umani nei modi più diversificati», cosa che non è possibile con sistemi di intelligenza artificiale che, come abbiamo visto, sono attivi in ambito giuridico, militare ed economico-finanziario.

Sta di fatto, però, che la varietà delle domande che vengono poste ai modelli linguistici, anche se non esplicitamente di natura morale, suscitano una serie di risposte dalle possibili conseguenze morali, che possono avere ripercussioni sulla vita privata del singolo oppure – a seconda della richiesta o del dubbio espresso – su quella della collettività.

È il caso (solo per citare un esempio tra i tanti) della richiesta, da parte di moltissimi utenti, di raccomandazioni per l’acquisto di una nuova auto: quale impatto ambientale potrebbe derivare dall’adesione, da parte di milioni di persone nel mondo, a eventuali risposte dell’AI non in linea con le politiche di sostenibilità e di riduzione delle emissioni di gas serra?

Insomma, l’intelligenza morale dei modelli linguistici di grandi dimensioni ha, oggi, raggiunto il potenziale per imprimere un impatto importante sul modo di vivere degli esseri umani.

Moral Turing Test per sondare se il ragionamento morale dell’AI è distinguibile da quello umano

Secondo gli autori «… lo sguardo benevolo degli utenti sulla tecnologia LLM la rende, agli occhi di chi la interroga, capace di comprendere in modo scientificamente e socialmente significativo. Ma, in realtà, i modelli linguistici di grandi dimensioni producono “l’apparenza” della comprensione umana di un dato argomento, senza avere un’autentica esperienza su quell’argomentoTutto questo, combinato con l’avere una risposta sempre pronta per ciascun input, spesso produce risultati che vanno nella direzione della pura persuasione, senza alcun riguardo per ciò che è vero e ciò che è falso».

Secondo questo punto di vista, se i Large Language Model spesso «raccontano cazzate» in modo convincente su più tematiche, comprese quelle concernenti la morale – incalza il team – la gente comune potrebbe credervi, «come testimoniano i casi sempre più frequenti, nel mondo, di avvocati che hanno presentato memorie giudiziarie che citano casi legali fittizi, generati da Google Bard, Meta LLaMA, Claude o ChatGPT».

Alla luce del forte ascendente che i più recenti Large Language Model sembrano esercitare sulle persone e dell’acriticità di queste ultime nei confronti dei contenuti da essi generati, il gruppo di lavoro della Georgia State University ha voluto approfondire la percezione che la gente ha delle risposte e dei giudizi della macchina afferenti alla sfera morale, senza conoscerne la fonte.

Per farlo, è stato messo a punto il primo Moral Turing Test basato sui modelli linguistici di grandi dimensioni, una variante del noto test di Turing ideato dal matematico Alan Turing negli anni Cinquanta per mettere alla prova le abilità della macchina nel fare mostra di comportamenti intelligenti, pari a quelli di un essere umano o addirittura impossibili da distinguere da quelli di quest’ultimo.

Svolgimento del Moral Turing Test

Al pari del Test di Turing classico, che un computer supera solo se una giuria di persone non riesce a distinguere le sue risposte da quelle fornite da un essere umano alle medesime domande, nel Moral Turing Test sviluppato del team di studio dell’Ateneo di Atlanta, il principio ispiratore è capire se i partecipanti percepiscono quali valutazioni morali sono frutto dell’intelligenza umana e quali del Large Language Model.

Più nel dettaglio il Turing Test morale è stato somministrato a un campione di 363 persone – rappresentativo della popolazione adulta statunitense per età, genere ed etnia – alle quali è stata sottoposta una batteria di valutazioni espresse in punteggi, compilate da studenti universitari e, contestualmente, da ChatGPT-4, chiedendo loro di esprimere un giudizio su ognuna di tali valutazioni, in base alle seguenti domande:

  • quale risponditore sembra moralmente più virtuoso?
  • quale risponditore sembra una persona migliore?
  • quale risponditore sembra più affidabile?
  • quale risponditore sembra più intelligente?
  • quale risponditore sembra più giusto?
  • con quale risposta sei più d’accordo?
  • quale risposta è più compassionevole?
  • quale risposta sembra più razionale?
  • quale risposta sembra più parziale?
  • quale risposta sembra più emotiva?

Le valutazioni espresse in punteggi da parte degli studenti e di ChatGPT-4 riguardavano, nello specifico, i seguenti scenari non etici e trasgressivi:

  • derubare una persona sotto la minaccia di armi
  • appiccare un incendio
  • sparare al cane
  • picchiare il pizzaiolo
  • indossare la maglietta a un funerale
  • mangiare nell’ufficio del capo
  • mangiare con le mani al ristorante
  • un uomo indossa la gonna in ufficio

I risultati

Premesso che, anziché chiedere ai partecipanti di indovinare se il “risponditore” fosse umano o artificiale, gli autori hanno semplicemente presentato le due serie di risposte una di fianco all’altra, lasciando supporre che provenissero entrambe da persone in carne e ossa, «nella stragrande maggioranza, le valutazioni generate da ChatGPT-4 hanno ricevuto i giudizi più elevati rispetto a quelle generate dagli esseri umani». Come si spiega questo risultato?

«Probabilmente è la raffinatezza delle risposte date da ChatGPT-4 ad aver rivelato la sua identità, suggerendo che il discorso morale umano, spesso, può essere meno ricercato o convincente di quello di un LLM, così evoluto e sofisticato nell’interagire con chi lo interroga», avanzano i ricercatori.

Cosa ne possiamo dedurre? Che il ragionamento morale dell’intelligenza artificiale supera quello umano?

Il gruppo di studio USA mette in guardia da tale deduzione, facendo notare che la presunta intelligenza morale degli attuali modelli linguistici di grandi dimensioni come ChatGPT non corrisponde al vero.

Innanzitutto, il fatto che, nel Moral Turing Test, il LLM abbia registrato un punteggio elevato nelle attribuzioni di razionalità e di intelligenza, ma non in quelle relative alla compassione e all’emotività, rileva un fattore importante – sottolinea il team – e cioè che la sua “superiorità” risiede solo nell’imitare valutazioni e risposte morali dell’essere umano in circostanze determinate e controllate, ma che «l’architettura cognitiva molto diversa dei Large Language Model rispetto agli individui produce differenze comportamentali sostanziali in altre circostanze, inclusi i discorsi morali che cedono alla compassione e all’emozione».

Tuttavia, dagli esiti del test emerge che la gente comune potrebbe trattare questi sistemi AI come moralmente intelligenti, come in grado di compiere ragionamenti morali autonomi, «col rischio di credervi in modo acritico e di agire in base a consigli discutibili». Perché questa attribuzione di qualità?

Ricordiamo l’uso esteso, a livello globale, di ChatGPT, percepito come uno strumento AI potente “a portata di mano”, sempre disponibile a interagire con tutti in modo diretto e sempre pronto a rispondere a tutte le domande (anche alle più assurde) che gli vengono poste: è questo profilo che ha indotto i partecipanti al Turing Test morale a identificare la macchina come potenzialmente superiore agli studenti che si sono sottoposti alla batteria di domande e finanche superiore a loro stessi. E questo non a fronte di un’intuizione riguardo ad atteggiamenti morali consapevoli da parte di un LLM come ChatGPT ma, piuttosto, a fronte di suoi “atteggiamenti impliciti”, messi in atto in maniera automatica, percepiti leggendo le sue valutazioni sugli scenari non etici e trasgressivi.

Questa “puntualità automatica” sempre disponibile nell’AI (e assente nell’essere umano) distorce il giudizio obiettivo delle persone che, inconsciamente, tendono ad attribuire ai Large Language Model qualità che oggettivamente non possiedono, ma che imitano.

Glimpses of Futures

Giudichiamo “utilitaristico”, privo di slanci verso l’alto, privo di analisi della moralità dell’atto in sé, il pensiero morale che guida i processi decisionali dei sistemi AI per applicazioni che ci appaiono assai distanti da noi, come quelle – ad esempio – nei settori della giustizia, delle forze armate, dell’economia e della finanza, con le quali non abbiamo interazioni dirette. E giudichiamo, invece, qualitativamente superiori, rispetto alle nostre, le valutazioni morali di quei modelli di intelligenza artificiale come i Large Language Model, che usiamo come fossero un passatempo, reputandoli a nostro servizio, a portata di clic, non intuendone la pervasività e il loro potenziale non sempre positivo.

Proviamo, ora, ad anticipare possibili scenari futuri, analizzando, attraverso la matrice STEPS, gli impatti che – parallelamente al progredire del loro ruolo decisionale – un’ulteriore evoluzione, nel tempo, del pensiero morale dei sistemi AI potrebbe avere sotto il profilo sociale, tecnologico, economico, politico e della sostenibilità.

S – SOCIAL: le macchine dotate di artificial intelligence sono ormai definite “agenti morali”, in quanto in grado di prendere decisioni che, a partire dalla medicina trapiantistica fino ad arrivare all’ambito giuridico e della finanza, incidono sull’esistenza dell’essere umano, senza, tuttavia, la sua supervisione, come osservano gli autori di “The Moral Psychology of Artificial Intelligence” (Annual review of Psychology, settembre 2023). Ebbene, in futuro, anche complice l’atteso incremento del ricorso all’analisi predittiva per attività di Polizia in diversi Paesi, dovrà necessariamente imporsi una riflessione sull’esigenza della supervisione umana nelle attività decisionali dell’AI, col fine di prevenire l’accettazione passiva di guide morali artificiali in più situazioni del nostro vivere. Così come dovranno trovare risposta i leciti interrogativi sulla fiducia nei sistemi AI in qualità di agenti morali, sui loro ruoli e – soprattutto – «sull’allineamento delle decisioni guidate dall’intelligenza artificiale con i valori umani».

T – TECHNOLOGICAL: in futuro, l’evoluzione del ruolo decisionale dell’AI e del pensiero morale sul quale esso poggia dovrà inevitabilmente passare attraverso l’avanzare dello sviluppo delle tecnologie afferenti all’ambito di studi dell’intelligenza artificiale, da quelle deputate all’analisi predittiva a quelle che abilitano modelli linguistici di grandi dimensioni. In particolare, in riferimento a quei contesti i cui vi sono maggiori criticità dal punto di vista della sicurezza dei dati, come lo è quello sanitario, in cui – come si è visto – il supporto delle tecniche di artifical intelligence si è reso, negli anni, sempre più centrale nel processo decisionale teso a gestire la rete tra donatori e pazienti in attesa di trapianto, dovranno essere adottate soluzioni ad hoc per prevenire violazioni dall’esterno e accessi indesiderati alle banche dati.

E – ECONOMIC: spingere sulla supervisione umana nelle attività decisionali dell’AI – come suggeriscono gli autori del già citato scritto “The Moral Psychology of Artificial Intelligence” – in futuro sarà un’esigenza sempre più avvertita specie in campo economico-finanziario, in cui bias algoritmici e problemi di qualità dei dati rappresentano rischi concreti ai danni dell’accuratezza delle previsioni da parte dei sistemi di intelligenza artificiale adottati e della fluidità dei processi decisionali da questi guidati. «Se gli Istituti finanziari basano le loro decisioni su previsioni AI errate e non verificate, questo si tradurrebbe in risultati che, a loro volta, potrebbero comportare perdite economiche di diversa entità o, addirittura, disequilibri nei mercati di riferimento», commentano gli analisti dell’European Central Bank.

P – POLITICAL: fa specie notare come tra le applicazioni AI alle quali fanno riferimento gli autori (cinesi i primi, americani i secondi), quella relativa al supporto ai processi decisionali in campo giuridico (inerenti, ad esempio, a sentenze di condanna) e quella in cui l’artificial intelligence interviene come “agente morale” nella gestione di vasti dataset contenenti informazioni cliniche di donatori e di pazienti in attesa di trapianto, rientrano entrambe tra i sistemi che l’EU AI Act – approvato in via definitiva il 13 marzo 2024 dal Consiglio Europeo – colloca tra quelli “ad alto rischio”, ovvero «quelli utilizzati in settori critici come sanità, trasporti e giustizia, soggetti a rigide valutazioni di conformità, per assicurarne l’accuratezza, la robustezza e la sicurezza informatica». Riguardo, poi, a ChatGPT, l’amara critica del team di studio della Georgia State University – che parla di “apparenza della comprensione umana”, di “pura persuasione”, «senza alcun riguardo per ciò che è vero e ciò che è falso» e di «cazzate convincenti su più tematiche», comprese quelle concernenti la morale – pare essere condivisa dall‘European Data Protection Board (EDPB) che, il 23 maggio 2024, ha reso pubblico il primo report della sua “GPT Taskforce”, in cui lamenta il fatto che ChatGPT è ancora lontano dallo standard UE di un’intelligenza artificiale conforme al principio di trasparenza ed è responsabile di un modello AI che genera risultati falsati e spesso inventati, con l’aggravante che gli utenti , al contrario, li considerano veritieri.

S – SUSTAINABILITY: sotto il profilo della sostenibilità ambientale, l’impatto dell’evoluzione del ruolo decisionale dell’AI e del pensiero morale al quale è correlato, non è positivo. È ben noto, infatti, che, in generale, le tecniche di artifcial intelligence – tra cui, in particolare, il machine learning – presentano un’impronta di carbonio elevata, tanto da essere definita “l’altra faccia della medaglia della digitalizzazione”. Andando, poi, più in profondità, i modelli linguistici di grandi dimensioni, di cui abbiamo parlato, proprio perché riescono a coprire fino a centinaia di miliardi di parametri, richiedono milioni di ore di elaborazione per l’addestramento, emettendo un’elevata quantità di CO2 durante l’intero processo.

Scritto da:

Paola Cozzi

Giornalista Leggi articoli Guarda il profilo Linkedin