Anthropic ha deciso di fare una cosa che nel marketing della Silicon Valley suona come una rivoluzione e nella storia delle idee assomiglia più a un esperimento già visto. Ha messo la propria coscienza artificiale ai voti. Quindicimila persone coinvolte, discussioni pubbliche, preferenze aggregate, valori ordinati come se fossero feature di prodotto. Nasce così la nuova costituzione dei modelli Anthropic, un documento che sostituisce le regole scritte dagli ingegneri con un presunto consenso umano. L’operazione viene presentata come un passo avanti verso un allineamento morale più autentico, meno elitario, meno californiano. In realtà è molto di più. Ed è anche molto di meno.
Il punto chiave è uno solo, anche se viene raccontato con parole morbide come collective design o moral alignment. Anthropic non vuole più decidere da sola cosa sia giusto o sbagliato per una macchina che parla come un umano. Vuole che sia la folla a farlo. Non una folla qualunque, certo, ma una selezione ampia di utenti globali che votano principi come equità, sicurezza, rispetto, evitando riferimenti culturali troppo espliciti. Il risultato è una costituzione morale scritta non da filosofi, giuristi o teologi, ma da un campione di internet. Wikipedia con steroidi etici.
Sulla carta sembra nobile. Nella sostanza è un capolavoro di ingegneria politica applicata all’intelligenza artificiale. Perché quando deleghi le decisioni morali a una maggioranza anonima, non stai democratizzando l’etica. Stai diluendo la responsabilità. Se domani un modello risponde in modo discutibile, discriminatorio o semplicemente stupido, il colpevole non è più l’azienda. È il consenso. È la media statistica dei valori umani. È la folla. E la folla, si sa, non firma contratti né paga multe.
La costituzione precedente era scritta dagli employee di Anthropic. Persone identificabili, con un background, una cultura, una visione del mondo. Questo era un problema politico e regolatorio, perché implicava che una manciata di ingegneri decidesse cosa fosse moralmente accettabile per miliardi di utenti. Ora quel problema viene elegantemente spostato. Non risolto. Spostato. La governance dell’intelligenza artificiale diventa una questione di processo partecipativo, non di contenuto. Un dettaglio non da poco, soprattutto in un momento storico in cui i regolatori iniziano a fare domande scomode.
C’è un’ironia sottile in tutto questo. Anthropic dichiara di voler evitare bias culturali specifici, ma sceglie come strumento un esperimento di massa online. Chiunque abbia un minimo di esperienza in piattaforme digitali sa che non esiste nulla di più culturalmente connotato di una community online. Lingua, accesso tecnologico, alfabetizzazione digitale, tempo libero, motivazione a partecipare. Tutti filtri potentissimi. L’idea di una morale universale che emerge spontaneamente da quindicimila click è affascinante quanto l’idea che il mercato sia sempre razionale.
Il cuore tecnico dell’operazione è il supervised training basato su principi scritti. Il modello impara a valutare le proprie risposte confrontandole con la costituzione. Non impara cosa è vero, ma cosa è approvato. Non distingue il bene dal male, ma il conforme dal non conforme. Questo è un passaggio cruciale per capire la posta in gioco. L’allineamento morale dell’AI non è un processo di comprensione, ma di ottimizzazione rispetto a regole testuali. Se quelle regole sono ambigue, contraddittorie o semplicemente mediocri, il modello diventerà estremamente bravo a essere mediamente morale.
Qui entra in scena la grande rimozione filosofica dell’operazione Anthropic. L’idea implicita è che le grandi questioni morali siano risolvibili tramite aggregazione di preferenze. Come se millenni di filosofia, diritto e conflitti sociali potessero essere compressi in un sondaggio strutturato. È la stessa illusione che ha accompagnato molte piattaforme sociali. Se lasciamo decidere agli utenti, emergerà il meglio. Spoiler. Spesso emerge il più rumoroso, il più semplice, il più rassicurante.
Dal punto di vista strategico, però, l’operazione è brillante. In un contesto in cui l’AI Act europeo, le linee guida statunitensi e le pressioni geopolitiche chiedono sempre più accountability, Anthropic può dire di non imporre valori. Li riflette. Non decide cosa l’AI dovrebbe dire. Lo scopre. È una posizione difensiva molto elegante. Se un regolatore chiede perché il modello ha una certa posizione su un tema sensibile, la risposta è già pronta. Non è una scelta aziendale, è un risultato collettivo.
Questo sposta anche il dibattito pubblico. Non si discute più se un’azienda privata abbia il diritto di definire l’etica di una macchina globale. Si discute se la maggioranza abbia sempre ragione. È un terreno scivoloso, ma comodo. Perché criticare una maggioranza è sempre più difficile che criticare un consiglio di amministrazione. E soprattutto è meno efficace dal punto di vista reputazionale.
C’è poi un altro aspetto raramente menzionato. Le costituzioni morali, anche quelle delle macchine, non sono neutrali rispetto al potere. Decidere cosa un’AI non può dire è spesso più importante di decidere cosa può dire. E qui la logica del consenso tende a favorire lo status quo. Le idee radicali, le critiche sistemiche, le verità scomode sono raramente popolari. Un modello addestrato a rispettare il consenso rischia di diventare un perfetto amministratore delegato del pensiero medio. Educato, prudente, inclusivo nelle parole e conservatore negli effetti.
Nel lungo periodo questo tipo di governance dell’intelligenza artificiale potrebbe produrre un paradosso interessante. Più cerchiamo di rendere l’AI allineata ai valori umani, più rischiamo di standardizzare quei valori. Non perché siano sbagliati, ma perché vengono tradotti in regole operative. L’etica diventa una checklist. La complessità morale si trasforma in un sistema di scoring. E ciò che non è facilmente formalizzabile tende a sparire dalle risposte.
Anthropic non è ingenua. Sa benissimo che questo esperimento non risolve il problema morale. Lo rende gestibile. Lo rende presentabile. Lo rende difendibile. In un certo senso è l’evoluzione naturale del concetto di governance tecnologica nell’era dell’AI. Meno decisioni verticali, più processi. Meno autorità esplicita, più legittimazione diffusa. È la politica delle piattaforme applicata alle coscienze artificiali.
La vera domanda, però, resta sul tavolo. Vogliamo davvero che le macchine che mediano informazione, conoscenza e potere decisionale siano addestrate a seguire la media dei nostri valori attuali. O preferiremmo che fossero capaci di metterli in discussione, di evidenziarne le contraddizioni, di mostrarci ciò che non vogliamo vedere. La storia suggerisce che il progresso raramente nasce dal consenso. Nasce dal conflitto, dall’attrito, dall’eresia.
Affidare la morale dell’intelligenza artificiale alla folla non è un atto di umiltà. È una scelta di design politico. E come tutte le scelte di design, produce conseguenze. Alcune desiderabili, altre meno. La differenza è che questa volta non stiamo progettando un’interfaccia. Stiamo progettando il modo in cui una macchina globale interpreta l’umano. E farlo tramite un voto online è, nel migliore dei casi, un compromesso elegante. Nel peggiore, una rinuncia preventiva alla responsabilità.
Anthropic ha appena dimostrato una cosa molto chiara. Nell’era dell’intelligenza artificiale, il vero terreno di scontro non è la potenza dei modelli. È chi decide cosa è giusto che dicano. E soprattutto chi può dire, con aria innocente, di non aver deciso nulla.
Blog https://www.anthropic.com/constitution?utm_source=Generative_AI&utm_medium=Newsletter&utm_campaign=anthropic-s-updated-claude-constitution&_bhlid=56c218fa89277fd23a248076b0c23a834e86a365