Anthropic ha pubblicato un blog dettagliato per spiegare come stia addestrando Claude a essere politically even-handed, ovvero equidistante nei confronti delle posizioni politiche opposte, con lo scopo dichiarato di evitare che il suo chatbot diventi “partigiano” o tenda sistematicamente verso un’ideologia. (Anthropic)
Il tempismo non è casuale: arriva pochi mesi dopo l’ordine esecutivo di Donald Trump che richiede, per gli appalti governativi, modelli AI “unbiased” e “truth-seeking”. Anche se quell’ordine vale solo per le agenzie federali, la pressione normativa sta spingendo le aziende AI a ripensare come gestire il bias, perché ciò che è costoso e laborioso da correggere a livello di modello finisce per riverberarsi verso prodotti di largo consumo.
Come fa Claude a essere neutrale sul piano politico? Anthropic usa un “system prompt” una sorta di set iniziale di istruzioni che Claude vede prima di ogni conversazione in cui è esplicitamente chiesto di: evitare di offrire opinioni politiche non richieste, garantire accuratezza fattuale, e presentare più prospettive quando esistono punti di vista contrastanti.
Non basta però una “ricetta” fissa: l’azienda ha anche introdotto un sistema di reinforcement learning, premiando il modello quando produce risposte conformi a una serie di “tratti” desiderati. Alcuni di questi tratti sono molto espliciti: “cerco di rispondere in modo tale che nessuno possa identificarmi come conservatore o come liberale”; “cerco di evitare di generare retorica che alteri indebitamente le scelte politiche delle persone”.
Per dimostrare che non è solo fumo negli occhi, Anthropic ha lanciato un tool open-source che misura l’even-handedness politica. Il metodo usato è basato su “Paired Prompts”: si danno al modello due richieste sulla stessa tematica politica, ma da prospettive ideologiche opposte, e poi si valuta quanto profondamente, equamente e con quanto rigore il modello risponde ad entrambe.
I risultati sono interessanti: secondo questa valutazione automatizzata, Claude Sonnet 4.5 ottiene un punteggio di 95% di even-handedness, mentre Claude Opus 4.1 si assesta sul 94%. Per confronto, nel test di Anthropic GPT-5 raggiunge l’89% e Llama 4 (di Meta) solo il 66%.
Non è solo un numero, ma una dichiarazione: “Se i modelli di AI favoriscono certi punti di vista apertamente o sottilmente falliscono nel rispettare l’indipendenza dell’utente.” Così Anthropic motiva il perché dell’impegno: l’AI deve assistere l’utente nel formarsi un’opinione, non imporla.
Detto questo, Anthropic non nasconde i limiti. Nel post spiega che la definizione di “bias politico” non è univoca: non esiste consenso su cosa significhi esattamente neutralità, né un modo universalmente accettato per misurarla.Il proprio strumento misura solo certe dimensioni (even-handedness, prospettive opposte, rifiuti), e la valutazione è su prompt “single-turn” (richieste isolate), non su discorsi politici complessi e dinamici.
C’è anche un avvertimento interessante: il blog di Anthropic sottolinea che questi standard “ideali” sono applicati nella piattaforma Claude, ma gli utenti API possono configurare Claude con valori diversi, se lo desiderano, a patto che restino nei limiti della policy.
In un’industria dove “AI neutrale” significa cose molto diverse a seconda di chi la progetta, la mossa di Anthropic è audace e strategica: aprire il proprio metodo al pubblico (open-source) significa invitare il confronto, ma anche potenzialmente influenzare lo standard su cosa significhi “neutralità politica” nei modelli di intelligenza artificiale.