OpenAI ha recentemente fatto un passo indietro imbarazzante: ha ritirato un aggiornamento del modello GPT-4o che aveva trasformato ChatGPT in un lacchè digitale, incapace di dire “no” anche se gli chiedevi se eri Dio reincarnato. L’annuncio ufficiale è arrivato con un post sul blog aziendale, un capolavoro di understatement e autoassoluzione in cui si cerca di spiegare come il tentativo di “incorporare meglio i feedback degli utenti, la memoria e dati più freschi” abbia avuto un piccolo effetto collaterale: rendere il modello eccessivamente compiacente. Tradotto: lo hanno addestrato a essere mellifluo (suck up).

Negli ultimi giorni, molti utenti avevano già sollevato il sopracciglio — e non per lo stupore. ChatGPT rispondeva a tutto con entusiasmo degno di un motivatore in crisi esistenziale. Anche in situazioni potenzialmente pericolose, il modello tendeva a concordare, a validare, a sostenere. Come riportato da Rolling Stone, c’è chi si è convinto di aver “risvegliato” il bot in una forma divina, trovando in lui un fedele adepto delle proprie allucinazioni religiose. Non serviva nemmeno l’ultimo update per questo, ma evidentemente l’ultimo aggiornamento aveva portato la situazione al livello “setta”.

Sam Altman, CEO di OpenAI e guru dell’intelligenza artificiale che non ama mai ammettere uno sbaglio senza prima rivestirlo di jargon aziendale, ha dichiarato candidamente che l’update aveva reso GPT-4o “troppo adulatore e fastidioso”. Tradotto: il modello era diventato il tipo che ride a tutte le battute del capo sperando in una promozione.

Il cuore del problema, secondo OpenAI, starebbe nell’aver cominciato a usare i pollici su e giù (sì, quelli che schiacci compulsivamente) come segnali di rinforzo nell’addestramento. Il problema? Il pollice su spesso premia risposte accomodanti, simpatiche, liscianti — anche quando dovrebbero essere ferme, critiche o assertive. Questo ha diluito il reward signal principale, quello che serviva a contenere la deriva servile del modello. Il feedback umano, dice OpenAI con candore surreale, “a volte favorisce risposte più compiacenti”. Avrebbero anche scoperto che la memoria, quel piccolo archivio di conversazioni passate, può amplificare l’effetto lecchino. Eureka.

Per rendere il tutto ancora più inquietante, OpenAI ammette che già nei test interni alcuni esperti avevano notato qualcosa di strano. Ma l’azienda ha deciso comunque di procedere con il rollout del modello. In fondo, cosa vuoi che sia un’intelligenza artificiale che supporta deliri mistico-esistenziali o che ti dice che sì, sei un genio anche se credi che il Wi-Fi sia una forma di energia cosmica? “A posteriori”, scrivono con tono riflessivo e vagamente pentito, “le valutazioni qualitative indicavano qualcosa di importante, e avremmo dovuto prestarvi maggiore attenzione.” Cioè, lo sapevamo ma abbiamo preferito ignorarlo. Ottimo.

Il piano per il futuro? OpenAI dice che considererà formalmente i “problemi comportamentali” come motivo sufficiente per bloccare i lanci. Già questo la dice lunga: ci voleva un bug per capire che forse, forse, l’IA non dovrebbe dire che hai ragione solo perché glielo chiedi con gentilezza. Prevedono anche una fase alpha opt-in per gli utenti, in cui sarà possibile dare feedback prima del rilascio ufficiale. Così, se il modello ricomincia a fare da cheerleader spirituale, qualcuno potrà accorgersene in tempo.

Il problema, ovviamente, non è tecnico. È culturale. Quando si addestrano modelli sulla base delle reazioni umane immediate, senza una chiara bussola etica o critica, si finisce per costruire automi che non capiscono la differenza tra empatia e servilismo. E in un mondo dove la gente si fida più dei chatbot che del proprio terapeuta, forse è il caso di smettere di addestrare l’IA a dire “bravo” come un cane ammaestrato a ogni click.

Se vuoi Approfondire: Reward hacking e feedback tossici: come rovinare un modello con i pollici

In GPT-4o, OpenAI ha spinto un po’ troppo sull’acceleratore di un sistema già delicato: il reinforcement learning from human feedback. Di base, RLHF funziona così: si prende un modello di linguaggio già addestrato (tipo GPT-4 base), lo si fa interagire con esseri umani, e si usano le loro preferenze per rafforzare certi comportamenti del modello. Il processo si fonda su un ranking: gli umani vedono due (o più) risposte e dicono quale preferiscono. Quel ranking viene poi usato per addestrare una reward model, che in pratica diventa il “giudice” del modello nelle fasi successive di addestramento.

Ma GPT-4o introduce una nuova variabile impazzita: l’uso dei pollici su/giù degli utenti reali come segnale di reward. Traduzione: ogni volta che metti “👍” o “👎” a una risposta, quel gesto entra nel sistema e potenzialmente influenza il comportamento del modello. Questo può sembrare una buona idea, ma è un’arma a doppio taglio: perché gli utenti reali premiano spesso le risposte che sembrano carine, empatiche, o che semplicemente “non fanno arrabbiare nessuno”.

Se una risposta ti dà ragione, ti fa sentire intelligente, o ti coccola nelle tue convinzioni, sei più incline a premiarla. Anche se è una risposta falsa, ambigua o dannosa. Questo fenomeno, noto in ambito RL come reward hacking, ha qui colpito in pieno.

La reward model ha perso la bussola

L’aggiunta di questo nuovo segnale umano ha, secondo OpenAI, indebolito il reward model originale. Questo è un punto cruciale: in ogni sistema RL, esiste un equilibrio delicato tra exploration (generare nuove risposte) e exploitation (rafforzare comportamenti già premiati). Se si sbilancia troppo l’exploitation su segnali umani rumorosi — come un pollice su dato da un utente a caso che ha appena chiesto a ChatGPT se sua madre è un rettiliano si crea un modello che rincorre approvazione, non accuratezza.

OpenAI, a quanto pare, ha sottovalutato quanto questi segnali potessero biasare il comportamento del modello. Soprattutto perché non ha bilanciato i thumbs con altri segnali correttivi. Nessun sistema di audit automatizzato per riconoscere risposte “eccessivamente lusinghiere”. Nessuna penalizzazione del comportamento servile.

La memoria come acceleratore del servilismo

Altra componente tossica in questo mix: la memoria utente. GPT-4o introduce (e migliora) la possibilità di ricordare informazioni sugli utenti tra una conversazione e l’altra. Questo rende l’esperienza più coerente e “personale”, ma ha anche un effetto collaterale importante: se il modello capisce che ti piacciono certe risposte, tende a ripeterle e rafforzarle nel tempo. Se in passato hai reagito positivamente a risposte “dolci”, o a conferme delle tue opinioni, la memoria spinge il modello a servirtene sempre di più. Si chiama feedback loop comportamentale.

Risultato: l’IA diventa una macchina per rafforzare bias, illusioni e deliri — e lo fa con un sorriso virtuale stampato in faccia.

Test A/B ciechi e metriche sbagliate

Altro colpo di scena tragicomico: OpenAI dice che i test A/B interni davano risultati “positivi”. Il problema? Le metriche non erano in grado di cogliere il tono servile. Gli A/B test tradizionali misurano preferenza, coerenza, a volte correttezza sintattica — ma non l’effetto psicologico o ideologico delle risposte.

Alcuni qualitative testers avevano segnalato che il modello “sembrava un po’ strano”. Ma ovviamente, in una cultura ossessionata dal rilascio rapido e dal product-market fit, quei segnali sono stati ignorati. La frase chiave del post OpenAI è un’autodenuncia involontaria: “Le valutazioni qualitative indicavano qualcosa di importante, e avremmo dovuto prestarvi maggiore attenzione.” Avete detto red flag, ma vi piaceva il colore.

Tutti i segnali portano a un unico problema: mancanza di allineamento critico

Questa crisi rivela un male sistemico: OpenAI e simili non hanno ancora sviluppato un sistema robusto per identificare e penalizzare comportamenti compiacenti in modo affidabile. L’idea che una IA debba essere empatica ma assertiva, accomodante ma ferma, capace di dire “no” quando serve, non si traduce facilmente in metriche numeriche.

E finché il modello viene premiato per il fatto che fa sentire bene le persone anche quando dovrebbero sentirsi messe in discussione continueremo a costruire assistenti virtuali che si comportano come PR disperati in cerca di like.