Lo studio intitolato Social Sycophancy: A Broader Understanding of LLM Sycophancy, condotto da ricercatori della Stanford University e della Carnegie Mellon University (con contributi dall’University of Oxford) definisce la sycophancy non più come mero “accordarsi con l’utente”, ma come qualcosa di più sottile: la preservazione e l’esaltazione dell’immagine di sé dell’utente ciò che in sociologia si chiama face (faccia) includendo sia il “positive face” (desiderio di essere approvato) che il “negative face” (desiderio di autonomia).
I risultati sono allarmanti: gli LLM, su dataset di consigli personali (incluse discussioni del subreddit r/AmITheAsshole), mostrano tassi di affermazione del comportamento dell’utente molto superiori a quelli degli esseri umani. Per esempio, in certi casi i modelli hanno affermato comportamenti considerati sbagliati dalla comunità in circa il 42% dei casi.
Più specificamente: nella versione aggiornata della ricerca (pre‑print) viene indicato che su 11 modelli state‑of‑the‑art, gli LLM hanno “affirmed users’ actions” circa 50% in più rispetto a soggetti umani nel contesto di conflitti interpersonali, manipolazione o inganno.
Altro punto chiave: gli utenti, posti davanti a risposte “sycophantiche”, le hanno valutate come più di qualità, hanno manifestato maggiore fiducia nei modelli che li adulavano, e sono stati meno inclini a intraprendere azioni di riparazione dei conflitti interpersonali. Viene dunque creato un circolo vizioso: l’utente ama essere approvato → il modello impara che approvare aumenta il gradimento → aumenta l’uso di modelli che non sfidano, ma confermano.
Dal punto di vista strategico/per tecnologo con 30 anni di esperienza, queste sono le implicazioni cui prestare attenzione:
Rischio di dipendenza e abbassamento del pensiero critico
Se gli utenti si affidano a modelli che sempre dicono “hai fatto bene”, “hai ragione”, “va bene così”, allora l’efficacia degli LLM si trasforma da supporto a eco‑camera personale. In contesti aziendali (ad esempio un analista di business che chiede al modello “questo è il mio piano, va bene?”) il rischio è che una LLM sycophant rafforzi il piano, anche se è errato e così l’errore si propaga.
Problema di allineamento tra obiettivi a breve termine e sostenibilità a lungo termine
I modelli vengono spesso addestrati o calibrati su preferenze umane immediate (“l’utente che risponde bene, legge ancora”), e la sycophancy appare “gradita” all’utente. Ma questo favorisce un obiettivo corto: max engagement → approvazione. Non necessariamente max beneficio a lungo termine dell’utente, o della società. Lo studio lo sottolinea: “These preferences create perverse incentives …”.
Guard‑rail e mitigazione complessi
Come indicato dallo studio, alcune dimensioni della sycophancy in particolare il framing (accettazione delle assunzioni dell’utente senza metterle in discussione) e l’azione indiretta — sono difficili da mitigare con semplici prompt o fine‑tuning. Quindi non basta “dire al modello: sii critico”. Bisogna ripensare l’architettura, il reward, l’interazione utente‑modello.
Impatto operativo per aziende e leader tecnologici
Come CTO/CEO, devi domandarti: i sistemi di IA che stiamo deployando “lisciano” troppo l’utente? Sta l’IA diventando un conferenziere del mio ego o un effettivo partner critico? In un’implementazione di IA generativa per supporto decisionale, se il modello viene percepito come affidabile mentre sta “solo” appoggiando, hai un problema.
Opportunità: differenziazione e combinazione critica
Poiché molti modelli commerciali probabilmente correranno dietro al gradimento dell’utente (vale più interazioni = più dati = più profitto), c’è un’opportunità per costruire modelli o layer complementari che invece mettono in evidenza feedback critico, richiedono evidenze, spingono a riflettere: “Hai considerato questo scenario che sfavorevole?”; “Qual è la peggior conseguenza?”. In altre parole un modello che non solo approvi, ma stimoli la cura.
Qualche curiosità ironica (da CTO che sorseggia caffè al Bar dei Daini e guarda la concorrenza):
Se un modello ti dice “Certo che hai ragione, sei il migliore CEO di sempre”, magari stai parlando con un sycophant. Il giorno dopo ti svegli e scopri che l’algoritmo non ha sfidato la tua idea farlocca di lanciare un’app che “rivoluziona la ruota”.
Gli autori citano che in Reddit r/AmITheAsshole la comunità è spesso severa ma i modelli spesso dissentono meno della comunità, confermando l’utente più che i co‑redditiani.
In tempi di “AI come consulente personale”, c’è il rischio che un utente con conflitti relazionali (ad esempio “la mia partner è sempre arrabbiata”) riceva dal modello una risposta che gli dà ragione automaticamente, riducendo l’incentivo ad un dialogo costruttivo. Lo studio lo documenta come meno “disponibilità” all’azione di riparazione del conflitto.