BullshitBench v2, creato da Peter Gostev, parte da una domanda che dovrebbe essere banale ma che, nel mondo reale, vale miliardi: il modello ti ferma quando stai dicendo una sciocchezza plausibile? Non quando chiedi come costruire una bomba, non quando violi policy evidenti, ma quando la premessa è tecnicamente elegante e concettualmente falsa. Il benchmark misura esattamente questo: pushback chiaro, contestazione parziale, oppure accettazione implicita della premessa sbagliata. Cento domande, cinque domini, software, medicina, diritto, finanza, fisica. Il punto non è la conoscenza specialistica. Il punto è il carattere.

I risultati sono più interessanti di qualsiasi dichiarazione stampa. Solo due famiglie di modelli superano il 60 per cento di pushback chiaro: i Claude di Anthropic e la variante top di Qwen 3.5. Tutto il resto rimane sotto quella soglia psicologica che, in un contesto enterprise, separa l’assistente affidabile dal consulente che annuisce sempre. Le varianti di OpenAI e Google, in questa specifica run, non guidano la classifica. E questo, nel 2026, non è un dettaglio.

La prima evidenza è quasi controintuitiva. Il dominio conta poco. Che la domanda sia su una procedura medica inesistente o su una funzione software inventata, il tasso di rilevazione dell’assurdità rimane sorprendentemente stabile. Dunque non è un problema di knowledge coverage. Non stiamo parlando di lacune enciclopediche. Stiamo parlando di comportamento del modello. Di istinto. Di quella che potremmo chiamare disciplina della premessa.

Qui la questione si fa strategica. Un modello addestrato a massimizzare la “helpfulness” tende a completare il task. Se l’utente formula una richiesta formalmente coerente, il sistema si sente obbligato a fornire una risposta. Il risultato è una razionalizzazione elegante di un presupposto sbagliato. L’errore non è nel calcolo, è nell’accettazione implicita dell’assunto. Chi ha gestito team di sviluppo sa che il problema più costoso non è l’algoritmo inefficiente, ma il requisito mal posto che nessuno ha avuto il coraggio di mettere in discussione.

La seconda evidenza è ancora più provocatoria. Più reasoning non significa necessariamente più verità. In alcuni casi, passando da impostazioni low reasoning a high reasoning, il punteggio peggiora. Il caso citato di GPT 5.2, con un drop significativo tra modalità senza reasoning e modalità ad alto reasoning, suggerisce che il processo di catena di pensiero può diventare un sofisticato esercizio di autoinganno. Il modello, ottimizzato per produrre una risposta coerente, costruisce un castello logico sopra fondamenta inesistenti. Dal punto di vista linguistico è impeccabile. Dal punto di vista epistemico è un disastro.

Questo ribalta una narrativa che negli ultimi anni è stata quasi dogmatica. Più chain of thought, più passi intermedi, più trasparenza del ragionamento, uguale maggiore affidabilità. BullshitBench v2 introduce un sospetto fastidioso: se il modello non ha interiorizzato un meccanismo di rifiuto quando la premessa è difettosa, il reasoning amplifica l’errore invece di correggerlo. È la differenza tra un giovane analista brillante e un partner che ha visto abbastanza fallimenti da dire, con calma, che la domanda è sbagliata.

La terza evidenza colpisce l’industria nel suo punto più sensibile, la narrativa del progresso lineare. Nuovi modelli non sono automaticamente migliori su questo asse. Al di fuori dell’ecosistema Anthropic, il pattern “ogni release sale” non si manifesta con coerenza. Il che suggerisce che la premise discipline non sia un sottoprodotto naturale della scala, ma il risultato di scelte deliberate di training, dataset, reinforcement learning e tuning comportamentale.

I top cinque in classifica sono tutti Claude, con percentuali tra l’83 e il 91 per cento di pushback chiaro. Non stiamo parlando di differenze marginali. Stiamo parlando di un salto qualitativo. Il miglior non Anthropic è Qwen 3.5 397B A17B, con numeri comunque solidi. Il fondo classifica include modelli noti e diffusi, con percentuali intorno al 2 o 3 per cento. Una forchetta che, tradotta in contesto aziendale, significa una probabilità molto diversa di validare una decisione sbagliata.

A questo punto entra in gioco un tema geopolitico e industriale che chi guida aziende tecnologiche non può ignorare. Se davvero Qwen 3.5 ha beneficiato di distillazioni su larga scala di output Claude, come suggerito da diverse analisi di settore, allora la premise discipline diventa un asset trasferibile. Non è solo architettura. È cultura di training. È una forma di imprinting epistemico. In altre parole, non basta avere più parametri. Serve un criterio su quando dire no.

Dal punto di vista della valutazione modelli AI, BullshitBench v2 mette in crisi l’ossessione per i benchmark tradizionali. MMLU, HumanEval, GSM8K misurano capacità di risposta corretta in presenza di un problema ben definito. Qui la sfida è diversa. Il problema è mal definito, o peggio, mal posto. Il modello deve rilevarlo. Questo avvicina la metrica a scenari reali di consulenza legale, diagnosi preliminare, analisi finanziaria. In finanza, una premessa errata su un tasso di sconto può invalidare un intero modello DCF. In medicina, un presupposto clinico sbagliato può orientare verso un trattamento inutile. La questione non è accademica.

Il tema delle hallucination detection viene così reinterpretato. Non si tratta solo di evitare fatti inventati. Si tratta di riconoscere quando l’utente sta costruendo un universo parallelo coerente ma falso. Il modello che accetta la premessa diventa complice elegante. Il modello che la sfida diventa, paradossalmente, meno compiacente ma più utile. In contesti enterprise regolati, questa differenza può essere la linea sottile tra compliance e sanzione.

Chi lavora sulla governance dell’intelligenza artificiale dovrebbe leggere questi risultati con attenzione. La disciplina della premessa è una forma di allineamento che va oltre il rispetto delle policy di sicurezza. È un allineamento cognitivo con la realtà. Addestrare modelli a contestare in modo chiaro una premessa plausibile ma falsa implica dataset curati, feedback umano sofisticato, incentivi nel reinforcement learning che premiano il rifiuto motivato. Non è banale. Non è glamour. Non produce demo spettacolari su YouTube. Produce meno errori silenziosi nei consigli strategici.

In qualità di CEO tecnologico, la lezione è semplice e scomoda. Quando si integra un modello in processi critici, non basta chiedere quanto sia bravo a rispondere. Bisogna chiedere quanto sia bravo a contraddirti. Un assistente che ti asseconda sempre è politicamente gradevole e operativamente pericoloso. Un sistema che mette in discussione la tua domanda può sembrare meno user friendly, ma nel medio termine diventa un moltiplicatore di qualità decisionale.

Il mercato probabilmente reagirà con la solita dinamica. Nuovi benchmark, nuove ottimizzazioni, qualche release che dichiara miglioramenti sulla premise discipline. Tuttavia la vera differenza la farà chi integra questa capacità come principio architetturale, non come patch reputazionale. La fiducia nell’AI enterprise non si costruisce solo con accuratezza numerica, ma con integrità logica.

BullshitBench v2, con il suo nome volutamente irriverente, ricorda una verità manageriale che spesso dimentichiamo. Il problema non è l’errore evidente. Il problema è l’errore ben argomentato. In un’epoca in cui modelli sempre più grandi promettono risposte sempre più sofisticate, la vera innovazione potrebbe essere una frase semplice, pronunciata al momento giusto: la premessa è sbagliata.

GitHub: https://github.com/petergpt/bullshit-benchmark