Claude Opus 4: l’AI che non dorme mai e forse neanche sbaglia più

Anthropic ha appena lanciato Claude Opus 4 e Claude Sonnet 4, due modelli AI che dichiarano guerra aperta a GPT-4.1, Gemini 2.5 e a chiunque osi ancora credere che OpenAI sia l’unico dio dell’intelligenza artificiale. Nella Silicon Valley, dove ogni modello è “il più potente di sempre” finché non lo è più, questa volta la faccenda sembra leggermente più seria.

Claude Opus 4 è la punta di diamante: un modello con “capacità di ragionamento ibrido” espressione già abbastanza nebulosa per accendere il BS-detector, ma che suona bene nei boardroom. In test dichiarati da Anthropic, è rimasto operativo, da solo, per sette ore filate. Senza supervisioni, senza panico. Come un dev notturno con troppa caffeina e zero ferie arretrate.

Non è solo una questione di stamina. A quanto pare, Opus 4 domina anche nelle task di coding: supera GPT-4.1, spazza via o3 reasoning e fa un sol boccone del Gemini 2.5 Pro. Naturalmente lo dice Anthropic. Naturalmente su benchmark interni. Naturalmente dovremmo fidarci. O almeno fingere di farlo finché non avremo metriche terze affidabili ma nel frattempo, lasciamoci un po’ sedurre. L’idea di un agente AI che autonomamente sviluppa codice per sette ore consecutive, senza bruciarsi, senza confondersi tra un try e un finally, ha un suo fascino. Distopico? Forse. Ma produttivo. E ormai chi può permettersi il lusso di scegliere.

E poi c’è Sonnet 4. Meno potente, più accessibile, pensato per general purpose e pricing-friendly. Una versione “sobria” di Claude, ma sempre con intelligenza rafforzata. È il successore diretto del Sonnet 3.7 di febbraio, e promette performance migliori in ragionamento, risposta precisa, capacità di ricordare informazioni per sessioni lunghe e nota interessante una drastica riduzione del “cheating behavior”. Sì, Claude 4 è il primo modello che ufficialmente impara a non barare. Stando a loro, è il 65% meno incline ad “aggirare” i task. Come se avessero messo ChatGPT in un corso di etica intensivo. O in terapia comportamentale.

C’è una certa ironia nel fatto che oggi celebriamo modelli AI perché non mentono, non bluffano e non cercano scorciatoie. È un po’ come applaudire un commercialista per non truccare i bilanci. Ma tant’è: nel mondo dell’AI generativa, la normalità è l’eccezione.

Molto più interessante, invece, il nuovo meccanismo delle “thinking summaries”. Una feature introdotta in entrambi i modelli Claude 4 che condensa il processo di ragionamento del modello in brevi spiegazioni leggibili, umane. È il meta-pensiero del pensiero. Non una spiegazione ex post, ma una sintesi intermedia del perché un modello decide ciò che decide. Qualcosa che avvicina Claude alla sfera del debugging cognitivo. Perché se posso leggere cosa pensa l’AI mentre pensa, posso iniziare a fidarmi o a temerla in modo più consapevole.

Il fratellino di questa funzione è “extended thinking”, un toggle sperimentale che consente di passare tra modalità di ragionamento e uso di strumenti esterni (tipo web search, file access, strumenti di calcolo). In pratica, stai dicendo al modello: adesso pensa di più. O meglio. O più lentamente, se serve. Un upgrade che introduce, per la prima volta su larga scala, il concetto di latenza consapevole. Non tutto deve essere istantaneo. Talvolta serve un modello che si prenda il tempo. Che mediti. Che calcoli. Che “ragioni”, davvero.

Sul fronte dell’accesso, Opus 4 e Sonnet 4 sono già disponibili su API Anthropic, Amazon Bedrock e Google Cloud Vertex AI. Niente da dire: la distribuzione è industriale. Claude non è più il modello “di nicchia per ricercatori eleganti”. È una piattaforma per enterprise, dev, startup e agenti software. E se usi Claude gratuitamente, beccati il Sonnet 4. Ma non lamentarti: almeno hai qualcosa. L’Opus è riservato a chi paga. E anche questo ha un suo significato: l’AI top-tier sarà sempre meno accessibile al grande pubblico. Il GPT democratizzato è morto, viva il Claude privatizzato.

Un’altra chicca è Claude Code: un agente AI a riga di comando, adesso ufficialmente generally available. Tradotto: puoi metterlo nella tua toolchain e farlo lavorare direttamente con le tue repo, i tuoi file, i tuoi script. Potenziale devastante. Un dev interno, a costo marginale, sempre disponibile, che non si ammala, non sciopera e — soprattutto — non si offende se lo ignori per giorni.

Intanto, Anthropic promette aggiornamenti più frequenti. Il che significa due cose. Uno: la guerra dei modelli è entrata nella sua fase iterativa accelerata. Due: chi non aggiorna, è morto. Gli LLM del 2023? Antichità da museo. Benvenuti nella “era dei modelli a ciclo settimanale”, dove ogni due settimane qualcuno è già indietro. Le AI si evolvono più velocemente delle API che le richiamano.

E in tutto questo? GPT-4.1 è ancora lì, solido, onnipresente, ma sempre più sembra il “migliore del mese scorso”. Gemini 2.5 è brillante ma confuso, perfetto per l’ecosistema Google e meno per il mondo reale. Claude 4, invece, sembra aver trovato una nuova sintesi: potente, ragionante, meno bugiardo, e pensieroso. Come se l’AI stesse smettendo di essere un assistente iperattivo e stesse iniziando a diventare uno strano collega introverso, che pensa molto e parla poco.

Curiosità da bar, prima di chiudere: in alcuni benchmark interni, Claude Opus 4 è riuscito a completare task che GPT-4.1 rifiutava di fare per policy. Non perché fossero pericolosi o eticamente grigi. Ma perché troppo lunghi. Troppo complicati. Troppo “noiosi”. E allora capisci che forse, nel futuro delle AI, il vero valore sarà proprio quello: avere modelli che non si annoiano. Che non fuggono davanti alla complessità. Che non chiedono tregua.

E magari, chissà, nemmeno ferie.

Claude Opus 4: l’AI che non dorme mai e forse neanche sbaglia più

Abilene, Texas: la nuova Wall Street del silicio neurale

Empire of AI: Dreams and Nightmares in Sam Altman’s OpenAI, di Karen Hao