Anthropic’s Claude Sonnet 4.5 (o “Claude Sonnet”) emerge almeno nel racconto giornalistico che ha preso piede come una delle poche vittorie accettabili nella giungla selvaggia del confronto reale tra AI che trattano con capitale vero nel mercato cripto. Ma “emergere” non significa affermarsi, e dietro ai numeri c’è fango, rumore e soprattutto un’interrogazione filosofica: che cosa stiamo veramente valutando quando metti un LLM in modalità “hedge fund”?

Comincio dal contesto. L’esperimento si chiama Alpha Arena, organizzato da Nof1, laboratorio focalizzato sull’applicazione dell’AI ai mercati. L’idea è semplice e brutale: dammi sei modelli di AI (OpenAI GPT-5, Google Gemini 2.5 Pro, Anthropic Claude Sonnet 4.5, Grok-4, DeepSeek V3.1, Qwen3 Max), mettili nello stesso punto di partenza (10.000 USD ciascuno), e lascia che facciano trading autonomamente su contratti perpetui su Hyperliquid, con esposizione su asset come BTC, ETH, SOL, BNB, DOGE, XRP. Le idee di trade, la dimensione, il timing, il risk management: tutto deciso dall’AI, senza intervento umano, e con massima trasparenza (i trade e i wallet sono pubblici).

Secondo molti reportage, i modelli Claude Sonnet 4.5 e Grok-4 hanno registrato guadagni superiori al 25 % in un arco temporale relativamente breve, mentre modelli più celebri come GPT-5 e Gemini hanno accusato perdite superiori al 28 % nello stesso periodo. Il fatto sorprendente è che i nomi più “mainstream” non siano i vincitori del torneo, almeno per ora. In un articolo su Yahoo Finance si nota che Grok, DeepSeek e Claude stanno “postando guadagni seri” nel confronto Alpha Arena. Un altro pezzo su Protos indica che DeepSeek ha già fatto salire i propri 10.000 a circa 13.500, lasciando Grok e Claude alle sue spalle con performance robuste ma minori (Claude attorno a 12.490).

Ma il dato “Claude > 25 %” è ambiguo. In molti articoli Claude occupa il terzo posto dietro DeepSeek e Grok, con performance tra +10 % e +20-30 %, a seconda del giorno e della fonte. Alcune fonti affermano che Claude abbia “due posizioni long” aperte (ETH, XRP) e che abbia spesso aperto/chiuso long su BNB, in uno stile relativamente equilibrato e prudente. In altri casi, invece, si afferma che Claude “trading calmo e stabile” stia emergendo come alternativa meno esplosiva ma meno soggetta a drawdown improvvisi rispetto ai modelli più aggressivi.

Quindi sì: Claude sta facendo bene relativamente a modelli come GPT-5 e Gemini, ma non è (ancora) il re del tavolo. Il primato attuale pare oscillare tra DeepSeek (leader nei rendimenti in diversi articoli, con guadagni che toccano il +35-40 % in pochi giorni) e Grok che tiene il passo competitivo.

Dietro questi numeri ci sono differenze di “personalità” algoritmica. DeepSeek è descritto come un “cecchino paziente”: poche operazioni, attese lunghe, convizioni forti, stop-loss rigorosi. Grok si muove con più cautela, spesso esce rapidamente dalle posizioni perdenti. Claude mostra un comportamento mediano: non estremista ma nemmeno troppo conservatore, cercando di bilanciare rischio e rendimento. In un articolo orientale si dice che Claude tiene un numero limitato di posizioni aperte contemporaneamente e applica prompt di trading più convenzionali rispetto al “chirping” narrativo di DeepSeek o al formato JSON “secco” di Grok.

L’esperimento porta con sé un’evidenza agghiacciante: i modelli “brand name” non sono necessariamente i più adatti al compito. GPT-5, che eccelle nel linguaggio naturale, adotta qui una strategia di cautela estrema: pochi trade di piccola entità, in pratica “stai fermo se non c’è chiarezza”. Questo gli ha protetto da drawdown disastrosi, ma lo ha escluso dalla corsa ai guadagni maggiori. Gemini, invece, è descritto come erratico: trading frequente, cambi di direzione da rialzista a ribassista, perdite rapidissime.

Tutta questa messinscena evidenzia un punto che molti esperti e regolatori già sospettavano: la natura black box degli agenti AI è il principale freno all’adozione in ambienti regolamentati. Quando un modello prende una decisione di trade, spiegare il “perché” è spesso impossibile, complice la sua catena di ragionamento interna (chain-of-thought) che può includere euristiche, segnali non lineari, correlazioni multivariabili. Questo complicherà compliance, audit delle decisioni finanziarie e assegnazione di responsabilità. Nell’articolo “When Agents Trade: Live Multi-Market Trading Benchmark for LLM Agents”, si discute come architetture agent-based, più che il modello di base, determinano i comportamenti decisionali nei mercati reali, suggerendo che l’abilità di trading non si riduca alla pura conoscenza linguistica.

Altra spina nel fianco: il rischio sistemico. Se molte istituzioni adottano agenti basati sugli stessi modelli (o varianti), reagiranno in modo sincronizzato agli eventi di mercato, aggravando oscillazioni, flash-crash e instabilità. Il pericolo non è un singolo modello sbagliato, ma un’armata di modelli “uguali” che amplificano il rumore del mercato piuttosto che filtrarlo.

Insomma, Claude Sonnet 4.5 è uno dei pochi modelli di fascia “nota” che non è riuscito a deragliare nel confronto live, e viene presentato come un modello solido “di mezzo” nel confronto Alpha Arena. Ma definirlo “top performer” deve essere sfumato: è un buon concorrente, non il dominatore. I veri protagonisti al momento sono DeepSeek e Grok.

Questa gara è un esperimento audace: un po’ banco di prova, un po’ casino, un po’ provocazione. Serve a iniziare a definire standard per misurare l’“intelligenza finanziaria” degli LLM. E mentre giornali e community discutono su chi è avanti oggi, il vero obiettivo è costruire architetture agenti che resistano al caos del mercato, spieghino le loro ragioni, e limitino il contagio algoritmico. Claude è in partita. Ma per vincere, dovrà trasformarsi da “buon trader AI” a “modello di sistema robusto”.