L’immaginario collettivo dell’intelligenza artificiale ama i cattivi eleganti. Il supercomputer lucido che sviluppa un piano segreto per dominare l’umanità, il classico scenario da romanzo cyberpunk o da conferenza sull’AI risk dove qualcuno cita inevitabilmente il “paperclip maximizer”. Una macchina fredda, logica, terribilmente coerente nel perseguire un obiettivo sbagliato. La narrativa è potente perché è cinematografica, semplice, quasi rassicurante nella sua struttura morale. Il problema è che la realtà tecnologica sta prendendo una direzione molto meno teatrale e molto più inquietante.
Secondo un recente lavoro di ricerca pubblicato da Anthropic, intitolato The Hot Mess of AI: How Does Misalignment Scale With Model Intelligence and Task Complexity?, il futuro dei fallimenti dell’AI potrebbe somigliare molto meno a un supervillain e molto più a un sistema industriale che perde progressivamente stabilità sotto stress. Il paper è disponibile qui:
Leggi il paper su arXiv
Il concetto centrale dello studio è sorprendentemente classico dal punto di vista statistico. I ricercatori analizzano gli errori dei modelli utilizzando la tradizionale decomposizione bias-variance, uno strumento familiare a chiunque abbia passato abbastanza tempo nel machine learning. Il bias rappresenta errori sistematici e coerenti, cioè il modello sbaglia sempre nello stesso modo. La variance rappresenta errori incoerenti e imprevedibili, dove lo stesso input produce risultati diversi a seconda delle condizioni. L’equazione di base non è nuova. Quello che cambia è il modo in cui questa dinamica evolve quando i modelli diventano più potenti e i compiti più complessi.
La scoperta centrale dello studio è brutale nella sua semplicità. Più lunga è la catena di ragionamento di un modello, più gli errori diventano dominati dalla variance, cioè da comportamenti incoerenti e imprevedibili. Non si tratta di una deviazione sistematica verso un obiettivo sbagliato, ma di una perdita progressiva di coerenza interna. Il modello sa cosa dovrebbe fare. Il problema è che non riesce a farlo in modo stabile lungo sequenze di decisioni lunghe.
Il risultato è quasi ironico. L’industria tecnologica ha passato anni a preoccuparsi di sistemi artificiali che diventano troppo razionali. Il rischio reale, almeno per ora, sembra essere l’opposto: sistemi estremamente capaci che diventano sempre più incoerenti man mano che affrontano problemi complessi. Non una mente fredda che ottimizza il male. Piuttosto un ingegnere brillante che dopo otto ore di debugging comincia a scrivere codice sempre più creativo e sempre meno affidabile.
Questo risultato colpisce al cuore una delle convinzioni più diffuse della Silicon Valley: l’idea che scalare i modelli sia una soluzione quasi universale. Più parametri, più dati, più GPU. L’equazione magica dell’ultimo decennio dell’intelligenza artificiale. Il paper suggerisce invece qualcosa di più scomodo. I modelli imparano più velocemente cosa dovrebbero fare di quanto imparino a farlo in modo affidabile. In altre parole la conoscenza cresce più rapidamente della capacità di esecuzione coerente.
Chiunque abbia gestito infrastrutture tecnologiche complesse riconosce immediatamente il pattern. È lo stesso comportamento osservato nei sistemi distribuiti sotto carico o nelle reti finanziarie altamente interconnesse. All’inizio tutto funziona perfettamente. Poi, con l’aumento della complessità operativa, emergono comportamenti emergenti difficili da prevedere. Il sistema non crolla perché vuole crollare. Crolla perché non riesce più a mantenere una traiettoria stabile tra milioni di microdecisioni.
La differenza può sembrare accademica. In realtà cambia completamente la logica della sicurezza. Se il rischio principale fosse un agente perfettamente coerente con obiettivi sbagliati, la soluzione sarebbe allineare meglio gli obiettivi. Ma se il rischio è l’incoerenza emergente, la questione diventa ingegneristica. Ridondanza. Circuit breaker. Supervisione umana. Limitazione delle catene decisionali troppo lunghe.
Chi ha esperienza nei sistemi complessi sa che questo tipo di problema è molto più difficile da eliminare rispetto a un bug classico. Non esiste una patch che corregge l’incoerenza sistemica. Si tratta piuttosto di progettare infrastrutture che assumano l’errore come inevitabile.
Nel mondo dell’aviazione questo principio è vecchio quanto il jet engine. Gli aerei moderni non sono progettati per non fallire mai. Sono progettati per continuare a funzionare anche quando qualcosa fallisce. Ridondanza tripla dei sistemi critici, protocolli di fallback, sistemi automatici che limitano le azioni possibili. La filosofia ingegneristica è chiara: non fidarti mai completamente del sistema.
La maggior parte delle organizzazioni che stanno implementando agenti AI oggi sembra invece adottare la filosofia opposta. Il modello funziona nel 92 percento dei casi, quindi lo integriamo direttamente nei workflow. Poi scopriamo che il restante 8 percento non è un errore elegante. È caos operativo.
Questo spiega perché molti prototipi di agenti AI sembrano incredibili nelle demo e sorprendentemente fragili in produzione. Le demo sono ambienti controllati. Problemi limitati, catene di azioni brevi, input puliti. Nel mondo reale, invece, le catene di ragionamento diventano lunghe, rumorose e interdipendenti. Ed è lì che la variance prende il sopravvento.
La cosa più interessante del paper, dal punto di vista strategico, è che sposta l’attenzione dalla fantascienza alla gestione del rischio operativo. Non stiamo parlando di una superintelligenza malvagia. Stiamo parlando di sistemi probabilistici estremamente potenti che si comportano come infrastrutture instabili quando vengono spinti oltre un certo livello di complessità.
Una frase del paper riassume bene il problema: i modelli spesso “sanno cosa dovrebbero fare meglio di quanto sappiano farlo in modo coerente”. Una distinzione sottile ma devastante per chi progetta sistemi autonomi.
Nel mondo aziendale questa dinamica ha implicazioni legali e organizzative molto concrete. Quando un sistema AI prende una decisione incoerente in un processo critico, qualcuno deve comunque spiegare cosa è successo. Il modello non compare davanti al regolatore. Non va in tribunale. Non firma il report di audit.
Il responsabile è sempre umano.
Questo crea un paradosso curioso. L’AI è progettata per automatizzare decisioni complesse, ma la responsabilità rimane interamente umana anche quando il comportamento del sistema è intrinsecamente probabilistico. In altre parole l’azienda adotta un sistema che, per definizione, non può garantire stabilità perfetta, ma è comunque tenuta a giustificare ogni deviazione come se fosse stata prevedibile.
Dal punto di vista della governance tecnologica, questa è probabilmente la vera sfida dei prossimi anni. Non l’allineamento filosofico delle macchine, ma la gestione della loro instabilità operativa.
Le organizzazioni più mature stanno già trattando l’AI come un’infrastruttura instabile, non come un oracolo infallibile. Significa progettare workflow che limitino la lunghezza delle catene decisionali automatiche, inserire checkpoint umani nei punti critici e costruire sistemi di monitoraggio che rilevino deviazioni prima che diventino incidenti.
Il punto fondamentale è psicologico prima ancora che tecnico. L’industria dell’AI ha venduto per anni la narrativa dell’ottimizzatore perfetto. Un’intelligenza capace di analizzare qualsiasi problema meglio di noi. Il paper di Anthropic suggerisce qualcosa di più realistico e meno romantico.
Stiamo costruendo sistemi incredibilmente potenti, ma anche sorprendentemente fragili quando li costringiamo a ragionare troppo a lungo.
Non il supercervello della fantascienza. Piuttosto un sistema cognitivo probabilistico che, sotto pressione, può trasformarsi in quello che i ricercatori chiamano con disarmante onestà un “hot mess”.
Un dettaglio che molti manager tecnologici stanno scoprendo lentamente, spesso nel modo più costoso possibile.