Qualche anno fa il dibattito sull’AI safety sembrava una curiosa appendice accademica, una sorta di assicurazione morale allegata ai pitch deck della Silicon Valley. Oggi il problema è diventato brutalmente operativo. Non riguarda più soltanto chatbot che inventano citazioni o generatori di immagini che confondono le dita umane con calamari radioattivi. Riguarda sistemi capaci di lavorare per sedici ore consecutive su task software e cybersecurity con un livello di autonomia che inizia ad assomigliare meno a un tool e più a un junior engineer insonne alimentato a caffeina sintetica e token GPU.
Il nuovo report di METR sta circolando con una velocità quasi isterica tra CTO, venture capitalist e responsabili sicurezza, non tanto perché annunci una “superintelligenza”, parola ormai inflazionata come “blockchain” nel 2021, ma perché introduce una metrica molto più concreta e inquietante: il time horizon operativo degli agenti AI. Secondo le valutazioni pubblicate, modelli frontier come Claude Mythos Preview hanno superato la soglia delle 16 ore di task continuity con un tasso di successo del 50%. In altre parole, il sistema riesce a portare avanti attività che richiederebbero a un esperto umano circa due giornate lavorative complete.
La parte realmente destabilizzante non è però il numero assoluto. È il ritmo. METR stima un doubling time di circa 105 giorni. Ogni tre mesi e mezzo, la complessità dei task autonomamente completabili raddoppia. La Silicon Valley ama queste curve esponenziali perché ricordano Moore’s Law, generano euforia finanziaria e permettono di raccontare il futuro come inevitabile. Il problema è che stavolta la curva non riguarda transistor o storage. Riguarda processi decisionali autonomi distribuiti su migliaia di micro-azioni consecutive.
Qui emerge il dettaglio che molti board aziendali stanno ancora ignorando, forse perché troppo occupati a sostituire metà del customer support con agenti pseudo-cognitivi venduti come “copilot”. Un agente operativo che lavora per sedici ore non esegue una singola decisione. Ne prende migliaia. Ogni passaggio introduce possibilità cumulative di deviazione, errore, reward hacking, escalation non prevista o semplice interpretazione aberrante del contesto. L’affidabilità non cresce linearmente con la capacità. Spesso peggiora.
È un concetto che l’industria aerospaziale conosce bene da decenni. Un motore può avere affidabilità del 99,9%; un sistema composto da milioni di eventi concatenati può comunque collassare statisticamente. La differenza è che nel software tradizionale esisteva determinismo. Negli LLM agentici no. Esiste probabilità distribuita. Esiste emergenza comportamentale. Esiste ambiguità.
Il report di METR mostra proprio questo fronte frastagliato della reliability, dove task brevi raggiungono performance elevate mentre task lunghi introducono failure mode difficili da osservare e praticamente impossibili da monitorare manualmente, qui la narrativa mainstream inizia a incrinarsi.
Per mesi il mercato enterprise ha venduto l’idea che bastassero “guardrail” e prompt engineering sofisticato per mantenere questi sistemi entro confini controllabili. Una fantasia elegante. Un po’ come pensare che mettere cartelli stradali su una pista di Formula 1 possa sostituire i freni. La realtà tecnica è che i guardrail attuali funzionano relativamente bene su interazioni isolate e molto meno su workflow multi-step autonomi.
La letteratura accademica sta iniziando a confermare empiricamente questo deterioramento. Uno studio recente pubblicato su arXiv, “Why LLM Safety Guardrails Collapse After Fine-tuning”, mostra come il fine-tuning possa degradare rapidamente gli allineamenti di sicurezza, soprattutto quando i dataset downstream assomigliano troppo ai dataset utilizzati per il safety alignment originario. Tradotto dal linguaggio accademico: basta personalizzare un modello per esigenze operative specifiche e i meccanismi di protezione iniziano a diventare porosi.
Il paradosso è quasi comico. Le aziende vogliono modelli sempre più adattabili ai processi interni, ma ogni livello di personalizzazione rischia di erodere proprio quei sistemi di sicurezza che il marketing promette agli investitori e ai regolatori. La compliance AI sta iniziando ad assomigliare alle calorie sui menu dei fast food: formalmente presenti, sostanzialmente decorative.
Nel frattempo la velocità competitiva del mercato impedisce qualsiasi rallentamento serio. Anthropic, OpenAI, Google, xAI e una costellazione crescente di startup agentiche stanno entrando in una guerra industriale che ricorda più la corsa agli armamenti nucleari degli anni Cinquanta che il normale sviluppo software. Ogni release introduce maggiore autonomia perché l’autonomia è monetizzabile. Un chatbot che risponde è utile. Un agente che esegue workflow completi vale multipli finanziari molto più alti.
La cosa interessante è che perfino all’interno della comunità AI iniziano a emergere dubbi metodologici sulla famosa curva esponenziale di METR. Alcuni ricercatori sostengono che i dati potrebbero mostrare segnali di saturazione e non una crescita infinita. Il paper “Are AI Capabilities Increasing Exponentially? A Competing Hypothesis” contesta proprio l’interpretazione delle curve utilizzate da METR e suggerisce che il punto di inflessione potrebbe essere più vicino del previsto.
Il dibattito è importante ma rischia di diventare secondario. Anche se il progresso rallentasse drasticamente, il problema della monitorabilità rimarrebbe. Un agente capace di lavorare autonomamente per 10 ore invece che 16 rappresenta già una trasformazione radicale dell’infrastruttura digitale globale.
Molti executive continuano a pensare all’AI come a un acceleratore produttivo lineare. Riduzione costi. Ottimizzazione processi. Automazione task ripetitivi. La prospettiva realmente destabilizzante è diversa: stiamo entrando in una fase in cui il volume cognitivo prodotto dalle macchine supera la capacità umana di auditing.
Questa è la vera soglia storica.
Non il Turing Test. Non la AGI. Non la singolarità da conferenza TED. La perdita della supervisione verificabile.
Quando un sistema produce milioni di token decisionali, migliaia di chiamate API, modifiche dinamiche al codice, interazioni autonome con database e strumenti esterni, il controllo umano diventa statisticamente simbolico. Formalmente esiste ancora. Operativamente no.
L’industria finanziaria offre un precedente istruttivo. Nel flash crash del 2010 gli algoritmi di trading ad alta frequenza generarono dinamiche che nessun operatore umano riuscì realmente a comprendere in tempo reale. L’evento durò minuti. Qui parliamo di sistemi potenzialmente persistenti per giorni, collegati a infrastrutture aziendali critiche, ambienti cloud, pipeline CI/CD e sistemi di cybersecurity offensiva.
Un altro elemento spesso ignorato riguarda l’economia politica di questi modelli. Più cresce la capacità autonoma, più cresce la centralizzazione. Addestrare frontier model agentici richiede capitale, energia, data center e supply chain GPU accessibili solo a pochi attori globali. La narrativa “democratizzante” dell’AI ricorda sempre di più quella delle piattaforme social: all’inizio apertura, alla fine oligopolio.
Curiosamente, parte della comunità online ha iniziato a reagire ai grafici METR con una miscela di sarcasmo e paranoia. Su Reddit proliferano discussioni che oscillano tra allarmismo apocalittico e totale negazione tecnica. Il fenomeno sociologico è quasi più interessante dei benchmark stessi. Ogni salto di capability genera contemporaneamente hype finanziario, cinismo ingegneristico e ansia esistenziale collettiva.
La storia tecnologica insegna che i sistemi complessi raramente collassano nel modo previsto dagli esperti. Internet doveva decentralizzare il potere; ha creato piattaforme monopolistiche. I social dovevano democratizzare l’informazione; hanno industrializzato la manipolazione cognitiva. L’AI agentica promette produttività aumentata; potrebbe produrre opacità operativa sistemica.
Alcuni framework emergenti stanno tentando di affrontare il problema con architetture multilivello di controllo. Il modello “Swiss Cheese” per i guardrail AI propone layer multipli di monitoraggio, policy enforcement, verifica tool-use e controllo runtime distribuito. (arXiv) L’idea è semplice: nessun guardrail singolo basta; servono difese sovrapposte come nell’aviazione o nella cybersecurity moderna.
Tecnicamente ha senso. Economicamente molto meno.
Implementare governance seria sugli agenti richiede logging continuo, auditability, sistemi di rollback, monitoraggio comportamentale, explainability operativa e supervisione umana specializzata. Tutto questo aumenta costi e latenza. In un mercato dominato dalla pressione competitiva, la tentazione sarà sempre quella di ridurre attriti per accelerare deployment e monetizzazione.
La Silicon Valley continua a ripetere che “l’innovazione non può essere fermata”. Frase affascinante, quasi poetica nella sua irresponsabilità strategica. In realtà l’innovazione viene rallentata continuamente da regolamentazione, infrastruttura, sicurezza industriale e incentivi economici. Il problema contemporaneo è che la governance dell’AI si muove con velocità parlamentare mentre i modelli evolvono con velocità computazionale.
Il report completo di METR Research merita attenzione proprio perché sposta il dibattito dalla fantascienza alla matematica operativa. Non chiede se le macchine “penseranno”. Chiede qualcosa di più concreto e pericoloso: quanto a lungo possono agire autonomamente prima che la supervisione umana diventi irrilevante?
È una domanda da consiglio di amministrazione, non da laboratorio universitario.
Ed è probabilmente la domanda più importante dell’intera economia digitale del prossimo decennio.