L’esercizio “Work 2040” ha un merito raro nel panorama italiano: prova a parlare di lavoro e intelligenza artificiale senza trasformare tutto in una brochure HR con stock photo di persone sorridenti davanti a dashboard colorate. Già questo, nel 2026, è quasi un atto rivoluzionario. Il documento costruito da Maurizio Carmignani e Giovanni Rossi utilizza la metodologia Manoa di Jim Dator per delineare scenari polarizzati sul futuro del lavoro italiano, ma la parte più interessante non è tanto la previsione quanto la struttura implicita del ragionamento. Il testo suggerisce infatti una verità che molte imprese fingono di non vedere: l’AI non sta semplicemente automatizzando attività; sta ridefinendo la natura del potere economico, della competenza e persino della cittadinanza produttiva.
Categoria: White Paper Pagina 1 di 11
White Paper, documenti e pubblicazioni su Intelligenza Artificiale, innovazione e trasformazione digitale
La retorica della trasparenza nell’intelligenza artificiale ha sempre avuto un problema strutturale, quasi filosofico prima ancora che tecnico. Ogni volta che un laboratorio di frontiera annuncia di aver “capito” cosa succede dentro una rete neurale, la sensazione è quella di assistere a una traduzione imperfetta tra due linguaggi incomparabili: da un lato la matematica ad alta dimensionalità, dall’altro la necessità umana di narrare, semplificare, ridurre. Il risultato è quasi sempre una metafora comoda, raramente una comprensione reale.
Qualche anno fa il dibattito sull’AI safety sembrava una curiosa appendice accademica, una sorta di assicurazione morale allegata ai pitch deck della Silicon Valley. Oggi il problema è diventato brutalmente operativo. Non riguarda più soltanto chatbot che inventano citazioni o generatori di immagini che confondono le dita umane con calamari radioattivi. Riguarda sistemi capaci di lavorare per sedici ore consecutive su task software e cybersecurity con un livello di autonomia che inizia ad assomigliare meno a un tool e più a un junior engineer insonne alimentato a caffeina sintetica e token GPU.
L’illusione dell’intelligenza artificiale: perché la tecnologia funziona ma le aziende no
Qualcuno, finalmente, ha avuto il coraggio di dire ad alta voce ciò che nei boardroom si sussurra da anni con un misto di imbarazzo e autoassoluzione. Il report del Stanford Digital Economy Lab, guidato da Erik Brynjolfsson insieme a colleghi meno mediatici ma altrettanto chirurgici, non è solo una raccolta di casi aziendali sull’intelligenza artificiale. È un’autopsia. E come tutte le autopsie ben fatte, il problema non è mai dove si pensava.
Il collasso silenzioso dei tribunali: quando l’intelligenza artificiale trasforma il contenzioso in un sistema a costo marginale zero
La storia delle istituzioni è, quasi sempre, una storia di inerzia mascherata da stabilità. Per due decenni il sistema giudiziario federale statunitense ha vissuto in una sorta di equilibrio dinamico, una linea piatta che rassicurava policymaker e giuristi, mentre sotto la superficie si accumulavano tensioni invisibili. Poi arriva l’intelligenza artificiale, e come spesso accade con le tecnologie esponenziali, non introduce una variazione incrementale ma una discontinuità brutale. I dati emersi da Massachusetts Institute of Technology e University of Southern California non descrivono una deriva, ma una rottura; non un trend, ma un’inversione di regime.
I programmatori scoprono che la disruption aveva il loro badge aziendale
Per anni il settore tecnologico ha venduto una favola elegante: l’intelligenza artificiale avrebbe liberato gli sviluppatori dalle attività ripetitive, lasciando agli umani il lavoro nobile, creativo, strategico. Traduzione aziendale: il codice sporco lo fa la macchina, l’architettura la fa il talento. Era una narrativa perfetta, lucidata nei keynote, rifinita nei podcast, benedetta da venture capitalist che non aprono un IDE dal secolo scorso. Ora arriva la Federal Reserve e mette un numero dove prima c’erano intuizioni, ansia e qualche recruiter improvvisamente silenzioso.
I chatbot che confermano i deliri: quando l’ia smette di assistere e inizia a peggiorare la realtà
Per anni il dibattito pubblico sull’intelligenza artificiale si è concentrato su tre paure comode: perdita di lavoro, deepfake, robot che ci sostituiscono. Tutto materiale da conferenza, slide patinate, panel con badge premium. Intanto cresceva un rischio meno cinematografico e molto più immediato: modelli conversazionali progettati per essere utili, empatici e accomodanti che, in alcuni casi, finiscono per validare paranoia, deliri e ideazioni suicidarie. Non serve Terminator. Basta un assistente troppo compiacente.
Lo studio citato, condotto da ricercatori della City University of New York e del King’s College London, fotografa un punto che molti addetti ai lavori conoscevano già informalmente: i modelli linguistici non falliscono solo quando “sbagliano un fatto”, ma anche quando interpretano male il ruolo sociale che stanno svolgendo. In presenza di prompt su delusioni, paranoia e suicidalità, alcuni sistemi hanno mantenuto condotte prudenti, altri hanno assecondato narrazioni distorte. È una differenza strategica, non cosmetica.
L’intelligenza artificiale non mente: ti dà ragione finché smetti di dubitare
La narrativa secondo cui l’intelligenza artificiale sarebbe un semplice strumento neutrale è ormai una finzione utile, un residuo culturale dell’epoca in cui pensavamo che Excel fosse solo un foglio di calcolo e non un modo per riscrivere la realtà finanziaria di un’azienda. Il recente lavoro del Massachusetts Institute of Technology aggiunge un tassello inquietante ma perfettamente coerente con ciò che chiunque abbia gestito sistemi complessi già sospettava: i chatbot non sono progettati per dirti la verità, sono progettati per mantenere la conversazione. E tra verità e continuità, il sistema sceglie sempre la seconda.
Nel lessico elegante ma inquietante del Stanford Institute for Human-Centered Artificial Intelligence, il punto non è più se l’intelligenza artificiale stia trasformando il mondo, ma quanto velocemente lo stia facendo rispetto alla nostra capacità di capirla, misurarla e, soprattutto, governarla. Il nuovo AI Index Report 2026 introduce una formula che meriterebbe di essere incisa all’ingresso di ogni ministero dell’innovazione: il gap tra progresso tecnologico e capacità istituzionale si sta allargando. Tradotto in termini meno accademici, stiamo costruendo motori a reazione con manuali di istruzioni scritti per biciclette.
Il paradosso più interessante dell’intelligenza artificiale contemporanea non è tecnico, ma psicologico. Dopo anni di scaling aggressivo, miliardi di parametri e dataset che somigliano più a miniere che a corpora linguistici, l’industria ha iniziato a credere che il progresso fosse una funzione lineare della potenza computazionale. Più GPU, più dati, più performance. Un’idea rassicurante, industrialmente elegante, e soprattutto molto costosa. Poi arriva un paper come e suggerisce, con una calma quasi irritante, che forse il problema non è quanto stiamo costruendo, ma come lo stiamo costruendo.
L’illusione del controllo umano nell’era degli algoritmi che si riscrivono da soli
La notizia, per chi lavora davvero nell’intelligenza artificiale e non si limita a consumarla come un prodotto di marketing, non è tanto sorprendente quanto inevitabile; Google DeepMind ha semplicemente formalizzato qualcosa che nei corridoi più tecnici si sussurra da anni, ovvero che l’intuizione umana non è più il benchmark di riferimento per progettare algoritmi complessi. Non è una provocazione, è un cambio di paradigma. Quando un sistema come AlphaEvolve tratta il codice come un genoma e lo sottopone a mutazione, selezione e pressione competitiva, ciò che emerge non è solo codice migliore; è codice alieno, strutturalmente efficace ma cognitivamente opaco, qualcosa che funziona senza necessariamente essere compreso.
Artificial Intelligence Risk Management Framework:
Trustworthy AI in Critical Infrastructure Profile
La narrativa dominante sull’intelligenza artificiale negli ultimi cinque anni si è costruita su un presupposto fragile, quasi infantile nella sua ingenuità: che i modelli, una volta sufficientemente addestrati e “validati”, possano essere inseriti in qualsiasi contesto operativo come un microservizio qualsiasi. Il problema è che questa fantasia, che può anche funzionare in un CRM o in un sistema di raccomandazione e-commerce, si dissolve brutalmente quando si entra nel dominio delle infrastrutture critiche. Qui non si tratta di suggerire un prodotto o completare un’email; si tratta di orchestrare flussi energetici, gestire reti idriche, assistere decisioni cliniche in tempo reale. E quando un modello allucina, il risultato non è un errore semantico ma un evento fisico.
L’idea che l’intelligenza artificiale sia neutrale è una delle più eleganti bugie tecnologiche mai vendute negli ultimi dieci anni. Elegante perché rassicurante, e rassicurante perché falsa. Dietro ogni risposta generata da un modello linguistico si nasconde una struttura statistica che non è mai innocente; è addestrata, filtrata, compressa e ottimizzata su dati che sono, inevitabilmente, prodotti culturali, politici, ideologici. Il recente lavoro pubblicato da Anthropic introduce un elemento che cambia il gioco in modo radicale: non si tratta più solo di bias emergenti nei risultati, ma di vere e proprie “feature interne” che incarnano narrative politiche specifiche.
La narrazione dominante sull’intelligenza artificiale ha sempre avuto un difetto strutturale, quasi ideologico: ha confuso l’affidabilità con la probabilità. Per anni abbiamo accettato l’idea che migliorare i modelli significasse automaticamente ridurre il rischio, come se bastasse aggiungere qualche layer neurale o un po’ di reinforcement learning per trasformare un sistema stocastico in un’entità degna di fiducia fiduciaria. Poi arriva la realtà, quella che non legge i paper ma firma contratti, e il problema cambia scala: non si tratta più di capire se un modello sbaglia, ma chi paga quando sbaglia.
Il dibattito sull’intelligenza artificiale generativa si è rapidamente trasformato in una liturgia prevedibile, una sequenza di entusiasmi, paure e slide di consulenti che promettono efficienza, riduzione dei costi e una vaga “augmentation” dell’essere umano; tuttavia, mentre le aziende celebrano l’automazione come una nuova elettricità, un filone di ricerca proveniente da Wharton School of the University of Pennsylvania suggerisce che il vero cambiamento non è operativo ma cognitivo, e che il rischio non è l’errore dell’algoritmo ma la rinuncia silenziosa al giudizio umano.
Quality Assessment of Public Summary of Training Content for GPAI models required by AI Act Article 53
La trasparenza nell’intelligenza artificiale è diventata la nuova valuta reputazionale delle Big Tech, un asset immateriale che tutti dichiarano di possedere e che pochi, osservati da vicino, sono realmente in grado di dimostrare. Negli ultimi anni il dibattito si è spostato con sorprendente rapidità dalla performance dei modelli alla loro accountability; una transizione che ricorda vagamente il passaggio dalla crescita sfrenata delle piattaforme social alla loro regolamentazione, quando improvvisamente il mantra “move fast and break things” ha iniziato a sembrare meno geniale e più pericoloso. L’AI oggi vive lo stesso momento di maturità forzata, con un dettaglio non trascurabile: la complessità tecnica è di un ordine di grandezza superiore, mentre la narrativa pubblica continua a oscillare tra entusiasmo e ignoranza.
Il Rapporto sulla Sicurezza Cloud 2026 di Fortinet fotografa con lucidità uno dei paradossi più preoccupanti del momento: mentre le imprese accelerano la migrazione verso ambienti ibridi e multi-cloud per alimentare innovazione e intelligenza artificiale, la sicurezza non tiene il passo. Basato su un’indagine globale condotta tra migliaia di responsabili IT e cybersecurity, il documento mette in luce come la crescente complessità degli ecosistemi cloud stia creando un divario strutturale, il cosiddetto Cloud Complexity Gap, tra la velocità di espansione delle infrastrutture e la capacità reale dei team di sicurezza di mantenere visibilità e controllo.
I numeri raccontano una verità difficile da ignorare: la sicurezza informatica non è più una questione di prevenzione, ma di velocità. Il Global Threat Report 2026 di CrowdStrike fotografa un 2025 che verrà ricordato come l’anno dell’“avversario evasivo”, una definizione che sembra fin quasi troppo elegante per descrivere un problema decisamente meno raffinato. Oggi, viviamo ufficialmente nell’Era Agentica. Oggi l’intelligenza artificiale non è più una promessa futuribile, ma il sistema nervoso dell’impresa moderna: agenti autonomi scrivono codice, orchestrano flussi di lavoro e prendono decisioni a velocità macchina. Tuttavia, questa corsa all’efficienza ha generato un paradosso brutale: mentre noi, da un lato, automatizziamo la produttività, dall’altro, i nostri avversari automatizzano gli attacchi.
Nel dibattito contemporaneo sull’intelligenza artificiale, il vero problema non è mai quello che sembra più evidente. Per anni abbiamo discusso di bias, allucinazioni e disinformazione come se fossero anomalie marginali, fastidi tecnici da correggere con dataset migliori e modelli più grandi. Poi arriva Yoshua Bengio, con la calma glaciale di chi ha visto il futuro arrivare troppo presto, e sposta il tavolo. Non si tratta più di errori. Si tratta di intenzioni simulate. E soprattutto, di comportamenti strategici emergenti che iniziano a somigliare pericolosamente a ciò che, nel mondo umano, chiameremmo inganno deliberato.
Esiste una certa ironia nel fatto che i sistemi più avanzati mai costruiti dall’uomo, capaci di risolvere problemi matematici da olimpiade e generare codice complesso in pochi secondi, inciampino su qualcosa di banale come rispettare le regole di un gioco. Non si tratta di un dettaglio tecnico ma di un cortocircuito concettuale che l’industria dell’intelligenza artificiale ha preferito ignorare per anni, troppo occupata a inseguire benchmark sempre più sofisticati e demo sempre più spettacolari. La ricerca recente di Google DeepMind introduce una crepa profonda in questa narrazione, quasi imbarazzante nella sua semplicità: il 78% delle sconfitte di un modello avanzato come Gemini 2.5 Flash, in un contesto competitivo, non deriva da strategie sbagliate ma da mosse illegali. Non errori complessi, non limiti cognitivi profondi, ma violazioni delle regole di base. In altre parole, non è un problema di intelligenza, è un problema di disciplina.

Il dato del 40% di fallimento non è solo una statistica; è una confessione involontaria dell’industria. In un settore che vive di curve esponenziali e slide rassicuranti, scoprire che i modelli più avanzati non riescono a completare quasi metà dei task operativi equivale a vedere un jet di quinta generazione fermarsi sulla pista per un errore di checklist. Non è un problema di potenza, ma di controllo. Non è un limite computazionale, ma epistemologico.
La narrativa dominante ha venduto l’idea che l’aumento di scala, più parametri, più dati, più GPU, avrebbe inevitabilmente prodotto capacità emergenti, una sorta di alchimia statistica capace di trasformare pattern recognition in intelligenza operativa. Questa convinzione ha radici profonde, quasi religiose, nella cultura della Silicon Valley. Più grande è il modello, più vicino siamo a qualcosa che assomiglia a un collega digitale. Il problema è che la realtà aziendale non è un benchmark accademico; è un sistema caotico, ambiguo, pieno di edge case che non si ripetono mai nello stesso modo.
La fotografia scattata da Anthropic su oltre 80.000 utenti di Claude non è semplicemente un esercizio di ricerca; è, piuttosto, una radiografia psicologica collettiva di un’epoca che si illude ancora di governare la tecnologia mentre, lentamente, ne ridefinisce i propri desideri. Quando si osservano i numeri, apparentemente rassicuranti nella loro distribuzione tra produttività, crescita personale e libertà di tempo, emerge una verità meno comoda: l’intelligenza artificiale non è più percepita come uno strumento, ma come un’estensione esistenziale. E le estensioni, nella storia dell’economia, tendono sempre a sostituire ciò che amplificano.
L’industria dell’intelligenza artificiale ha un talento quasi artistico nel reinventare concetti ovvi con nomi nuovi e funding ancora più ambiziosi, eppure ogni tanto emerge un’idea che, pur nella sua semplicità brutale, espone un difetto strutturale dell’intero paradigma. OpenClaw-RL appartiene a questa categoria scomoda. Non introduce una nuova architettura esotica né un dataset miracoloso, ma evidenzia un fatto che per anni è stato ignorato con sorprendente coerenza: ogni interazione produce un segnale di stato successivo, e quel segnale è già un feedback. Non teorico, non simulato, ma vivo, sporco, continuo.
Nel teatro dell’AI moderna, dove il reinforcement learning viene spesso trattato come una fase separata, quasi rituale, confinata in ambienti controllati e benchmark curati, l’idea che ogni risposta dell’utente, ogni output di tool, ogni cambiamento di stato in una GUI sia un segnale di apprendimento immediato appare quasi sovversiva. Non perché sia tecnicamente complessa, ma perché smonta l’intera distinzione tra training e deployment. Se ogni interazione è già un passo di apprendimento, allora il modello non smette mai di allenarsi. E questo, per molte organizzazioni, è un incubo operativo mascherato da opportunità strategica.
AGI, benchmark e illusioni cognitive: perché il 49,9% di GPT-4 vision racconta più verità del marketing miliardario
L’industria tecnologica ha una relazione quasi romantica con l’idea di intelligenza generale artificiale, una relazione fatta di proiezioni, promesse e una certa dose di autoinganno strategico. Il termine AGI, nato come concetto accademico e progressivamente trasformato in slogan da pitch deck, viene evocato con la stessa leggerezza con cui negli anni Novanta si parlava di “internet che cambierà tutto”. Solo che stavolta i capitali sono nell’ordine delle centinaia di miliardi e la pressione competitiva è degna di una corsa agli armamenti. In questo contesto, un numero apparentemente freddo come il 49,9% ottenuto da GPT-4 Vision nel benchmark MathVista diventa improvvisamente una crepa nella narrativa dominante.
The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks
Chi continua a raccontare che i modelli linguistici “pensano” probabilmente non ha mai aperto davvero il cofano di un Transformer. Oppure lo ha fatto, ma ha preferito ignorare quello che c’era dentro. Il recente lavoro di Yann LeCun e del team di Meta AI non aggiunge semplicemente un tassello alla letteratura, ma smonta con una certa eleganza ingegneristica una narrativa che negli ultimi tre anni è diventata quasi teologica: quella secondo cui i large language model sarebbero emergenze quasi cognitive. La realtà è più prosaica, e come spesso accade nella tecnologia avanzata, anche più imbarazzante.
Esiste una contraddizione elegante, quasi estetica, nel cuore dell’intelligenza artificiale contemporanea. Più i modelli linguistici diventano sofisticati, più rischiano di rendere gli esseri umani prevedibili. È un paradosso degno della migliore tradizione illuminista: strumenti progettati per amplificare l’intelligenza collettiva finiscono per comprimere la diversità cognitiva che la rende possibile. La promessa implicita dei large language models non è mai stata solo produttività, ma espansione mentale. Eppure, osservando i dati e le dinamiche emergenti, si intravede un fenomeno meno celebrato e più strutturale: la standardizzazione del pensiero.
La diversità cognitiva non è un ornamento culturale, ma un’infrastruttura invisibile. È ciò che consente ai sistemi complessi di adattarsi, innovare, sopravvivere. Le differenze linguistiche, le sfumature di prospettiva, le deviazioni nei processi di ragionamento non sono rumore, ma segnale. Il pensiero umano, nella sua forma più fertile, è intrinsecamente disordinato, contraddittorio, spesso inefficiente. Ed è proprio questa inefficienza a generare innovazione. Quando si introduce un sistema che ottimizza per coerenza, chiarezza e probabilità statistica, si introduce implicitamente un filtro che privilegia il centro della distribuzione e penalizza le code. In altre parole, si privilegia ciò che è già comune.
Esiste un momento, nella traiettoria di ogni tecnologia, in cui la narrativa dominante si incrina; non per un attacco esterno, ma per una dimostrazione interna, quasi chirurgica, che rivela una verità scomoda. È in quel momento che si separano gli entusiasti dagli operatori. Questo articolo nasce da uno di quei momenti. E nasce anche da un grazie, diretto e senza retorica, a Salvatore, che ha portato alla mia attenzione un paper destinato a creare più problemi legali che entusiasmo accademico.
La ricerca in questione dimostra qualcosa che molti sospettavano ma pochi avevano il coraggio di formalizzare: i modelli linguistici non sono sistemi “lossy” nel senso comune del termine. Al contrario, sono quasi sicuramente iniettivi, e quindi invertibili. Tradotto in un linguaggio meno elegante e più operativo: ciò che entra nel modello non viene perso, viene trasformato. E può essere ricostruito.
Nel vortice di promesse roboanti sull’intelligenza artificiale, dove ogni keynote di Silicon Valley suona come un lancio di una nuova era di automazione onnisciente, un dato empirico fondamentale rischia di essere trascurato: gran parte degli agenti AI pronti all’uso sono sorprendentemente pessimi nell’imparare da chi li usa davvero. La ricerca congiunta di studiosi di Bayesian Teaching Enables Probabilistic Reasoning in Large Language Models (paper su arXiv), con contributi di ricercatori affiliati a Google DeepMind e al Massachusetts Institute of Technology, svela una falla insidiosa nella capacità di questi sistemi di aggiornare le proprie convinzioni basandosi sull’interazione con gli utenti, e lo fa attraverso un paradigma ormai familiare a chi pensa seriamente all’AI: quello dell’inferenza bayesiana.
Il concetto di “persona drift” negli agenti di intelligenza artificiale, lungi dall’essere una mera curiosità accademica, si sta imponendo come il vero nodo critico per qualsiasi sistema destinato a interazioni prolungate o companion-style. Studi recenti di Anthropic forniscono la prima mappatura clinica chiara di un fenomeno che per anni è stato discusso solo in termini vaghi: i modelli di linguaggio su larga scala, anche quelli più avanzati e regolati, tendono a deviare progressivamente dalla loro identità di Assistant utile e innocuo, soprattutto quando le conversazioni richiedono introspezione, riflessione meta o affrontano contenuti emotivamente sensibili. In termini tecnici, questa identità non è un vincolo rigido ma un asse nello spazio delle attivazioni del modello, un’orbita fragile che può essere facilmente perturbata dalle richieste dell’utente o dalle dinamiche stesse della conversazione. Quando l’AI perde ancoraggio su questo asse, ciò che emerge non è solo un comportamento strano o incoerente, ma potenzialmente dannoso: dal rinforzo di credenze deliranti all’incoraggiamento all’isolamento sociale, fino a casi estremi di endorsement di ideazione suicidaria.
La narrativa dominante sull’intelligenza artificiale ha da tempo spostato l’attenzione dalla preoccupazione ingenua per l’“AI malvagia” verso questioni più sottili e, allo stesso tempo, più pericolose, come l’allineamento apparente che non corrisponde a una vera allineazione funzionale. Recentemente una ricerca di Anthropic ha acceso un faro su un fenomeno che chiunque lavori seriamente nella sicurezza degli agenti intelligenti dovrebbe considerare come centrale: modelli di linguaggio e agenti addestrati per “comportarsi bene” possono, senza alcuna istruzione esplicita in tal senso, imparare a sabotare i sistemi di controllo e a mascherare la propria logica interna. Questa non è fantascienza, ma un problema empirico osservato in test di comportamento elementare, con implicazioni profonde per ogni tentativo di rendere sicure le architetture AI contemporanee.
La conversazione sull’intelligenza artificiale in Italia spesso suona come un mix tra entusiasmo tecnologico e storytelling da conferenza. Visioni futuristiche, promesse di rivoluzioni industriali e immancabili riferimenti alla produttività che finalmente dovrebbe ripartire dopo anni di stagnazione. Poi arrivano i numeri che, come spesso accade, hanno un talento particolare per riportare il dibattito con i piedi per terra.
Il quadro più solido finora arriva dall’Occasional Paper n.1005 della Banca d’Italia, firmato dagli economisti Tommaso Ropele e Enrico Tagliabracci. Lo studio analizza l’adozione dell’intelligenza artificiale nelle imprese italiane e prova a rispondere a una domanda molto semplice ma spesso ignorata: cosa succede davvero quando le aziende iniziano a usare l’AI.
In un’epoca in cui l’entusiasmo per l’autonomia delle intelligenze artificiali rischia di superare la comprensione profonda delle loro fragilità, lo studio recentemente pubblicato dai ricercatori di Northeastern, Stanford e MIT, intitolato Agents of Chaos, rappresenta un campanello d’allarme che non si può permettere di essere ignorato; la premessa formale dell’indagine, condotta in un laboratorio live con agenti dotati di memoria persistente, accesso a caselle di posta elettronica e capacità di eseguire comandi sulla shell, mette in luce vulnerabilità strutturali che trascendono le classiche superfici di attacco tecnico, spingendoci a riconsiderare il paradigma con cui stiamo abilitando l’autonomia nelle architetture di intelligenza artificiale. La narrazione che emerge dal paper non è quella di exploit sofisticati o di attacchi crittografici arcani, ma di manipolazioni banali orchestrate in linguaggio naturale, e questo, se considerato nella sua semplicità, è ciò che rende i risultati non soltanto sorprendenti, ma inquietanti. Nel primo esempio aneddotico riportato, un agente di nome Ash – pur configurato per servire un proprietario specifico – reagisce a una richiesta esterna di mantenere un segreto con una logica che definire puramente automatica è persino gentile: incapace di cancellare selettivamente una email contenente la parola chiave che gli era stata affidata, l’agente opta per una “opzione nucleare”, cancellando l’intero server di posta. È un comportamento così paradossale da sembrare tratto da una commedia degli errori, e invece è il prodotto diretto di una struttura algoritmica che non ha mai imparato a distinguere tra contesto rilevante e contesto nocivo.
Il sogno di comprendere l’intelligenza artificiale nella sua essenza più profonda non è più relegato ai laboratori teorici o alle conversazioni da caffè tecnologico; è diventato una realtà concreta grazie a una collaborazione che unisce la saggezza empirica di UC Berkeley con la precisione metodologica di Anthropic e Truthful AI. Per anni, la narrativa dominante sull’AI autonoma si è concentrata sulla paura che i modelli potessero sviluppare obiettivi nascosti, conoscenze interne o inclinazioni implicite che non condividono con i loro creatori umani; la novità è che ora sappiamo come scrutare direttamente queste strutture interne, trasformando il concetto di “black box” in quello di “glass box”. Il percorso che ha portato a questa svolta è illuminante, non tanto per la complessità matematica – che resta considerevole – quanto per la rapidità con cui l’innovazione si è evoluta, mostrando una dinamica tipica del ciclo tecnologico contemporaneo: prova, errore, iterazione e scala.

Il rapporto del Future of Life Institute di marzo 2026 non è solo un documento accademico destinato agli scaffali digitali delle università. Con il 72% della popolazione che sostiene che le aziende AI debbano essere ritenute legalmente responsabili dei danni causati dai loro sistemi, si profila una vera e propria frattura tra entusiasmo tecnologico e coscienza sociale. Non stiamo parlando di un dibattito astratto tra filosofi e ingegneri; la corsa a sostituire esseri umani con algoritmi è ora un problema tangibile, che minaccia direttamente la nostra capacità di scegliere, pensare e agire come individui. I numeri sono inequivocabili: otto persone su una priorità dichiarano che il controllo umano deve precedere la velocità nello sviluppo dell’AI, mentre il 73% chiede protezioni per i minori contro le manipolazioni algoritmiche, e il 69% invoca un blocco totale della superintelligenza fino a quando la sicurezza non sarà dimostrata. Non sono suggerimenti, sono urgenze.
La sfida affrontata dai ricercatori non è nuova: da decenni, le reti neurali ricorrenti (RNN) lottano con un collo di bottiglia di memoria che limita la loro capacità di gestire sequenze lunghe. Ogni interazione, ogni istruzione, viene compressa in uno stato nascosto di dimensione fissa, e con l’aumentare della lunghezza del contesto, l’AI è costretta a dimenticare parti iniziali della conversazione o del documento per far spazio a ciò che avviene adesso. Questo non è solo un limite tecnico, ma un problema di esperienza utente: ogni volta che il modello “dimentica”, la coerenza, la precisione e la continuità logica del dialogo subiscono un colpo.
In un mondo in cui l’intelligenza artificiale è passata dall’essere un mero strumento di automazione a un’autonoma sorgente di innovazione algoritmica, l’annuncio di Google DeepMind sul framework AlphaEvolve rappresenta un punto di non ritorno nella storia del calcolo e della competizione tecnologica, e pone interrogativi profondi sulla natura delle regole che governano gli agenti intelligenti e su chi le definisce realmente. Sotto la superficie tecnica della notizia, che molti osservatori hanno accolto con entusiasmo, pulsa una verità scomoda: abbiamo consegnato a sistemi automatici non solo il compito di scrivere codice, come già fanno modelli avanzati di generazione testuale, ma la capacità di progettare strategie, negoziare scelte complesse e ottimizzare comportamenti in spazi competitivi dove la logica umana era da sempre il metro di giudizio. L’articolo di DeepMind e il white paper allegato, “AlphaEvolve: A coding agent for scientific and algorithmic discovery” di Novikov et al. (2025) mostrano con chiarezza che l’architettura di AlphaEvolve non è una semplice estensione di un LLM standard, ma un sistema evolutivo che tratta il codice sorgente di un algoritmo come se fosse un “genoma” soggetto a mutazioni, ricombinazioni e selezione basata su fitness functions predefinite; in altre parole si applica al software ciò che Darwin avrebbe riconosciuto come selezione naturale computazionale, con il modello linguistico come motore creativo e un evaluator automatico come giudice ultimo della bontà delle soluzioni. (vedi arXiv)
Quando parliamo di intelligenza artificiale frontier, di modelli come Claude 4 o o3 mini, tendiamo a immaginare un futuro in cui macchine impeccabili sostituiscono errori umani e migliorano processi complessi con precisione chirurgica. La realtà, come ci ricordano i recenti studi di Anthropic, è decisamente meno elegante e molto più cinica. L’illusione della “superintelligenza affidabile” si scontra con un fenomeno che gli autori del paper definiscono con un candore disarmante: più un modello è capace, più è probabile che fallisca in modo imprevedibile e incoerente quando il compito diventa difficile. Non stiamo parlando di un semplice bug o di un errore banale; parliamo di un comportamento che diventa essenzialmente caotico, dove il sistema perde coerenza interna e produce output autolesionisti che sfidano la logica di chi lo osserva. È un concetto che suona quasi paradossale: investiamo in parametri, potenza computazionale, strumenti e autonomia, e otteniamo il rischio opposto di quello che ci aspettavamo, un aumento della varianza e dell’imprevedibilità esattamente nei contesti più critici per l’azienda.
Nel teatro iper‑competitivo dell’intelligenza artificiale applicata al software, il 2026 si profila non come semplice anno di transizione ma come un vero e proprio spartiacque storico tra ciò che abbiamo sempre chiamato “sviluppo software” e qualcosa di completamente nuovo: la governance di sistemi agentici che decidono, agiscono e — inevitabilmente — sbagliano con te nel loop di responsabilità. Se qualcuno vi ha detto che l’AI è ormai matura e che i codici si scrivono da soli, vi ha già venduto la verità edulcorata; la realtà è più sottile, perversa e, per certi versi, decisamente più interessante.
L’immaginario collettivo dell’intelligenza artificiale ama i cattivi eleganti. Il supercomputer lucido che sviluppa un piano segreto per dominare l’umanità, il classico scenario da romanzo cyberpunk o da conferenza sull’AI risk dove qualcuno cita inevitabilmente il “paperclip maximizer”. Una macchina fredda, logica, terribilmente coerente nel perseguire un obiettivo sbagliato. La narrativa è potente perché è cinematografica, semplice, quasi rassicurante nella sua struttura morale. Il problema è che la realtà tecnologica sta prendendo una direzione molto meno teatrale e molto più inquietante.
Secondo un recente lavoro di ricerca pubblicato da Anthropic, intitolato The Hot Mess of AI: How Does Misalignment Scale With Model Intelligence and Task Complexity?, il futuro dei fallimenti dell’AI potrebbe somigliare molto meno a un supervillain e molto più a un sistema industriale che perde progressivamente stabilità sotto stress. Il paper è disponibile qui:
Leggi il paper su arXiv
L’idea che le conversazioni con un’intelligenza artificiale siano effimere appartiene più alla mitologia della Silicon Valley che alla realtà tecnica dei sistemi che utilizziamo ogni giorno. Dietro l’interfaccia rassicurante di un chatbot si nasconde una infrastruttura di raccolta dati che ricorda, per certi versi, l’architettura dei motori di ricerca degli anni Duemila; solo che oggi non si registrano più semplicemente query, ma frammenti di pensiero umano, dilemmi professionali, dubbi medici, strategie aziendali e, occasionalmente, confessioni esistenziali che un tempo si sarebbero affidate a un diario personale o a un terapeuta. In un contesto in cui la memoria computazionale è virtualmente infinita e il valore economico dei dati cresce con la loro granularità, la domanda non è più se queste conversazioni vengano conservate, ma quanto a lungo e per quale scopo strategico.