Ho sempre sospettato che lasciare all’AI il cuore pulsante dei nostri sistemi fosse come mettere un elefante in salotto e aspettarsi silenzio. La tentazione cresce: GPT-5, più potente, più lucido, più “affidabile”? Falso mito. L’esperimento raccontato da ZDNET non una fanfiction, ma un’analisi ferocemente obiettiva dimostra che affidare aggiornamenti infrastrutturali fondamentali a GPT-5 è come consegnare le chiavi dell’aereo a un turista ubriaco.

Gli sviluppatori di ZDNET hanno chiesto a GPT-5 di modificare codice mission-critical. Il risultato: output ridondanti, sezioni di codice ripetute e potenziali mine logiche nascoste. La prima reazione? Un plugin WordPress che, invece di aggiornare correttamente, ti trasporta in tools.php. Non esattamente la rivoluzione promessa (Hiverlab, wirefan.com).

Ho provato a dormire, ma il subconscio ha detto no: un incubo degno del miglior thriller, inseguito da utenti furiosi la cui privacy era stata polverizzata. Non metafora: un’avvertenza psichica che l’AI—per quanto seducente—non è abbastanza matura per il codice critico.

I test? Un terno al lotto. GPT-5 ha fallito in circa metà delle prove più delicate. Quando ha funzionato, è stato quasi per caso. La soluzione temporanea? Reinstaurare GPT-4o, il solido ma sottovalutato arciere della tensione Zero Trust.

Se vuoi un confronto anglosassone tra avanzamento e rospi da ingoiare, considera: i benchmark mostrano che GPT-5 ha alzato i suoi punteggi in sicurezza e correzione di codice, ma il suo tono algido ha fatto innervosire gli utenti pensavano di avere un compagno, si sono ritrovati con un burocrate digitale.

Perché ci riguarda davvero

Quando un frammento di codice influente va storto, il domino cade. Privacy compromessa, fiducia pubblica in frantumi, reputazioni aziendali che evaporano. L’uso dell’AI nei sistemi centrali è una roulette russa che nessun CTO dovrebbe chiamare innovazione.

Studi accademici ne danno conferma: nei sistemi critici, gli agenti LLM mostrano comportamenti insicuri in oltre il 20 % dei casi, specialmente con esposizione di dati sensibili. I modelli più affidabili possono mitigarli solo nel 96 % dei casi. E le falle? Buffer overflow, complessità ingiustificata, errori invisibili—l’AI può generare codice inefficiente, instabile, fragile, persino per routine di hash crittografico.

Siamo dunque di fronte a un’illusione collettiva: fidiamo all’AI il “mega cuore” dei nostri sistemi, sperando che la sua pallida luce non collassi. Ma i fatti raccontano un’altra storia: quando la posta è alta, l’AI deve essere assistente, non autorità.

In parole meno velate: se stai pensando di lasciare al modello la gestione del nucleo tecnologico, arresta il pensiero. Imposta confini ferrei: AI solo per prototipi, feature marginali, debugging assistito. Al centro deve restare l’esperienza umana, dura come una pietra, intelligente come solo JFK—non fredda come l’acciaio.


Da un’occhiata qui Financial Times

    L’articolo del Financial Times rimane una rara eccezione: offre contesto serio sul tema della cyber-sicurezza e del rischio dei tools AI in sistemi militari e civili critici, ricordandoci che la “tranquillità operativa” sta sull’orlo di un precipizio.