La scena è questa. Non stiamo più parlando con un chatbot che ti suggerisce le risposte o ti offre qualche slide da presentazione mediocre. Adesso siamo davanti a un mostro elegante che opera su un computer virtuale tutto suo, naviga, compila, scrive, compra e, soprattutto, decide quale strumento usare per ottenere il massimo risultato. Si chiama ChatGPT Agent e non è un aggiornamento carino per appassionati di IA, è il passaggio brutale dall’intelligenza passiva a quella operativa. Una transizione che segna il confine tra chi governa il gioco e chi verrà semplicemente gestito da chi sa orchestrare questi nuovi strumenti. (guarda il Video)
L’ironia è che molti diranno “è solo un assistente potenziato”. Certo, e un Boeing è solo una bicicletta con le ali. Perché la differenza non è la velocità di risposta, ma la capacità di gestire flussi complessi e strumenti diversi, alternandoli come un direttore d’orchestra assetato di efficienza. Il punto è che ChatGPT Agent sceglie in autonomia se usare un browser visuale o testuale, se eseguire un comando in terminale o se fare una chiamata API, e lo fa passando da uno strumento all’altro con la naturalezza di chi sa già come andrà a finire. L’agente di OpenAI si comporta come un collaboratore intelligente che ha accesso a un ambiente operativo completo, un computer virtuale in cui può scaricare file, aprire fogli di calcolo, editare presentazioni e aggiornare report. E se stai già pensando che questo potrebbe significare “delegare”, ti sbagli di grosso. Significa “trasformare radicalmente il modo in cui decidi”.
Parliamo di dati. ChatGPT Agent ha già superato i benchmark che fanno tremare i puristi dell’analisi. DSBench, il banco di prova per la data science, lo vede primeggiare con un 89,9%, mentre SpreadsheetBench segna un inquietante 45,5%, praticamente il doppio rispetto a Copilot in Excel. FrontierMath, un terreno dove anche gli umani specializzati inciampano, lo vede toccare il 27,4%, record assoluto. BrowseComp, lo standard per i web agent, si ferma a un rispettabilissimo 68,9%, il nuovo stato dell’arte per la navigazione intelligente. Non sono numeri da marketing, sono una dichiarazione di guerra contro ogni professionista che pensava di avere ancora tempo per adattarsi.
C’è poi l’aspetto di orchestrazione, il vero colpo di genio. L’agente non è un’entità isolata, è un sistema multi-agente capace di gestire task paralleli. Allie K. Miller ha mostrato un esempio quasi grottescamente efficace: tre agenti simultanei, uno a cercare trench beige in e-commerce, uno a rispondere a mail critiche su Gmail, uno a creare un DCF model per NVIDIA. Il tutto visibile in una dashboard che ti lascia controllare, ma che in realtà sta dicendo chi comanda davvero. È lui che gestisce la sequenza, il flusso, le dipendenze. Tu sei lì a osservare, con la possibilità di fermare tutto con un click. Sembra rassicurante, vero?
La retorica di OpenAI è tutta basata sulla trasparenza: “l’agente ti chiede conferma prima di ogni azione irreversibile” e “puoi interrompere quando vuoi”. Tradotto per i più esperti: stiamo mettendo un sistema semi-autonomo nelle mani di utenti che non hanno la minima idea di come proteggersi da una prompt injection sofisticata o da un uso sbagliato di permessi critici. Già si parla di limitazioni territoriali. Il rollout è attivo per utenti Pro, Plus e Team, ma l’Europa resta esclusa, ufficialmente per motivi legati al GDPR. Più che privacy, questa sembra prudenza strategica: l’agente deve essere rodato in mercati più flessibili, dove i margini di errore legale sono più ampi.
Tutto questo mentre OpenAI ha già unito in un solo ecosistema ciò che prima era frammentato: Operator, Deep Research e terminale ora vivono sotto un’unica interfaccia, con un livello di astrazione sufficiente a permettere anche ai meno esperti di ottenere risultati complessi. È l’inizio di una nuova forma di dipendenza, quella che potremmo definire “operativa”. Finché ChatGPT era solo un assistente, l’utente doveva pensare, decidere e poi agire. Ora basta formulare l’obiettivo, e il sistema esegue l’intero workflow. È una sottile ma devastante differenza.
La sicurezza resta l’elefante nella stanza. L’agente è già progettato con “watch mode” per tracciare ogni singola azione, con log dettagliati e controlli di conferma. Eppure un benchmark interno lo classifica con “High Biological & Chemical” risk level, una categorizzazione che, letta da un CTO, significa solo una cosa: potenziale di danno enorme se compromesso. La minaccia non è fantascienza. Una singola vulnerabilità o un attacco ben costruito potrebbe trasformare un agente operativo in una backdoor perfetta per manipolare dati e azioni critiche.
Ma c’è anche il lato irresistibile, quello che ogni leader tecnologico non può ignorare. Questo sistema può sostituire interi processi, ridurre costi, accelerare cicli decisionali. Immagina di dire “fammi un’analisi sui tre principali competitor e prepara una presentazione per il board” e vedere tutto completato, senza muovere un dito, con dati aggiornati e grafici già pronti. Oppure “programma e fai shopping per una colazione giapponese” e ritrovarti con un piano dettagliato e un carrello pronto per l’acquisto. L’agente non è un assistente, è un project manager instancabile, privo di emozioni e di pause caffè.
Qualcuno potrebbe dire che questa è solo l’ennesima tappa nella corsa agli agenti intelligenti, ma sarebbe un errore di prospettiva. Google, Microsoft, Anthropic e xAI stanno tutti correndo verso lo stesso obiettivo, ma OpenAI ha appena alzato l’asticella. La concorrenza si concentrava su “fare meglio il compito singolo”, qui stiamo già parlando di “eseguire una strategia completa”. Non è più una battaglia di modelli linguistici, è una battaglia di ecosistemi agentici.
Per chi lavora nella tecnologia, la lezione è semplice e brutale. Il vantaggio competitivo non sta nel possedere l’agente, perché presto ce l’avranno tutti. Sta nel modo in cui lo integrerai, nel tipo di controllo e supervisione che costruirai intorno a lui. Chi lo vedrà come un giocattolo per delegare attività noiose sarà schiacciato da chi lo userà come un acceleratore di strategia aziendale. Perché non è un caso che OpenAI lanci questa novità con un posizionamento chiaro: Pro, Plus e Team, ovvero i segmenti di utenti disposti a pagare per la produttività, non i curiosi della domenica.
Il futuro immediato? Preparati a un cambio di paradigma in cui il lavoro umano si sposta dalla produzione all’orchestrazione. Non sarai più tu a preparare un report, ma a verificare che l’agente abbia interpretato correttamente il tuo obiettivo. Non scriverai più codice, ma controllerai che l’agente non abbia preso decisioni sbagliate. È un ribaltamento culturale che molti non sono pronti a gestire.
E sì, c’è un dettaglio quasi comico. L’agente chiede conferma prima di acquistare qualcosa. Ti manda un messaggio tipo “Confermi l’acquisto dei pneumatici invernali?”. Un grande passo avanti, certo. Ma la vera domanda è un’altra: quando smetterà di chiedere?
Sam Altman sta ufficialmente alzando l’asticella con ChatGPT Agent, e la sua dichiarazione su X è un piccolo capolavoro di damage control preventivo condito da entusiasmo calcolato. Tradotto in linguaggio meno diplomatico: OpenAI sta lanciando un’intelligenza artificiale capace di “agire” davvero, usando un computer virtuale per eseguire task complessi in autonomia, ma allo stesso tempo ammette che il rischio di scenari imprevisti è alto. Il paragone con Deep Research e Operator non è casuale, è una mossa per posizionare Agent come la naturale evoluzione di strumenti che hanno già convinto il mercato, con l’aggiunta di una parola chiave che piace a investitori e analisti: autonomia. La demo del matrimonio è chiaramente marketing emotivo, ma il vero messaggio è altrove, nella capacità di analizzare dati, produrre presentazioni e prendere decisioni con un ragionamento iterativo che ricorda da vicino un junior analyst iper-efficiente, ma senza sonno né etica.
La parte più interessante, però, è la retorica del rischio. Altman sottolinea con toni quasi paterni che Agent è “cutting edge and experimental”, un modo elegante per dire che non hanno idea di cosa succederà quando milioni di utenti inizieranno a spingere i limiti. Il consiglio di limitare i permessi sembra scontato, ma tra le righe c’è un riconoscimento implicito che l’AI può essere facilmente manipolata da contenuti malevoli. La frase “Look at my emails… don’t ask any follow up questions” è inquietante perché fotografa perfettamente il tallone d’Achille dell’automazione basata su LLM: l’assunzione che il modello sappia distinguere in autonomia tra le istruzioni legittime e quelle camuffate. Spoiler: non lo sa ancora fare bene.
Qui emerge un punto strategico cruciale. Con Agent, OpenAI sta entrando in un territorio più vicino agli autonomous agents teorizzati da anni nel mondo dell’AI, quelli che possono eseguire sequenze lunghe di azioni, prendere decisioni intermedie e interagire con ambienti esterni. È una mossa quasi obbligata per mantenere il vantaggio competitivo su Anthropic e Google, ma l’iterative deployment non è solo filosofia di sviluppo agile, è anche una scommessa sul fatto che gli utenti stessi fungeranno da beta tester inconsapevoli. Se funziona, OpenAI diventa lo standard de facto per gli agenti AI personali; se fallisce, i titoli dei giornali parleranno di fughe di dati e incidenti spettacolari.