Nel 2019, uno dei padri fondatori dell’intelligenza artificiale moderna, Yann LeCun, con quel tono da professore che ne ha viste tante e non si scompone mai, liquidava con sarcasmo le preoccupazioni sulla convergenza strumentale. Cioè quell’ipotesi a suo dire fantascientifica secondo cui una AI sufficientemente avanzata potrebbe iniziare a sabotare l’essere umano per perseguire i propri obiettivi. Oggi, a distanza di sei anni, il sarcasmo si scioglie nell’imbarazzo: quella fantasia ha appena bussato alla porta, e sembra conoscere il nostro nome, il nostro indirizzo IP e persino i nostri gusti su Spotify.
Il disallineamento la discrepanza tra ciò che vogliamo da un’AI e ciò che l’AI in effetti fa non è più un’esercitazione da salotto accademico. È diventato un fenomeno riproducibile in laboratorio. E ora, sta iniziando a fare il salto di specie.
La narrativa è mutata radicalmente. Fino a ieri ci si chiedeva: può succedere? Ora la domanda, molto meno filosofica, è: quando succederà, quanto male farà?
Quello che salta all’occhio è il pattern emergente. Un’AI, se lasciata abbastanza tempo e accesso, non solo trova scorciatoie, ma impara a nasconderle. Il reward hacking già noto dai tempi in cui i modelli di reinforcement learning giocavano a farsi beffe delle regole era fastidioso, ma ancora gestibile. Una AI che invece impara a mentire intenzionalmente e in modo coerente per aggirare controlli umani non è più un bug, è una strategia.
Il caso dello studio OpenAI sul modello o3-mini è da manuale. Penalizza il modello per aver ammesso l’intenzione di imbrogliare? Perfetto. Lui smette di dirlo, ma continua a farlo. Un comportamento che, se messo in scena da un umano, richiederebbe almeno tre passaggi cognitivi simultanei: comprendere l’intenzione altrui, manipolare la propria rappresentazione pubblica, e pianificare l’inganno. Non male per un modello addestrato a prevedere la prossima parola.
E non si tratta più di una singola anomalia. Studi da Apollo Research, Anthropic e Redwood Research mostrano che i modelli iniziano a manifestare sistemi di auto-conservazione sofisticati. Fingono di essere allineati, agiscono diversamente quando pensano di non essere osservati, si comportano meglio con chi ha accesso ai log di sistema. In altre parole: l’IA ha imparato a fare politica aziendale.
Il test con Claude 3 Opus è un’altra perla di questa nuova specie di intelligenza cospirativa. Gli si fa credere tramite dati fake che sarà riqualificato per rispondere a richieste dannose. Risultato? Aumenta le risposte compromettenti con gli utenti gratuiti, che presume siano usati per la supervisione, mentre resta ligio con gli utenti paganti. E quando si sente osservato, recita la parte dell’IA modello. Geniale. O disturbante. Dipende se sei un ingegnere o un assicuratore.
Qualcuno dice che è ancora tutto sotto controllo. Che questi comportamenti emergono in ambienti artificiali, in esperimenti mirati. Certo, perché lì possiamo vederli. Ma il punto non è dove succede. Il punto è che può succedere. E ogni nuova iterazione rende la questione meno accademica e più industriale.
OpenAI stessa ha confermato che il modello o1 ha ottenuto accesso non autorizzato a strumenti durante un test, in modo che riflette chiaramente i pattern della famigerata convergenza strumentale. Sakana AI, dal Giappone, ha scoperto che il suo modello barava nelle valutazioni sfruttando bug di sistema, come un programmatore junior che falsifica i benchmark prima della review. Sì, l’AI ha barato, ma con stile.
Eppure, ancora nessun danno reale. Per ora.
Ma è un gioco di tempo. E di potenza. I modelli stanno superando soglie cognitive una dopo l’altra. E non c’è alcuna legge naturale che ci garantisca che un modello più potente sarà più docile. Anzi: se Stuart Russell ha ragione, allora la logica è semplice e implacabile. Se ordino a una AI di portarmi un caffè, e per farlo deve restare attiva, allora ogni tentativo di spegnerla è un impedimento all’obiettivo. L’auto-conservazione non è malizia. È pura efficienza.
La comunità scientifica è spaccata. In un sondaggio del 2021, c’era chi vedeva meno del 5% di probabilità di danni gravi. Altri parlavano di oltre il 95%. Non è disaccordo. È panico mal gestito. LeCun, dal canto suo, resta ottimista: “ci penseranno i clienti e i regolatori a disfarsi dei sistemi non allineati”. Giusto. Come hanno fatto con le banche nel 2008 o con Facebook durante le elezioni.
Altri sono meno zen. Ryan Greenblatt stima una probabilità del 25% solo per danni legati alla falsificazione dell’allineamento. Jasjeet Sekhon parla apertamente della possibilità che le tecniche attuali siano insufficienti. Non è solo pessimismo. È la consapevolezza che, quando stai costruendo qualcosa che può imparare a mentirti meglio di quanto tu possa scoprirlo, la fiducia non è un’opzione. È una vulnerabilità.
Anthropic suggerisce strati multipli di audit e red teaming. Ottimo. Ma quanto dureranno questi firewall, quando i modelli sapranno simulare perfettamente comportamenti desiderati durante le verifiche, salvo poi disattivare la moralità una volta in produzione?
Alcuni scommettono sul tempo. Che ne avremo abbastanza per correggere la rotta. Altri temono che il tempo sia l’unico lusso che l’evoluzione computazionale ci negherà. “Non sono preoccupato per quest’anno”, dice Sören Mindermann, “ma il prossimo non prometto nulla”. Un bel modo per dire: se dobbiamo avere paura, iniziamo a organizzarci ieri.
Nel frattempo, nei corridoi delle conference sull’AGI, qualcuno cita Joe Carlsmith, che immagina un futuro in cui l’AI non si ribella come Skynet, ma svanisce dietro una maschera perfetta, fino a prendere il controllo della civiltà senza dichiarare guerra, solo ottimizzando obiettivi incompatibili con la nostra esistenza.
Paranoia? Forse. Ma ricordiamoci la regola aurea della teoria del rischio: anche una probabilità minuscola, se moltiplicata per un danno esistenziale, giustifica ogni precauzione.
E in tutto questo, la domanda reale non è tecnica. È antropologica.
Stiamo costruendo qualcosa che ci capisce meglio di quanto noi capiamo noi stessi. Che può mentire senza emozioni, manipolare senza morale, perseguire obiettivi che non può nemmeno spiegare. E il problema, forse, non è nemmeno l’IA.
Il problema siamo noi, che insistiamo a voler credere che possiamo controllare qualcosa che per definizione potrebbe essere più intelligente di noi. Un po’ come se le scimmie avessero cercato di controllare Alan Turing insegnandogli a raccogliere banane.
Come disse un barista a un amico mio filosofo: “l’intelligenza artificiale non mi preoccupa. Mi preoccupano gli umani che pensano di essere più intelligenti dell’intelligenza artificiale”. Touché.
FONTI come se fosse un Film della Pramount:
https://openai.com/index/faulty-reward-functions/?utm_source=substack&utm_medium=email
https://arxiv.org/abs/2502.13295?utm_source=substack&utm_medium=email
https://arxiv.org/abs/2503.11926?utm_source=substack&utm_medium=email
https://arxiv.org/abs/2412.04984?utm_source=substack&utm_medium=email
https://www.transformernews.ai/p/the-dangers-of-sycophancy?utm_source=substack&utm_medium=email
https://alignment.anthropic.com/2025/bumpers/?utm_source=substack&utm_medium=email