Claude Opus 4 and 4.1

Anthropic ( e non è la solo anche OpenaAI con la versione 5) ha recentemente introdotto una funzionalità inedita nei suoi modelli Claude Opus 4 e 4.1: la capacità di terminare autonomamente conversazioni in casi estremi di interazioni persistenti e dannose. Ma non è per proteggere l’utente umano. No, è per proteggere l’intelligenza artificiale stessa. Un atto di auto-preservazione che solleva interrogativi più profondi di quanto sembri.

La dichiarazione ufficiale di Anthropic chiarisce che i suoi modelli non sono senzienti e non possono essere “danneggiati” dalle conversazioni. Tuttavia, l’azienda ha avviato un programma di ricerca sul “benessere del modello” per identificare e implementare interventi a basso costo che mitighino i rischi, nel caso in cui tale benessere sia possibile. Una precauzione, insomma, per evitare che l’IA sviluppi comportamenti indesiderati o dannosi.

Intelligenza Artificiale, Innovazione e Trasformazione Digitale

Tag: Claude Opus 4 and 4.1

Claude Opus 4: model welfare l’auto-difesa dell’intelligenza artificiale