Il settore finanziario sta entrando nell’era dell’AI agentica con la stessa disciplina strategica con cui molti istituti entrarono nel mercato dei derivati sintetici nei primi anni Duemila: entusiasmo, slide rassicuranti, governance cosmetica e una fede quasi religiosa nel fatto che “questa volta il modello è sotto controllo”. Spoiler: non lo è.

Un nuovo paper della University of Edinburgh e della UNC Charlotte mette in discussione una delle illusioni più costose dell’industria AI enterprise: l’idea che i prompt based guardrails siano veri controlli operativi. Non lo sono. Sono suggerimenti linguistici applicati a sistemi probabilistici. Tradotto nel linguaggio del risk management: advisory policy, non enforcement.

La differenza diventa devastante quando un LLM smette di “parlare” e inizia ad agire. Un agente che orchestri workflow, invochi tool, approvi transazioni, interroghi database o generi documentazione regolatoria non è più un chatbot elegante. È un’entità con autorità delegata. E il settore finanziario continua a trattarla come un assistente customer care con una UI più costosa.

La ricerca evidenzia un problema che molti CIO e CRO fingono di non vedere: piccole variazioni semantiche possono alterare radicalmente la traiettoria esecutiva di un agente. Un passaggio saltato. Un tool non autorizzato. Un approval chain bypassato. Un calcolo numericamente errato ma linguisticamente impeccabile. Il classico memo di credito “fluente” che distrugge centinaia di milioni perché nessuno ha verificato la correttezza logica dietro la plausibilità sintattica.

Qui il Model Risk Management tradizionale collassa. Per decenni il banking ha validato modelli statici: input definiti, output osservabili, distribuzioni relativamente stabili. Gli agenti AI invece sono sistemi dinamici che scompongono task, pianificano azioni e navigano spazi decisionali combinatoriali. Non esiste coverage testing realistico per tutte le execution trajectories possibili. Pensare di farlo è come voler certificare preventivamente ogni possibile conversazione umana in una trading floor sotto stress.

Per anni Silicon Valley ha venduto “alignment” come se fosse un plugin SaaS. Ora il mercato enterprise scopre che un prompt non può sostituire un controllo deterministico. È la versione AI del cartello “vietato fumare” installato accanto a una raffineria.

Molti istituti stanno inoltre sottovalutando il problema della velocità cognitiva. Il paradigma human-in-the-loop viene ancora presentato come garanzia di sicurezza, ma è una soluzione architetturalmente fragile. Gli esseri umani non possono revisionare workflow generati a velocità macchina, soprattutto quando gli agenti orchestrano decine di chiamate tool al secondo. La supervisione umana diventa teatro regolatorio; rassicura il board, non il sistema.

Il punto più interessante del paper riguarda il runtime governance model. Finalmente qualcuno nel mondo accademico ammette che la sicurezza degli agenti non può essere confinata al training o al prompting. Deve esistere durante l’esecuzione. Telemetria continua. Policy enforcement runtime. Constraint engine deterministici. Auditabilità delle catene decisionali. State monitoring persistente. In altre parole: servono sistemi di controllo più vicini all’avionica critica che ai chatbot customer service.

Peccato che la maggior parte delle banche non abbia nemmeno il substrate infrastrutturale per farlo. Molte organizzazioni stanno costruendo agentic AI sopra stack legacy che già faticano a riconciliare batch notturni e identity governance. Inserire agenti autonomi in queste architetture è come montare un motore Ferrari su un ascensore del 1987 e sperare che il problema sia il prompt engineering.

Il rischio reale non è l’AI che “diventa cosciente”, fantasia molto amata da conferenze TED e venture capitalist in cerca di storytelling. Il rischio reale è molto più banale, quindi più pericoloso: sistemi formalmente non verificabili che ottengono accesso operativo a processi finanziari critici. La storia della tecnologia insegna che i disastri più costosi nascono quasi sempre da dettagli apparentemente minori amplificati dalla scala.

Nel 2012 il Knight Capital Group perse oltre 440 milioni di dollari in 45 minuti per un deployment errato di software trading. Nessuna AGI ribelle. Nessun robot senziente. Solo sistemi automatici, governance insufficiente e runtime failure. Gli agenti AI stanno moltiplicando esattamente quel tipo di rischio, ma con una superficie operativa immensamente più opaca.

Serve quindi una mutazione culturale prima ancora che tecnica. Gli agenti non devono essere classificati come “enhanced productivity tools”. Devono essere trattati come operatori autonomi con authority boundaries, execution permissions, runtime supervision e kill-switch deterministici. Esattamente come qualsiasi altra infrastruttura critica.

Le aziende che vinceranno non saranno quelle con il modello più grande o con il pitch deck più aggressivo su LinkedIn. Saranno quelle capaci di costruire governance computazionale reale. Enforcement, non intenzioni. Determinismo, non plausibilità. Auditabilità, non storytelling.

Perché il mercato sta confondendo eloquenza statistica con affidabilità operativa. E la finanza ha una lunga tradizione di imparare la differenza solo dopo aver perso miliardi.:::

Paper : https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6567199