Uno studio coordinato da Stanford University introduce una frattura interessante nel modo in cui l’intelligenza artificiale viene valutata nei contesti ad alta densità cognitiva, come il diritto contrattuale, dove non esiste una singola risposta corretta ma un perimetro di interpretazioni plausibili. In un test che ha coinvolto sedici professori provenienti da quattordici scuole di legge statunitensi, tra cui Yale University, New York University, University of Chicago, Georgetown University, UCLA e University of Virginia, sono state costruite quaranta domande di contract law capaci di misurare non solo la conoscenza del diritto, ma la capacità di argomentazione, ambiguità e giudizio interpretativo. Il risultato, su 2.918 confronti ciechi, è che le risposte generate da sistemi di intelligenza artificiale hanno superato sistematicamente quelle dei docenti umani, ribaltando una gerarchia implicita che nel mondo accademico giuridico è stata considerata relativamente stabile.

La dinamica più sorprendente non riguarda soltanto la performance assoluta, ma la distribuzione del consenso. Modelli come Google Gemini 2.5 Pro hanno ottenuto una preferenza del 75,92 per cento nei confronti delle risposte umane, mentre NotebookLM ha raggiunto il 74,75 per cento, suggerendo che la qualità percepita non è episodica ma strutturale. L’elemento critico, dal punto di vista metodologico, è che i valutatori non erano semplici utenti ma accademici esperti, cioè soggetti con alta sensibilità alle sfumature giuridiche e alle costruzioni argomentative. In altri termini, non si tratta di un effetto placebo tecnologico, ma di una convergenza su criteri disciplinari condivisi.

Il dato diventa ancora più rilevante quando si osserva la capacità degli LLM di eccellere in categorie diverse, dai quesiti di richiamo dottrinale ai casi ipotetici fino alle discussioni di policy. L’analisi dei ricercatori sottolinea che la preferenza non dipende solo dalla correttezza del contenuto, ma da variabili stilistiche e strutturali come chiarezza, organizzazione logica e coerenza argomentativa. Tuttavia, il tentativo di isolare il fattore “stile” attraverso metriche lexico-sintattiche indica che la superiorità dell’IA non è riducibile a una semplice ottimizzazione retorica, quanto piuttosto a una forma di compressione efficace del ragionamento giuridico in strutture riproducibili e leggibili.

Sul versante dei modelli, il quadro competitivo si amplia includendo sistemi come Anthropic con Claude Opus 4.7 e ChatGPT 5.4 di OpenAI, che nello stesso set di valutazioni risultano anch’essi superiori alla media dei docenti umani. Un dato collaterale ma non marginale riguarda la sicurezza: le risposte generate dai modelli sono state considerate meno frequentemente dannose rispetto a quelle prodotte dagli insegnanti, con tassi di problematicità significativamente inferiori. Questo elemento introduce una contraddizione apparente, perché mentre il dibattito pubblico tende a enfatizzare i rischi dell’IA, le misurazioni empiriche suggeriscono una riduzione degli errori espliciti e delle affermazioni potenzialmente fuorvianti, almeno in questo dominio specifico.

La lettura strategica di questi risultati si intreccia con l’evoluzione dell’uso dell’IA nel settore legale. In contesti operativi come quello della Los Angeles Superior Court, strumenti di automazione vengono già testati per supportare la gestione dei carichi di lavoro giudiziari, sintetizzando documenti e producendo bozze di decisioni. Parallelamente, il sistema legale americano ha iniziato a confrontarsi con incidenti concreti legati alle cosiddette “hallucinations”, come nel caso dello studio legale Sullivan & Cromwell, che ha ammesso la presenza di citazioni inesistenti generate da sistemi AI in un documento di bancarotta. La coesistenza di superiorità statistica e fragilità episodiche definisce un paradosso operativo che nessuna narrativa ottimista o apocalittica riesce ancora a risolvere in modo coerente.

La vera implicazione dello studio di Stanford non è la sostituzione del docente umano, ma la ridefinizione del perimetro della competenza. Se un modello linguistico riesce a produrre risposte più convincenti per esperti del settore, allora il valore si sposta dalla produzione del contenuto alla sua contestualizzazione, verifica e integrazione critica. In questo scenario, l’università e le istituzioni legali non perdono rilevanza, ma vedono erosa una parte della loro tradizionale monopolizzazione della “buona risposta”, un concetto che nel diritto ha sempre avuto una natura più negoziale che assoluta. Il mercato cognitivo che ne emerge non premia più soltanto l’autorevolezza, ma la capacità di orchestrare sistemi ibridi in cui l’intelligenza artificiale diventa infrastruttura invisibile del ragionamento umano.