Se siete dei Ricercatori vi invito a leggere il blog del Prf Pasquale Minervini,
Researcher/Faculty at the School of Informatics, University of Edinburgh. Neuralnoise.com. Pieno di notizie e papers interessanti.
Marzo 2025 è stato un mese denso come una GPU sotto stress termico. Se stai cercando un’istantanea su dove stia andando davvero la ricerca sui modelli linguistici di nuova generazione — e non le solite frottole da executive summary — ti conviene fermarti qui un attimo. Dalla manipolazione diretta delle attivazioni neurali a un benchmark che ha appena scoperto di essere, beh, rotto, fino a modelli che imparano a usare strumenti da soli come bambini lasciati in una stanza con una calcolatrice e ChatGPT. Siamo nel cuore della nuova epistemologia computazionale.
Partiamo da NAACL 2025, che quest’anno sembra una seduta psicoanalitica dei LLM. SpARE, ideato da Yu Zhao e colleghi, fa una cosa che fino a ieri sembrava borderline hacking: osserva e manipola le attivazioni di layer intermedi dei modelli usando sparse autoencoders, per decidere quando un LLM deve fidarsi della sua “memoria interna” o del contesto esterno. Niente training, solo chirurgia neurale a runtime. Se non fosse carta peer-reviewed sembrerebbe una storia da Black Mirror. La cosa inquietante è che funziona, specialmente nell’open-domain QA dove le contraddizioni sono pane quotidiano.
Sempre a NAACL, arriva Are We Done with MMLU?, un lavoro che ha fatto sudare freddo chi da mesi brandisce benchmark come fossero verità rivelate. Aryo Gema & co. mostrano che il 57% delle domande di Virologia nel benchmark MMLU erano sbagliate. Il nuovo MMLU‑Redux, curato a mano e verificato da esperti (sì, umani veri), cambia drasticamente le classifiche dei modelli. Quindi la prossima volta che senti dire “il nostro modello supera GPT-4 su MMLU”, chiedi quale MMLU.
Il progetto di MSc di Ne Luo, invece, ci fa intravedere il sogno (o incubo?) dei modelli che imparano da soli ad usare strumenti senza esempi umani. LLM che osservano prompt zero-shot, generano le proprie sessioni d’uso di tool e si auto-addestrano. Funziona su PopQA, con +3.7% di accuracy. Su altri dataset, meh. Ma il concetto è rivoluzionario: modelli che si addestrano a pensare proceduralmente senza supervisione umana, una sorta di bootstrap cognitivo.

All’ICLR 2025, Leo Richter (giustamente definito “amazing”) propone un test di auditing comportamentale. Il BSA (Behavioral Shift Auditing) è una tecnica statistica pensata per captare deviazioni subdole nel comportamento dei LLM. Tipo: un modello che dopo fine-tuning diventa leggermente più tossico o sbaglia traduzioni con più frequenza. Questo strumento non solo offre una metrica per capire se un LLM è ancora “aligned”, ma è un must-have se crediamo nella responsabilità computazionale.
E poi c’è Lost in Time, un paper che sfida i LLM multimodali a capire orologi e calendari nelle immagini. I risultati? Un disastro. Modelli potenti che non sanno leggere l’ora o capire una data su un calendario cartaceo. Le benchmark ClockQA e CalendarQA mostrano che il concetto di tempo nei modelli visivo-linguistici è ancora nebuloso, un gap imbarazzante per modelli che pretendono di ragionare sul mondo reale. Ne hanno parlato Gizmodo, VICE e altri. Per una volta con cognizione di causa.

AAAI 2025 invece mette l’accento sull’efficienza computazionale. Adaptive Computation Modules di Bartosz Wójcik e Devoto introducono un meccanismo elegante: token facili possono “uscire prima” dalla rete, riducendo i costi d’inferenza senza perdere in accuratezza. È come se certi input ricevessero un fast-track, e il sistema imparasse dinamicamente quando risparmiare energia. Plug-and-play, dicono. Roba che se funziona davvero, cambia le regole dell’efficienza in AI.

Nel regno delle lingue dimenticate, COLING 2025 presenta SynDARin, un dataset di QA generato per lingue a bassa risorsa come l’armeno. Qui si usano modelli LLM per generare domande in inglese, poi tradurle, validarle, e infine usarle per costruire benchmark. Il risultato? I modelli performano quasi a caso. Perfetto per capire quanto poco sappiamo fuori dall’universo anglocentrico dell’AI.

Nel frattempo, su Frontiers in AI 2025, si parla finalmente di ibridazione uomo-modello: un framework che combina ragionamento umano con quello dei LLM. Il risultato è meno sexy di un agente autonomo, ma più robusto: sistemi decisionali in cui la supervisione umana è strutturata e non improvvisata. Per chi lavora in ambito enterprise, questo è l’unico paradigma che può avere senso reale oggi.
E ora il futuro prossimo, nel blocco “What’s Brewing” di Neuralnoise.com. Noiser introduce perturbazioni negli embedding per capire quali token sono davvero “responsabili” di una risposta. Meno ingannevole dell’attenzione, più robusto dei gradienti. È come un truth serum per LLM.
Un gruppo dell’Università di Edimburgo analizza la fedeltà nel multi-hop QA. Sorpresa: cambiare il metodo di decoding (usando DeCoRe dentro ReAct) fa saltare la F1 da 19.5 a 32.6. In altre parole, come decodifichi vale quanto il modello che hai sotto.
Chiudiamo con Q-Filters, una trovata geometrica per comprimere in tempo reale le cache di key-value nei Transformer. Si proietta lo spazio QK per filtrare i token passati, salvando memoria senza toccare il modello. Infine, PosterSum usa 16.000 poster scientifici per testare la summarization multimodale. Il suo approccio “segmenta e riassumi” supera i modelli precedenti del 3.1% in ROUGE-L. Ancora una volta, i dati contano più dell’architettura.
Marzo 2025 ha segnato una cosa chiara: i LLM stanno cambiando pelle, passando da sistemi passivi a entità computazionali attive, autocuranti e manipolabili internamente. E se oggi possiamo intervenire nei layer intermedi, domani potremmo essere noi a venire riprogettati nei nostri.
Grazie Prof. Minervini.