I modelli sono sempre più grandi, più costosi, più celebrati nei comunicati stampa, ma quando li si porta fuori dal laboratorio iniziano a inciampare su dettagli che un essere umano risolverebbe con una smorfia e due neuroni. Tencent lo ha appena detto ad alta voce, con un paper tecnico che suona come una sveglia alle sei del mattino per l’intero settore. Il problema non è la mancanza di dati o di parametri, ma l’incapacità cronica dei modelli di apprendere dal contesto. Qui entra in gioco la keyword che molti fingevano di capire ma pochi avevano il coraggio di mettere al centro: context learning intelligenza artificiale.
Il paper firmato dai ricercatori di Tencent e della Fudan University non è un esercizio accademico. È una diagnosi clinica. I modelli di punta, americani e cinesi, falliscono in ambienti reali perché non sanno usare il contesto come fanno gli esseri umani. Non lo integrano, non lo metabolizzano, non lo trasformano in comportamento coerente. E il dato che fa più male è quello che nessuno può liquidare come marginale: anche avendo tutte le informazioni necessarie davanti agli occhi, i modelli sbagliano comunque. Non per ignoranza, ma per incapacità strutturale di collegare i punti.
Il concetto di context learning viene spesso confuso con il continual learning, ma i ricercatori sono chirurgici nel separare le due cose. Il continual learning aggiorna i pesi del modello. È addestramento che continua nel tempo. Il context learning, invece, è la capacità di apprendere “sul lavoro”, usando solo il contesto fornito in quel momento, senza toccare i parametri interni. È ciò che un essere umano fa ogni giorno quando entra in una stanza nuova, legge l’aria, capisce chi comanda, cosa è appropriato dire e cosa no. L’intelligenza artificiale, per ora, guarda la stanza e chiede istruzioni come un turista senza Google Maps.
Per dimostrarlo, Tencent ha creato CL-bench, un benchmark che suona innocuo solo a chi non lo ha letto. 1.899 task, 19 modelli di frontiera, tutti messi alla prova non su domande da quiz televisivo, ma su situazioni che richiedono apprendimento contestuale. Il risultato medio dei primi dieci modelli è del 17,2 per cento. Un numero che non è solo basso, è umiliante. Significa che più dell’80 per cento delle volte i modelli falliscono nonostante abbiano accesso a tutte le informazioni rilevanti. Altro che intelligenza generale. Qui siamo ancora alla comprensione situazionale di base.
Il dato diventa ancora più interessante quando si guardano le classifiche. In testa ci sono GPT 5.1 di OpenAI e Claude Opus 4.5 di Anthropic, rispettivamente con il 23,7 e il 21,1 per cento. Il miglior modello cinese è Kimi K2 di Moonshot AI con il 17,6 per cento. Tencent, con Hunyuan 2.0, è subito dietro. Numeri che raccontano una storia diversa da quella dei marketing deck. Le differenze tra modelli esistono, ma sono marginali rispetto al problema di fondo. Nessuno è davvero bravo nel context learning. Alcuni sono solo meno pessimi.
Qui entra in scena Vinces Yao Shunyu, ex ricercatore di OpenAI e oggi chief AI scientist di Tencent. La sua firma sul paper è tutt’altro che simbolica. È il segnale che Tencent ha capito di essere rimasta indietro non per mancanza di risorse, ma per un’impostazione concettuale sbagliata. I modelli Hunyuan inseguono concorrenti domestici come DeepSeek, mentre l’app Yuanbao ha circa metà degli utenti di Doubao di ByteDance. Numeri che, nel mondo delle big tech cinesi, sono una sentenza. Quando perdi scala, perdi anche narrativa. E senza narrativa, l’AI diventa solo infrastruttura costosa.
Yao sembra voler ribaltare il tavolo partendo proprio dal contesto. Nel suo primo intervento pubblico ha suggerito l’integrazione profonda con WeChat, attingendo alle cronologie di chat per fornire ai modelli un contesto ricchissimo e continuo. L’idea è affascinante e inquietante allo stesso tempo. Da un lato, un modello che conosce davvero l’utente, la sua storia, le sue abitudini, i suoi riferimenti culturali. Dall’altro, un incubo regolatorio e reputazionale che farebbe tremare qualsiasi chief legal officer europeo. Ma dal punto di vista tecnico, il messaggio è chiaro: senza contesto, l’AI resta una macchina brillante ma stupida.
Il tema del context learning si intreccia con quello più ampio dell’affidabilità dei modelli AI nel mondo reale. Le aziende vogliono sistemi che funzionino in ambienti sporchi, dinamici, ambigui. Non demo patinate. Non sandbox controllate. Vogliono AI che capiscano quando una regola non scritta è più importante di una istruzione esplicita. Oggi questo non succede. E quando i modelli falliscono, lo fanno in modo sottile ma devastante. Non crashano. Semplicemente prendono decisioni sbagliate con grande sicurezza. La combinazione più pericolosa possibile.
C’è anche un risvolto geopolitico che vale la pena osservare con attenzione. Stati Uniti e Cina stanno correndo nella stessa direzione, con approcci diversi ma con un limite comune. Entrambi i blocchi hanno privilegiato la scala computazionale e la quantità di dati rispetto alla qualità dell’interazione contestuale. Il risultato è una generazione di modelli potentissimi sul piano statistico ma fragili sul piano cognitivo. Il paper di Tencent, paradossalmente, suona più occidentale che cinese nel suo spirito autocritico. È un’ammissione che il paradigma attuale non basta.
Dal punto di vista strategico, il messaggio è ancora più scomodo. Se il valore futuro dell’intelligenza artificiale dipende dal context learning, allora la vera barriera competitiva non sarà solo il modello, ma l’ecosistema di contesti in cui opera. Qui WeChat diventa un asset più importante di qualsiasi GPU. Qui i dati non sono solo grandi, ma profondamente situati. E qui le aziende occidentali iniziano a sudare freddo, perché non hanno una super app con miliardi di utenti che condividono quotidianamente contesto sociale, linguistico e comportamentale.
Certo, l’integrazione non è banale. Lo dimostra l’episodio quasi grottesco del blocco dei link di Yuanbao durante la promozione del Capodanno Lunare, nonostante entrambi i prodotti siano sotto l’ombrello Tencent. Se l’organizzazione non riesce a far dialogare due team interni, immaginare una fusione fluida tra contesto sociale e modelli di frontiera è un atto di fede. Ma la direzione è tracciata. E ignorarla sarebbe un errore strategico.
Il paper di Tencent non offre soluzioni definitive. Offre qualcosa di più raro: una domanda giusta posta al momento giusto. Come rendere l’intelligenza artificiale capace di apprendere dal contesto senza riscrivere se stessa ogni volta. Come passare da modelli che rispondono a modelli che capiscono. Finché questa domanda resterà senza risposta, continueremo a costruire sistemi impressionanti che falliscono nei corridoi, nelle fabbriche, negli ospedali, nelle aziende. Proprio dove l’AI dovrebbe fare la differenza.
C’è una frase nel paper che merita di essere incorniciata, anche se farà arrabbiare più di un CEO della Silicon Valley. I modelli resteranno fragili proprio negli ambienti disordinati e dinamici dove vorremmo che aiutassero di più. È una sentenza, non un’opinione. E finché il context learning intelligenza artificiale resterà una nota a piè di pagina invece che il centro del design, continueremo a confondere potenza con intelligenza. Con risultati sempre più costosi e sempre meno utili.
Paper: https://hunyuan.tencent.com/research/100025?langVersion=en