Alibaba Group Holding ha appena scosso il mondo dell’intelligenza artificiale e del cloud computing con l’annuncio di Aegaeon, un sistema di pooling computazionale che promette di rivoluzionare il modo in cui le GPU vengono utilizzate per servire modelli di AI su larga scala. Secondo quanto riportato in un paper presentato al 31° Symposium on Operating Systems Principles a Seoul, il nuovo sistema ha permesso di ridurre il numero di GPU Nvidia H20 necessarie per gestire decine di modelli fino a 72 miliardi di parametri da 1.192 a soli 213 unità, un taglio impressionante dell’82 per cento. La beta di Aegaeon è stata testata per oltre tre mesi nel marketplace di modelli di Alibaba Cloud, evidenziando come la gestione delle risorse sia stata tradizionalmente inefficiente.

Il problema principale, spiegano i ricercatori di Peking University e Alibaba Cloud, risiede nella disparità tra modelli ad alta richiesta e modelli poco utilizzati. In pratica, una piccola manciata di modelli, come Qwen e DeepSeek di Alibaba, cattura la maggior parte delle richieste di inferenza, mentre altri modelli restano quasi inattivi. Nei numeri: il 17,7 per cento delle GPU era destinato a servire solo l’1,35 per cento delle richieste. Aegaeon interviene con un approccio innovativo di auto-scaling a livello di token, il che significa che una GPU può cambiare modello anche durante la generazione dei token, i blocchi fondamentali di dati elaborati dai sistemi AI. Questa capacità consente a una singola GPU di supportare fino a sette modelli contemporaneamente, contro i due o tre tipici dei sistemi precedenti, riducendo la latenza nel passaggio tra modelli del 97 per cento.

La scelta di Alibaba di ottimizzare il software per compensare la dipendenza dalle GPU statunitensi riflette un trend più ampio tra le aziende cinesi: sviluppare soluzioni interne per superare i vincoli imposti dai controlli alle esportazioni. Nvidia, gigante americano dei chip, aveva sviluppato l’H20 specificamente per il mercato cinese in risposta ai blocchi commerciali introdotti dall’amministrazione Biden, ma il chip è stato poi sottoposto a indagine dalle autorità cinesi per potenziali rischi di backdoor. Nel frattempo, la Cina ha accelerato lo sviluppo di GPU domestiche tramite aziende come Huawei Technologies e Cambricon Technologies, seguendo una strategia di autosufficienza tecnologica.

Il contesto geopolitico rende ancora più interessante il caso di Nvidia in Cina. Jensen Huang, CEO di Nvidia, ha dichiarato recentemente che la quota di mercato dell’azienda in Cina è scesa praticamente a zero per via del divieto di vendita di chip avanzati come A100, H100 e H200. La compagnia ha ottenuto finalmente il permesso di vendere una versione meno potente, l’H20, ma anche questo prodotto è stato visto con sospetto dalle autorità cinesi. Huang ha sottolineato che l’esclusione dal mercato cinese danneggia sia la Cina sia gli Stati Uniti e che perdere l’accesso ai circa 50 per cento dei ricercatori AI mondiali presenti in Cina rappresenta un grave errore strategico.

Alibaba non si limita a ottimizzare software stranieri. La società sta investendo pesantemente nello sviluppo di processori AI interni attraverso la sua divisione T-Head, mirando a competere con Nvidia sul terreno delle GPU domestiche. Altre grandi aziende cinesi come Tencent, ByteDance e Baidu seguono percorsi simili, cercando di costruire un ecosistema tecnologico autosufficiente e meno vulnerabile alle tensioni geopolitiche. La competizione interna tra province e aziende, unita a una cultura del lavoro intensa, ha permesso alla Cina di ridurre il divario con gli Stati Uniti a pochi nanosecondi in termini di capacità produttiva e innovazione tecnologica.

Aegaeon è stato implementato nel marketplace di modelli Bailian di Alibaba Cloud, servendo in particolare i modelli Qwen ai clienti corporate, dimostrando concretamente l’efficacia della soluzione. Il sistema non solo aumenta l’efficienza hardware, ma riduce drasticamente la latenza e migliora la gestione simultanea di più modelli, rendendo obsolete alcune delle architetture precedenti. La riduzione dell’82 per cento di GPU Nvidia richieste rappresenta un vantaggio competitivo non trascurabile, soprattutto in un contesto in cui la disponibilità di chip avanzati è strettamente controllata.

Il caso Aegaeon mostra come l’innovazione software possa compensare i limiti imposti dall’hardware e dalle regolamentazioni internazionali. L’abilità di gestire più modelli contemporaneamente con minore latenza è cruciale per i fornitori di cloud che devono servire migliaia di modelli ai clienti aziendali. In questo contesto, Alibaba Cloud, pur essendo ancora dipendente in parte da Nvidia, sta preparando il terreno per un futuro in cui i chip domestici cinesi sostituiranno gradualmente quelli statunitensi, senza compromettere le prestazioni dei modelli AI.