Immagina di scattare una foto e di sentirla parlare, cantare o recitare una scena cinematografica. Non è magia, è la nuova frontiera dell’intelligenza artificiale. Alibaba ha appena rilasciato Wan2.2-S2V, un modello open-source che converte immagini statiche e clip audio in video di qualità cinematografica. Un colpo da maestro nel panorama dell’AI generativa.

Wan2.2-S2V è la punta di diamante della famiglia Wan2.2, che si distingue per l’adozione dell’architettura Mixture-of-Experts (MoE). Questa struttura consente al modello di attivare solo una parte dei suoi esperti per ogni inferenza, ottimizzando così le risorse computazionali senza sacrificare le prestazioni. Risultato: video fluidi e dettagliati anche su hardware consumer come una GPU RTX 4090.