ByteDance ha appena lanciato Seedream 4.0, il suo nuovo modello di intelligenza artificiale per la generazione e modifica di immagini, dichiarando che supera Gemini 2.5 Flash Image (noto anche come “Nano Banana”) in diversi indicatori chiave. Secondo quanto riportato dal South China Morning Post, ByteDance afferma che Seedream 4.0 ha ottenuto risultati superiori a Gemini 2.5 Flash Image nel suo benchmark interno MagicBench, con prestazioni migliori in termini di aderenza al prompt, allineamento e estetica.

Tuttavia, è importante notare che questi risultati non sono stati pubblicati in un rapporto tecnico ufficiale. Secondo Artificial Analysis, una società di benchmark AI, Seedream 4.0 rappresenta un’evoluzione significativa rispetto ai precedenti strumenti di ByteDance, combinando le capacità di generazione di testo in immagine di Seedream 3.0 con le capacità di modifica di immagini di SeedEdit 3.0, mantenendo lo stesso prezzo di 30 USD per 1.000 generazioni.

Gemini 2.5 Flash Image è stato rilasciato da Google DeepMind alla fine di agosto e ha ricevuto ampi consensi per la coerenza e l’accuratezza delle sue capacità di modifica delle immagini, che fino ad ora erano state una sfida per i generatori di immagini AI. Il modello offre funzionalità avanzate come la fusione di più immagini in un’unica immagine, il mantenimento della coerenza dei personaggi per una narrazione ricca, trasformazioni mirate utilizzando il linguaggio naturale e l’uso della.

Attualmente, Gemini 2.5 Flash Image è al primo posto nelle classifiche di Artificial Analysis sia per la generazione di testo in immagine che per la modifica delle immagini, mentre Seedream 4.0 non è ancora stato valutato. Seedream 3.0 è attualmente al quinto posto per la generazione di testo in immagine e al sesto per la modifica delle immagini.

Rispetto ai modelli precedenti, Seedream 4.0 presenta una nuova architettura che aumenta la velocità di inferenza delle immagini grezze di oltre 10 volte, rendendolo uno strumento molto più veloce da utilizzare Comet API. Gli utenti hanno espresso feedback positivi online, lodando l’accuratezza della funzione di modifica, che consente di apportare modifiche rapide alle immagini tramite prompt di testo.

Lo strumento è stato reso disponibile agli utenti domestici sulle app AI Jimeng e Doubao di ByteDance, nonché ai clienti aziendali attraverso il suo servizio cloud ufficiale, Volcano Engine. Su Fal.ai, una piattaforma globale di hosting di media generativi, Seedream 4.0 costa 0,03 USD per immagine generata, mentre Gemini 2.5 Flash Image è prezzato a 0,039 USD.

La Cina ha rapidamente adottato generatori di immagini e video basati su AI, con il campo molto competitivo tra le principali aziende tecnologiche come l’operatore di app di video brevi Kuaishou Technology e il gigante dei videogiochi Tencent Holdings. Lo stato ha segnalato il suo supporto per i contenuti generati da AI riconoscendo i loro diritti d’autore alla fine del 2023, ma ha anche recentemente introdotto l’etichettatura obbligatoria di tali contenuti.

Il campo ha visto un’ondata di nuovi prodotti negli ultimi anni offrendo prezzi più competitivi, incluso lo strumento di generazione video Vidu, sviluppato congiuntamente dall’Università di Tsinghua e dalla start-up con sede a Pechino Shengshu AI. Martedì, gli sviluppatori di Vidu hanno lanciato una nuova funzione di riferimento all’immagine a livello internazionale che genera immagini basate su una combinazione di fino a sette immagini di riferimento, prezzata a 0,62 yuan (0,09 USD) per immagine. Gemini 2.5 Flash Image consente fino a nove riferimenti.

Mentre Seedream 4.0 di ByteDance ha mostrato prestazioni promettenti e un prezzo competitivo, Gemini 2.5 Flash Image di Google DeepMind rimane attualmente il leader nel campo della generazione e modifica delle immagini basate su AI, secondo i benchmark disponibili.