Google ha il vantaggio competitivo che molti sognerebbero: non vende solo chip, ma “chip + cloud + software + app”. Le sue TPU, invece di essere usate solo internamente, ora vengono offerte (e presto vendute) a clienti come Meta e Anthropic un salto strategico enorme. Secondo vari report, Meta starebbe negoziando con Google già per partire a noleggiare TPU via Google Cloud già l’anno prossimo, con piani per acquistare chip fisici nei propri data center a partire dal 2027.

Anthropic non è da meno: ha un accordo da decine di miliardi per accedere fino a un milione di TPU, portando il suo potenziale computazionale a oltre 1 gigawatt entro il 2026.

Questo significa che Google può offrire prezzi molto aggressivi:

Le TPU v5e di Google mostrano un’efficienza cost-per-dollaro significativamente superiore rispetto a molte GPU.

Secondo alcune analisi, il risparmio di costo per l’inferenza può essere del 50-65% rispetto all’uso di GPU NVIDIA in certe implementazioni.

I prezzi indicati da Google Cloud per le TPU non sono modesti: ad esempio, una TPU Trillium costa 2,70 USD/ora on-demand, ma con impegno scende fino a 1,22 USD/ora.

In pratica, Google può erodere il margine di profitto di NVIDIA nell’IA non facendo una guerra di prestazioni, ma una guerra di costi.

NVIDIA accusa le TPU, ma è una difesa inevitabile

Non è sorprendente che NVIDIA stia reagendo con toni critici: definire le TPU “bloccate” o “limitate” è parte della narrativa difensiva. Se le TPU conquistano quote significative, parte dei ricavi di NVIDIA (si parla di un potenziale 10%) potrebbe essere eroso.

Il punto forte di NVIDIA resta la flessibilità: le sue GPU + CUDA supportano praticamente tutti i modelli, possono fare training e inferenza, e sono deployabili ovunque in cloud o on-premise. È una piattaforma generalista ma molto potente, e per molti è la scelta più sicura per una varietà di carichi di lavoro.

Tuttavia, Google non sta puntando a battere NVIDIA in tutto. Sta puntando a massimizzare la sua diffusione nell’inferenza, dove la domanda di token scala costantemente e i margini sono tutto.

Il piano di Google

Il modello di business di Google con le TPU è sagace:

Produzione internamente → ha il controllo sul design del chip.

Integrazione con Google Cloud → “vendo” potenza inferenziale con costi bassi.

Prezzo basso → perché non deve massimizzare il margine sulle TPU stesse, può monetizzare tramite i suoi servizi cloud, dati e strumenti.

Adozione tra grandi clienti (Meta, Anthropic) → aumentare la scala, ridurre i costi per loro + creare dipendenza.

    Se molti carichi di inferenza migrano su TPU, Google non deve solo giocare a livello hardware, ma diventa parte integrata dell’infrastruttura AI di molti hyperscaler e aziende. Questo è diverso dal cercare di “superare” NVIDIA in un confronto puramente tecnologico: è un attacco strategico al modello di business di NVIDIA.

    Le criticità delle TPU e i limiti reali

    Chiaramente, non tutto è oro. Le TPU sono specializzate; non sono così general-purpose come le GPU. Per carichi di lavoro sperimentali, per ricerca su modelli nuovi o architetture esotiche, le GPU rimangono difficili da sostituire.

    Inoltre, la “rigidità” di un ASIC può essere un limite: se il modello cambia radicalmente (nuova architettura, diverso tipo di layer), potresti perdere il vantaggio di efficienza che avevi con una TPU, perché non è così flessibile come una GPU generica.

    Infine, anche Google ha bisogno di scala: per offrire TPU a basso costo deve avere enormi pool di chip, infrastruttura, data center dedicati, e clienti che consumano a sufficienza per giustificare la produzione in grandi volumi.

    Perché questo spaventa il mercato

    Il potenziale accordo con Meta (e già confermato con Anthropic) è una validazione significativa per le TPU di Google.

    Gli investitori stanno reagendo: il titolo NVIDIA ha perso terreno dopo le notizie, mentre Alphabet (Google) guadagna.

    Google non solo abbassa i costi per l’inferenza, ma consolida la sua posizione di fornitore di infrastruttura critica per l’AI non solo come cloud provider, ma come “fabbrica di compute”.

    Non è una competizione di benchmark, è una leva strategica. Google vuole che l’IA converga su TPU perché per lei è più economico, più scalabile e alla lunga più redditizio attraverso il suo ecosistema. NVIDIA può difendersi con performance e flessibilità, ma se il mercato dell’inferenza (cioè il grosso delle spese IA) migra verso TPU, il suo dominio strutturale potrebbe essere messo in discussione. Se i rumor su Meta e Anthropic diventano realtà, potremmo essere davvero di fronte a una svolta epocale.