Nvidia ha un enorme vantaggio in termini di software e di harware che consente loro di dominare la formazione sull’apprendimento automatico e di addebitare enormi profitti.

Ogni altro stack software non è neanche lontanamente vicino a offrire ciò che fa Nvidia anche se qusto vantaggio competitivo si potrebbe indebolire a causa delle evoluzioni di PyTorch 2.0 di Meta e Triton di OpenAI e sul lavoro su cui MosaicML sta lavorando già dall’anno scorso.

Con Composer e Foundry  releases, ora anche l’hardware del concorrente AMD è facile da usare quanto l’hardware Nvidia, la cui famiglia di prodotti MI300 ha iniziato a essere distribuita nel quarto trimestre del 2023.

L’acceleratore AMD autonomo MI300X e l’unità di elaborazione accelerata MI300A saranno i primi veri concorrenti sfidanti al monopolio dell’intelligenza artificiale di Nvidia.

Lo stack hardware viene fornito con il software ROCm open source di AMD (equivalente CUDA), lanciato ufficialmente nel 2016. Negli ultimi anni, ROCm è riuscito a guadagnare terreno tra alcuni dei framework di deep learning più popolari come PyTorch o TensorFlow, che potrebbero rimuovere il problema l’ostacolo più importante affinché le GPU AMD possano guadagnare terreno in modo significativo sul mercato.

Nel 2021, PyTorch ha annunciato l’integrazione nativa della GPU AMD, consentendo la portabilità del codice scritto in CUDA per l’esecuzione su hardware AMD. Questa avrebbe potuto essere una pietra miliare importante per rompere il monopolio di CUDA.

Sebbene molti gruppi di interesse stiano spingendo al massimo, in base a diverse opinioni il ROCm di AMD è ancora lungi dall’essere perfetto, mentre CUDA è stato perfezionato negli ultimi 15 anni. Credo che questo lascerà CUDA la prima scelta per gli sviluppatori per il momento, mentre molti bug e carenze di ROCm verranno risolti solo nei prossimi anni.

Oltre a ROCm, si stanno evolvendo anche alcune alternative indipendenti dall’hardware per la programmazione GPU come Triton di OpenAI o oneAPI di Intel. È certo che, man mano che tutti si renderanno conto del potenziale di business dell’intelligenza artificiale, sarà solo questione di tempo prima che esistano alternative valide per CUDA, ma dobbiamo ancora aspettare scoperte rivoluzionarie su questo fronte.

Poiché le aziende faticano a procurarsi GPU sufficienti per i propri carichi di lavoro di intelligenza artificiale, sono sicuro che ci sarà una forte domanda per le soluzioni AMD anche nel 2024.

Tuttavia, le previsioni di 2 miliardi di dollari di entrate derivanti dalle GPU per data center nel 2024 da parte del CEO di AMD, Lisa Su, sono ben lontane dal trimestre più recente di Nvidia, in cui le entrate legate esclusivamente alle GPU avrebbero potuto superare i 10 miliardi di dollari, e continuano ad aumentare rapidamente.

Ma torniamo un po indietro nel tempo e facciamo un drill down del vantaggio di Nvidia e sul suo Ecosistema.

Nvidia si sta posizionando per l’era del calcolo accelerato (accellerated computing) da decenni, infatti fino dalla GTC (GPU Technology Conference) del 2010 dell’azienda era incentrata sull’idea dell’uso delle GPU per l’elaborazione generica, con particolare attenzione ai supercomputer.

Gli investimenti si sono concentrati nel lancio delle microarchitetture GPU (in inglese graphics processing unit) Ampere e Hopper negli ultimi anni, con Ampere introdotta ufficialmente a maggio 2020 e Hopper a marzo 2022.

Le GPU A100, H100 e H200 più potenti al mondo basate su queste architetture hanno dominato il mercato mercato in espansione delle GPU per data center nel 2023, alimentato dalle iniziative emergenti di AI e ML.

Queste GPU hanno assicurato una quota di mercato di circa il 90% per in questo modo Nvidia è riuscita a creare un’attività di networking multimiliardaria anche nel 2023,

Oltre alle GPU e alle soluzioni di rete all’avanguardia (livello hardware), che offrono le migliori prestazioni della categoria per l’addestramento e l’interferenza di modelli linguistici di grandi dimensioni,

Nvidia ha un altro vantaggio competitivo chiave, vale a dire CUDA (Compute Unified Device Architecture), il modello di programmazione proprietario dell’azienda per l’utilizzo delle sue GPU (livello software).

Per sfruttare in modo efficiente le capacità di elaborazione parallela delle GPU Nvidia, gli sviluppatori devono accedervi tramite una piattaforma di programmazione GPU.

Farlo attraverso modelli generali e aperti come OpenCL è un processo più dispendioso in termini di tempo e di impegno da parte degli sviluppatori rispetto al semplice utilizzo di CUDA, che fornisce accesso hardware di basso livello risparmiando dettagli complessi per gli sviluppatori grazie all’uso di API semplici. API sta per Application Programming Interface e contiene una serie di regole su come i diversi componenti software possono interagire tra loro.

L’uso di API ben definite semplifica drasticamente il processo di utilizzo delle GPU Nvidia per attività di elaborazione accelerate.

Nvidia ha investito molto nella creazione di librerie CUDA specifiche per attività specifiche per migliorare ulteriormente l’esperienza degli sviluppatori.

CUDA è stato inizialmente rilasciato nel 2007, da allora molte spese di ricerca e sviluppo sono state destinate alla creazione di un’esperienza fluida per l’utilizzo delle GPU Nvidia.

Attualmente, CUDA è nel cuore dell’ecosistema software AI, proprio come le GPU A100, H100 e H200 nel cuore dell’ecosistema hardware.

La maggior parte dei documenti accademici sull’intelligenza artificiale hanno utilizzato l’accelerazione CUDA durante la sperimentazione con le GPU (che ovviamente erano GPU Nvidia) e la maggior parte delle aziende utilizza CUDA durante lo sviluppo dei propri copiloti basati sull’intelligenza artificiale.

Nel frattempo, i ricercatori di machine learning sognano un mondo in cui possano creare il loro modello in PyTorch e non doversi preoccupare della programmazione a livello di GPU a parte chiamare un paio di librerie esterne. 

Vogliono essere in grado di compilare qualsiasi modello arbitrario e farlo funzionare ad alte prestazioni su più chip.

L’obiettivo finale è che il ricercatore debba solo definire il parallelismo della pipeline e del tensore che si verifica tra i nodi e consentire che la generazione di codice di basso livello venga lasciata allo stack del compilatore. 

Per chi si allena con modelli linguistici piuttosto piccoli, questo è già il caso di Nvidia. Con l’aumento dei modelli e dei cluster, esistono più kernel CUDA personalizzati e comunicazioni pianificate manualmente. Ogni altro stack software non è neanche lontanamente vicino a offrire ciò che fa Nvidia. 

Anche se i concorrenti riuscissero a trovare valide alternative GPU, la creazione di un ecosistema software simile come CUDA potrebbe richiedere diversi anni.

Quando prendono decisioni di investimento nell’infrastruttura AI, CFO e CTO devono tenere conto dei costi degli sviluppatori e anche del livello di supporto per l’infrastruttura hardware e software, dove Nvidia si distingue dalla massa.

Anche se da un lato l’acquisto di GPU Nvidia comporta un prezzo elevato, dall’altro l’adesione al suo ecosistema presenta molti vantaggi in termini di costi.

Ciò migliora sostanzialmente il costo totale delle operazioni, il che a mio avviso rappresenta un forte vantaggio in termini di vendite.

Per ora, il mondo si è accontentato dell’ecosistema Nvidia, dubito che molte aziende correrebbero il rischio e lascerebbero dietro di sé una soluzione ben collaudata, chi rischirebbe i suoi Target, insomma um po come accade con le blasonate societa’ di consulenza Americane, chi si prende la responsabilita’ di perdere il bonus di fine anno a favore di una strategia di medio termine?!

Comunque qualcosa sta accadendo nel mercato : MosaicML, che è stata appena acquisita da DataBricks per 1,3 miliardi di dollari MosaicML si è concentrata sulla fornitura di strumenti e infrastrutture per rendere più semplice ed efficiente l’addestramento di modelli linguistici di grandi dimensioni, modelli di generazione di immagini e altro ancora.

Eliminano gran parte delle difficoltà derivanti dall’esecuzione di modelli linguistici di grandi dimensioni, dalla preparazione dei dati alla formazione fino alla gestione dell’infrastruttura.

Un’altra più importante minaccia competitiva nel 2024 dovrebbe provenire dai maggiori clienti di Nvidia, gli hyperscaler, ovvero Amazon, Microsoft e Alphabet/Google.

Tutte queste aziende sono riuscite a sviluppare i propri chip AI specifici per la formazione e l’inferenza LLM. Microsoft ha introdotto Maia a novembre e

Google ha presentato il suo ultimo modello di intelligenza artificiale, Gemini 1.5, che presenta quella che l’azienda chiama una finestra di contesto “sperimentale” da un milione di token. 

La nuova funzionalità consente a Gemini 1.5 di elaborare passaggi di testo estremamente lunghi – fino a un milione di caratteri – per comprenderne contesto e significato. Ciò fa impallidire i precedenti sistemi di intelligenza artificiale come Claude 2.1 e GPT-4 Turbo, che raggiungono rispettivamente un massimo di 200.000 e 128.000 token.

C’è ancora molta strada da fare prima che inizino ad alimentare i carichi di lavoro dei clienti, anche se Microsoft prevede di offrire Maia come alternativa per i clienti Azure .

Amazon è diverso da questo punto di vista, poiché la linea di chip AI dell’azienda (Trainium e Inferentia) è sul mercato ormai da alcuni anni.

La società ha recentemente annunciato un’importante partnership strategica con la principale startup di intelligenza artificiale Anthropic, dove Anthropic si è impegnata a utilizzare i chip Trainium e Inferentia per i suoi modelli futuri. Sebbene Amazon sia uno dei principali investitori nella startup, ciò è una prova evidente del fatto che la linea di chip AI dell’azienda ha raggiunto un buon livello di affidabilità.

L’azienda ha recentemente lanciato il suo nuovo chip Trainium2, che potrebbe conquistare parte del mercato della formazione LLM quest’anno poiché i clienti AWS più attenti ai costi potrebbero utilizzare questi chip come un’altra opzione per Nvidia.

Tuttavia, è importante notare che il lato software discusso in precedenza deve tenere il passo anche con le innovazioni hardware, il che potrebbe rallentare il processo di adozione diffusa di questi chip.

Un segnale importante che Amazon è lungi dal soddisfare la crescente domanda di intelligenza artificiale solo attraverso i propri chip è la partnership recentemente rafforzata dell’azienda con Nvidia.

Jensen Huang si è unito ad Adam Selipsky, CEO di AWS, sul palco durante il suo discorso chiave su AWS re: Invent, in cui le aziende hanno annunciato crescenti sforzi di collaborazione in diversi campi. Nelle recenti chiamate sugli utili di Nvidia, abbiamo sentito molto parlare di partnership con Microsoft, Google o Oracle, ma AWS è stata menzionata raramente.

Questi recenti annunci su una maggiore collaborazione mostrano che Amazon deve ancora fare molto affidamento su Nvidia per rimanere competitivo nello spazio dell’intelligenza artificiale in rapida evoluzione. Credo che questo sia un forte segnale del fatto che Nvidia dovrebbe continuare a dominare lo spazio dell’hardware AI nei prossimi anni.

Infine, un’interessante minaccia competitiva per Nvidia è Huawei sul mercato cinese a causa delle restrizioni introdotte dagli Stati Uniti sulle esportazioni di chip legati all’intelligenza artificiale.

Nvidia ha dovuto rinunciare a fornire al mercato cinese i suoi chip AI più avanzati, che rappresentavano costantemente il 20-25% delle entrate dei data center dell’azienda.

Si dice che l’azienda abbia già ordini per questi chip per un valore di oltre 5 miliardi di dollari per il 2024, che ora sono in discussione. Nvidia ha agito rapidamente e prevede di iniziare la produzione di massa dei chip H20, L20 e L2 sviluppati appositamente per il mercato cinese già nel secondo trimestre di quest’anno.

Sebbene il chip H20 sia in una certa misura una versione ridotta del chip H100, utilizza in parte la tecnologia del chip H200 recentemente introdotto, che presenta anche alcuni vantaggi rispetto all’H100. Ad esempio, sulla base di una semi-analisi, l’H20 è il 20% più veloce nell’interferenza LLM rispetto all’H100, quindi è ancora un chip molto competitivo.

La grande domanda è come affronteranno questa situazione i grandi clienti cinesi come Alibaba Baidu, Tencent o ByteDance che fino ad ora hanno fatto molto affidamento sull’ecosistema AI di Nvidia.

Attualmente, l’alternativa Nvidia più valida per quanto riguarda i chip AI è la famiglia Huawei Ascend sul mercato cinese, da cui spicca l’Ascend 910, le cui prestazioni si avvicinano all’H100 di Nvidia.

Baidu ha già ordinato una quantità maggiore di questi chip lo scorso anno come primo passo per ridurre la sua dipendenza da Nvidia, e anche altri grandi nomi tecnologici cinesi dovrebbero seguire.

Tuttavia, dal 2020 Huawei non può fare affidamento su TSMC per produrre i suoi chip a causa delle restrizioni statunitensi, spetta principalmente alla cinese SMIC produrli. Ci sono ancora notizie contrastanti su come SMIC potrebbe gestire la produzione di massa di chip IA all’avanguardia, ma diverse fonti (1, 2, 3) suggeriscono che l’industria cinese di produzione di chip è indietro di diversi anni.

Inoltre, un rischio significativo per SMIC e i suoi clienti è che gli Stati Uniti possano inasprire ulteriormente le sanzioni sulle apparecchiature utilizzate nella produzione di chip, limitando così la capacità dell’azienda di continuare a fornire i chip AI più avanzati di Huawei. Ciò potrebbe lasciare i giganti della tecnologia con i chip H20 di Nvidia come l’opzione migliore. Inoltre, negli ultimi anni gli sviluppatori cinesi si sono già abituati a CUDA, che a breve termine preferisce l’utilizzo dei chip Nvidia.

Tuttavia, in questo caso c’è anche un importante fattore di rischio per i giganti tecnologici cinesi, ovvero che gli Stati Uniti inaspriscano ulteriormente le restrizioni sulle esportazioni di Nvidia, il che li lascerebbe vulnerabili nella corsa all’intelligenza artificiale.

Secondo fonti del WSJ, le aziende cinesi non sono così entusiaste dei chip declassati di Nvidia, il che dimostra che potrebbero percepire l’utilizzo dei chip di Nvidia come un rischio maggiore.

“Le persone potenti vogliono sapere cosa sta succedendo, ma non vogliono spendere quindici minuti a leggerlo.  “

Di questo discutevo con il capo redattore ieri. Fine della prima puntata.