Il mercato dell’intelligenza artificiale sta entrando in una fase curiosamente matura, quasi cinica, dove l’entusiasmo evangelico degli ultimi anni si scontra con una realtà molto più prosaica: il credito costa, le infrastrutture scricchiolano e le promesse di scalabilità illimitata iniziano a sembrare meno una legge fisica e più una presentazione PowerPoint ben confezionata. Quando una società come Lux Capital arriva a suggerire di mettere per iscritto gli accordi sulla capacità computazionale, il messaggio implicito è chiaro, anche se nessuno lo dice apertamente: la supply chain dell’AI non è più un gioco a somma infinita.

Il dato del 9,2% di default nelle aziende private non è solo una statistica finanziaria, è un segnale strutturale. Significa che il sistema che ha sostenuto l’esplosione dell’AI, alimentato da capitale a basso costo e da una fiducia quasi religiosa nella crescita esponenziale, sta iniziando a mostrare crepe. In questo contesto, dipendere da hyperscaler e provider cloud non è più soltanto una scelta tecnica, ma un rischio strategico. Il cloud, che per un decennio è stato venduto come soluzione universale, si rivela per quello che è sempre stato: una forma sofisticata di outsourcing del rischio operativo.

Non sorprende quindi che emerga una narrativa alternativa, più sobria e meno glamour: riportare l’intelligenza artificiale sul dispositivo. Non per nostalgia, ma per necessità. Qui entra in gioco Multiverse Computing, una realtà europea che fino a ieri si muoveva sotto il radar e che oggi intercetta una delle tensioni più interessanti del mercato. La loro proposta è semplice nella formulazione, complessa nell’esecuzione: comprimere modelli giganteschi fino a renderli eseguibili localmente, senza perdere troppa capacità cognitiva lungo il processo.

L’idea di fondo non è nuova. La storia dell’informatica è ciclica, oscillando tra centralizzazione e decentralizzazione con la regolarità di un pendolo. Dai mainframe ai personal computer, poi di nuovo al cloud, e ora forse verso una nuova fase ibrida. La differenza, questa volta, è che il carico computazionale non riguarda più solo dati o applicazioni, ma qualcosa di più sfuggente: l’intelligenza stessa.

Il prodotto che meglio incarna questa visione è CompactifAI, un’app che richiama volutamente l’esperienza di ChatGPT o di Le Chat, ma con una differenza sostanziale: il modello può vivere e operare direttamente sul dispositivo dell’utente. Il cuore di questo sistema è Gilda, un modello sufficientemente compatto da funzionare offline, una sorta di “AI tascabile” che rompe il dogma della connessione permanente.

Naturalmente, come tutte le rivoluzioni annunciate troppo presto, anche questa ha i suoi compromessi. La dipendenza dall’hardware locale introduce vincoli evidenti, soprattutto in un parco dispositivi globalmente eterogeneo e spesso obsoleto. Il fatto che molti smartphone non abbiano abbastanza RAM per sostenere questi modelli è un dettaglio tecnico che diventa rapidamente una barriera commerciale. Quando il sistema devia verso il cloud, attraverso il meccanismo evocativamente chiamato Ash Nazg, il vantaggio competitivo si dissolve. La privacy torna a essere negoziabile, la latenza riappare, e il modello torna a essere, in sostanza, un servizio remoto mascherato.

Questo dualismo non è un bug, è il cuore del problema. L’industria dell’AI sta cercando disperatamente un equilibrio tra potenza e prossimità, tra capacità e controllo. Apple lo ha capito con la sua strategia di Apple Intelligence, che combina modelli locali e cloud in un’architettura ibrida. È una soluzione pragmatica, ma anche un’ammissione implicita: nessuna delle due dimensioni, da sola, è sufficiente.

Nel frattempo, i progressi nei modelli di dimensioni ridotte stanno cambiando le regole del gioco. Mistral AI, con il lancio di Mistral Small 4, dimostra che la distanza tra piccoli modelli e LLM di fascia alta si sta riducendo più velocemente del previsto. Non si tratta più di scegliere tra potenza e efficienza, ma di ottimizzare un trade-off dinamico, sempre più vicino al punto di equilibrio.

La compressione diventa quindi una leva strategica. Multiverse sostiene che il suo HyperNova 60B 2602, derivato da gpt-oss-120b, sia in grado di offrire prestazioni superiori in termini di velocità e costo rispetto al modello originale. Se queste affermazioni reggono alla prova del mercato, il paradigma cambia radicalmente. Non è più necessario costruire modelli sempre più grandi; diventa più intelligente renderli più piccoli.

Questa inversione di tendenza ha implicazioni profonde. Per anni, la narrativa dominante è stata che “più grande è meglio”, una filosofia che ha giustificato investimenti miliardari in data center e GPU. Ora si insinua un dubbio, quasi eretico: e se l’efficienza fosse il vero vantaggio competitivo? Se la capacità di comprimere e distribuire fosse più importante della capacità di espandere?

Il mercato enterprise, come spesso accade, è il primo a cogliere queste sfumature. Le aziende non cercano modelli “impressionanti”, cercano modelli affidabili, prevedibili, economicamente sostenibili. La possibilità di eseguire AI localmente, senza dipendere da infrastrutture esterne, introduce un nuovo livello di controllo. In settori critici, dove la latenza o la connettività possono essere variabili instabili, questo non è un lusso, è una necessità.

Pensiamo a droni, satelliti, sistemi industriali remoti. In questi contesti, l’AI non può permettersi di “chiedere permesso” a un data center a migliaia di chilometri di distanza. Deve funzionare qui e ora, in modo autonomo. È un ritorno, in qualche modo, all’informatica embedded, ma con capacità che fino a pochi anni fa sarebbero sembrate fantascienza.

Il vero nodo, tuttavia, rimane economico. Il cloud ha prosperato perché ha trasformato CAPEX in OPEX, rendendo l’accesso alla potenza computazionale più flessibile. L’edge computing ribalta questa logica, riportando parte dell’investimento sull’hardware locale. Non è detto che tutte le aziende siano pronte a questo shift, soprattutto in un contesto di incertezza macroeconomica.

Nel frattempo, il fatto che Multiverse stia cercando un nuovo round da 500 milioni di euro a una valutazione superiore a 1,5 miliardi suggerisce che il mercato crede in questa narrativa. O, più cinicamente, che il mercato è ancora disposto a finanziare qualsiasi storia plausibile che prometta di ridurre i costi dell’AI. La linea tra visione strategica e storytelling opportunistico, in Silicon Valley come in Europa, è sempre stata sottile.

Il punto, forse scomodo, è che l’industria dell’AI sta uscendo dalla sua fase adolescenziale. Le illusioni di abbondanza infinita stanno lasciando spazio a una disciplina più adulta, fatta di vincoli, compromessi e scelte difficili. Il cloud non scomparirà, così come l’edge non diventerà dominante dall’oggi al domani. Ma il baricentro si sta spostando.

Qualcuno, con una certa ironia, potrebbe osservare che stiamo semplicemente reinventando il personal computing, ma con modelli linguistici al posto dei fogli di calcolo. La differenza è che questa volta la posta in gioco è più alta. Non si tratta solo di dove girano le applicazioni, ma di dove risiede l’intelligenza.

In un’epoca in cui i dati sono il nuovo petrolio, spostare l’AI sul dispositivo significa anche ridefinire la proprietà e il controllo di quel petrolio. È una questione tecnica, certo, ma anche profondamente politica. E come spesso accade, le decisioni più importanti verranno prese non nei laboratori di ricerca, ma nei consigli di amministrazione, tra un foglio Excel e una proiezione di flusso di cassa.

La vera domanda non è se l’AI diventerà più piccola. La vera domanda è chi controllerà l’infrastruttura su cui gira. E, come sempre, la risposta determinerà chi vincerà la prossima fase di questa lunga, affascinante e leggermente sopravvalutata rivoluzione tecnologica.