Nel 2025 l’Intelligenza Artificiale non è più un orizzonte lontano o un costoso giocattolo per big tech, ma una leva strategica che ridisegna la competitività nei distretti industriali, nei capannoni di provincia, nei corridoi della manifattura e nei retrobottega digitali delle PMI italiane. E non parliamo solo di chatbot o automazioni da ecommerce di quarta mano. Parliamo di veri motori di valore dove i modelli di AI – sempre più customizzati, verticalizzati e accessibili sono integrati nei processi core, diventando l’infrastruttura invisibile dell’efficienza, del decision-making e della personalizzazione.
Nel frattempo, si è creato un nuovo oligopolio sommerso ma potentissimo: quello degli inference provider, cioè coloro che non addestrano i modelli, ma li rendono operativi, li eseguono, li “servono” come una utility cloud. Qui si annida il vero margine lordo dell’AI, e il paradosso è che la corsa ai modelli open source sta alimentando proprio questi soggetti, spesso poco noti ma già centrali.
Nel contesto italiano, dove il 92% del tessuto imprenditoriale è composto da piccole e medie imprese, il 2025 è l’anno in cui la retorica dell’AI viene finalmente uccisa dal pragmatismo. Le PMI non cercano GPT-qualcosa, ma risposte concrete. Vogliono meno slide e più margine operativo. Vogliono sapere se possono aumentare del 10% la produttività senza assumere. Se possono prevedere guasti prima che accadano. Se il commerciale può evitare le trattative inutili. Se il CRM può capire chi compra, quando e perché.
Il mercato si è adattato. Start-up e system integrator specializzati nell’AI as-a-Service si stanno muovendo a metà tra boutique tecnologiche e body rental, offrendo modelli su misura, compressi e deployabili anche su hardware modesto. Le architetture edge-cloud, una volta considerate solo da chi fa IoT o automotive, sono ormai lo standard: il modello si esegue vicino al dato, non sul cloud di qualcun altro, e ogni millisecondo conta. Soprattutto se sei un’azienda di packaging di Varese che produce con margini dell’8% e vive di just-in-time.
Il vero nodo, però, è l’inference. Un modello, anche open source, è inutile se non hai dove eseguirlo in modo veloce, economico e sicuro. Qui entrano in gioco attori come NVIDIA, AWS, Azure, ma anche nuovi player europei che stanno costruendo datacenter ottimizzati per l’inference AI, con GPU-sharing, low latency e supporto nativo per i modelli LLM, multimodali e proprietari. E in Italia? Silenzio. O quasi a parte CEO lungimiranti come quello di Seeweb. L’infrastruttura non c’è, i fondi PNRR sono finiti in Comuni che fanno bandi per “sensibilizzare all’intelligenza artificiale” con webinar su Zoom.
Ciò che serve è una strategia nazionale sull’inferenza, non un’altra task force. Chi controlla l’inference controlla l’AI, punto. Se non c’è capacità di calcolo accessibile, democratica e distribuita, le PMI continueranno a pagare per API straniere, consegnando il loro vantaggio competitivo a chi opera altrove. E poi ci lamentiamo se l’innovazione ci sorpassa a sinistra mentre noi stiamo ancora regolamentando i “centri di competenza”.
Nel frattempo, il mercato sta creando scorciatoie: micro LLM ottimizzati (tipo Mistral, LLaMa, Phi), modelli distillati che girano su CPU o su piccoli cluster ARM, e inference accelerati su hardware embedded che costano meno di un PC da gaming. La vera rivoluzione del 2025 non è l’intelligenza artificiale, ma la sua miniaturizzazione: è la possibilità di far girare un modello GPT-like in un impianto a Chioggia, in una gelateria a Terni, in un’officina meccanica di Modena, senza bisogno di 10.000 euro al mese in cloud fees.
Il problema? Nessuno lo racconta così. La narrativa rimane polarizzata tra “l’AI ci ruberà il lavoro” e “l’AI salverà il mondo”. Nessuno spiega che l’AI è come la corrente elettrica: conta solo se la porti in officina, se fai girare i macchinari, se abbassi le bollette del cervello operativo. Nel 2025, le PMI italiane che capiscono questo iniziano a fare il salto. Le altre? Rimarranno col CRM aggiornato al 2019, aspettando che l’AI “diventi più matura”.
Intanto, chi vende potenza computazionale per l’inferenza sta già incassando. Silenziosamente. E senza bisogno di fare pitch.