Networking dei data center: dai cavi L2 all’intelligenza artificiale che morde i bit

Una volta, nei data center, si switchava tutto in Layer 2. Ethernet ovunque. Cavi come spaghetti, STP (Spanning Tree Protocol) che cercava di non farti incendiare le topologie a loop, e una visione ingenua del networking: broadcast ovunque, MAC tables che strabordavano come il caffè dimenticato sul fornello. Il sogno? Una gigantesca LAN piatta, con ogni server che poteva “vedere” ogni altro server, come se fossimo tutti amici al bar. La realtà? Un incubo di scalabilità, resilienza farlocca e troubleshooting stile CSI Miami.

Poi è arrivata l’illuminazione: l’L2 non basta. Non ce la fa. Semplicemente, non è nato per questo. E la rivoluzione è partita da un concetto tanto semplice quanto radicale: pensare Layer 3. Stop alle LAN pantagrueliche, avanti con Clos IP fabric, reti fatte per scalare, per crescere orizzontalmente, per sopportare il peso di migliaia di server affamati di traffico.

Una topologia Clos, per chi non mastica architetture, è un grafo benedettamente strutturato. Spine e leaf, nodi che parlano IP tra loro, una mesh controllata in cui ogni foglia può raggiungere ogni altra attraverso più percorsi L3. Addio STP, addio broadcast, addio ai failover lenti e dolorosi. Benvenuto ECMP, Equal Cost Multi Path, con le sue strade multiple, i suoi flussi bilanciati come un algoritmo di meditazione tibetana. È il regno del routing dentro il data center. E funziona.

Ma poi arriva l’esigenza: server che migrano, servizi che cambiano IP senza cambiare identità, microservizi schizofrenici che saltano da un nodo all’altro. Layer 3 è solido, ma è impersonale. Serve qualcosa che dia la flessibilità dell’L2 con la scalabilità dell’L3.

E qui scende in campo il duo delle meraviglie: VXLAN ed EVPN.

VXLAN è il trucco da illusionista: prendi un frame Ethernet, lo incapsuli dentro un pacchetto UDP, e lo spedisci via IP. È come impacchettare un vinile dentro una custodia di CD e farlo viaggiare su Spotify. Funziona. Scalabile. 16 milioni di segmenti logici (altro che VLAN con i suoi miseri 4096), multicast opzionale, bridging sopra reti IP. Il piano dati, insomma, è risolto.

Ma chi orchestra il tutto? EVPN: Ethernet VPN, il protocollo BGP-based che porta ordine nella follia. Pubblica le MAC address reachability, gestisce la mobility, sincronizza i control plane tra nodi con una coerenza degna del Vaticano nei secoli bui. Non è solo un protocollo, è una visione. Un piano di controllo degno del XXI secolo, in grado di separare chiaramente il “dove sono” (location) dal “chi sono” (identity). Welcome to modern networking.

Ed è proprio qui che si arriva al punto di svolta. Oggi, tutto questo non basta più.

Perché se non parli di AI-ready Data Center, stai letteralmente perdendo il treno. Non è un trend: è un assalto. I workload AI—pensiamo a training su larga scala, cluster GPU con migliaia di nodi, modelli che ingoiano dati come idrovore—non si adattano ai paradigmi “tradizionali”. I requisiti di rete sono sanguinosi: latenza microsecondica, throughput line-rate costante, congestione zero. Non tollerano errori. Non puoi permetterti code profonde, buffer pieni, e backpressure che manda in crisi la pipeline dei tensor.

La parola d’ordine? Congestion Control.

Se nel mondo IP classico congestion avoidance era un gioco di stime e timers, con TCP che faceva il bravo ma era troppo “lento”, oggi si parla di tecniche lossless, FEC, PFC (Priority Flow Control), traffico deterministicamente orchestrato come in una sinfonia. NVIDIA con i suoi cluster DGX insiste su reti InfiniBand, dove RDMA fa la parte del leone, e i frame non toccano mai la CPU. Ma anche in ambienti Ethernet, soluzioni come RoCE (RDMA over Converged Ethernet) richiedono losslessness garantito. Ed ecco che il data center network diventa un’opera d’ingegneria: tuning maniacale, QoS millimetrico, buffer controllati, e meccanismi di Congestion Notification (ECN, QCN) che ballano insieme come un’orchestra cyberpunk.

Tutto questo richiede che i data center siano progettati come un sistema olistico. Non solo cablaggio e switch. Parliamo di telemetria in tempo reale, AIOps che analizzano in streaming, modelli predittivi che prevengono le congestioni prima che accadano. E magari reti che si riconfigurano in modo autonomo, basate su intent, con overlay dinamici e underlay capaci di reagire alla domanda computazionale, come un sistema nervoso centrale.

Dimenticavo: tutto vendor agnostic. Perché quando le architetture sono ben pensate, i brand sono secondari. L’importante è l’interoperabilità. I protocolli standard. Le API. E un’architettura coerente, scalabile, che si evolve con le esigenze e non con la roadmap del marketing.

Quel che conta è la direzione: dai vecchi data center con STP e VLAN come un patchwork di compromessi, a nuove architetture che parlano il linguaggio della scalabilità, della flessibilità, e oggi più che mai, dell’AI consciousness. Non è più networking. È sistema nervoso distribuito.

Chi non l’ha capito, è già fuori gioco. O peggio: sta ancora leggendo white paper del 2015 e pensando che basti aumentare la banda.

Curiosità finale, da lasciare sedimentare: il primo data center completamente IP fabric, vendor neutral, con full EVPN-VXLAN operativa in produzione, è stato lanciato da un’azienda di gaming. Perché? Perché nel gaming online, anche un millisecondo è una morte certa. Esattamente come nel training AI.

Networking dei data center: dai cavi L2 all’intelligenza artificiale che morde i bit

Elon Musk, ketamina e governo

Laser, Qubit e collaborazione globale: la visione di Serge Haroche per il futuro della meccanica quantistica