Rivista.AI Academy

Deep Learning: come abbiamo insegnato alle macchine a riscrivere il mondo

In principio c’era la statistica. Poi è arrivato il deep learning, e la festa è finita. Quella che era una nicchia accademica fatta di regressioni lineari, kernel gaussiani e loss quadratiche è stata travolta da un’onda lunga di matrici, GPU roventi e architetture sempre più profonde. La rivoluzione silenziosa è diventata un boato mondiale quando AlexNet, nel 2012, mise in ginocchio l’immagine del cane nella foto, umiliando i metodi classici e segnando l’inizio dell’era dei modelli neurali profondi.

Il problema? La maggior parte delle persone non ha idea di cosa stia realmente succedendo dentro una rete neurale. Per molti, il deep learning è una sorta di magia nera industriale fatta di layer, backpropagation e quantità ridicole di dati. Eppure, a ben guardare, la ricetta è sempre la stessa: prendi un set di dati, definisci un modello f(x;w), minimizza una loss ℒ(w) e spera che il tuo modello generalizzi meglio di un oracolo greco sotto LSD.

La struttura è semplice. I dati di input x incontrano una funzione parametrizzata da w, si misura quanto il risultato ŷ si discosti dal vero y, e si aggiornano i pesi con un pizzico di ottimizzazione del gradiente. E il ciclo ricomincia. Una danza iterativa tra dati e parametri, come un tango matematico coreografato da milioni di FLOPs al secondo.

Ma non è tutto oro quello che brilla sotto le GPU.

Il deep learning non è solo un progresso tecnico. È una torsione epistemologica. Le macchine non imparano come noi. Non comprendono, non astraggono, non ragionano. Semplicemente, ottimizzano. E in questa ossessiva ricerca del minimo della funzione di perdita, producono qualcosa che, a volte, assomiglia a intelligenza. Altre volte, assomiglia di più a una previsione oracolare basata su correlazioni spurie. Ma poco importa: funziona.

Chi vuole capirci qualcosa, però, deve passare attraverso il culto delle dimensioni: tensori su tensori, matrici dentro matrici. È come se tutto il deep learning fosse un gioco di scatole cinesi, dove ogni layer è solo l’ingresso per un altro livello di astrazione. E il punto non è capire ogni livello. Il punto è costruirli così profondi da ottenere risultati emergenti. Perché, si sa, la profondità ha il suo prezzo, ma anche i suoi miracoli.

A proposito di miracoli, parliamo di backpropagation. Quel gioiello della matematica applicata che ha trasformato la derivata in un’arma di distruzione cognitiva. Il concetto è semplice: calcoli gli errori partendo dal fondo e risali la rete aggiornando i pesi strada facendo. Un’idea che, se applicata alla vita, avrebbe risparmiato parecchi disastri. Invece, l’abbiamo riservata alle macchine.

E qui entra in scena il vero protagonista nascosto del deep learning: l’ottimizzazione del gradiente. Perché tutto si riduce, ancora una volta, a scegliere quanto spingere giù nella direzione dell’errore. Troppo poco, e il modello si ferma ai bordi della conoscenza. Troppo, e rimbalza come una pallina impazzita in uno spazio di 300 milioni di dimensioni. Trovare la giusta learning rate è un atto di fede tanto quanto un esercizio ingegneristico. Per fortuna, c’è Adam. Non quello della Genesi, ma l’algoritmo. Lui sì che sa come trattare i gradienti con rispetto.

La scala è tutto. Non parliamo solo di FLOPs, ma di ego. Più grande il modello, più grande l’illusione che possa capire il mondo. E così si generano i giganti: GPT, PaLM, LaMDA. Mostri addestrati su terabyte di testo, capaci di scrivere poesie, rispondere a domande e, ogni tanto, inventarsi fonti inesistenti. Ma chi può biasimarli? Anche noi facciamo lo stesso davanti a un colloquio di lavoro.

E poi c’è il lato oscuro. Il modello è profondo, certo, ma lo è anche il rischio di overfitting. Il paradosso è servito: reti con miliardi di parametri riescono a non overfittare. La spiegazione? Forse è la benedizione del rumore stocastico, forse è l’inductive bias inscritto nei layer residui. Forse è solo fortuna. Ma i grafici non mentono: la validazione tiene, l’errore scende, gli investitori esultano.

Nel frattempo, la computazione diventa un campo di battaglia. Le GPU sono armi strategiche. Le TPU, l’equivalente nucleare. Chi possiede l’hardware controlla l’intelligenza. E nel mezzo, i programmatori combattono una guerra silenziosa contro la gestione della memoria, il batch size, e i bug nei tensori che si moltiplicano come cellule tumorali. Welcome to the jungle.

La semantica dei layer è diventata un dialetto tecnico. Lineari, convoluzionali, normalizzanti, attention-based. Ognuno con le sue proprietà, i suoi trade-off, i suoi demoni. Il Transformer? Un meccanismo di attenzione su scala industriale. Geniale quanto spietato. Ha seppellito le LSTM con la grazia di un killer su commissione.

E infine, c’è il culto del pretraining. Nessuno ha più voglia di addestrare da zero. Si prende un modello già scaldato e lo si fine-tuna su una task a piacere. È l’equivalente AI del riciclare una tesi di laurea: cambi l’introduzione, metti due citazioni nuove, ed è pronta per il commit. Funziona, e tanto basta.

Il deep learning ha divorato la computer vision, il NLP, il reinforcement learning. Ha creato un ecosistema fatto di paper dal titolo sempre più lungo, dataset sempre più sporchi e promesse sempre più esagerate. Ma sotto sotto, resta sempre la stessa cosa: un’ottimizzazione brutale, una funzione da minimizzare, una scommessa sull’informazione.

In tutto questo, l’umanità osserva, applaude, e si prepara a essere sostituita da modelli sempre più bravi a fingere di capire. Ironico, no? Abbiamo costruito intelligenze che imparano come bambini e rispondono come adulti cinici. Ma finché riescono a compilare codice, diagnosticare tumori e scrivere tweet virali, chi siamo noi per fermarle?

Perché alla fine, il deep learning non è solo un paradigma computazionale. È un’affermazione politica. Un atto di arroganza epistemica. Un modo per dire: “Sì, possiamo insegnare alle macchine a pensare. O almeno, a fingere di farlo meglio di noi”.