Build a Large Language Model (From Scratch)

In un mercato saturo di librerie ready-made come Hugging Face, questo repository non è un’alternativa, ma un atto di dissoluzione dell’“effetto pantone”: ti costringe a smontare il motore, capire ogni ingranaggio, e ricostruirlo con le tue mani.

Il progetto è l’implementazione ufficiale del libro Build a Large Language Model (From Scratch) di Sebastian Raschka, pubblicato da Manning. Non è un testo di facciata: comprende codice in Python, notebook Jupyter esplicativi e una guida capillare che copre ogni fase, dalla tokenizzazione fino all’addestramento, passando per l’attenzione multi-head e il fine-tuning per istruzioni.

Quel che colpisce è l’architettura editoriale: ogni capitolo è un blocco modulare — testo, codice, esercizi, soluzioni riassunte, puzzle da risolvere — completo anche di appendici su PyTorch, LoRA, e ottimizzazioni manuali. Non è un tutorial, è un vero laboratorio cognitivo.

Se ti stai chiedendo “Perché ricostruire un LLM da zero quando puoi chiamare un’API e basta?” la risposta arriva diretta dal maintainer:

“Many explanations say ‘LLMs generate the next word’ but lack depth… The best way to understand is to build them (on a small scale)”.

Ed è proprio lì che risiede la forza di questa iniziativa: in un mondo in cui si enfatizza l’uso rapido delle API, qui si riprende, con metodo quasi monastico, il controllo epistemico. È il laboratorio dove si forgia il vero linguaggio del potere tecnologico — chi capisce il codice capisce il gioco.

Un confronto illuminante lo trovi su Best-of-Web, che evidenzia una contrapposizione paradigmatica tra questo approccio educativo e altri progetti più orientati all’efficienza di produzione, come nanoGPT. LLMs-from-scratch è più trasparente, meno ottimizzato, ma infinitamente più didattico.

Un progetto così non si limita a formare sviluppatori, ma potenzialmente forgia i semi di una nuova classe di esperti: quelli che non solo sanno “usare” l’AI, ma “capirla davvero”.

Ah, la bellezza di una struttura che ti insegna a fare il token embedding, la attention, il fine-tuning su classificazione o istruzioni — e tu lo fai, dentro Jupyter, vedendo il loss scendere, capendo pezzo per pezzo che non è magia, ma meccanica cognitiva codificata.

In sintesi, rasbt/LLMs-from-scratch è un dispositivo cognitivo che ti forma, non ti usa. Non è roba per chi vuole “fare LLM in 5 minuti su Colab”. È roba per chi vuole possedere il linguaggio di potere, non subirselo. In un sistema dove l’AI è spesso consumata come una commodity, questo repo è un laboratorio di sovranità.

Insomma, se ti interessa non solo “cosa fa” ma “come lo fa e perché”, questo è il tuo santuario.

Repository: https://github.com/rasbt/LLMs-from-scratch

Build a Large Language Model (From Scratch)

Nvidia H20 tra stop alla produzione chip ai cinesi e la fragilità della supply chain dei semiconduttori

Surya e la nuova guerra fredda con il sole