Ha valaha is elgondolkodtál azon, hogy mi történik valójában a ChatGPT vagy a hasonló AI-modellek „motorházteteje alatt”, most itt a lehetőség, hogy ne csak rájuk csodálkozz, hanem meg is értsd – sőt, akár le is kódold. A „How to Train Your GPT” nevű nyílt forráskódú projekt pontosan ezt ígéri: egy 12 fejezetes, ingyenes tankönyvet, amely nulláról vezet végig egy modern GPT-szerű modell felépítésén.
A projekt mottója találóan fogalmaz: „Explained like we are five. Built like you’re an engineer.” Azaz: az elméletet úgy magyarázza, mintha 5 éveseknek szólna, a kódot viszont profi szinten írja meg. Az eredmény közel 3 900 sor Python, ebből nagyjából 860 sor a tényleges modell – a többi magyarázat, komment és ábra.
Mit tartalmaz a 12 fejezet?
- Tokenizáció – hogyan darabolja fel a szöveget a modell (BPE algoritmus)
- Embeddings – a szavak numerikus ábrázolása
- Pozicionális kódolás – RoPE technika, ahogy a LLaMA 3 és a Mistral is használja
- Attention mechanizmus – a Transformer szíve
- Transformer blokk – RMSNorm normalizáció, SwiGLU aktiváció
- Teljes GPT modell – 151 millió paraméterrel
- Tanítás és szöveggenerálás – AdamW optimizer, top-k és top-p sampling
A tankönyv nem elavult, tankönyvszagú architektúrát mutat be, hanem a legjobb modern megközelítéseket alkalmazza – azt, amit ma a legjobb nyílt modellek is használnak. Jupyter notebookok is tartoznak hozzá, így mindent azonnal ki lehet próbálni.
Kinek érdemes megnézni?
Elsősorban Python-fejlesztőknek és technológia iránt érdeklődőknek, akik eddig csak felhasználói szinten találkoztak az AI-jal, de szeretnék érteni, mi folyik a háttérben. Gépi tanulási előképzettség nem szükséges – a projekt kézenfogva vezet végig az egész folyamaton. A GitHub-oldalon jelenleg közel 800 csillag és több mint 100 fork jelzi, hogy a közösség is hasznosnak találta.
A projekt MIT licenc alatt érhető el, tehát szabadon felhasználható, tanulmányozható és módosítható.