Ha valaha is elgondolkodtál azon, hogy mi történik valójában a ChatGPT vagy a hasonló AI-modellek „motorházteteje alatt”, most itt a lehetőség, hogy ne csak rájuk csodálkozz, hanem meg is értsd – sőt, akár le is kódold. A „How to Train Your GPT” nevű nyílt forráskódú projekt pontosan ezt ígéri: egy 12 fejezetes, ingyenes tankönyvet, amely nulláról vezet végig egy modern GPT-szerű modell felépítésén.

A projekt mottója találóan fogalmaz: „Explained like we are five. Built like you’re an engineer.” Azaz: az elméletet úgy magyarázza, mintha 5 éveseknek szólna, a kódot viszont profi szinten írja meg. Az eredmény közel 3 900 sor Python, ebből nagyjából 860 sor a tényleges modell – a többi magyarázat, komment és ábra.

Mit tartalmaz a 12 fejezet?

  • Tokenizáció – hogyan darabolja fel a szöveget a modell (BPE algoritmus)
  • Embeddings – a szavak numerikus ábrázolása
  • Pozicionális kódolás – RoPE technika, ahogy a LLaMA 3 és a Mistral is használja
  • Attention mechanizmus – a Transformer szíve
  • Transformer blokk – RMSNorm normalizáció, SwiGLU aktiváció
  • Teljes GPT modell – 151 millió paraméterrel
  • Tanítás és szöveggenerálás – AdamW optimizer, top-k és top-p sampling

A tankönyv nem elavult, tankönyvszagú architektúrát mutat be, hanem a legjobb modern megközelítéseket alkalmazza – azt, amit ma a legjobb nyílt modellek is használnak. Jupyter notebookok is tartoznak hozzá, így mindent azonnal ki lehet próbálni.

Kinek érdemes megnézni?

Elsősorban Python-fejlesztőknek és technológia iránt érdeklődőknek, akik eddig csak felhasználói szinten találkoztak az AI-jal, de szeretnék érteni, mi folyik a háttérben. Gépi tanulási előképzettség nem szükséges – a projekt kézenfogva vezet végig az egész folyamaton. A GitHub-oldalon jelenleg közel 800 csillag és több mint 100 fork jelzi, hogy a közösség is hasznosnak találta.

A projekt MIT licenc alatt érhető el, tehát szabadon felhasználható, tanulmányozható és módosítható.

🔗 github.com/raiyanyahya/how-to-train-your-gpt