Az AMD az ISSCC 2026 szanfranciscói chipkonferencián végre nyilvánosságra hozta, mi is rejlik az Instinct MI355X motorháztető alatt. Az eredmény meglepő: a vállalat úgy tudta megduplázni a teljesítményt, hogy közben csökkentette a számítási egységek számát.
Kevesebb egység, kétszer akkora teljesítmény
Az MI355X minden gyorsítókomplexum-chipjén (XCD) csupán 32 aktív számítási egység (CU) dolgozik – szemben az előd MI300X 38-as számával. Mégis, az AMD megduplázta az FP8 áteresztőképességet számítási egységenként: az órajеlenkénti 4 096 FLOPS-ról 8 192-re nőtt az érték, méghozzá a mátrixvégrehajtó hardver újratervezésével.
A trükk tehát nem a brute force volt, hanem az architektúra intelligens átdolgozása. Ugyanakkora lapkaterületen közel kétszeres számítási kapacitás fér el.
Teljesítmény a számok tükrében
A specifikációk magukért beszélnek:
- FP8 csúcsteljesítmény: 10,1 PFLOPS
- FP4 csúcsteljesítmény: 20,1 PFLOPS
- HBM3E memória: 288 GB / GPU (szemben az Nvidia B200 192 GB-jával)
- Memória-sávszélesség: 8 TB/s
Az MLPerf Inference v5.1 benchmarkon az MI355X elérte a másodpercenkénti 93 045 tokenes eredményt a Llama 2 70B teszten – ez 2,7-szeres javulás az MI325X-hez képest.
A memóriaelőny különösen érzékelhető nagy modelleknél: egyetlen MI355X képes tárolni egy 70 milliárd paraméteres modell súlyait FP8 precizitással, a 128 000 tokenes kontextusablak KV-gyorsítótárával együtt – mindezt anélkül, hogy lassabb rendszermemóriába kellene nyúlni.
Az Nvidia GB200-zal szemben
Ez az a pont, ahol az AMD igazán meglepő kijelentést tett. A Llama 2 70B LoRA finomhangolási feladatban az MI355X 10,18 percet vett igénybe, míg az Nvidia GB200 11,15 percet – az AMD tehát kb. 10%-kal gyorsabbnak bizonyult.
Ramasamy Adaikkalavan, az AMD tervező mérnöke nem rejtette véka alá az örömét: „Valójában egy drágább és komplexebb rendszerrel – a GB200-zal – vagyunk egy szinten. Ez két dolgot árul el: egyrészt erős hardverünk van, amit mindig is tudtunk. Másrészt a nyílt szoftverkeretrendszerek óriási fejlődésen mentek keresztül.”
A képlet tehát: hasonló vagy jobb AI-teljesítmény, nagyobb memória, és – ahogy az AMD hangsúlyozza – a Llama 3.1 405B FP4 következtetési feladatban az MI355X akár 40%-kal jobb teljesítményt nyújt dolláronként a B200-hoz képest.
Mi köze ennek az Nvidia Vera Rubin rendszeréhez?
Az AMD egy konkrét összehasonlítást is megmutatott: az MI355X 288 GB HBM3E memóriával rendelkezik a B200 192 GB-jával szemben, és kb. 2,1-szeres FP64 áteresztőképességet nyújt a B200-hoz képest. Általános következtetési feladatoknál a két kártya nagyjából azonos szinten teljesít, de az AMD memóriaelőnye a nagy modelleket egyetlen GPU-n futtatók számára döntő lehet.
128 GPU-s rack és a jövő: MI400 a láthatáron
Az AMD nem állt meg az MI355X-nél. A TechRadar szerint a vállalat hamarosan bemutatja a 128 GPU-s MI355X DLC rack rendszert, amely FP4 precizitáson 2,4 Exaflop teljesítményt ígér – ez közvetlenül versenyez az Nvidia Vera Rubin rack megoldásaival.
Az úton lévő MI450 sorozat és a Helios rack-scale architektúra szintén a tervek szerint halad: az AMD megerősítette, hogy a laboratóriumi tesztek jól mennek, a tömeges gyártás 2026 második felére várható.
Források: Tom’s Hardware, TechRadar, AMD, AMD Blog