NVIDIA Blackwell: Day-0 támogatás és brutális sebesség a DeepSeek V4 Pro modellekhez -

Érkezik a DeepSeek V4: 1,6 billió paraméter és radikális hatékonyság

Megjelent a DeepSeek V4, amely jelentős optimalizációkat hoz a számítási kapacitás és a memóriaigény terén. Az új AI-modell mindössze 27%-át igényli az egy-tokenes következtetési (inference) FLOP-igénynek, miközben a KV-gyorsítótár (cache) használatát is 10%-ra csökkenti egymillió tokenes kontextusablak mellett. A fejlesztők két változatot mutattak be: a rendkívül komplex feladatokra szánt Pro verziót, valamint a sebességre optimalizált Flash kiadást.

DeepSeek V4 specifikációk

DeepSeek-V4-Pro: 1.6T (1,6 billió) összes paraméter, 49B aktív paraméter, 1M tokenes kontextus, MIT licenc. Elsődleges felhasználás: komplex érvelés, programozás, hosszú kontextusú ágensek.
DeepSeek-V4-Flash: 284B összes paraméter, 13B aktív paraméter, 1M tokenes kontextus, MIT licenc. Elsődleges felhasználás: nagy sebességű hatékonyság, chat, összegzés.

NVIDIA Blackwell: 3500 token másodpercenként

Az NVIDIA azonnali, úgynevezett „Day-0” támogatást hirdetett meg a Blackwell GPU-khoz. A vállalat mérései szerint a Blackwell architektúra (GB300 vagy Blackwell Ultra) biztosítja azt a skálázhatóságot és alacsony késleltetést, amely az 1M kontextushosszúságú és billió paraméteres modellek futtatásához szükséges. Az NVIDIA előzetes adatai alapján GPU-nként közel 3500 TPS (token per szekundum) áteresztőképesség érhető el, ami a szoftveres stack további finomhangolásával várhatóan még tovább emelkedik majd.

A kimagasló teljesítmény kulcsa az NVFP4 (MXFP4) kvantálás alkalmazása, amely gyorsítja a következtetési folyamatokat, miközben csökkenti a memóriahasználatot és a mintavételezési késleltetést. Az NVIDIA olyan technológiákkal támogatja a V4 modellt, mint a Dynamo, az optimalizált CUDA kernel-készletek és a fejlett párhuzamosítási eljárások.

„Az NVIDIA Blackwell adatközpontú telepítéseitől a felügyelt NIM mikroszolgáltatásokig számos lehetőséget kínálunk a DeepSeek és más nyílt forráskódú modellek integrálására a fejlesztés és a bevezetés minden szakaszában.” – közölte az NVIDIA.

Globális hardvertámogatás és kínai alternatívák

Érdekesség, hogy a DeepSeek V4 által használt MXFP4 utasításkészlet nemcsak az NVIDIA kiváltsága lesz. A Huawei 2026-ra tervezett legújabb chipjei, az Ascend 950PR és az Ascend 950DT szintén támogatják ezt a formátumot. Ez azt jelenti, hogy a DeepSeek V4 teljes mértékben kompatibilis lesz Kína hazai gyártású AI-processzoraival is, biztosítva a modell széles körű elterjedését a globális piacon.

Forrás: wccftech