Kimi K2.6: a kínai AI, amely megközelíti a GPT-5.4-et

A Moonshot AI (月之暗面) április 20-án este bemutatta és nyílt forráskódúvá tette legújabb csúcsmodelljét, a Kimi K2.6-ot. A megjelenés időzítése tudatos: egyetlen héten belül az Anthropic kiadta a Claude Opus 4.7-et, az Alibaba a Qwen3.6-Max-Preview-t, a DeepSeek V4 pedig szintén soron van. A K2.6 ebben a sűrű mezőnyben mutatja meg, mire jutott a kínai fejlesztőcsapat.

Mérnöki feladatokban a világ élvonala

A modell legnagyobb erőssége a hosszú kódolási feladatok kezelése. Ahol a korábbi nagy modellek legfeljebb egyszerű kódrészleteket írtak, a K2.6 képes teljes fejlesztési ciklust végigvinni: követelményelemzéstől implementáción és tesztelésen át teljesítményoptimalizálásig – egyetlen futásban, akár 4000 sornyi kódmódosítással.

Két belső teszteset szemlélteti ezt. Az első egy Zig-alapú gyorsítás: Mac gépen futó Qwen3.5-0.8B modell optimalizálása során a K2.6 12 óra alatt, 4000-nél több eszközhívás és 14 iteráció után 15-ről 193 token/másodpercre növelte az átviteli sebességet – ez 20%-kal meghaladja az LM Studio teljesítményét. A második egy 8 éves nyílt forráskódú tőzsdei párosító motor (exchange-core) újraírása: 13 óra alatt, 12 különböző stratégia kipróbálásával a K2.6 az átlagos átviteli teljesítményt 185%-kal növelte, 0,43-ról 1,24 MT/s-re.

Benchmark-eredmények: kódban első, gondolkodásban még marad lemaradás

A K2.6 a SWE-Bench Pro teszten 58,6%-ot ért el, megelőzve az összes versengő modellt. Terminal-Bench 2.0-n 66,7%-ot szerzett, felülmúlva a GPT-5.4 és Claude Opus 4.6 közös 65,4%-os eredményét. A DeepSearchQA keresési teszten 92,5%-os F1-pontszámot ért el, messze megelőzve a GPT-5.4 78,6%-át.

Az eszközök nélküli tiszta következtetési feladatokban azonban a lemaradás szembetűnő. A HLE-Full teszten a K2.6 csupán 34,7%-ot kapott, míg a GPT-5.4 39,8%-ot, a Gemini 3.1 Pro pedig 44,4%-ot teljesített. Vizuális érvelésben is hasonló a helyzet. A kép egyértelmű: mérnöki és eszközhasználati téren már a globális első vonal, de tiszta tudáskövetkeztetésben és vizuális megértésben még folyik a felzárkózás.

300 párhuzamos ügynök, 4000 lépés

A K2.6 ügynök-infrastruktúrája az előző generációhoz képest háromszoros bővítésen esett át: az egyidejűleg futtatható al-ügynökök száma 100-ról 300-ra nőtt, az együttműködési lépések pedig 1500-ról 4000-re. Egy demonstrációban a rendszer egy asztrofizikai tudományos cikket alakított át újrafelhasználható tudáseszközzé – eredményként 7000 szavas összefoglalót, 20 000-nél több adatpontot és 14 tudományos ábrát generált.

A Moonshot bejelentette a Claw Groups kutatási előzetesét is: egy heterogén ügynök-ökoszisztémát, amelyben különböző eszközökkel és modellekkel felszerelt ügynökök emberi felhasználókkal együtt dolgozhatnak párhuzamosan.

Nyílt forráskód, de drágább API

Az API árazás érezhetően emelkedett: az inputköltség millió tokenenként 0,60 dollárról 0,95 dollárra nőtt, ami 58%-os emelkedést jelent. Az output ára 3,00-ről 4,00 dollárra módosult. A kontextusablak 256K token.

A drágulás oka az egyre hosszabb ügynöki feladatok megnövekedett tokenfogyasztása – a modell akár 5 napos folyamatos autonóm futásra is képes.

A Moonshot nyílt forráskódúvá tette a K2.6-ot – szemben a Meta nemrég kiadott zárt Muse Spark modelljével. Az alapító Yang Zhi-lin stratégiája egyszerű: ha a képességek elérik a zárt rendszerekét, az open source abszolút győzelmet arat, mert az ökoszisztéma piacméretben mindent felülmúl. A K2.6 ezt az elvet valósítja meg – miközben az emelkedő API-árral a fenntartható vállalati üzleti modellt keresi.

forrás: tmtpost.com