Tencent Hy3 preview teszt – a gyakorlatias LLM, ami végre behozhatja a lemaradást -

A Tencent hivatalosan is bemutatta és nyílt forráskódúvá tette következő generációs nyelvi modelljét, a Hy3 preview-t. A

A Tencent hivatalosan is bemutatta és nyílt forráskódúvá tette következő generációs nyelvi modelljét, a Hy3 preview-t. A hivatalos leírás szerint a modell egy gyors és lassú gondolkodást ötvöző hibrid szakértői (MoE) architektúrára épül, összesen 295 milliárd paraméterrel rendelkezik, amelyből 21 milliárd aktív, és akár 256 ezres kontextusablakot is támogat. A vállalat állítása szerint ez a Hunyuan eddigi legintelligensebb modellje.

A projektet három hónapja Yao Shunyu (姚顺雨) vezeti, aki a ReAct keretrendszerrel és OpenAI-nál szerzett tapasztalataival érkezett a Tencenthez, hogy újjáépítse a vállalat előtanítási és megerősítéses tanulási infrastruktúráját. A Hy3 preview ennek az átalakításnak az első kézzelfogható eredménye. A hivatalos közlemény kiemeli, hogy a modell jelentős fejlődést mutat komplex érvelés, utasításkövetés, kontextuskezelés, kódgenerálás és ágensi képességek terén. Bár a nyilvános benchmarkok alapján nem minden dimenzióban éri el az iparági csúcsot, a gyakorlati felhasználási igények nagy részét kielégíti.

Üzemeltetési hatékonyság terén is történt előrelépés: a hivatalos adatok szerint a modell első tokenig mért késleltetése 54%-kal, a végpontok közötti válaszidő pedig 47%-kal csökkent. A feladat-végrehajtás sikerességi aránya szintén javult, így a modell már stabilan képes összetett AI-ágens munkafolyamatokat is kiszolgálni, beleértve a dokumentumfeldolgozást és az adatelemzést is. A következtetési költség is mérséklődött: a Tencent Cloud API-ján keresztül a bemeneti ár mindössze 1,2 jüan / millió token, a személyes csomagok pedig havi 28 jüantól indulnak, ami a hasonló méretű modellek között a legalacsonyabb ársávba tartozik. A Hy3 preview már elérhető a Tencent Cloud, a Yuanbao (元宝) és a WorkBuddy termékekben is.

Következtetési képesség: összetett logika megy, de a csapdákat nem mindig kerüli el

A tesztelés során először a modell logikai képességeit vettük górcső alá. Egy klasszikus „autómosós” csapda kérdésnél a Hy3 preview kezdetben hibázott: rendezett érveléssel a gyaloglást javasolta, figyelmen kívül hagyva, hogy a lényeg épp a kocsimosás lenne. Miután külön felhívtuk a figyelmét a mosás szükségességére, helyes választ adott. Megjegyzendő, hogy más felhasználói tesztekben előfordult, hogy a modell elsőre is jól válaszolt, ami a csapdafelismerő képesség ingadozó stabilitására utal.

Egy másik fejtörőben – ahol tojásokat törtek össze, sütöttek ki és ettek meg – a modell nem ismerte fel, hogy ugyanarról a tételről van szó, és úgy vélte, a megsütött tojások továbbra is léteznek és elfogyaszthatók. Amikor azonban egy bonyolultabb, rejtett feltételekkel operáló logikai feladatot kapott, a Hy3 preview hibátlanul teljesített: lépésről lépésre bontotta ki az utalásokat, feltárta a foglalkozások közötti kizáró viszonyokat, majd kizárásos alapon azonosította a szereplőket.

Csapdakérdés (tojásos brainteaser): „6 tojásom van, kettőt összetörtem, kettőt megsütöttem, kettőt megettem — hány maradt?” A modell felismeri, hogy a törés, sütés és evés ugyanazon tojásokra vonatkozik, és nem tudta a helyes választ: 2 db.

Összességében a modell erős racionális logikai levezetőképességgel bír, de a fordított gondolkodást, csapdafelismerést és a hétköznapi helyzetekhez való rugalmas alkalmazkodást igénylő feladatokban még vannak hiányosságai. A szokványos logikai csapdáknál hajlamos megragadni a szó szerinti értelmezésnél. Ugyanakkor a rejtett feltételű, részletes levezetést igénylő komplex problémákat megbízhatóan, lépésről lépésre oldja meg.

Kontextuskezelés és utasításkövetés: stabil információkiemelés zavaros környezetben

Ebben a körben a modell két alapvető készségét teszteltük: mennyire képes követni a valódi utasításokat, és milyen gyorsan tanul új szabályokat. A Tencent hivatalos blogja öt forgatókönyvet sorolt fel, amelyekből kettőt próbáltunk ki.

Az első feladat egy kaotikus, közbevetésekkel, elkalandozásokkal és ismételt korrekciókkal teli értekezleti hangfelvétel átirata volt, amelyből háromféle információt kellett kinyerni. A Hy3 preview pontosan listázta a kért adatokat, ami jó információszerzési képességről tanúskodik.

A második szituációban egy általunk kreált egyszerű nyelv szabályait mutattuk be példákkal, majd három új mondat lefordítását kértük. A modell minden utasítást precízen követett, és hibátlanul alkalmazta a frissen tanult szabályokat.

A Hy3 preview tehát hatékonyan értelmezi az utasításokat, és képes kiszűrni a zavaró információkat, így jól alkalmazható zajos környezetből származó adatok feldolgozására.

Kódolás és AI-ágens: eszközhasználat rendben, de a teljes feladatmegoldás hiányos

A kódolási és ágensi képességek kulcsfontosságúak egy AI-asszisztens használhatóságának megítélésében. Itt a WorkBuddy-t (a Tencent AI-asszisztensét) három feladattal tettük próbára.

Első feladatként öt város egyéves levegőminőségi adatainak begyűjtését és elemző riport készítését kértük. A vizuális megjelenítés rendben volt: évszakonkénti bontás, radardiagram, trendvonalak, korrelációs hőtérkép – a front-end megvalósítás megfelelő. A probléma az adatgyűjtési fázis akadozása volt, így végül csak 224 napnyi érvényes adat állt rendelkezésre, ami aláássa a táblázatok megbízhatóságát. Ráadásul az explicit kérés ellenére az elemzői összefoglaló helye üresen maradt a felületen. A modell tehát érzékeli a feladat teljeskörűségének igényét, de a végső szállítási képessége még fejlesztésre szorul.

A második feladat egy Snake játék leprogramozása volt. A végeredmény látványos, logikailag hibátlan és játszható lett. Fontos azonban, hogy ez egy zárt szabályrendszerű, külső adatokat nem igénylő feladat, ami az ágensek komfortzónájába tartozik. A WorkBuddy itt bizonyította, hogy ilyen keretek között praktikus értékkel bír.

A harmadik, jóval nehezebb feladat egy nyitott elemzés volt: az AI Coding iparág üzleti modelljeinek evolúciója 2023-tól, a kulcsfontosságú fordulópontok és hajtóerők azonosításával. A WorkBuddy fél órán át dolgozott, automatikusan hívott meg eszközöket, módosított a végrehajtási terven. A végeredmény azonban nem volt lenyűgöző: egy alapvető vázat épített fel, de az érdemi tartalom hiányzott. Látszik, hogy a modell érti a kutatási kérdések dekomponálásának módszerét, de nem tudja az egyes dimenziókat valódi kutatási érvekké gyúrni.

A WorkBuddy tehát rendelkezik a napi kódolási asszisztensi feladatokhoz szükséges alapképességekkel, de a komplex projektek mélyreható végrehajtásában és hiánytalan dokumentálásában van még hová fejlődnie.

Természetes társalgás: érezhetően emberibb, kevésbé „AI-ízű”

Végül a Yuanbao emberi benyomását teszteltük csevegés és kreatív írás keretében.

Csevegés közben a hivatalos ígéretnek megfelelően a modell jól értelmezte a beszélgetőpartner érzelmi szándékát, és nem sablonos tanácsokkal, hanem a lehetséges okok higgadt elemzésével és további nyitott kérdésekkel reagált. A stílus visszafogott és természetes maradt.

Kreatív írás során két próbát tettünk. Az elsőben egy olyan történetet kértünk, amelyben a főszereplő fizikailag soha nem jelenik meg, mégis egyértelművé válik személyisége és jelentősége. A modell által szállított szöveg koherens, gördülékeny és befejezett volt, szinte teljesen nélkülözte a mesterséges intelligencia által generált szövegekre jellemző modorosságot. A második feladatban egy ismert történelmi személyiség életét kellett megírni a „Ming-dinasztia története” (《明朝那些事儿》) könnyed, közérthető stílusában. A Hy3 preview nem pusztán lemásolta a keretet, hanem sikeresen átvette a könyv népszerűsítő történetírói hangvételét, ami kifejezetten erős stílusreprodukciós készségre vall.

A modell természetes nyelvi kifejezésmódja érezhetően túllépett a korrekt, de lapos panelmondatokon, és olvasmányos, jó színvonalú szövegek alkotására képes.

Összegzés

A négy dimenzióban elvégzett teszt alapján a Hy3 preview összbenyomása leginkább a „stabil, de nem meglepő” kifejezéssel írható le. Egyetlen területen sem nyújt lehengerlő, mindent elsöprő teljesítményt, ugyanakkor szinte nincs is gyenge pontja. A kínai nagy nyelvi modellek mezőnyében talán nem a leglátványosabb, de egyértelműen megfelel a használható, „munkára fogható” modellel szemben támasztott követelményeknek.

Tágabb perspektívából nézve a Hy3 preview valódi jelentősége talán nem is magában a modellben keresendő. Az elmúlt két évben a Tencent AI terén tapasztalható passzivitását január végén Ma Huateng (Pony Ma) vezérigazgató is nyilvánosan elismerte. A lassú technológiai ütem és egy emblematikus, a közvélemény által is számon tartott modell hiánya volt a vállalat két nagy problémája. A Hy3 preview megjelenése fordulópontot hozhat a Tencent AI-történetében, és egy olyan alapmodellt ad a cég kezébe, amelyet teljes ökoszisztémáján át tud hasznosítani. Bár ez még csak egy előzetes verzió, a nyílt forráskódú közösség visszajelzései és a Yuanbao, QQ, Tencent Docs termékekben való éles használat tapasztalatai még váratnak magukra, és a hivatalos tervek szerint később nagyobb paraméterszámú modellek is érkeznek, a Tencent AI most kezdi levetkőzni az elmúlt két év „passzív” címkéjét.

Forrás: tmtpost.com