Anthropic Claude Mythos: A kibervédelem ígérete és a valóság -

Anthropic Claude Mythos: A kibervédelem ígérete és a valóság

Az Anthropic Claude Mythos AI modellje az elmúlt héten vált a tech-hírek központjává, hatalmas érdeklődést keltve a szektorban. A modell állítólagos képességei, miszerint böngészőkben és operációs rendszerekben is hibákat talál, a „Project Glasswing” megindításához vezettek. Ennek keretében az Anthropic technológiai óriásokkal dolgozna együtt, hogy termékeik javításra kerüljenek, mielőtt a Mythos, amely még előzetes fázisban van, szélesebb körben is megjelenne.

A Mythos képességei egy árnyaltabb képpel

Bár a kezdeti beszámolók rendkívülinek tűntek, a Claude Mythos képességeinek valósága nem ilyen drámai; nem egy érző modellről van szó, amely térdre kényszerítheti a modern technológiát. A bejelentést követően az Aisle publikált egy tanulmányt, amely szerint más AI-modellek is hasonló teljesítményszintet képesek nyújtani a kihasználások megtalálásában (és javításában), mint a Mythos. Habár vannak olyan vélemények, hogy a Mythos a legjobb AI-modell a kiberbiztonsági erőfeszítések támogatására, ez nem nagy különbséggel van így.

Kutatás a Mythos teszteléséről és az AI szerepe a kiberbiztonságban

Az AI kiberbiztonsági felhasználása nem újkeletű. A kutatók már az 1980-as évek óta próbálják a védelmi és támadó műveletek részeként használni, de sokkal életképesebbé vált a fenyegetések, például a rosszindulatú programok észlelésének módszereként a 2000-es és 2010-es években, ahol a címkézett adatok mennyisége elég naggyá vált ahhoz, hogy valódi különbséget hozzon, és ez a tendencia azóta csak felgyorsult.

Az Anthropic a legújabb AI-modelljét azonban másként, veszélyesként pozicionálta, a Mythost olyan erősként állítva be, amely szinte mindenben képes nulladik napi kihasználásokat találni. Azt állította, hogy ezek közül sok kritikus és annyira veszélyes, hogy az Anthropic-nak kizárólag felelősségteljes vállalatokkal kell megosztania ezt az AI-t. A nyilvánosan megosztott indoklás szerint: ha meg tudja találni a hibákat, segíthet a kihasználásukban.

Az Anthropic problémája az, hogy sok más AI-modell is képes ugyanazt a munkát elvégezni, mint a Mythos. Az AISI kutatása szerint a Mythos által felfedezett számos vezető sebezhetőséget olcsóbb, nyílt forráskódú modellek, mint például a GPT-OSS-120b is képesek észlelni (ami az OpenBSD Sack analízis sebezhetőségét találta meg), a Qwen3 32B (ami a FreeBSD NFS észlelési hibáját találta meg), és a Kimi K2 (nyílt súlyú) modell is megtalálta az összes címoldalas hibát.

A valóság komplexitása

Az AISI elemzése rámutat arra is, hogyan keretezi az Anthropic az AI kiberbiztonságot egyetlen átfogó eszközként, amely számos sebezhetőség-felderítési, ellenőrzési, kihasználási és javítási fázisban is képes cselekedni. A valóságban ezek mind különálló lépések, amelyek különböző követelményeket támasztanak. Ezen lépések közül néhányat magas színvonalon is el lehet érni az Aisle által tesztelt könnyebb modellek némelyikével. A Mythos nagyon képes lehet, de ha nem sokkal jobb, mint más modellek, akkor valóban csinál-e valami mást?

„Az AI kiberbiztonsági termelési funkcióját több bemenettel rendelkezőnek tekintjük” – olvasható a jelentésben. „Intelligencia tokenenként, tokenek dolláronként, tokenek másodpercenként, és a biztonsági szakértelem, amely a keretrendszerbe és a mindezt összehangoló szervezetbe van beágyazva.” Habár az Aisle elismeri, hogy az Anthropic maximalizálta az intelligenciát tokenenként a Mythos-szal, azt is állítja, hogy az AI-alapú kiberbiztonság más aspektusai ugyanolyan fontosak, sőt egyes esetekben még fontosabbak is. A kutatás azt is sugallja, hogy az Anthropic-nak esetleg nem a legjobb modellje van úgy általánosságban, amikor más modellek jobban kezelik a kiberbiztonság egyéb aspektusait.

A kutatás arra a következtetésre is jutott, hogy bár a Mythos jól teljesít, kisebb AI-modellek is hasonló eredményeket érhetnek el jó színvonalon, miközben olcsóbban üzemeltethetők. Ez azt jelenti, hogy egyesek számára ezek az olcsóbb modellek több értelmet adhatnak a Mythos helyett a kiberbiztonsági kontextusokban.

Az inference gazdaságossága

A Mythos azonban még esetleg nem működik a teljes kapacitásán. Az Egyesült Királyság AI Biztonsági Intézetének (AISLE) egy másik elemzése szerint a Mythos a legképzettebb AI-modell, ami a saját kiberbiztonsági benchmarkjait illeti. Nem teljesít drámaian jobban, mint más modellek minden feladatban, de ami a komplexebb sebezhetőségi felfedezéseket és kihasználásokat illeti, messze megelőzi a mezőnyt. Ennek egy része a hosszú kontextushosszúság támogatásából fakad, ahol a nagyobb token bemenetek adják a legjobb eredményeket. Tesztjeik során az Aisle a Mythost 100 millió tokenig benchmarkolta, és úgy találta, hogy ezen a küszöbön a legképzettebb. Még azt is feltételezi, hogy nagyobb tokenköltségvetéssel tovább skálázható lenne.

„Arra számítunk, hogy a kiértékeléseken való teljesítmény tovább javulna több inference számítási teljesítménnyel” – olvasható az AISI jelentésében. „A cyber tartományokat 100 millió tokenes költségvetéssel futtattuk; a Mythos Preview teljesítménye tovább skálázódik ezen a határon, és arra számítunk, hogy a teljesítményjavulások ezen túl is folytatódnának.” Nem spekulál arról, hogy mennyivel lesz jobb, hogy a skálázás lineáris-e, vagy meddig várható a skálázás hatékonyságának növelése, de azt sugallja, hogy több többhöz vezethet.

De még ha a Mythos a legjobb is, és még ha jobb is lehetne több számítási teljesítménnyel és több tokennel, mennyibe kerülne mindez? A Mythos token költségei nem ismertek, de figyelembe véve, hogy az AISI tesztjeiben a második legjobb modell a Claude Opus 4.6 volt, amely már most is az egyik drágább modell, a Mythos valószínűleg drágább lesz ennél. Lehet, hogy érdemes sokat költeni egyetlen behatolásvizsgálatra, de felveti a kérdést, hogy mennyire életképes gazdaságilag hosszú távon üzemeltetni. Mennyire lenne könnyű egy ilyen szolgáltatást piacosítani, amikor az Aisle kutatása azt sugallja, hogy sokkal kevesebb ráfordítással, vagy akár helyben futtatott modellekkel is elérhető hasonló szint, ahogy a nyílt súlyú modellek kvantálódnak? Az Irregular azt állítja, hogy egy AI-modell kiberbiztonsági hatékonyságának értékelésekor azt az általános tokenköltséggel kell összevetni. De a várható sikeresség költsége egy olyan metrika, amelyet az Irregular szerint figyelembe kell venni. Itt csökkenhet a Mythos értéke, ha tisztességesebben ítélik meg a versenytársakkal szemben.

Az Anthropic képes-e megbízhatóan szolgáltatni a Mythost?

A Mythos bemutatásának részeként az Anthropic 100 millió dollár értékű felhasználói kreditet és 4 millió dollár nyílt forráskódú adományt adott szervezeteknek, hogy segítsék őket a Mythos által felfedezett hibák validálásában és javításában. Ezenkívül szigorúan elzárkózott, és nem adta ki a modellt a nyilvánosságnak, hanem egy szűk körű technológiai cégcsoportra korlátozta a Project Glasswing keretében. Ez nagyszerű hír. A hibák magánjellegű, csendes, a nyilvánosság elől elzárt javítása a biztonsági tesztelés és fejlesztés szokásos módja. Ha a Claude Mythos egy univerzális kulcs, akkor az a cél, hogy a vállalatok meg tudják védeni termékeiket. Bár ez a kezdeti 100 millió dolláros felhasználás ingyenes, a következő találat nagy árat jelenthet a vállalkozások számára, a Mythos végleges modelljének árazásától függően.

De azt is figyelembe kell venni, hogy ez a jóindulat milyen magas árat ró az Anthropicra. Ahogy az AI iránti kereslet robbanásszerűen növekszik, a nagy, erős modelleket szolgáltató vállalatoknak rendelkezniük kell a megfelelő számítási erőforrásokkal. Egy feltételezhetően nehezebb, számításigényesebb modell, mint a Mythos, terhelést jelenthet az Anthropic már most is kiesésekre hajlamos AI-modelljein, amelyek az írás pillanatában az elmúlt 90 napban 98,4%-os üzemidővel rendelkeztek. Négy kilences, vagy 99,99%-os az üzemi szintű üzemidő; más szóval ez az a standard, amit az Anthropic-nak meg kell felelnie, ha a Mythos-szal SaaS és kiberbiztonsági nagy halakat akar halászni. Bár ez nem tűnik soknak, havonta majdnem tizenkét órányi leállást jelent, ami rossz a felhőszolgáltatási sztenderdek szerint. Az OpenAI API-ja 99,99%-os üzemidőt biztosít – és amikor tokenek eladásáról van szó, ez hatalmas különbséget jelent. Az Anthropic számára ez azt jelenti, hogy a vállalatnak a lehető leghamarabb további számítási kapacitást kell keresnie, hogy betömjék a rést, ahogy azt a közelmúltbeli Broadcom üzletével tették.

A Mythos-leleplezés konklúziója

A valódi következtetés, miután a Mythos nagyszerű bemutatásának pora leülepedett, az, hogy valóban az egyik legjobb általános AI-modell lehet a kiberbiztonságban, de nem feltétlenül a legjobb modell minden feladatra. Ha drága, más modellek hasonló minőségi szintet érhetnek el, miközben számítási szempontból olcsóbbak. És az Anthropic, a modellről szóló minden fellengzős beszéde ellenére, még mindig nem tudja a jelenleg kiadott modelljeit iparági sztenderdeknek megfelelő szinten szolgáltatni, a Mythostól eltekintve. Tehát mindezek a tényezők együttesen nehéz helyzetbe hozzák az Anthropicot. Mivel a számítási kapacitás továbbra is korlátozott, és az AI felhasználása globálisan robbanásszerűen növekszik, csak várhatunk és figyelhetünk, hogyan (és hol) esnek a dominók. Még ha az Anthropic meg is tudja szerezni azokat az ügyfeleket, akiket a Mythos-szal szeretne, akkor is lépést kell tartania a kielégíthetetlen számítási kereslettel.

Forrás: tomshardware