NVIDIA Nemotron 3 Nano Omni: egy modellben a látás, hang és szöveg
Az NVIDIA bemutatta legújabb nyílt MI-modelljét, a Nemotron 3 Nano Omni-t, amely egyetlen rendszerben egyesíti a multimodális képességeket – videó, hang, kép és szöveg egyidejű értelmezésével. A vállalat közleménye szerint a modell kifejezetten agentikus MI-rendszerekhez készült, és a nyílt modellek között új hatékonysági szintet képvisel: azonos interaktivitás mellett 9-szer nagyobb áteresztőképességet (throughput) biztosít, mint más nyílt omni modellek.
Hibrid architektúra önálló érzékelőkkel
A 30B-A3B paraméterszámú, hibrid mixture-of-experts architektúrára épülő modell közvetlenül tartalmazza a vizuális és audió enkódereket, így nincs szükség különálló érzékelő modellekre. Ez a felépítés drasztikusan növeli a következtetési hatékonyságot, alacsonyabb költségek mellett is megőrizve a válaszidőt és a pontosságot. A modell rögtön hat iparági ranglistát vezetett – többek között komplex dokumentumintelligencia, videó- és hangmegértés terén.
Ipari partnerek a bevezetés első vonalában
A bejelentés szerint a Nemotron 3 Nano Omni-t már élesben használja vagy teszteli többek között az Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn, H Company, Palantir és Pyler. Az értékelési fázisban csatlakozott hozzájuk a Dell Technologies, DocuSign, Infosys, K-Dense, Lila, Oracle és Zefr is.
Három kulcsterület az agentikus munkafolyamatokban
Az új modell három fő felhasználási területre fókuszál, ahol önállóan vagy más NVIDIA Nemotron modellekkel (például a nagy frekvenciájú végrehajtásra szánt Nemotron 3 Superrel vagy a komplex tervezést végző Nemotron 3 Ultrával) együttműködve alkothat agentikus alrendszereket:
- Számítógép-vezérlő ágensek: A modell a grafikus felhasználói felületeken navigáló ágensek érzékelési hurkát hajtja meg. A H Company legújabb ilyen ágensében a Nemotron 3 Nano Omni natív 1920×1080 pixeles felbontással dolgozik, ami az OSWorld benchmark előzetes tesztjein jelentős ugrást mutatott a bonyolult interfészek kezelésében.
- Dokumentumintelligencia: Dokumentumok, diagramok, táblázatok, képernyőfotók és vegyes médiatartalmak feldolgozása egységes keretben, ami kritikus a vállalati elemzések és megfelelőségi munkafolyamatok számára.
- Hang- és videómegértés: Az ügyfélszolgálati, kutatási és monitorozási feladatoknál a modell összefüggő audió-videó kontextust tart fenn, ahelyett hogy az elhangzottakat, a látottakat és a dokumentáltakat különálló összegzésekre bontaná.
Forrás: wccftech.com