NVIDIA Nemotron 3 Nano Omni: egy modellben a látás, hang és szöveg

Az NVIDIA bemutatta legújabb nyílt MI-modelljét, a Nemotron 3 Nano Omni-t, amely egyetlen rendszerben egyesíti a multimodális képességeket – videó, hang, kép és szöveg egyidejű értelmezésével. A vállalat közleménye szerint a modell kifejezetten agentikus MI-rendszerekhez készült, és a nyílt modellek között új hatékonysági szintet képvisel: azonos interaktivitás mellett 9-szer nagyobb áteresztőképességet (throughput) biztosít, mint más nyílt omni modellek.

Hibrid architektúra önálló érzékelőkkel

A 30B-A3B paraméterszámú, hibrid mixture-of-experts architektúrára épülő modell közvetlenül tartalmazza a vizuális és audió enkódereket, így nincs szükség különálló érzékelő modellekre. Ez a felépítés drasztikusan növeli a következtetési hatékonyságot, alacsonyabb költségek mellett is megőrizve a válaszidőt és a pontosságot. A modell rögtön hat iparági ranglistát vezetett – többek között komplex dokumentumintelligencia, videó- és hangmegértés terén.

Ipari partnerek a bevezetés első vonalában

A bejelentés szerint a Nemotron 3 Nano Omni-t már élesben használja vagy teszteli többek között az Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn, H Company, Palantir és Pyler. Az értékelési fázisban csatlakozott hozzájuk a Dell Technologies, DocuSign, Infosys, K-Dense, Lila, Oracle és Zefr is.

Három kulcsterület az agentikus munkafolyamatokban

Az új modell három fő felhasználási területre fókuszál, ahol önállóan vagy más NVIDIA Nemotron modellekkel (például a nagy frekvenciájú végrehajtásra szánt Nemotron 3 Superrel vagy a komplex tervezést végző Nemotron 3 Ultrával) együttműködve alkothat agentikus alrendszereket:

  • Számítógép-vezérlő ágensek: A modell a grafikus felhasználói felületeken navigáló ágensek érzékelési hurkát hajtja meg. A H Company legújabb ilyen ágensében a Nemotron 3 Nano Omni natív 1920×1080 pixeles felbontással dolgozik, ami az OSWorld benchmark előzetes tesztjein jelentős ugrást mutatott a bonyolult interfészek kezelésében.
  • Dokumentumintelligencia: Dokumentumok, diagramok, táblázatok, képernyőfotók és vegyes médiatartalmak feldolgozása egységes keretben, ami kritikus a vállalati elemzések és megfelelőségi munkafolyamatok számára.
  • Hang- és videómegértés: Az ügyfélszolgálati, kutatási és monitorozási feladatoknál a modell összefüggő audió-videó kontextust tart fenn, ahelyett hogy az elhangzottakat, a látottakat és a dokumentáltakat különálló összegzésekre bontaná.

Forrás: wccftech.com