AI-nak vizuális memória kell a valós világban való sikeres működéshez

Shawn Shen szerint az AI-nak emlékeznie kell arra, amit lát, hogy sikeres legyen a fizikai világban. Cége, a Memories.ai az Nvidia AI eszközeivel építi azt az infrastruktúrát, amivel a viselhető eszközök és robotok képesek lesznek vizuális emlékeket tárolni és előhívni.

A Memories.ai hétfőn jelentette be együttműködését az Nvidia-val a cég GTC konferenciáján. A partnerség keretében a Memories.ai az Nvidia Cosmos-Reason 2 nyelvi modelljét és az Nvidia Metropolis videókereső alkalmazást használja vizuális memória technológiája fejlesztéséhez.

Hogyan jött az ötlet?

Shen elmondta a TechCrunchnak, hogy társalapítójával, Ben Zhou CTO-val akkor kapták el az ötletet, amikor a Meta Ray-Ban szemüvegének AI rendszerén dolgoztak. Az AI szemüveg fejlesztése közben rájöttek: mi értelme van a technológiának, ha a felhasználók nem tudják visszakeresni a rögzített videóadatokat?

Körülnéztek, hogy talál-e valaki ilyen vizuális memória megoldást AI-hoz. Amikor nem találtak, úgy döntöttek, kilépnek a Metából és maguk építik meg.

„Az AI már most is nagyon jól teljesít a digitális világban. De mi van a fizikai világgal?” – kérdezte Shen. „Az AI viselhető eszközöknek, robotoknak is szükségük van memóriára… Végső soron az AI-nak vizuális emlékekre van szüksége. Hiszünk ebben a jövőben.”

Miért újdonság a vizuális memória?

Az AI rendszerek memóriája viszonylag új dolog. Az OpenAI 2024-ben frissítette a ChatGPT-t, hogy emlékezzen a korábbi beszélgetésekre, majd 2025-ben finomhangolta ezt a funkciót. Elon Musk xAI-ja és a Google Gemini is elindította saját memória eszközeit az elmúlt két évben.

De ezek a fejlesztések főleg szöveges memóriára fókuszáltak – mondja Shen. A szöveges memória sokkal strukturáltabb és könnyebben indexelhető, de nem segít a fizikai AI alkalmazásoknál, amelyek főleg látás útján érzékelik a világot.

Hogyan működik a Memories.ai?

A Memories.ai-t 2024-ben alapították és eddig 16 millió dollárt gyűjtöttek össze. Ebből 8 millió dollár volt a 2025 júliusi seed kör, majd további 8 millió dolláros bővítés. A kört a Susa Ventures vezette, részt vett benne a Seedcamp, Fusion Fund és a Crane Venture Partners is.

Shen szerint a sikeres vizuális memóriaréteg építéséhez két dolog kell: infrastruktúra a videók beágyazásához és indexálásához tárolható formátumba, valamint adatok a modell betanításához.

A cég 2025 júliusában mutatta be nagy vizuális memória modelljét (LVMM). Shen szerint ez összehasonlítható a Gemini Embedding 2 kisebb verziójával, amit idén év elején adtak ki.

forrás: techcrunch