Az Nvidia Research és a MineDojo csapata egy újabb mérföldkőhöz érkezett a mesterséges intelligencia fejlesztésében. Megjelent a NitroGen, egy olyan nyílt forráskódú keretrendszer és modellcsalád, amely a Minecraft komplex világában tanítja meg az MI-ágenseknek, hogyan tervezzenek, mozogjanak és oldjanak meg összetett feladatokat pusztán vizuális információk alapján.
Miért pont a Minecraft?
Bár játéknak tűnik, a kutatók számára a Minecraft a tökéletes „játszótér” (sandbox). Ez egy végtelenített szimuláció, ahol az MI-nek nemcsak gombokat kell nyomogatnia, hanem:
- Hierarchikus tervezés: „Ahhoz, hogy csákányom legyen, előbb fát kell vágnom, majd botokat és deszkákat készítenem.”
- Vizuális értelmezés: A NitroGen képes értelmezni a képernyőn látott pixeleket, felismeri a tereptárgyakat, az ellenségeket és a nyersanyagokat.
- Hosszú távú memória: Az ágensnek emlékeznie kell, hol hagyta a bázisát vagy merre talált értékes ércet.
Hogyan működik a NitroGen?
A projekt lényege az úgynevezett Video Pre-training (VPT) és a multimodális tanítás kombinációja.
- Hatalmas adatbázis: Több ezer órányi játékmenet-videón tanították be a modellt, hogy „eltanulja” az emberi viselkedést.
- NitroGen-modellek: A Hugging Face-en elérhető súlyok (weights) lehetővé teszik a kutatók számára, hogy saját ágenseket futtassanak és finomhangoljanak.
- Kereszt-modális tudás: A rendszer képes összekapcsolni a szöveges utasításokat („Építs egy házat!”) a vizuális végrehajtással.
Miért fontos ez a tech-világnak?
A NitroGen nem azért készült, hogy elvegye a kedvünket a kockák bányászásától. Az itt elért eredmények közvetlenül hasznosíthatók:
- Robotika: A virtuális térben tanult térlátás és tervezés később valódi robotkarok vagy önvezető rendszerek alapja lehet.
- Ágens-alapú MI: Ez a projekt közelebb visz minket az olyan asszisztensekhez, amelyek nemcsak szöveget generálnak, hanem képesek önállóan kezelni szoftvereket vagy operációs rendszereket.
A Bytepoint szerint az Nvidia ezzel a lépéssel ismét bizonyította, hogy a hardvergyártás mellett a szoftveres és kutatási oldalon is ők diktálják a tempót. A NitroGen kódja és modelljei bárki számára elérhetőek, így hamarosan eláraszthatják a YouTube-ot a minden eddiginél okosabb, MI-vezérelt túlélők.
Forrás: Hugging Face / Nvidia NitroGen és GitHub / MineDojo NitroGen