Az Nvidia Research és a MineDojo csapata egy újabb mérföldkőhöz érkezett a mesterséges intelligencia fejlesztésében. Megjelent a NitroGen, egy olyan nyílt forráskódú keretrendszer és modellcsalád, amely a Minecraft komplex világában tanítja meg az MI-ágenseknek, hogyan tervezzenek, mozogjanak és oldjanak meg összetett feladatokat pusztán vizuális információk alapján.

​Miért pont a Minecraft?

​Bár játéknak tűnik, a kutatók számára a Minecraft a tökéletes „játszótér” (sandbox). Ez egy végtelenített szimuláció, ahol az MI-nek nemcsak gombokat kell nyomogatnia, hanem:

  • Hierarchikus tervezés: „Ahhoz, hogy csákányom legyen, előbb fát kell vágnom, majd botokat és deszkákat készítenem.”
  • Vizuális értelmezés: A NitroGen képes értelmezni a képernyőn látott pixeleket, felismeri a tereptárgyakat, az ellenségeket és a nyersanyagokat.
  • Hosszú távú memória: Az ágensnek emlékeznie kell, hol hagyta a bázisát vagy merre talált értékes ércet.

​Hogyan működik a NitroGen?

​A projekt lényege az úgynevezett Video Pre-training (VPT) és a multimodális tanítás kombinációja.

  1. Hatalmas adatbázis: Több ezer órányi játékmenet-videón tanították be a modellt, hogy „eltanulja” az emberi viselkedést.
  2. NitroGen-modellek: A Hugging Face-en elérhető súlyok (weights) lehetővé teszik a kutatók számára, hogy saját ágenseket futtassanak és finomhangoljanak.
  3. Kereszt-modális tudás: A rendszer képes összekapcsolni a szöveges utasításokat („Építs egy házat!”) a vizuális végrehajtással.

​Miért fontos ez a tech-világnak?

​A NitroGen nem azért készült, hogy elvegye a kedvünket a kockák bányászásától. Az itt elért eredmények közvetlenül hasznosíthatók:

  • Robotika: A virtuális térben tanult térlátás és tervezés később valódi robotkarok vagy önvezető rendszerek alapja lehet.
  • Ágens-alapú MI: Ez a projekt közelebb visz minket az olyan asszisztensekhez, amelyek nemcsak szöveget generálnak, hanem képesek önállóan kezelni szoftvereket vagy operációs rendszereket.

​A Bytepoint szerint az Nvidia ezzel a lépéssel ismét bizonyította, hogy a hardvergyártás mellett a szoftveres és kutatási oldalon is ők diktálják a tempót. A NitroGen kódja és modelljei bárki számára elérhetőek, így hamarosan eláraszthatják a YouTube-ot a minden eddiginél okosabb, MI-vezérelt túlélők.

Forrás: Hugging Face / Nvidia NitroGen és GitHub / MineDojo NitroGen