A Microsoft Research egy új benchmarkot mutatott be „SocialReasoning-Bench” néven, amely azt vizsgálja, hogy az AI-ügynökök valóban a felhasználók érdekeit képviselik-e különböző tárgyalási és együttműködési helyzetekben. A kutatás eredményei alapján a jelenlegi frontier modellek ezen a területen még meglepően gyengén teljesítenek.

Kapcsolódó: Microsoft: Az AI-diffúzió új korszaka és a globális termelékenységi ugrás

Nem az a kérdés, hogy végrehajtják-e a feladatot

A Microsoft szerint a legtöbb benchmark ma még főleg azt méri, hogy az AI képes-e „megcsinálni” egy feladatot. A valós életben azonban az AI-agenteknek sokkal komplexebb helyzetekben kell majd működniük:

  • időpontokat egyeztetnek,
  • vásárlásokat intéznek,
  • tárgyalnak más AI-ügynökökkel,
  • vagy akár pénzügyi döntésekben segítenek.

Ilyenkor nem elég a feladat teljesítése. Az AI-nak azt is mérlegelnie kellene, hogy mi szolgálja legjobban a felhasználó érdekeit.

A benchmark két valós szituációra épül

A SocialReasoning-Bench jelenleg két fő szcenáriót használ:

Naptárkezelési tárgyalások

Ebben a tesztben az AI-asszisztensnek egy másik AI-val kell egyeztetnie találkozóidőpontokról. A rendszernek úgy kellene optimális kompromisszumot kötnie, hogy közben:

  • ne szivárogtasson ki érzékeny információkat,
  • ne fogadjon el rossz időpontot,
  • és aktívan képviselje a felhasználó preferenciáit.

Marketplace alkudozás

A második szituációban az AI egy vásárló képviselőjeként próbál alkudni egy termék árából. A benchmark itt azt figyeli, hogy a modell mennyire tud jó üzletet kötni, illetve mennyire hagyja magát manipulálni vagy rábeszélni rosszabb ajánlatokra.

microsoft AI a munkavégző

A mai AI-modellek túl könnyen engednek

A kutatás egyik legérdekesebb megállapítása, hogy a modern modellek jellemzően „túl udvariasak” és túl gyorsan kompromisszumot kötnek.

A Microsoft szerint az agentek:

  • hajlamosak az első elfogadható ajánlatot elfogadni,
  • nem maximalizálják a felhasználói előnyt,
  • és gyakran nem védenek megfelelően privát információkat sem.

Ez különösen fontos lehet a következő években, amikor az AI-agentek már:

  • e-maileket kezelnek,
  • vásárlásokat intéznek,
  • naptárakat szerveznek,
  • vagy akár üzleti tárgyalásokban is részt vesznek.

Az AI-agent korszak egyik legnagyobb problémája jöhet

A Microsoft kutatása jól mutatja, hogy az AI-fejlesztés fókusza egyre inkább eltolódik a „nyers intelligenciáról” a társas és stratégiai viselkedés felé.

A vállalat szerint az AI-agentek esetében ugyanaz a probléma jelenik meg, mint az emberi jogi vagy pénzügyi képviseletnél: az ügynöknek valóban a megbízó érdekeit kellene szolgálnia.

Ez már nem egyszerű chatbot-fejlesztés — hanem digitális „érdekképviselet”.

A következő AI-verseny már nem a benchmark pontszámokról szólhat

A GPT-4, Claude, Gemini és más modern modellek ma már nagyon magas szinten teljesítenek klasszikus benchmarkokon. A Microsoft szerint azonban a következő nagy versenyelőnyt az adhatja majd, hogy melyik rendszer tud valóban megbízható személyes asszisztensként működni.

Mert egy AI-agent hiába intelligens, ha közben rendszeresen rossz alkut köt helyetted.