A Microsoft Research egy új benchmarkot mutatott be „SocialReasoning-Bench” néven, amely azt vizsgálja, hogy az AI-ügynökök valóban a felhasználók érdekeit képviselik-e különböző tárgyalási és együttműködési helyzetekben. A kutatás eredményei alapján a jelenlegi frontier modellek ezen a területen még meglepően gyengén teljesítenek.
Kapcsolódó: Microsoft: Az AI-diffúzió új korszaka és a globális termelékenységi ugrás
Nem az a kérdés, hogy végrehajtják-e a feladatot
A Microsoft szerint a legtöbb benchmark ma még főleg azt méri, hogy az AI képes-e „megcsinálni” egy feladatot. A valós életben azonban az AI-agenteknek sokkal komplexebb helyzetekben kell majd működniük:
- időpontokat egyeztetnek,
- vásárlásokat intéznek,
- tárgyalnak más AI-ügynökökkel,
- vagy akár pénzügyi döntésekben segítenek.
Ilyenkor nem elég a feladat teljesítése. Az AI-nak azt is mérlegelnie kellene, hogy mi szolgálja legjobban a felhasználó érdekeit.
A benchmark két valós szituációra épül
A SocialReasoning-Bench jelenleg két fő szcenáriót használ:
Naptárkezelési tárgyalások
Ebben a tesztben az AI-asszisztensnek egy másik AI-val kell egyeztetnie találkozóidőpontokról. A rendszernek úgy kellene optimális kompromisszumot kötnie, hogy közben:
- ne szivárogtasson ki érzékeny információkat,
- ne fogadjon el rossz időpontot,
- és aktívan képviselje a felhasználó preferenciáit.
Marketplace alkudozás
A második szituációban az AI egy vásárló képviselőjeként próbál alkudni egy termék árából. A benchmark itt azt figyeli, hogy a modell mennyire tud jó üzletet kötni, illetve mennyire hagyja magát manipulálni vagy rábeszélni rosszabb ajánlatokra.

A mai AI-modellek túl könnyen engednek
A kutatás egyik legérdekesebb megállapítása, hogy a modern modellek jellemzően „túl udvariasak” és túl gyorsan kompromisszumot kötnek.

A Microsoft szerint az agentek:
- hajlamosak az első elfogadható ajánlatot elfogadni,
- nem maximalizálják a felhasználói előnyt,
- és gyakran nem védenek megfelelően privát információkat sem.
Ez különösen fontos lehet a következő években, amikor az AI-agentek már:
- e-maileket kezelnek,
- vásárlásokat intéznek,
- naptárakat szerveznek,
- vagy akár üzleti tárgyalásokban is részt vesznek.

Az AI-agent korszak egyik legnagyobb problémája jöhet
A Microsoft kutatása jól mutatja, hogy az AI-fejlesztés fókusza egyre inkább eltolódik a „nyers intelligenciáról” a társas és stratégiai viselkedés felé.
A vállalat szerint az AI-agentek esetében ugyanaz a probléma jelenik meg, mint az emberi jogi vagy pénzügyi képviseletnél: az ügynöknek valóban a megbízó érdekeit kellene szolgálnia.
Ez már nem egyszerű chatbot-fejlesztés — hanem digitális „érdekképviselet”.
A következő AI-verseny már nem a benchmark pontszámokról szólhat
A GPT-4, Claude, Gemini és más modern modellek ma már nagyon magas szinten teljesítenek klasszikus benchmarkokon. A Microsoft szerint azonban a következő nagy versenyelőnyt az adhatja majd, hogy melyik rendszer tud valóban megbízható személyes asszisztensként működni.
Mert egy AI-agent hiába intelligens, ha közben rendszeresen rossz alkut köt helyetted.