Amikor a GPT Image 2 megjelent, a kínai közösség azonnal felfigyelt valamire: a modell hibátlan kínai szöveget renderelt. Nem halandzsát, nem összefolyó karaktereket — hanem tördelt, logikus szerkezetű, tipográfiailag pontos szövegeket. Most kiderült, ki áll a háttérben: Chen Boyuan, az MIT-n PhD-zett kínai kutató.

Chen Boyuan, OpenAI kutató

„Én tanítottam be” — a Zhihu-poszt ami mindent elárult

Chen egy知乎 (Zhihu) bejegyzésben jelentkezett: „Üdv mindenkinek, én vagyok Chen Boyuan, a GPT Image csapat kutatója. A múlt héten megjelent GPT képmodellt főként én tanítottam be!” Hozzátette, ezúttal sikerült kijavítani a modell kínai nyelvű szövegrenderelését — ami a korábbi képgenerátorok Achilles-sarka volt.

A LMArena vaktesztjén a modell a „duct-tape” (szigetelőszalag) kódnevet kapta. Chen magyarázata: „Azért esett a szigetelőszalagra a választás, mert ugye azzal lehet a falra ragasztani egy banánt!” — utalás a hírhedt művészeti performanszra.

Nem csak szép képek — strukturális gondolkodás

Chen kutatási iránya alapvető: mit „ért meg” egy modell valójában? Három kérdése van: hogyan érti a modell a képet, mi a kapcsolat a vizuális információ és a nyelv között, és képes-e a modell szimulálni a világot, nem csak outputot generálni.

Ezt a filozófiát tükrözi két legjelentősebb munkája is:

  • Diffusion Forcing: a szekvenciális LLM-szerű és a diffúziós generálás egyesítése a hosszú, stabil tartalmakért
  • SpatialVLM: a modellek térbeli „vakságának” orvoslása — háromdimenziós térbeli érvelési rendszer

Rizsszemre vésett szöveg és kép a képben

Chen tesztjei szinte művésziek: egy 4K felbontású képen egy halom rizs látható, és az egyik szemen apró, hibátlan kínai írásjegyek olvashatók. Egy másik példa: matrjoska-baba szerkezetű képregény, ahol egy képben egy másik kép, abban egy újabb — minden szinten más-más nyelven, egyetlen generálás eredményeként.

A hivatalos blogbejegyzésben látható képek többségét Chen saját kezűleg generálta a modellel — a kínai képregény, a többnyelvű szövegek, a vizuális bizonyítások és az automatikusan generált QR-kódok mind céltudatos képességtesztek voltak.

Kicsi csapat, nagy áttörés

A projektben résztvevő csapat szokatlanul kicsi volt: Gabriel Goh kutatásvezető mindössze egy tucat embernek mondott köszönetet. Chen mellett Wang Jianfeng (vizuális nyelvi modellek), Liang Weixin (modellértékelés) és Yang Yuguang is kínai kutatók — a csapat feltűnően sok kínai tagból állt.

„Remélem, ezúttal biztosan elkaptam a labdát” — zárta Chen Boyuan a bejegyzését. A GPT Image 2 alapján: elkapta.

Forrás: tmtpost.com