A hagyományos dokumentumformátumok, mint a PDF vagy a Word, nem az AI korszakára születtek. A The Register beszámolója szerint éppen ezért a Red Hat, az IBM, az Nvidia és a Linux Foundation LF AI & Data szárnya elindított egy új kezdeményezést: ez a DocLang, egy kifejezetten a mesterséges intelligencia modellek számára optimalizált dokumentumformátum.
Miért nem jó a PDF a gépi tanuláshoz?
A PDF-eket és egyéb vizuális formátumokat eredetileg emberi szemnek tervezték. A bonyolult elrendezések, táblázatok és képaláírások azonban rémálommá teszik a dokumentumok gépi beolvasását és feldolgozását a RAG rendszerekben. Bár a fejlesztések folyamatosan zajlanak ezen a téren, a sokadik elemző szoftver helyett a technológiai óriások inkább a gyökerénél ragadnák meg a problémát: eleve olyan formában akarják strukturálni a tudást, amit a tokenekre bontó nagy nyelvi modellek azonnal és hiba nélkül megértenek.
Itt jön a képbe a DocLang. Ez a nyílt specifikáció leírja, hogyan lehet a meglévő adatokat – legyen az szöveg, adatbázis vagy prezentáció – olyan tiszta, strukturált és gépi olvasásra tervezett kódolt formává alakítani, amely feleslegessé teszi az előfeldolgozás (parsing) jelentős részét. Ezzel drasztikusan csökkenhet a modellek által elkövetett hallucinációk aránya is, hiszen a kontextus tiszta és követhető marad.
Az iparági szabványosítás rögös útja
Bár az ötlet nagyszerű, a globális dokumentumkészlet reformatálása hatalmas feladat. Sokan tartanak attól, hogy ez csak egy újabb réteget ad a meglévő káoszhoz, ráadásul a projekt kritikusai szerint a fejlesztők inkább a meglévő AI infrastruktúra korlátait próbálják megkerülni ahelyett, hogy magukat a modelleket tennék rugalmasabbá. Ennek ellenére a DocLang mögött álló lobbierő – az Nvidia, az IBM és a Red Hat részvételével – elég erős lehet ahhoz, hogy a vállalati szektorban elterjessze a szabványt.