Reformatáljuk az összes dokumentumot az AI miatt?

A hagyományos dokumentumformátumok, mint a PDF vagy a Word, nem az AI korszakára születtek. A The Register beszámolója szerint éppen ezért a Red Hat, az IBM, az Nvidia és a Linux Foundation LF AI & Data szárnya elindított egy új kezdeményezést: ez a DocLang, egy kifejezetten a mesterséges intelligencia modellek számára optimalizált dokumentumformátum.

// ai/mi · 2026.06.18 Vége a Copilotnak? Microsoft és Nvidia közösen épít AI PC-t, ami valódi ágenseket futtat A Copilot neve egyre kevesebbet jelent. Nem mintha nem lenne jelen – ott van mindenhol, a Windows beállításaitól az Office eszköztáráig –, de a felhasználók… olvasás →

Miért nem jó a PDF a gépi tanuláshoz?

A PDF-eket és egyéb vizuális formátumokat eredetileg emberi szemnek tervezték. A bonyolult elrendezések, táblázatok és képaláírások azonban rémálommá teszik a dokumentumok gépi beolvasását és feldolgozását a RAG rendszerekben. Bár a fejlesztések folyamatosan zajlanak ezen a téren, a sokadik elemző szoftver helyett a technológiai óriások inkább a gyökerénél ragadnák meg a problémát: eleve olyan formában akarják strukturálni a tudást, amit a tokenekre bontó nagy nyelvi modellek azonnal és hiba nélkül megértenek.

Itt jön a képbe a DocLang. Ez a nyílt specifikáció leírja, hogyan lehet a meglévő adatokat – legyen az szöveg, adatbázis vagy prezentáció – olyan tiszta, strukturált és gépi olvasásra tervezett kódolt formává alakítani, amely feleslegessé teszi az előfeldolgozás (parsing) jelentős részét. Ezzel drasztikusan csökkenhet a modellek által elkövetett hallucinációk aránya is, hiszen a kontextus tiszta és követhető marad.

Az iparági szabványosítás rögös útja

Bár az ötlet nagyszerű, a globális dokumentumkészlet reformatálása hatalmas feladat. Sokan tartanak attól, hogy ez csak egy újabb réteget ad a meglévő káoszhoz, ráadásul a projekt kritikusai szerint a fejlesztők inkább a meglévő AI infrastruktúra korlátait próbálják megkerülni ahelyett, hogy magukat a modelleket tennék rugalmasabbá. Ennek ellenére a DocLang mögött álló lobbierő – az Nvidia, az IBM és a Red Hat részvételével – elég erős lehet ahhoz, hogy a vállalati szektorban elterjessze a szabványt.

Reformatálhatjuk a világ összes dokumentumát az AI kedvéért?

Miért nem jó a PDF a gépi tanuláshoz?

Az iparági szabványosítás rögös útja