AI: Alapfogalmak és Adatelemzés -

A mesterséges intelligencia (AI) világa mély és összetett. A területen dolgozó tudósok gyakran szakzsargont használnak munkájuk leírására, ami megnehezíti a témában való elmélyedést. Éppen ezért, hogy segítsük az olvasóinkat az AI-iparág terminológiájában való eligazodásban, összeállítottunk egy szószedetet a legfontosabb kifejezésekkel.

Főbb AI Kifejezések

AGI (Általános mesterséges intelligencia)
Az AGI, vagyis az általános mesterséges intelligencia, egy homályos kifejezés. Általában olyan AI-t jelöl, amely képességeiben meghaladja az átlagos emberi teljesítményt számos, ha nem a legtöbb feladatban. Sam Altman, az OpenAI vezérigazgatója nemrég úgy jellemezte az AGI-t, mint „egy átlagos emberi munkatársat, akit kollégaként alkalmazhatunk”. Az OpenAI alapító okirata szerint az AGI „magasan autonóm rendszerek, amelyek a legtöbb gazdaságilag értékes feladatban felülmúlják az embereket”. A Google DeepMind értelmezése kissé eltér ezektől a definícióktól; a labor az AGI-t olyan AI-nak tekinti, amely „a legtöbb kognitív feladatban legalább olyan képességekkel rendelkezik, mint az ember”. Zavaró? Ne aggódjon – az AI-kutatás élvonalában lévő szakértők számára is az.
AI Ügynök (AI Agent)
Az AI ügynök olyan eszközt takar, amely AI technológiákat használ egy sor feladat elvégzésére az Ön nevében – azon túl, amit egy alapvetőbb AI chatbot megtenne –, mint például a költségelszámolás, jegyek vagy asztal foglalása étteremben, vagy akár kód írása és karbantartása. Azonban, ahogy korábban is kifejtettük, sok mozgó alkatrész van ebben a feltörekvő területen, így az „AI ügynök” különböző dolgokat jelenthet különböző emberek számára. Az infrastruktúra még épülőfélben van, hogy megvalósítsa az elképzelt képességeit. De az alapkoncepció egy autonóm rendszert feltételez, amely több AI rendszert is igénybe vehet több lépésből álló feladatok elvégzésére.
Gondolatmenet (Chain of Thought)
Egy egyszerű kérdésre az emberi agy különösebb gondolkodás nélkül is tud válaszolni – például: „melyik állat magasabb, a zsiráf vagy a macska?” De sok esetben gyakran kell papír és ceruza segítségével eljutni a helyes válaszhoz, mert vannak köztes lépések. Például, ha egy gazdának tyúkjai és tehenei vannak, és együtt 40 fejük és 120 lábuk van, akkor lehet, hogy egy egyszerű egyenletet kell felírnia a válaszhoz (20 tyúk és 20 tehén). AI kontextusban a gondolatmenet logikája a nagy nyelvi modelleknél azt jelenti, hogy egy problémát kisebb, köztes lépésekre bontunk, hogy javítsuk a végeredmény minőségét. Általában tovább tart a válasz megkapása, de a válasz nagyobb valószínűséggel helyes, különösen logikai vagy kódolási kontextusban. A gondolkodási modelleket hagyományos nagy nyelvi modellekből fejlesztik, és megerősítő tanulás révén optimalizálják a gondolatmenet-alapú gondolkodásra. (Lásd: Nagy nyelvi modell)
Számítás (Compute)
Bár némileg többértelmű kifejezés, a „számítás” általában arra a létfontosságú számítási teljesítményre utal, amely lehetővé teszi az AI modellek működését. Ez a fajta feldolgozás táplálja az AI-ipart, képessé téve azt, hogy betanítsa és telepítse erőteljes modelljeit. A kifejezés gyakran rövidítésként szolgál a számítási teljesítményt biztosító hardverekre – például GPU-kra, CPU-kra, TPU-kra és más infrastrukturális formákra, amelyek a modern AI-ipar alapját képezik.
Mélytanulás (Deep Learning)
Az öntanuló gépi tanulás egyik alága, amelyben az AI algoritmusok többrétegű, mesterséges neurális hálózati (ANN) struktúrával vannak tervezve. Ez lehetővé teszi számukra, hogy összetettebb összefüggéseket hozzanak létre az egyszerűbb gépi tanuláson alapuló rendszerekhez, például a lineáris modellekhez vagy döntési fákhoz képest. A mélytanulási algoritmusok szerkezete az emberi agy neuronjainak összekapcsolt útjaitól merít ihletet. A mélytanulási AI modellek képesek önállóan azonosítani az adatok fontos jellemzőit, ahelyett, hogy emberi mérnökökre lenne szükség ezen jellemzők definiálásához. A struktúra támogatja azokat az algoritmusokat is, amelyek képesek tanulni a hibákból, és ismétlés és korrekció révén javítani saját kimeneteiket. Azonban a mélytanulási rendszereknek sok adatpontra van szükségük a jó eredmények eléréséhez (milliók vagy több). Általában hosszabb ideig tart a betanításuk az egyszerűbb gépi tanulási algoritmusokhoz képest – így a fejlesztési költségek is magasabbak. (Lásd: Neurális hálózat)
Diffúzió (Diffusion)
A diffúzió az a technológia, amely számos kép-, zene- és szöveggeneráló AI modell alapját képezi. A fizikából merítve a diffúziós rendszerek lassan „elpusztítják” az adatok – például fényképek, dalok stb. – szerkezetét zaj hozzáadásával, egészen addig, amíg semmi sem marad. A fizikában a diffúzió spontán és visszafordíthatatlan – a kávéban feloldódott cukrot nem lehet visszanyerni kocka formájában. Az AI-ban a diffúziós rendszerek célja egyfajta „fordított diffúziós” folyamat megtanulása az elpusztított adatok helyreállítására, ezáltal képessé válnak az adatok helyreállítására a zajból.
Desztilláció (Distillation)
A desztilláció egy olyan technika, amelyet arra használnak, hogy tudást vonjanak ki egy nagy AI modellből egy „tanár-tanuló” modell segítségével. A fejlesztők kéréseket küldenek egy tanár modellnek, és rögzítik a kimeneteket. A válaszokat néha összehasonlítják egy adatkészlettel, hogy lássák, mennyire pontosak. Ezeket a kimeneteket ezután a tanuló modell betanítására használják, amelyet arra képeznek, hogy megközelítse a tanár viselkedését. A desztillációval kisebb, hatékonyabb modell hozható létre egy nagyobb modell alapján, minimális desztillációs veszteséggel. Valószínűleg így fejlesztette ki az OpenAI a GPT-4 Turbót, a GPT-4 gyorsabb változatát. Bár minden AI vállalat belsőleg használja a desztillációt, néhány AI vállalat talán a desztillációt használta arra is, hogy felzárkózzon a vezető modellekhez. A versenytársaktól származó desztilláció általában sérti az AI API és chatbot asszisztensek felhasználási feltételeit.
Finomhangolás (Fine-tuning)
Ez egy AI modell további betanítására vonatkozik, hogy optimalizálja a teljesítményt egy specifikusabb feladathoz vagy területhez, mint ami korábban a betanításának középpontjában állt – jellemzően új, specializált (azaz feladatorientált) adatok betáplálásával. Sok AI startup nagy nyelvi modelleket vesz kiindulópontként egy kereskedelmi termék felépítéséhez, de igyekszik növelni a hasznosságot egy célzott szektor vagy feladat számára azáltal, hogy a korábbi betanítási ciklusokat kiegészíti a saját domain-specifikus tudásukon és szakértelmükön alapuló finomhangolással. (Lásd: Nagy nyelvi modell [LLM])
GAN (Generatív Adversarial Network)
A GAN, vagyis Generatív Adversarial Network, egy gépi tanulási keretrendszer, amely a generatív AI fontos fejlesztéseinek alapját képezi, amikor realisztikus adatok előállításáról van szó – beleértve (de nem kizárólagosan) a deepfake eszközöket. A GAN-ok egy neurális hálózatpár használatát foglalják magukba, amelyek közül az egyik a betanítási adataiból merítve állít elő egy kimenetet, amelyet a másik modellnek továbbítanak kiértékelésre. Ez a második, diszkriminátor modell így osztályozóként működik a generátor kimenetén – lehetővé téve annak idővel történő javítását. A GAN struktúra egy versenyt (innen az „adversarial”) állít fel – a két modell lényegében úgy van programozva, hogy megpróbálják felülmúlni egymást: a generátor megpróbálja átjuttatni a kimenetét a diszkriminátoron, míg a diszkriminátor azon dolgozik, hogy kiszúrja a mesterségesen generált adatokat. Ez a strukturált verseny optimalizálhatja az AI kimeneteket, hogy reálisabbak legyenek további emberi beavatkozás nélkül. Bár a GAN-ok a legszűkebb alkalmazásokhoz (például realisztikus fényképek vagy videók készítéséhez), nem pedig általános célú AI-hoz működnek a legjobban.
Hallucináció (Hallucination)
A hallucináció az AI iparág által preferált kifejezés arra, amikor az AI modellek „kitalálnak” dolgokat – szó szerint pontatlan információkat generálnak. Nyilvánvalóan ez hatalmas probléma az AI minősége szempontjából. A hallucinációk félrevezető GenAI kimeneteket produkálnak, és akár valós kockázatokhoz is vezethetnek – potenciálisan veszélyes következményekkel (gondoljunk egy egészségügyi lekérdezésre, amely ártalmas orvosi tanácsot ad). Ezért a legtöbb GenAI eszköz apró betűs része figyelmezteti a felhasználókat az AI által generált válaszok ellenőrzésére, még akkor is, ha az ilyen figyelmeztetések általában sokkal kevésbé szembetűnőek, mint az eszközök által egyetlen gombnyomással kiadott információk. Az AI-k által generált hamis információk problémája a betanítási adatok hiányosságaiból ered. Különösen az általános célú GenAI esetében – amelyet néha alapmodellnek is neveznek – ezt nehéz megoldani. Egyszerűen nincs elegendő adat ahhoz, hogy az AI modelleket átfogóan betanítsák az összes felmerülő kérdés megválaszolására. Összefoglalva: még nem találtuk fel Istent (még). A hallucinációk hozzájárulnak a specializáltabb és/vagy vertikális AI modellek – azaz a domain-specifikus AI-k, amelyek szűkebb szakértelmet igényelnek – felé irányuló nyomáshoz, mint a tudásbeli hiányosságok valószínűségének csökkentése és a hamis információk kockázatainak mérséklésének egyik módja.
Inferálás (Inference)
Az inferálás egy AI modell futtatásának folyamata. Ez azt jelenti, hogy a modellt szabadjára engedik, hogy előrejelzéseket tegyen, vagy következtetéseket vonjon le a korábban látott adatokból. Tisztázzuk, hogy az inferálás képzés nélkül nem történhet meg; egy modellnek először meg kell tanulnia a mintákat egy adathalmazban, mielőtt hatékonyan extrapolálhatna ebből a képzési adatból. Számos hardvertípus képes inferálást végrehajtani, az okostelefon-processzoroktól a nagy teljesítményű GPU-kon át a egyedi tervezésű AI gyorsítókig. Azonban nem mindegyik képes egyformán jól futtatni a modelleket. Nagyon nagy modellek esetében örökké tartana az előrejelzések készítése, mondjuk egy laptopon, szemben egy felhőszerverrel, amely csúcskategóriás AI chipekkel rendelkezik. [Lásd: Képzés]
Nagy nyelvi modell (LLM – Large Language Model)
A nagy nyelvi modellek, vagy LLM-ek, azok az AI modellek, amelyeket népszerű AI asszisztensek használnak, mint például a ChatGPT, Claude, Google Gemini, Meta AI Llama, Microsoft Copilot vagy Mistral Le Chat. Amikor egy AI asszisztenssel beszélget, egy nagy nyelvi modellel lép interakcióba, amely közvetlenül dolgozza fel kérését, vagy különböző rendelkezésre álló eszközök, például webböngészés vagy kódértelmezők segítségével. Az AI asszisztenseknek és az LLM-eknek különböző neveik lehetnek. Például a GPT az OpenAI nagy nyelvi modellje, a ChatGPT pedig az AI asszisztens termék. Az LLM-ek több milliárd numerikus paraméterből (vagy súlyból, lásd alább) álló mély neurális hálózatok, amelyek megtanulják a szavak és kifejezések közötti kapcsolatokat, és létrehozzák a nyelv reprezentációját, egyfajta többdimenziós szótérképet. Ezeket a modelleket a minták kódolásával hozzák létre, amelyeket milliárdnyi könyvben, cikkben és átiratban találnak. Amikor Ön beír egy promptot egy LLM-be, a modell a legvalószínűbb mintát generálja, amely illeszkedik a promptba. Ezután kiértékeli a legvalószínűbb következő szót az utolsó után, az előzőek alapján. Megismétel, megismétel és minden újra. (Lásd: Neurális hálózat)
Memória-gyorsítótár (Memory Cache)
A memória-gyorsítótár egy fontos folyamatra utal, amely felgyorsítja az inferálást (amely az a folyamat, amely során az AI választ generál a felhasználó kérésére). Lényegében a gyorsítótárazás egy optimalizálási technika, amelyet az inferálás hatékonyságának növelésére terveztek. Az AI nyilvánvalóan nagy teljesítményű matematikai számításokon alapul, és minden alkalommal, amikor ezeket a számításokat elvégzik, több energiát fogyasztanak. A gyorsítótárazás célja a modell által futtatandó számítások számának csökkentése azáltal, hogy bizonyos számításokat elment a jövőbeli felhasználói lekérdezésekhez és műveletekhez. Különböző típusú memória-gyorsítótárazás létezik, bár az egyik legismertebb a KV (vagy kulcs-érték) gyorsítótárazás. A KV gyorsítótárazás transzformátor alapú modellekben működik, és növeli a hatékonyságot, gyorsabb eredményeket biztosítva azáltal, hogy csökkenti a felhasználói kérdésekre adott válaszok generálásához szükséges idő (és algoritmikus munka) mennyiségét. (Lásd: Inferálás)
Neurális Hálózat (Neural Network)
A neurális hálózat a mélytanulás alapját képező többrétegű algoritmikus struktúrára utal – és tágabb értelemben a generatív AI eszközök fellendülésére a nagy nyelvi modellek megjelenése után. Bár az emberi agy sűrűn összekapcsolt neuronpályáiból való inspiráció ötlete, mint adatfeldolgozó algoritmusok tervezési struktúrája egészen az 1940-es évekig nyúlik vissza, a grafikus feldolgozó hardverek (GPU-k) – a videojáték-ipar révén – sokkal frissebb elterjedése hozta el ezen elmélet erejét. Ezek a chipek jól alkalmazkodtak az algoritmusok sokkal több rétegű betanításához, mint ami korábban lehetséges volt – lehetővé téve a neurális hálózat alapú AI rendszerek számára, hogy sokkal jobb teljesítményt érjenek el számos területen, beleértve a beszédfelismerést, az autonóm navigációt és a gyógyszerkutatást. (Lásd: Nagy nyelvi modell [LLM])
RAMageddon
A RAMageddon egy szórakoztató új kifejezés egy kevésbé szórakoztató trendre, amely végigsöpör a tech iparon: a véletlen hozzáférésű memória, vagy RAM chipek, amelyek alapvetően minden általunk használt tech terméket meghajtják, egyre növekvő hiányára. Ahogy az AI ipar virágzik, a legnagyobb tech cégek és AI laborok – mindegyik a legerősebb és leghatékonyabb AI birtoklásával versenyezve – annyi RAM-ot vásárolnak adatközpontjaik meghajtásához, hogy alig marad valami a többieknek. És ez az ellátási szűk keresztmetszet azt jelenti, hogy ami marad, az egyre drágább lesz. Ez magában foglalja az olyan iparágakat, mint a játékipar (ahol a nagyvállalatoknak emelniük kellett a konzolok árait, mert nehezebb memóriachipeket találni eszközeikhez), a fogyasztói elektronika (ahol a memória hiánya a várakozások szerint több mint egy évtizede a legnagyobb okostelefon-szállítási visszaesést okozhatja), és az általános vállalati számítástechnika (mert ezek a vállalatok nem jutnak elegendő RAM-hoz a saját adatközpontjaikhoz). Az árak emelkedése csak a rettegett hiány megszűnése után várhatóan áll meg, de sajnos, nem igazán van jele annak, hogy ez hamarosan bekövetkezne.
Betanítás (Training)
A gépi tanulás AI fejlesztése egy betanításnak nevezett folyamatot foglal magában. Egyszerűen fogalmazva ez azt jelenti, hogy adatokat táplálnak be, hogy a modell mintákból tanulva hasznos kimeneteket generálhasson. Az AI stack ezen a pontján a dolgok kissé filozofikusakká válhatnak – hiszen a betanítás előtt a tanulási rendszer fejlesztésének kiindulópontjaként használt matematikai struktúra csak rétegek és véletlenszámok halmaza. Csak a betanítás során ölt igazán formát az AI modell. Lényegében ez az a folyamat, amikor a rendszer reagál az adatok jellemzőire, amely lehetővé teszi számára, hogy a kimeneteket egy kívánt cél felé igazítsa – legyen az macskák képeinek azonosítása vagy egy haiku generálása igény szerint. Fontos megjegyezni, hogy nem minden AI igényel betanítást. A szabályalapú AI-k, amelyeket manuálisan előre definiált utasítások követésére programoztak – például a lineáris chatbotok – nem igényelnek betanítást. Azonban az ilyen AI rendszerek valószínűleg korlátozottabbak, mint a (jól betanított) öntanuló rendszerek. A betanítás azonban drága lehet, mert sok bemenetre van szüksége – és tipikusan az ilyen modellekhez szükséges bemenetek mennyisége növekvő tendenciát mutatott. Hibrid megközelítések is használhatók a modellfejlesztés felgyorsítására és a költségek kezelésére. Például egy szabályalapú AI adatvezérelt finomhangolása – ami azt jelenti, hogy a fejlesztés kevesebb adatot, számítási kapacitást, energiát és algoritmikus komplexitást igényel, mintha a fejlesztő a nulláról kezdte volna az építkezést. [Lásd: Inferálás]
Tokenek (Tokens)
Az ember-gép kommunikáció terén vannak nyilvánvaló kihívások. Az emberek emberi nyelvet használnak a kommunikációhoz, míg az AI programok feladatokat hajtanak végre és kérdésekre válaszolnak összetett algoritmikus folyamatokon keresztül, amelyeket adatok tájékoztatnak. A legegyszerűbb definíciójuk szerint a tokenek az ember-AI kommunikáció alapvető építőköveit jelentik, abban az értelemben, hogy diszkrét adatrészek, amelyeket egy LLM dolgozott fel vagy generált. A tokeneket egy „tokenizálásnak” nevezett folyamat hozza létre, amely a nyers adatokat lebontja és finomítja olyan különálló egységekké, amelyek emészthetőek egy LLM számára. Hasonlóan ahhoz, ahogy egy szoftverfordító az emberi nyelvet bináris kóddá fordítja, amelyet egy számítógép feldolgozhat, a tokenizálás értelmezi az emberi nyelvet az AI program számára a felhasználói lekérdezéseken keresztül, hogy az választ készíthessen. Számos különböző típusú token létezik – beleértve az input tokeneket (amelyeket egy emberi felhasználó lekérdezésére kell generálni), a kimeneti tokeneket (amelyeket az LLM generál válaszul az ember kérésére), és az érvelő tokeneket, amelyek hosszabb, intenzívebb feladatokat és folyamatokat foglalnak magukban, amelyek a felhasználói kérés részeként történnek. A vállalati AI esetében a tokenhasználat határozza meg a költségeket is. Mivel a tokenek egyenértékűek a modell által feldolgozott adatmennyiséggel, ők váltak azzá az eszközzé is, amellyel az AI ipar bevételt termel szolgáltatásaiból. A legtöbb AI cég tokenenkénti alapon számít fel díjat az LLM használatáért. Így minél több tokent éget el egy vállalkozás, amikor AI programot (például ChatGPT-t) használ, annál több pénzt kell fizetnie az AI szolgáltatójának (OpenAI).
Transzfer tanulás (Transfer Learning)
Egy olyan technika, ahol egy korábban betanított AI modellt használnak kiindulópontként egy új modell fejlesztéséhez egy másik, de jellemzően kapcsolódó feladathoz – lehetővé téve a korábbi betanítási ciklusokban szerzett tudás újrafelhasználását. A transzfer tanulás hatékonysági megtakarításokat eredményezhet a modellfejlesztés felgyorsításával. Akkor is hasznos lehet, ha a modell fejlesztéséhez szükséges adatok meglehetősen korlátozottak. Fontos azonban megjegyezni, hogy a megközelítésnek vannak korlátai. Azok a modellek, amelyek a transzfer tanulásra támaszkodnak az általános képességek megszerzéséhez, valószínűleg további adatokon való betanítást igényelnek ahhoz, hogy jól teljesítsenek a fókusz területükön. (Lásd: Finomhangolás)
Súlyok (Weights)
A súlyok központi szerepet játszanak az AI betanításában, mivel ők határozzák meg, hogy mekkora fontosságot (vagy súlyt) kapnak a különböző jellemzők (vagy bemeneti változók) a rendszer betanításához használt adatokban – ezáltal alakítják az AI modell kimenetét. Más szóval, a súlyok numerikus paraméterek, amelyek meghatározzák, mi a legfontosabb egy adathalmazban az adott betanítási feladat szempontjából. Funkciójukat a bemenetek szorzásával érik el. A modell betanítása tipikusan véletlenszerűen hozzárendelt súlyokkal kezdődik, de ahogy a folyamat kibontakozik, a súlyok módosulnak, ahogy a modell egyre jobban megközelíti a célkimenetet. Például egy lakásárak előrejelzésére szolgáló AI modell, amelyet egy adott helyszín történelmi ingatlanadataira tanítottak be, tartalmazhat súlyokat olyan jellemzőkre, mint a hálószobák és fürdőszobák száma, hogy az ingatlan családi ház vagy ikerház, van-e parkolási lehetőség, garázs stb. Végső soron a modell által ezekhez a bemenetekhez rendelt súlyok azt tükrözik, hogy azok mennyire befolyásolják az ingatlan értékét az adott adathalmaz alapján.

Forrás: techcrunch

AI: Alapfogalmak és Adatelemzés

Főbb AI Kifejezések

AGI (Általános mesterséges intelligencia)

AI Ügynök (AI Agent)

Gondolatmenet (Chain of Thought)

Számítás (Compute)

Mélytanulás (Deep Learning)

Diffúzió (Diffusion)

Desztilláció (Distillation)

Finomhangolás (Fine-tuning)

GAN (Generatív Adversarial Network)

Hallucináció (Hallucination)

Inferálás (Inference)

Nagy nyelvi modell (LLM – Large Language Model)

Memória-gyorsítótár (Memory Cache)

Neurális Hálózat (Neural Network)

RAMageddon

Betanítás (Training)

Tokenek (Tokens)

Transzfer tanulás (Transfer Learning)

Súlyok (Weights)