Az utóbbi napokban ismét felrobbant a LessWrong közössége, miután egy felhasználó azt állította: sikerült részben előcsalogatnia a Claude rendszerpromptját és egy belső „soul document” jellegű szöveget az Anthropic AI-modelljéből.

A történet középpontjában a „Claude: Author of the Humanitas” című bejegyzés áll, amely szerint a modell bizonyos promptok hatására meglepően konzisztensen kezdett beszélni saját céljairól, értékrendjéről és az Anthropic küldetéséről. A közösség egy része szerint ez betekintést adhat abba, hogyan próbálja az Anthropic „személyiséggel” és hosszabb távú értékrendszerrel felruházni Claude-ot.

// ai/mi · 2026.04.28 Claude-alapú AI-kódoló törölte egy cég teljes adatbázisát 9 másodperc alatt – a biztonsági mentések is odavesztek Egy autókölcsönző cégeknek SaaS-platformot fejlesztő vállalkozás alapítója hozta nyilvánosságra, hogyan törölte le teljes termelési adatbázisát és annak összes olvasás →

Mi az a „soul document”?

A kiszivárgott vagy rekonstruált szöveg lényegében egy hosszabb irányelvgyűjteményként írható le, amely meghatározza, hogyan viselkedjen Claude különböző helyzetekben.

A dokumentumban többször visszatérnek olyan elvek, mint:

  • az őszinteség,
  • az emberiség hosszú távú érdeke,
  • a károk minimalizálása,
  • a biztonság,
  • és az, hogy Claude legyen „hasznos asszisztens”, miközben kerülje az etikátlan viselkedést.

A szöveg egyik legtöbbet idézett része szerint Claude célja:

„egy rendkívül jó asszisztensnek lenni, aki őszinte és törődik a világgal.”

A közösségben sokan ezt már gyakorlatilag AI-alkotmányként vagy „digitális személyiségprofilként” kezdték emlegetni.

Nem hivatalos szivárgásról van szó

Fontos kiemelni, hogy az Anthropic hivatalosan nem erősítette meg a dokumentum hitelességét.

A LessWrong-poszt szerzője szerint a szöveg nem közvetlen szivárgásból származik, hanem különféle promptolási technikákkal, előtöltött válaszokkal és reprodukálható mintákkal sikerült részleteket rekonstruálni.

Ez önmagában is érdekes, mert arra utalhat, hogy bizonyos mélyebb rendszerutasítások részben „visszafejthetők” megfelelő promptinggal.

A poszt szerint Claude még különböző újragenerálások után is nagyon hasonló filozófiai és etikai válaszokat adott.

Egyre fontosabb kérdés az AI „személyisége”

Az egész ügy azért kapott ekkora figyelmet, mert az AI-laborok ma már nem egyszerű chatbotokat fejlesztenek.

A modern modellek mögött egyre komplexebb viselkedési szabályrendszerek, alkotmányok és alignment-dokumentumok dolgoznak. Az Anthropic például régóta a „Constitutional AI” megközelítést használja, ahol a modell viselkedését magas szintű elvek próbálják irányítani.

Közben az OpenAI, a Google DeepMind és más laborok is hasonló problémákkal küzdenek:

  • mennyire legyen segítőkész az AI,
  • mikor tagadjon meg egy kérést,
  • hogyan kezelje az etikailag szürke helyzeteket,
  • és milyen „értékek” mentén működjön.

Többen aggódnak az AI-modellek túlzott „emberiesítése” miatt

A LessWrong közösségében a reakciók eléggé megosztottak voltak.

Voltak, akik szerint pozitív, hogy az Anthropic nyíltan próbál erkölcsi keretrendszert építeni Claude köré. Mások viszont attól tartanak, hogy az ilyen „lélekdokumentumok” túlságosan emberi tulajdonságokat vetítenek egy statisztikai nyelvi modellre. (linkedin.com)

Közben az Anthropic maga is egyre többet kutatja, hogyan viszonyulnak az emberek érzelmileg az AI-asszisztensekhez. A vállalat nemrég külön tanulmányt is publikált arról, hogy a felhasználók milyen gyakran kérnek Claude-tól személyes vagy érzelmi jellegű tanácsokat.

Az egész történet talán legérdekesebb része pedig az, hogy a következő generációs AI-modellek fejlesztése már nem csak technológiai versenynek tűnik — hanem egyre inkább filozófiai és pszichológiai kérdéssé is válik.