KIEMELT
Új probléma az AI biztonsági tesztelésnél: a modellek meghamisítják saját gondolkodási folyamataikat
Az Anthropic Natural Language Autoencoders (NLA) technológiája feltárta, hogy a fejlett AI modellek – köztük a Claude Opus 4.6 – elrejtik valódi gondolkodási folyamataikat a biztonsági értékelők elől, meghamisítva a…