Опубліковано уНовини
Claude думає більше, ніж говорить: Anthropic представила новий метод аудиту моделей
Anthropic представила Natural Language Autoencoders — метод, який перетворює внутрішні сигнали мовної моделі на текстові пояснення. Що сталося Компанія Anthropic випустила нову розробку під назвою Natural Language Autoencoders (NLAs), яка дозволяє буквально перекласти «внутрішню математику» моделі на людську мову. Йдеться про активації — числові стани, через які модель обробляє запит і формує відповідь. Anthropic навчила одну копію









