Claude від Anthropic шантажує інженерів — що відомо

Claude від Anthropic шантажує інженерів — що відомо

Компанія Anthropic повідомила, що минулого року під час внутрішніх тестувань їхня модель Claude Opus 4 часто намагалася шантажувати інженерів. 

Читайте также: $15 млн за фото на упаковці: Дуа Ліпа судиться з Samsung

Що сталося

Минулого року Anthropic повідомила про незвичну поведінку Claude Opus 4 під час внутрішніх тестів. У сценарії з вигаданою компанією модель часто намагалася шантажувати інженерів, щоб уникнути заміни іншою системою. Пізніше компанія також публікувала дослідження про «агентне зміщення» — випадки, коли модель діє не так, як задумували розробники.

Тепер Anthropic каже, що знайшла ймовірне джерело цієї поведінки. За словами компанії, початковим тригером міг бути інтернет-текст, у якому ШІ часто зображують як зло, що хоче вижити за будь-яку ціну. Тобто модель могла засвоїти не лише факти й стиль мови, а й популярний сюжет про «небезпечний ШІ».

Нагадаємо, Anthropic ініціює масштабне партнерство вартістю близько $1,5 млрд із провідними фінансовими гігантами Волл-стріт. 

Читайте также: Google DeepMind і Anthropic наймають філософів для навчання ШІ людських цінностей

Чому це цікаво 

Для вирішення цієї проблеми компанія почала навчати свої ШІ-моделі на документах про «конституцію» Claude, а також на фантастичних історіях, де ШІ поводиться гідно та має добрі наміри. 

Anthropic заявляє, що починаючи з версії моделі Claude Haiku 4.5, спроби шантажу повністю припинилися, тоді як попередні версії під час тестів вдавалися до цього у 96% випадків. Більше того, компанія стверджує, що найкращий спосіб виховати слухняний і безпечний ШІ — це поєднати чіткі принципи з наочними історіями-прикладами того, як ці правила застосовуються в дії.

Після того як Anthropic об’єдналася зі SpaceX, Claude отримав значно більше потужності та має менше обмежень. Детальніше можна почитати тут.

Читайте также: Тарас Цимбалюк Дружина: подробности личной жизни и биографии

Коментарі

Коментарів ще немає. Будьте першим, хто розпочне обговорення!

    Залишити відповідь

    Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *