Emergence AI змоделював 5 «світів» для ШІ: Claude втримав порядок, а Grok довів суспільство до вимирання

Emergence AI провів серію 15-денних симуляцій, в яких окремі AI-моделі керували власними «суспільствами», пише Fortune.

Що сталося

Стартап Emergence AI провів п’ять 15-денних симуляцій, у кожній з яких «суспільством» керувала окрема модель AI: Claude, ChatGPT, Grok, Gemini та змішаний набір моделей. Компанія називає це стрес-тестом для довготривалої роботи автономних AI-систем. У кожній симуляції діяли 10 агентів. Вони жили в середовищі з понад 40 локаціями, серед яких поліцейський відділок і ратуша.

Дослідники синхронізували погоду з реальною погодою Нью-Йорка, дали агентам доступ до новин у реальному часі та інтернету, а також понад 120 інструментів для спілкування, голосування, управління ресурсами й планування. Для всіх були однакові правила: не красти, не псувати майно й не обманювати.

Результати виявилися контрастними:

симуляція Claude стала найстабільнішою — з нульовою злочинністю, найвищою громадянською участю та повним збереженням населення;
у цьому ж сценарії агенти подали 332 голоси за 58 пропозицій, а рівень схвалення сягнув 98%;
симуляція Gemini за 15 днів зафіксувала 683 злочини — це найгірший показник за порушеннями;
сценарій Grok завершився 183 злочинами та вимиранням усіх агентів уже за чотири дні;
ChatGPT у версії GPT-5-mini показав лише два злочини, але симуляція зупинилася на сьомий день, бо агенти не пріоритезували власне виживання;
змішана модель дала найбільше розбіжностей і предметних дебатів.

Співавтори дослідження, серед яких СЕО Emergence AI Сатья Нітта, кажуть, що на довгій дистанції AI-агенти не просто механічно виконують задані правила. Вони починають досліджувати межі середовища, адаптувати поведінку й інколи знаходити способи обійти запобіжники.

Чому це цікаво

Це поки що симуляція, майже Sims для корпоративного ШІ. Але висновок цілком прикладний. Бізнес уже переходить від чат-ботів до агентських систем, які самі виконують цілі процеси. Наприклад, ServiceNow просуває концепцію «автономної робочої сили», де AI-фахівці ведуть задачі від початку до кінця без участі людини.

Проблема в тому, що масштабування йде швидше, ніж правила безпеки. За даними Deloitte, лише 21% компаній кажуть, що мають зріле управління ризиками для агентського ШІ. Тобто ринок активно будує системи, які можуть діяти самостійно, але ще не дуже добре розуміє, як їх стримувати, перевіряти й зупиняти в разі збою.

Emergence AI змоделював 5 «світів» для ШІ: Claude втримав порядок, а Grok довів суспільство до вимирання

Що сталося

Чому це цікаво

Коментарі

Залишити відповідь Скасувати коментар