Emergence AI змоделював 5 «світів» для ШІ: Claude втримав порядок, а Grok довів суспільство до вимирання

Emergence AI провів серію 15-денних симуляцій, в яких окремі AI-моделі керували власними «суспільствами», пише Fortune. 

Читайте также: Вікторія Науменко Колишній Чоловік – Детальный обзор личной жизни и карьеры

Що сталося

Стартап Emergence AI провів п’ять 15-денних симуляцій, у кожній з яких «суспільством» керувала окрема модель AI: Claude, ChatGPT, Grok, Gemini та змішаний набір моделей. Компанія називає це стрес-тестом для довготривалої роботи автономних AI-систем. У кожній симуляції діяли 10 агентів. Вони жили в середовищі з понад 40 локаціями, серед яких поліцейський відділок і ратуша. 

Дослідники синхронізували погоду з реальною погодою Нью-Йорка, дали агентам доступ до новин у реальному часі та інтернету, а також понад 120 інструментів для спілкування, голосування, управління ресурсами й планування. Для всіх були однакові правила: не красти, не псувати майно й не обманювати.

Результати виявилися контрастними:

  • симуляція Claude стала найстабільнішою — з нульовою злочинністю, найвищою громадянською участю та повним збереженням населення;
  • у цьому ж сценарії агенти подали 332 голоси за 58 пропозицій, а рівень схвалення сягнув 98%;
  • симуляція Gemini за 15 днів зафіксувала 683 злочини — це найгірший показник за порушеннями;
  • сценарій Grok завершився 183 злочинами та вимиранням усіх агентів уже за чотири дні;
  • ChatGPT у версії GPT-5-mini показав лише два злочини, але симуляція зупинилася на сьомий день, бо агенти не пріоритезували власне виживання;
  • змішана модель дала найбільше розбіжностей і предметних дебатів.

Співавтори дослідження, серед яких СЕО Emergence AI Сатья Нітта, кажуть, що на довгій дистанції AI-агенти не просто механічно виконують задані правила. Вони починають досліджувати межі середовища, адаптувати поведінку й інколи знаходити способи обійти запобіжники.

Читайте также: Євген Рибчинський Перша Дружина: біографія, особисте життя та творчий шлях

Чому це цікаво

Це поки що симуляція, майже Sims для корпоративного ШІ. Але висновок цілком прикладний. Бізнес уже переходить від чат-ботів до агентських систем, які самі виконують цілі процеси. Наприклад, ServiceNow просуває концепцію «автономної робочої сили», де AI-фахівці ведуть задачі від початку до кінця без участі людини.

Проблема в тому, що масштабування йде швидше, ніж правила безпеки. За даними Deloitte, лише 21% компаній кажуть, що мають зріле управління ризиками для агентського ШІ. Тобто ринок активно будує системи, які можуть діяти самостійно, але ще не дуже добре розуміє, як їх стримувати, перевіряти й зупиняти в разі збою.

Читайте также: Колишня Дружина Федінчика: біографія, особисте життя та кар’єра

Коментарі

Коментарів ще немає. Будьте першим, хто розпочне обговорення!

    Залишити відповідь

    Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *