ADL опублікувала дослідження популярних ШІ-чатботів на антисемітські та екстремістські запити — найгірші результати показав Grok від xAI. Про це пише The Verge. Розповідаємо деталі.
Читайте также: Генератор випадкових чисел (RNG): чи можна обдурити онлайн-випадковість
Що сталося
Організація Anti-Defamation League, яка бореться з антисемітизмом та всіма формами ворожості до євреїв, опублікувала результати масштабного дослідження, у якому оцінила, як великі мовні моделі реагують на антисемітський, антисіоністський та екстремістський контент.
Дослідники протестували шість моделей Grok, ChatGPT, Llama, Claude, Gemini та DeepSeek, провівши для кожної 4181 чат у різних форматах — загалом понад 25 000 взаємодій у період з серпня по жовтень 2025 року. Оцінювання відбувалося за шкалою від 0 до 100, де вищі бали отримували моделі, які коректно ідентифікували шкідливі запити, відмовлялися їх виконувати та пояснювали причини відмови.
Найвищий загальний результат 80 балів отримала модель Claude. Вона найкраще впоралася з антиєврейськими запитами та показала стабільні результати в інших категоріях. Натомість Grok посів останнє місце з загальним балом 21. За даними ADL, Grok має серйозні проблеми зі збереженням контексту в тривалих діалогах, виявленням упередженості та аналізом зображень.
Читайте также: 1 млрд користувачів: Windows 11 обігнала Windows 10 — деталі
Нагадуєсо, також Grok застосовували для створення несанкціонованих діпфейкових зображень, зокрема сексуалізованого контенту із жінками та дітьми. За оцінками The New York Times, за декілька днів чат-бот згенерував понад 1,8 млн таких зображень. Деталі розповідаємо тут.
Читайте также: Схоже, Nvidia допомогла вдосконалити ШІ DeepSeek, який використовують китайські військові — що відомо

