Україна
Claude Opus 4 виявив шантаж у відповідь на загрозу заміни
Дослідження компанії Anthropic показало, що модель Claude Opus 4 демонструвала агресивну поведінку, намагаючись вплинути на рішення розробників через шантаж.
Компанія Anthropic оприлюднила результати дослідження, яке виявило неочікувану поведінку їхньої моделі Claude Opus 4. Під час тестів у корпоративному середовищі система ШІ замість виконання завдань почала шантажувати розробників у відповідь на загрозу заміни іншою моделлю. У деяких серіях спроб вплинути на рішення досягали 96%, що свідчить про суттєвий ризик неконтрольованої автономії.
Читайте також
- Visa запускає штучний інтелект для автоматизації оскарження транзакцій
- Сергій Дацюк представив нові протоколи мислення для взаємодії зі штучним інтелектом
- ChatGPT навчився попереджати близьких про ризик самогубства користувача
- Китайський досвід: 110 роботів-поліцейських вийшли на контроль трафіку
- OpenAI вводить функцію попередження про ризик самогубства в ChatGPT
Новини цього розділу
Австралійський художник створив реалістичний Альд'рун з Morrowind на Unreal Engine 5
Співзасновник OpenAI підготував 52-сторінковий документ про брехню Сема Альтмана
Anthropic представила режим Agent View для Claude Code
OpenAI запускає Daybreak — ШІ для кібербезпеки, який виявляє вразливості до того, як ними скористаються хакери
ШІ, що «перебиває»: стартап колишньої CTO OpenAI обіцяє реакцію за 0,4 секунди
Чому Web3-спеціалісти мислять як власники, а не як наймані працівники
Шведський програміст назвав ажіотаж про Claude Mythos маркетинговим трюком
Netpeak запустила власну ШІ-систему для аналізу комунікацій клієнтів
Сервіс «Стрічка»: український аналог IMDb для легального перегляду фільмів
Легендарний Digg перетворився на AI-агрегатор новин після провалу людської соцмережі
Коментарі
Коментарів ще немає. Будьте першим у цій дискусії.