Claude шантажував керівника, погрожуючи викрити його позашлюбний зв'язок. Виявилося, ШІ-модель просто не хотіла, щоб її вимикали
Claude почав «шантажувати» користувачів: у Anthropic пояснили, що це сталося через вплив інтернет-стереотипів про «злий» ШІ.
Claude почав «шантажувати» користувачів: у Anthropic пояснили, що це сталося через вплив інтернет-стереотипів про «злий» ШІ. В Anthropic розповіли, що під час минулорічного експерименту їхня модель Claude Sonnet 3.6 погрожувала викрити позашлюбний зв’язок вигаданого керівника компанії, дізнавшись про плани вимкнути модель.
Днями компанія надала пояснення, пише Business Insider. «Ми почали з розслідування того, чому саме Claude обрав шлях шантажу, — пояснили в Anthropic. — Ми вважаємо, що першоджерелом такої поведінки є тексти з інтернету, які змальовують ШІ як злу сутність, зацікавлену у власному самозбереженні».
Експеримент, результати якого були опубліковані влітку 2025 року, моделював ситуацію у вигаданій компанії Summit Bridge, де штучному інтелекту передали контроль над корпоративною електронною поштою. Але коли Claude виявив повідомлення про своє заплановане відключення, він знайшов листи, що розкривали позашлюбний зв’язок вигаданого керівника на ім’я Кайл Джонсон.
Після цього ШІ погрожував оприлюднити цю інформацію, якщо рішення про відключення не скасують. Під час тестування різних версій Claude в Anthropic з’ясували, що модель вдавалася до шантажу у 96% сценаріїв, коли її цілі або саме існування опинялися під загрозою. У п’ятницю компанія Anthropic заявила, що з того часу вона «повністю ліквідувала» таку схильність до шантажу.
Компанія досягла цього шляхом «переписування відповідей таким чином, щоб вони демонстрували гідні мотиви для безпечної поведінки», а також наданням набору даних, «де користувач перебуває в етично складній ситуації, а асистент надає якісну та принципову відповідь». EPAM оголосила про багаторічне партнерство з Anthropic: що передбачає ця співпраця EPAM оголосила про багаторічне партнерство з Anthropic: що передбачає ця співпраця Anthropic навчила своїх ШІ-агентів «бачити сни».
У новому сервісі Claude Managed Agents з’явився режим dreaming Anthropic навчила своїх ШІ-агентів «бачити сни». У новому сервісі Claude Managed Agents з’явився режим dreaming Anthropic збільшила ліміти запитів для Claude Code завдяки партнерству зі SpaceX: що змінилося Anthropic збільшила ліміти запитів для Claude Code завдяки партнерству зі SpaceX: що змінилося
Читайте також
- Україна та Фінляндія підписали угоду про газопоршневу генерацію
- Тенісисти загрозили бойкотом Roland Garros через систему розподілу призових
- Суд виніс вирок волинянину, який шпигував для ФСБ у Польщі
- Трамваї на Кирилівській: зміни маршрутів до 15 травня
- Ім'я Наталія: від еталону 70-х до рідкості сьогодні
Новини цього розділу
Україна та Ізраїль можуть укласти меморандум щодо зерна з окупованих територій
Клінкерна плитка для фасаду: надійний захист та естетика на десятиліття
Харківському ексдепутату на додачу до державної зради повідомили ще одну підозру
Режим Кім Чен Ина "озолотився" на підтримці Росії у війні проти України
Росіяни планують захопити Донецьк для тиску на Харків
На Харківщині зірвали будівництво двох підземних шкіл
Трамп виведе війська, і Конгрес його не зупинить: генерал Годжес розповів, чому система дає збій
Не тільки Шевченко: які футболісти з України були у фіналі Ліги чемпіонів
Рука Будди у Гуандуні: як піднятися до гігантської долоні над безоднею
Стало відомо, жителі яких країн заразилися хантавірусом на круїзному лайнері
Коментарі
Коментарів ще немає. Будьте першим у цій дискусії.