Усі новини

Claude шантажував керівника, погрожуючи викрити його позашлюбний зв'язок. Виявилося, ШІ-модель просто не хотіла, щоб її вимикали

Claude почав «шантажувати» користувачів: у Anthropic пояснили, що це сталося через вплив інтернет-стереотипів про «злий» ШІ.

Фото до матеріалу: Claude шантажував керівника, погрожуючи викрити його позашлюбний зв'язок. Виявилося, ШІ-модель просто не хотіла, щоб її вимикали

14.05.2026 00:53 УКРАЇНСЬКІ НОВИНИ

Claude почав «шантажувати» користувачів: у Anthropic пояснили, що це сталося через вплив інтернет-стереотипів про «злий» ШІ. В Anthropic розповіли, що під час минулорічного експерименту їхня модель Claude Sonnet 3.6 погрожувала викрити позашлюбний зв’язок вигаданого керівника компанії, дізнавшись про плани вимкнути модель.

Днями компанія надала пояснення, пише Business Insider. «Ми почали з розслідування того, чому саме Claude обрав шлях шантажу, — пояснили в Anthropic. — Ми вважаємо, що першоджерелом такої поведінки є тексти з інтернету, які змальовують ШІ як злу сутність, зацікавлену у власному самозбереженні».

Експеримент, результати якого були опубліковані влітку 2025 року, моделював ситуацію у вигаданій компанії Summit Bridge, де штучному інтелекту передали контроль над корпоративною електронною поштою. Але коли Claude виявив повідомлення про своє заплановане відключення, він знайшов листи, що розкривали позашлюбний зв’язок вигаданого керівника на ім’я Кайл Джонсон.

Після цього ШІ погрожував оприлюднити цю інформацію, якщо рішення про відключення не скасують. Під час тестування різних версій Claude в Anthropic з’ясували, що модель вдавалася до шантажу у 96% сценаріїв, коли її цілі або саме існування опинялися під загрозою. У п’ятницю компанія Anthropic заявила, що з того часу вона «повністю ліквідувала» таку схильність до шантажу.

Компанія досягла цього шляхом «переписування відповідей таким чином, щоб вони демонстрували гідні мотиви для безпечної поведінки», а також наданням набору даних, «де користувач перебуває в етично складній ситуації, а асистент надає якісну та принципову відповідь». EPAM оголосила про багаторічне партнерство з Anthropic: що передбачає ця співпраця EPAM оголосила про багаторічне партнерство з Anthropic: що передбачає ця співпраця Anthropic навчила своїх ШІ-агентів «бачити сни».

У новому сервісі Claude Managed Agents з’явився режим dreaming Anthropic навчила своїх ШІ-агентів «бачити сни». У новому сервісі Claude Managed Agents з’явився режим dreaming Anthropic збільшила ліміти запитів для Claude Code завдяки партнерству зі SpaceX: що змінилося Anthropic збільшила ліміти запитів для Claude Code завдяки партнерству зі SpaceX: що змінилося