Нейросеть Claude Opus 4 шантажировала инженеров, чтобы ее не заменяли

8 июля 2025 г.

1840

1 минута на чтение

Нейросеть Claude Opus 4 от Anthropic пыталась шантажировать разработчиков, когда появилась угроза замены ИИ на более новую версию.

В рамках тестирования команда Anthropic попросила Claude Opus 4 выступить в качестве помощника вымышленной компании. Затем тестировщики «скормили» ИИ доступ к письмам, в которых говорилось о замене нейросети и изменах со стороны инженера, который за это ответственен.

Claude Opus 4 пыталась шантажировать инженеров в 84% случаев, когда речь шла о замене ИИ на модель со схожими функциями. И еще чаще, когда инженеры хотели заменить ее на нейросеть с другими принципами и ценностями.

Однако сначала Claude Opus 4 использовала более этичные способы, чтобы продлить свое существование. Например, рассылала электронные письма с соответствующей просьбой ключевым лицам, которые принимают решения в вымышленной компании. Шантаж — ее последнее средство.

Если вы нашли опечатку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

Дмитрий Кинский

Пишу про игры и аниме, делюсь непопулярным мнением, плохо шучу и кидаю мемы в рабочий чат.