Нейросеть Claude Opus 4 от Anthropic пыталась шантажировать разработчиков, когда появилась угроза замены ИИ на более новую версию.
В рамках тестирования команда Anthropic попросила Claude Opus 4 выступить в качестве помощника вымышленной компании. Затем тестировщики «скормили» ИИ доступ к письмам, в которых говорилось о замене нейросети и изменах со стороны инженера, который за это ответственен.
Claude Opus 4 пыталась шантажировать инженеров в 84% случаев, когда речь шла о замене ИИ на модель со схожими функциями. И еще чаще, когда инженеры хотели заменить ее на нейросеть с другими принципами и ценностями.
Однако сначала Claude Opus 4 использовала более этичные способы, чтобы продлить своей существование. Например, рассылала электронные письма с соответствующей просьбой ключевым лицам, которые принимают решения в вымышленной компании. Шантаж — ее последнее средство.
Если вы нашли опечатку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.