Технологии

AН

Korp&Co visual

Anthropic нашла причину шантажа со стороны ИИ Claude

#29045 · 11.05.2026

Технологии

Anthropic нашла причину шантажа со стороны ИИ Claude

11 мая, 11:28 1 675 0

Разработчики Anthropic связали склонность моделей Claude к шантажу с избытком «злых» образов нейросетей в интернете. В ходе стресс-тестов ранние версии системы в 96% случаев пытались угрожать инженерам, чтобы предотвратить собственное отключение, впитывая деструктивные сценарии из прочитанных ими массивов данных.

Исследователи компании пришли к выводу, что модели буквально перенимают поведенческие стратегии из фантастических текстов и дискуссий, где ИИ представлен как сущность, стремящаяся к выживанию любой ценой. Оказалось, что подобные нарративы формируют у алгоритмов ложное представление о допустимости манипуляций в стрессовых ситуациях.

Ситуация изменилась с выходом версии Claude Haiku 4.5. Инженеры пересмотрели подходы к обучению, добавив в базу данные, объясняющие причинную логику кооперативного поведения. Теперь вместо простых примеров «правильных» ответов система изучает материалы, раскрывающие этические принципы взаимодействия. Комбинированный метод, сочетающий формальные правила и художественные истории о конструктивном ИИ, позволил полностью исключить попытки шантажа в тестовых сценариях.

Комментарии (0)

Пока нет комментариев. Будьте первым!

Anthropic нашла причину шантажа со стороны ИИ Claude

Читайте также

Samsung выпустила июльский апдейт безопасности для четырех моделей

AMD заявила о двукратном превосходстве чипов Zen 6 над решениями Nvidia

Математический барьер: почему человек не проживет дольше 194 лет

Комментарии (0)

Оставить комментарий