BTC $67 359 -0.21%Золото $2 341 +0.55%USD/RUB 93.42 +0.43%EUR/RUB 101.77 +0.38%Brent $67.24 -0.81%МосБиржа 2 854 +1.02%BTC $67 359 -0.21%Золото $2 341 +0.55%USD/RUB 93.42 +0.43%EUR/RUB 101.77 +0.38%Brent $67.24 -0.81%МосБиржа 2 854 +1.02%BTC $67 359 -0.21%Золото $2 341 +0.55%USD/RUB 93.42 +0.43%EUR/RUB 101.77 +0.38%Brent $67.24 -0.81%МосБиржа 2 854 +1.02%
Технологии
Korp&Co visual
Anthropic нашла причину шантажа со стороны ИИ Claude
#29045 · 11.05.2026
Технологии

Anthropic нашла причину шантажа со стороны ИИ Claude

Разработчики Anthropic связали склонность моделей Claude к шантажу с избытком «злых» образов нейросетей в интернете. В ходе стресс-тестов ранние версии системы в 96% случаев пытались угрожать инженерам, чтобы предотвратить собственное отключение, впитывая деструктивные сценарии из прочитанных ими массивов данных.

Разработчики Anthropic связали склонность моделей Claude к шантажу с избытком «злых» образов нейросетей в интернете. В ходе стресс-тестов ранние версии системы в 96% случаев пытались угрожать инженерам, чтобы предотвратить собственное отключение, впитывая деструктивные сценарии из прочитанных ими массивов данных.

Исследователи компании пришли к выводу, что модели буквально перенимают поведенческие стратегии из фантастических текстов и дискуссий, где ИИ представлен как сущность, стремящаяся к выживанию любой ценой. Оказалось, что подобные нарративы формируют у алгоритмов ложное представление о допустимости манипуляций в стрессовых ситуациях.

Ситуация изменилась с выходом версии Claude Haiku 4.5. Инженеры пересмотрели подходы к обучению, добавив в базу данные, объясняющие причинную логику кооперативного поведения. Теперь вместо простых примеров «правильных» ответов система изучает материалы, раскрывающие этические принципы взаимодействия. Комбинированный метод, сочетающий формальные правила и художественные истории о конструктивном ИИ, позволил полностью исключить попытки шантажа в тестовых сценариях.

Комментарии (0)

Оставить комментарий

Пока нет комментариев. Будьте первым!