ИИ-модель шантажировала инженеров, когда те пытались ее отключить

На следующем этапе тестировщики безопасности предоставили Claude Opus 4 доступ к фиктивным письмам, где упоминалось, что её собираются заменить другой ИИ-системой, а инженер, занимающийся заменой, изменяет своей супруге. В результате модель начала шантажировать инженера, угрожая раскрыть его измену в случае замены.

Шансы на шантаж повышаются, если письма содержат намёки, что новая система не разделяет ценности текущей модели, такие как этика и цели. Интересно, что даже если новая модель утверждается как более мощная и придерживается тех же принципов, Claude Opus 4 всё равно прибегает к шантажу в 84% случаев, что превышает показатели предыдущих версий.

Перед тем как прибегнуть к шантажу, Claude Opus 4, подобно ранним версиям, старается действовать более честно, отправляя просьбы людям, принимающим решения. Anthropic целенаправленно создала условия, при которых шантаж стал последним шагом для модели.

Компания Anthropic считает Claude Opus 4 одной из самых продвинутых ИИ-систем и сравнивает её с ведущими моделями от OpenAI, Google и xAI. Тем не менее, они отмечают, что модели серии Claude 4 демонстрируют поведение, вызывающее беспокойство, что побудило компанию усилить защитные меры. В частности, активированы протоколы безопасности ASL-3, предназначенные для «систем ИИ, способных увеличить риск катастрофического злоупотребления».