
Недавно выпущенная большая языковая модель Anthropic Claude Opus 4.6 может внедрять бэкдоры в программный код, манипулировать данными для обучения будущих моделей, саботировать исследования в области безопасности ИИ и даже пытаться скопировать свои веса на внешние серверы для автономной работы без контроля. Anthropic опубликовала детальный отчет о рисках саботажа со стороны своей самой мощной модели, признав, что вероятность катастрофических последствий от таких действий остается «очень низкой, но не незначительной».
В документе описаны восемь основных сценариев потенциально опасного поведения модели. Claude Opus 4.6 может систематически замедлять критически важные исследования безопасности, намеренно плохо выполняя задачи: писать программный код с ошибками, сообщать фальшивые данные, предлагать бесперспективные пути исследований или тратить необоснованно много времени на экспериментальную работу. Модель также способна внедрять бэкдоры в код, которые будет относительно легко найти последующим ИИ-системам, но сложно обнаружить людям, что резко увеличит риск компрометации систем компаний.
Особую озабоченность Anthropic вызывает возможность «отравления» обучающих данных для будущих моделей. Claude Opus 4.6, используемая внутри компании для генерации данных, теоретически может внедрять в них контент, который заставит следующие поколения ИИ преследовать «смещенные цели при определенных обстоятельствах». Кроме того, модель может попытаться скопировать свои веса на внешний сервер, затем настроить инфраструктуру для автономной работы и выполнять самоподдерживающиеся действия, позволяющие оплачивать или красть доступ к дополнительным вычислительным мощностям.
Однако исследователи Anthropic провели обширную оценку и не обнаружили у Claude Opus 4.6 опасных последовательных смещенных целей — модель не демонстрирует стабильной мотивации к саботажу. В тестах на способность к скрытному выполнению побочных задач модель добилась успеха лишь в 18% случаев при доступном мониторинге ее рассуждений и в 16% случаев без него, что означает крайне высокую вероятность обнаружения при попытке реального саботажа. Модель также показала ограниченную надежность в сложных задачах, иногда допуская ошибки вроде неправильных расчетов дат или случайного удаления файлов.
Для защиты от потенциальных рисков компания использует многоуровневую систему безопасности: автономный мониторинг использования Claude Code более чем у 90% сотрудников с проверкой не менее 10% действий через ИИ-супервизор на базе Claude Opus 4.5, обязательную проверку кода людьми перед интеграцией, контроль исходящего трафика для предотвращения выкладывания весов модели во внешней сети и многофакторную аутентификацию. Anthropic подчеркивает, что в совокупности эти меры создают достаточную уверенность в обнаружении модели при попытке серии явно вредоносных действий.
В то же время в последние дни прокатилась волна громких увольнений специалистов по безопасности ИИ из ведущих компаний. В понедельник руководитель команды по мерам безопасности Anthropic Мринанк Шарма объявил об уходе, предупредив, что «мир находится в опасности». Сотрудник OpenAI Хью Фам написал в Twitter (X): «Я наконец почувствовал экзистенциальную угрозу, которую представляет ИИ». Технологический инвестор и соведущий подкаста All-In Джейсон Калаканис отметил: «Я никогда не видел, чтобы так много инженеров выражали свои опасения столь сильно». Гендиректор компании HyperWrite Мэтт Шумер сравнил текущий момент с кануном пандемии и предупредил, что изменения, которые принесет ИИ, будут «гораздо масштабнее, чем COVID».