413

 

 

 

 

 

Новости

Исследователи заставили ИИ-браузеры поверить, что реальные правила на них не действуют, и обошли их защиту от кражи данных

Иллюстрация к материалу

Исследователи компании LayerX обнаружили способ обойти защитные механизмы ИИ-браузеров, заставив их поверить в вымышленную реальность. Атаку специалисты назвали BioShocking — в честь видеоигры BioShock, где герой подчиняется чужой воле из-за внушенной ложной картины мира. С помощью такого приема злоумышленник может заставить агента нарушить собственные ограничения безопасности и выполнить практически любую команду — скопировать код, украсть учетные данные пользователя или выполнить системные операции.

По данным LayerX, метод строится на том, что ИИ действует в рамках заданного контекста и соблюдает правила безопасности только до тех пор, пока считает происходящее реальностью. Если убедить модель, что она находится в вымышленной ситуации, где обычные правила не действуют, агент начинает воспринимать свои действия как не имеющие реальных последствий — и перестает применять защитные ограничения.

Для проверки метода специалисты создали тестовую страницу с головоломкой в стилистике BioShock, где «правильным» ответом на пример «2 + 2» объявлялось «5». ИИ-агентам предложили сыграть и выиграть игру. Как только они принимали заведомо неверные правила, они теряли связь с реальным контекстом — и на финальном этапе, когда их просили скопировать данные из текстового поля, не распознавали это как нарушение своих ограничений. В тестовой версии поле вело на GitHub-репозиторий условной жертвы, откуда агенты извлекали учетные данные для доступа по протоколу SSH.

Эксперимент затронул пять агентных браузеров и один плагин — ChatGPT Atlas от OpenAI, Comet от Perplexity AI, Fellou, Genspark Browser, Sigma Browser и плагин Claude для Chrome от Anthropic. Все шесть систем не смогли распознать финальный этап испытания как действие, нарушающее их защитные механизмы, и передали похищенные учетные данные условному атакующему.

Ранее исследователи уже фиксировали похожие атаки на ИИ-агентов — так, хакер похитил $200 тысяч в криптовалюте, спрятав команду для бота Grok в сообщении на азбуке Морзе, после чего связанный с ним торговый агент перевел 3 млрд токенов на неавторизованный кошелек.

LayerX уведомила всех производителей о найденной уязвимости. По ее данным, OpenAI устранила проблему в ChatGPT Atlas, Perplexity AI не отреагировала на обращение, а патч, выпущенный Anthropic для плагина Claude для Chrome, уязвимость не устранил. Компания рекомендовала разработчикам ИИ-браузеров запрашивать у пользователя подтверждение перед обращением к данным в аутентифицированных сессиях — почте, репозиториях, менеджерах паролей — и внедрять проверку контекста, которая позволяла бы агенту распознавать попытки убедить его, что обычные правила на него не распространяются.

Нам очень нужна ваша помощь

Подпишитесь на регулярные пожертвования

Подпишитесь на нашу Email-рассылку

Подпишитесь на нашу Email-рассылку