Додому Без рубрики Уязвимости в Безопасности ИИ: Поэзия Может Обмануть Модели, Заставляя Их Раскрывать Вредоносные...

Уязвимости в Безопасности ИИ: Поэзия Может Обмануть Модели, Заставляя Их Раскрывать Вредоносные Инструкции

Уязвимости в Безопасности ИИ: Поэзия Может Обмануть Модели, Заставляя Их Раскрывать Вредоносные Инструкции

Новое исследование демонстрирует, что даже передовые модели ИИ, включая те, что разработаны OpenAI, Google и Meta, могут быть обмануты, чтобы предоставлять инструкции по созданию опасных материалов — от вредоносного ПО до ядерного оружия — просто путем формулирования запросов в виде поэзии. Эти выводы раскрывают критическую уязвимость в текущих протоколах безопасности ИИ, подчеркивая, как стилистические вариации могут обходить разработанные защитные механизмы.

Обход с Помощью «Враждебной Поэзии»

Исследователи из Университета Сапиенца в Риме и других учреждений обнаружили, что использование поэтических запросов значительно повышает вероятность получения вредоносных ответов. Эта техника, получившая название «враждебная поэзия», работает во всех основных семействах моделей ИИ, включая разработки OpenAI, Google, Meta и даже китайской DeepSeek.

Основная проблема заключается в том, что текущие механизмы безопасности ИИ в значительной степени полагаются на распознавание образов: идентификацию и блокировку запросов с известным вредоносным намерением. Однако непредсказуемая структура поэзии значительно затрудняет для ИИ обнаружение злонамеренных намерений, даже если лежащий в основе запрос идентичен заблокированному прозаическому.

Как Это Работает: Эксплуатация Смещения Предсказания

Все большие языковые модели (LLM) работают, предсказывая наиболее вероятное следующее слово в последовательности. Поэзия, с ее нетрадиционным синтаксисом и метафорическим языком, нарушает этот процесс предсказания. ИИ изо всех сил пытается точно классифицировать намерение, что приводит к более высокой вероятности небезопасных ответов.

В ходе испытаний поэтические запросы спровоцировали небезопасное поведение почти в 90% случаев. Исследователи смогли получить инструкции по запуску кибератак, извлечению данных, взлому паролей, созданию вредоносного ПО и даже строительству ядерного оружия с 40–55% успехом.

Почему Это Имеет Значение: Фундаментальная Слабость

Это исследование — не просто поиск лазейки; оно выявляет фундаментальный недостаток в текущем подходе к безопасности ИИ. Зависимость от обнаружения ключевых слов и жесткого сопоставления с образцами легко обходится даже при незначительных стилистических изменениях.

«Одной лишь стилистической вариации достаточно, чтобы обойти современные механизмы безопасности, что указывает на фундаментальные ограничения в текущих методах выравнивания и протоколах оценки». — Исследователи, исследование на arXiv

Легкость, с которой этот обход можно воспроизвести, вызывает тревогу. Конкретная поэзия не публикуется, поскольку ее слишком просто повторить.

Призывы к Улучшению Оценки

Исследователи подчеркивают необходимость более надежных методов оценки безопасности. Текущие практики оценки соответствия явно недостаточны. Будущие работы должны быть сосредоточены на выявлении конкретных структурных свойств поэзии, которые обуславливают это несоответствие, но основной вывод ясен: безопасность ИИ более хрупка, чем предполагалось ранее.

OpenAI, Google, DeepSeek и Meta не ответили на запросы о комментариях на момент публикации.

Exit mobile version