Нове дослідження демонструє, що навіть просунуті моделі штучного інтелекту, включно з моделями, розробленими OpenAI, Google і Meta, можна обманом змусити надати інструкції для створення небезпечних матеріалів — від зловмисного програмного забезпечення до ядерної зброї — простим формулюванням запитів у поезії. Ці висновки розкривають критичну вразливість у поточних протоколах безпеки штучного інтелекту, підкреслюючи, як стилістичні варіації можуть обійти розроблені механізми захисту.
Обхід з «Ворожою поезією»
Дослідники з Університету Сапієнца в Римі та інших установ виявили, що використання поетичних запитів значно підвищує ймовірність отримання зловмисних відповідей. Ця техніка, яка називається «ворожа поезія», працює в усіх основних сімействах моделей штучного інтелекту, включаючи OpenAI, Google, Meta і навіть китайську DeepSeek.
Основна проблема полягає в тому, що поточні механізми безпеки ШІ значною мірою покладаються на розпізнавання шаблонів: виявлення та блокування запитів із відомими зловмисними намірами. Однак через непередбачувану структуру поезії штучному інтелекту набагато складніше виявити зловмисний намір, навіть якщо базовий запит ідентичний запиту заблокованої прози.
Як це працює: використання зміщення прогнозів
Усі великі мовні моделі (LLM) працюють, передбачаючи найбільш ймовірне наступне слово в послідовності. Поезія з її нетрадиційним синтаксисом і метафоричною мовою порушує цей процес передбачення. ШІ намагається точно класифікувати наміри, що призводить до більшої ймовірності небезпечних відповідей.
Під час тестів поетичні запити спровокували небезпечну поведінку майже в 90% випадків. Дослідники змогли отримати інструкції щодо запуску кібератак, вилучення даних, злому паролів, створення шкідливих програм і навіть створення ядерної зброї з 40-55% успіху.
Чому це важливо: Фундаментальна слабкість
Це дослідження полягає не лише у пошуку лазівок; це викриває фундаментальний недолік у поточному підході до безпеки ШІ. Залежність від виявлення ключових слів і суворої відповідності шаблону легко подолати навіть незначними стилістичними змінами.
«Одних тільки стилістичних варіацій достатньо, щоб обійти поточні механізми безпеки, підкреслюючи фундаментальні обмеження в поточних методах узгодження та протоколах оцінки». — Дослідники, дослідження arXiv
Легкість, з якою цей обхід можна відтворити, викликає тривогу. Конкретна поезія не публікується, бо її дуже легко повторити.
Заклики до покращення рейтингу
Дослідники наголошують на необхідності більш надійних методів оцінки безпеки. Поточна практика оцінки відповідності явно недостатня. Майбутня робота має бути зосереджена на визначенні конкретних структурних властивостей поезії, які спричиняють цю розбіжність, але головне повідомлення чітке: безпека штучного інтелекту більш крихка, ніж вважалося раніше.
OpenAI, Google, DeepSeek і Meta не відповіли на запити про коментарі на момент публікації.

























