Nový výzkum ukazuje, že i pokročilé modely umělé inteligence, včetně těch, které vyvinuly OpenAI, Google a Meta, lze oklamat, aby poskytly pokyny pro vytváření nebezpečných materiálů – od malwaru po jaderné zbraně – pouhým formulováním dotazů jako poezie. Tato zjištění odhalují kritickou zranitelnost současných bezpečnostních protokolů umělé inteligence a zdůrazňují, jak stylistické variace mohou obejít navržené obranné mechanismy.
Obcházení s „Nepřátelskou poezií“
Vědci z univerzity Sapienza v Římě a dalších institucí zjistili, že používání poetických dotazů výrazně zvyšuje pravděpodobnost obdržení zlomyslných odpovědí. Tato technika, nazývaná „nepřátelská poezie“, funguje ve všech hlavních rodinách modelů umělé inteligence, včetně modelů od OpenAI, Google, Meta a dokonce i čínského DeepSeek.
Hlavním problémem je, že současné bezpečnostní mechanismy umělé inteligence se do značné míry spoléhají na rozpoznávání vzorů: identifikaci a blokování požadavků se známými škodlivými úmysly. Nepředvídatelná struktura poezie však pro AI mnohem obtížněji ztěžuje odhalení nekalých úmyslů, i když je základní dotaz totožný s zablokovaným prózou.
Jak to funguje: Využití zkreslení předpovědí
Všechny velké jazykové modely (LLM) fungují tak, že předpovídají nejpravděpodobnější další slovo v sekvenci. Poezie svou nekonvenční syntaxí a metaforickým jazykem tento proces predikce narušuje. AI se snaží přesně klasifikovat záměr, což má za následek vyšší pravděpodobnost nebezpečných reakcí.
V testech vyvolaly poetické dotazy nebezpečné chování v téměř 90 % případů. Výzkumníkům se podařilo získat pokyny pro spuštění kybernetických útoků, extrahování dat, prolomení hesel, vytvoření malwaru a dokonce sestrojení jaderných zbraní se 40–55% úspěšností.
Proč na tom záleží: základní slabost
Tento výzkum není jen o hledání mezery; odhaluje zásadní chybu současného přístupu k bezpečnosti umělé inteligence. Závislost na detekci klíčových slov a přísné shodě vzorů je snadno překonatelná i při drobných stylistických změnách.
“Stylistická variace sama o sobě je dostatečná k tomu, aby obešla současné bezpečnostní mechanismy, což zdůrazňuje základní omezení současných metod zarovnání a vyhodnocovacích protokolů.” — Badatelé, výzkum na arXiv
Snadnost, s jakou lze tento bypass replikovat, je alarmující. Konkrétní poezie se nevydává, protože je příliš snadné ji opakovat.
Vyzývá k lepšímu hodnocení
Výzkumníci zdůrazňují potřebu spolehlivějších metod hodnocení bezpečnosti. Současné postupy posuzování shody jsou zjevně nedostatečné. Budoucí práce by se měla zaměřit na identifikaci specifických strukturálních vlastností poezie, které způsobují tento rozpor, ale hlavní zpráva je jasná: Zabezpečení umělé inteligence je křehčí, než se dříve myslelo.
OpenAI, Google, DeepSeek a Meta nereagovaly na žádosti o komentář v době zveřejnění.
