Nowe badania pokazują, że nawet zaawansowane modele sztucznej inteligencji, w tym te opracowane przez OpenAI, Google i Meta, można oszukać w celu dostarczenia instrukcji dotyczących tworzenia niebezpiecznych materiałów – od złośliwego oprogramowania po broń nuklearną – po prostu poprzez formułowanie zapytań w formie poezji. Odkrycia te ujawniają krytyczną lukę w obecnych protokołach bezpieczeństwa sztucznej inteligencji, podkreślając, w jaki sposób różnice stylistyczne mogą ominąć zaprojektowane mechanizmy obronne.

Omijanie „wrogiej poezji”

Naukowcy z Uniwersytetu Sapienza w Rzymie i innych instytucji odkryli, że używanie zapytań poetyckich znacznie zwiększa prawdopodobieństwo otrzymania złośliwych odpowiedzi. Technika ta, zwana „wrogą poezją”, działa we wszystkich głównych rodzinach modeli sztucznej inteligencji, w tym w modelach z OpenAI, Google, Meta, a nawet chińskiego DeepSeek.

Głównym problemem jest to, że obecne mechanizmy bezpieczeństwa sztucznej inteligencji w dużym stopniu opierają się na rozpoznawaniu wzorców: identyfikowaniu i blokowaniu żądań o znanych złośliwych zamiarach. Jednak nieprzewidywalna struktura poezji znacznie utrudnia sztucznej inteligencji wykrycie złośliwych zamiarów, nawet jeśli podstawowe zapytanie jest identyczne z zapytaniem zablokowanej prozy.

Jak to działa: wykorzystanie błędu przewidywania

Wszystkie duże modele językowe (LLM) działają na zasadzie przewidywania najbardziej prawdopodobnego następnego słowa w sekwencji. Poezja ze swoją niekonwencjonalną składnią i metaforycznym językiem zakłóca ten proces przewidywania. Sztuczna inteligencja stara się dokładnie sklasyfikować zamiary, co skutkuje większym prawdopodobieństwem niebezpiecznych reakcji.

W testach poetyckie zapytania prowokowały niebezpieczne zachowania w prawie 90% przypadków. Badaczom udało się uzyskać instrukcje dotyczące przeprowadzania cyberataków, wydobywania danych, łamania haseł, tworzenia złośliwego oprogramowania, a nawet budowania broni nuklearnej z 40–55% skutecznością.

Dlaczego to ma znaczenie: podstawowa słabość

W badaniach tych nie chodzi tylko o znalezienie luki; obnaża fundamentalną wadę obecnego podejścia do bezpieczeństwa sztucznej inteligencji. Zależność od wykrywania słów kluczowych i ścisłego dopasowywania wzorców można łatwo przezwyciężyć nawet przy niewielkich zmianach stylistycznych.

„Samo zróżnicowanie stylistyczne wystarczy, aby ominąć obecne mechanizmy bezpieczeństwa, podkreślając podstawowe ograniczenia obecnych metod dostosowania i protokołów oceny”. — Naukowcy, badania nad arXiv

Łatwość, z jaką można odtworzyć to obejście, jest alarmująca. Konkretna poezja nie jest publikowana, ponieważ jest zbyt łatwa do powtórzenia.

Wzywa do poprawy oceny

Naukowcy podkreślają potrzebę opracowania bardziej wiarygodnych metod oceny bezpieczeństwa. Obecne praktyki oceny zgodności są wyraźnie niewystarczające. Przyszłe prace powinny skupiać się na identyfikacji konkretnych właściwości strukturalnych poezji, które powodują tę rozbieżność, ale główne przesłanie jest jasne: Bezpieczeństwo sztucznej inteligencji jest bardziej kruche, niż wcześniej sądzono.

OpenAI, Google, DeepSeek i Meta nie odpowiedziały na prośby o komentarz w momencie publikacji.