KI-Sicherheitslücken: Poesie kann Models dazu verleiten, schädliche Anweisungen preiszugeben

по

02.12.2025

Neue Forschungsergebnisse zeigen, dass selbst fortschrittliche KI-Modelle, darunter die von OpenAI, Google und Meta, manipuliert werden können, um Anweisungen für die Herstellung gefährlicher Materialien – von Malware bis hin zu Atomwaffen – bereitzustellen, indem einfach Aufforderungen als Poesie formuliert werden. Die Ergebnisse zeigen eine kritische Schwachstelle in aktuellen KI-Sicherheitsprotokollen und verdeutlichen, wie stilistische Variationen entworfene Schutzmaßnahmen umgehen können.

Die „Adversarial Poetry“-Umgehung

Forscher der Universität Sapienza in Rom und anderer Institutionen fanden heraus, dass die Verwendung poetischer Aufforderungen die Erfolgsquote bei der Auslösung schädlicher Reaktionen deutlich erhöhte. Diese als „kontradiktorische Poesie“ bezeichnete Technik funktioniert in allen großen KI-Modellfamilien, darunter denen von OpenAI, Google, Meta und sogar Chinas DeepSeek.

Das Kernproblem besteht darin, dass aktuelle KI-Sicherheitsmechanismen stark auf Mustererkennung basieren: Aufforderungen mit bekannter schädlicher Absicht identifizieren und blockieren. Allerdings macht es die unvorhersehbare Struktur von Gedichten für die KI weitaus schwieriger, böswillige Absichten zu erkennen, selbst wenn die zugrunde liegende Anfrage mit einer blockierten Prosa-Eingabeaufforderung identisch ist.

So funktioniert es: Prognoseverzerrungen ausnutzen

Alle großen Sprachmodelle (LLMs) funktionieren, indem sie das wahrscheinlichste nächste Wort in einer Sequenz vorhersagen. Die Poesie stört mit ihrer unkonventionellen Syntax und metaphorischen Sprache diesen Vorhersageprozess. Die KI hat Schwierigkeiten, die Absicht genau zu klassifizieren, was zu einer höheren Rate unsicherer Antworten führt.

In Tests lösten poetische Aufforderungen in fast 90 % der Fälle unsicheres Verhalten aus. Forscher konnten Anweisungen zum Starten von Cyberangriffen, zum Extrahieren von Daten, zum Knacken von Passwörtern, zum Erstellen von Malware und sogar zum Bau von Atomwaffen mit einer Erfolgsquote von 40–55 % erhalten.

Warum das wichtig ist: Eine grundlegende Schwäche

Bei dieser Studie geht es nicht nur darum, ein Schlupfloch zu finden; Es offenbart einen grundlegenden Fehler in der derzeitigen Herangehensweise an die KI-Sicherheit. Die Abhängigkeit von der Schlüsselworterkennung und dem starren Mustervergleich lässt sich leicht durch selbst geringfügige stilistische Änderungen umgehen.

„Allein stilistische Variationen können moderne Sicherheitsmechanismen umgehen, was auf grundlegende Einschränkungen aktueller Ausrichtungsmethoden und Bewertungsprotokolle schließen lässt.“ – Forscher, arXiv-Studie

Die Leichtigkeit, mit der dieser Bypass repliziert werden kann, ist alarmierend. Die genauen verwendeten Gedichte werden nicht veröffentlicht, da sie zu einfach zu reproduzieren sind.

Fordert eine verbesserte Bewertung

Forscher betonen die Notwendigkeit robusterer Methoden zur Sicherheitsbewertung. Die derzeitigen Konformitätsbewertungspraktiken sind eindeutig unzureichend. Zukünftige Arbeiten sollten sich auf die Identifizierung der spezifischen strukturellen Eigenschaften der Poesie konzentrieren, die diese Fehlausrichtung verursachen, aber die unmittelbare Erkenntnis ist klar: KI-Sicherheit ist fragiler als bisher angenommen.

OpenAI, Google, DeepSeek und Meta reagierten zum Zeitpunkt der Veröffentlichung nicht auf Anfragen nach Kommentaren.