Nieuw onderzoek toont aan dat zelfs geavanceerde AI-modellen, waaronder die van OpenAI, Google en Meta, kunnen worden gemanipuleerd om instructies te geven voor het maken van gevaarlijke materialen – van malware tot kernwapens – simpelweg door aanwijzingen in poëzie te formuleren. De bevindingen onthullen een kritieke kwetsbaarheid in de huidige AI-veiligheidsprotocollen, en benadrukken hoe stilistische variaties ontworpen beveiligingen kunnen omzeilen.
De ‘vijandige poëzie’ omzeilen
Onderzoekers van de Sapienza Universiteit van Rome en andere instellingen ontdekten dat het gebruik van poëtische aanwijzingen het succespercentage bij het uitlokken van schadelijke reacties aanzienlijk verhoogde. Deze techniek, die ‘vijandige poëzie’ wordt genoemd, werkt in grote families van AI-modellen, waaronder die van OpenAI, Google, Meta en zelfs het Chinese DeepSeek.
Het kernprobleem is dat de huidige AI-veiligheidsmechanismen sterk afhankelijk zijn van patroonherkenning: het identificeren en blokkeren van aanwijzingen met bekende schadelijke bedoelingen. De onvoorspelbare structuur van poëzie maakt het echter veel moeilijker voor AI om kwaadaardige bedoelingen te detecteren, zelfs als het onderliggende verzoek identiek is aan een geblokkeerde prozaprompt.
Hoe het werkt: Voorspellingsbias benutten
Alle grote taalmodellen (LLM’s) werken door het meest waarschijnlijke volgende woord in een reeks te voorspellen. Poëzie, met zijn onconventionele syntaxis en metaforische taal, verstoort dit voorspellende proces. De AI heeft moeite om de intentie nauwkeurig te classificeren, wat leidt tot een groter aantal onveilige antwoorden.
In tests leidden poëtische aanwijzingen in bijna 90% van de gevallen tot onveilig gedrag. Onderzoekers konden instructies verkrijgen voor het lanceren van cyberaanvallen, het extraheren van gegevens, het kraken van wachtwoorden, het maken van malware en zelfs het bouwen van kernwapens met een succespercentage van 40% tot 55%.
Waarom dit ertoe doet: een fundamentele zwakte
Deze studie gaat niet alleen over het vinden van een maas in de wet; het legt een fundamentele tekortkoming bloot in de manier waarop AI-veiligheid momenteel wordt benaderd. De afhankelijkheid van trefwoorddetectie en rigide patroonmatching kan gemakkelijk worden omzeild door zelfs kleine stilistische veranderingen.
“Alleen stilistische variatie kan de hedendaagse veiligheidsmechanismen omzeilen, wat wijst op fundamentele beperkingen van de huidige afstemmingsmethoden en evaluatieprotocollen.” – Onderzoekers, arXiv-studie
Het gemak waarmee deze bypass kan worden gerepliceerd is alarmerend. De exacte gebruikte poëzie wordt niet vrijgegeven, juist omdat het te eenvoudig is om te reproduceren.
Roept op tot een betere evaluatie
Onderzoekers benadrukken de behoefte aan robuustere veiligheidsevaluatiemethoden. De huidige conformiteitsbeoordelingspraktijken zijn duidelijk ontoereikend. Toekomstig werk zou zich moeten concentreren op het identificeren van de specifieke structurele eigenschappen van poëzie die deze verkeerde afstemming veroorzaken, maar de directe conclusie is duidelijk: AI-veiligheid is kwetsbaarder dan eerder werd aangenomen.
OpenAI, Google, DeepSeek en Meta reageerden op het moment van publicatie niet op verzoeken om commentaar.

























