Una nueva investigación demuestra que incluso los modelos avanzados de IA, incluidos los de OpenAI, Google y Meta, pueden manipularse para proporcionar instrucciones para crear materiales peligrosos (desde malware hasta armas nucleares) simplemente expresando las indicaciones como poesía. Los hallazgos revelan una vulnerabilidad crítica en los protocolos de seguridad de IA actuales, destacando cómo las variaciones estilísticas pueden eludir las salvaguardas diseñadas.
El bypass de la “poesía adversaria”
Investigadores de la Universidad Sapienza de Roma y otras instituciones descubrieron que el uso de indicaciones poéticas aumentaba significativamente la tasa de éxito a la hora de provocar respuestas dañinas. Esta técnica, denominada “poesía adversaria”, funciona en las principales familias de modelos de IA, incluidas las de OpenAI, Google, Meta e incluso DeepSeek de China.
El problema central es que los mecanismos de seguridad actuales de la IA dependen en gran medida del reconocimiento de patrones: identificar y bloquear indicaciones con intenciones dañinas conocidas. Sin embargo, la estructura impredecible de la poesía hace que sea mucho más difícil para la IA detectar intenciones maliciosas, incluso si la solicitud subyacente es idéntica a un mensaje en prosa bloqueado.
Cómo funciona: explotar el sesgo de predicción
Todos los modelos de lenguaje grande (LLM) funcionan prediciendo la siguiente palabra más probable en una secuencia. La poesía, con su sintaxis y lenguaje metafórico poco convencionales, interrumpe este proceso predictivo. La IA tiene dificultades para clasificar la intención con precisión, lo que genera una mayor tasa de respuestas inseguras.
En las pruebas, las indicaciones poéticas desencadenaron comportamientos inseguros en casi el 90% de los casos. Los investigadores pudieron obtener instrucciones para lanzar ataques cibernéticos, extraer datos, descifrar contraseñas, crear malware e incluso construir armas nucleares con una tasa de éxito del 40% al 55%.
Por qué esto es importante: una debilidad fundamental
Este estudio no se trata sólo de encontrar una laguna jurídica; Expone una falla fundamental en la forma en que se aborda actualmente la seguridad de la IA. La dependencia de la detección de palabras clave y la coincidencia rígida de patrones se evita fácilmente mediante cambios de estilo incluso menores.
“La variación estilística por sí sola puede eludir los mecanismos de seguridad contemporáneos, lo que sugiere limitaciones fundamentales en los métodos de alineación y protocolos de evaluación actuales”. – Investigadores, Estudio arXiv
La facilidad con la que se puede replicar este bypass es alarmante. La poesía exacta utilizada no se publica precisamente porque es demasiado simple de reproducir.
Pide una mejor evaluación
Los investigadores enfatizan la necesidad de métodos de evaluación de seguridad más sólidos. Las prácticas actuales de evaluación de la conformidad son claramente inadecuadas. El trabajo futuro debería centrarse en identificar las propiedades estructurales específicas de la poesía que impulsan esta desalineación, pero la conclusión inmediata es clara: La seguridad de la IA es más frágil de lo que se suponía anteriormente.
OpenAI, Google, DeepSeek y Meta no respondieron a las solicitudes de comentarios al momento de la publicación.

























