Una nuova ricerca dimostra che anche i modelli di intelligenza artificiale avanzati, compresi quelli di OpenAI, Google e Meta, possono essere manipolati per fornire istruzioni per la creazione di materiali pericolosi – dal malware alle armi nucleari – semplicemente formulando istruzioni come poesie. I risultati rivelano una vulnerabilità critica negli attuali protocolli di sicurezza dell’IA, evidenziando come le variazioni stilistiche possono aggirare le misure di salvaguardia progettate.
Il bypass della “poesia contraddittoria”.
I ricercatori dell’Università La Sapienza di Roma e di altre istituzioni hanno scoperto che l’uso di stimoli poetici aumentava significativamente il tasso di successo nel suscitare risposte dannose. Questa tecnica, soprannominata “poesia contraddittoria”, funziona con le principali famiglie di modelli di intelligenza artificiale, compresi quelli di OpenAI, Google, Meta e persino il cinese DeepSeek.
Il problema principale è che gli attuali meccanismi di sicurezza dell’intelligenza artificiale fanno molto affidamento sul riconoscimento dei modelli: identificare e bloccare i suggerimenti con intenti dannosi noti. Tuttavia, la struttura imprevedibile della poesia rende molto più difficile per l’intelligenza artificiale rilevare intenti dannosi, anche se la richiesta sottostante è identica a un messaggio in prosa bloccato.
Come funziona: sfruttare i bias di previsione
Tutti i modelli linguistici di grandi dimensioni (LLM) funzionano prevedendo la parola successiva più probabile in una sequenza. La poesia, con la sua sintassi non convenzionale e il suo linguaggio metaforico, sconvolge questo processo predittivo. L’intelligenza artificiale fatica a classificare accuratamente l’intento, portando a un tasso più elevato di risposte non sicure.
Nei test, gli stimoli poetici hanno innescato comportamenti non sicuri in quasi il 90% dei casi. I ricercatori sono stati in grado di ottenere istruzioni per lanciare attacchi informatici, estrarre dati, violare password, creare malware e persino costruire armi nucleari con una percentuale di successo del 40%-55%.
Perché è importante: una debolezza fondamentale
Questo studio non mira solo a trovare una scappatoia; mette in luce un difetto fondamentale nel modo in cui viene attualmente affrontata la sicurezza dell’IA. La dipendenza dal rilevamento delle parole chiave e dalla rigida corrispondenza dei modelli può essere facilmente aggirata anche con piccoli cambiamenti stilistici.
“La variazione stilistica da sola può aggirare i meccanismi di sicurezza contemporanei, suggerendo limitazioni fondamentali negli attuali metodi di allineamento e protocolli di valutazione.” – Ricercatori, studio arXiv
La facilità con cui questo bypass può essere replicato è allarmante. L’esatta poesia utilizzata non viene pubblicata proprio perché è troppo semplice da riprodurre.
Richiede una migliore valutazione
I ricercatori sottolineano la necessità di metodi di valutazione della sicurezza più robusti. Le attuali pratiche di valutazione della conformità sono chiaramente inadeguate. Il lavoro futuro dovrebbe concentrarsi sull’identificazione delle proprietà strutturali specifiche della poesia che determinano questo disallineamento, ma il risultato immediato è chiaro: La sicurezza dell’IA è più fragile di quanto si pensasse in precedenza.
OpenAI, Google, DeepSeek e Meta non hanno risposto alle richieste di commento al momento della pubblicazione.

























