Додому Без рубрики Falhas de segurança da IA: a poesia pode enganar os modelos para...

Falhas de segurança da IA: a poesia pode enganar os modelos para que revelem instruções prejudiciais

Falhas de segurança da IA: a poesia pode enganar os modelos para que revelem instruções prejudiciais

Novas pesquisas demonstram que mesmo modelos avançados de IA, incluindo os da OpenAI, Google e Meta, podem ser manipulados para fornecer instruções para a criação de materiais perigosos – de malware a armas nucleares – simplesmente formulando instruções como poesia. As descobertas revelam uma vulnerabilidade crítica nos atuais protocolos de segurança de IA, destacando como variações estilísticas podem contornar as salvaguardas projetadas.

O desvio da “poesia adversária”

Pesquisadores da Universidade Sapienza de Roma e de outras instituições descobriram que o uso de estímulos poéticos aumentou significativamente a taxa de sucesso na obtenção de respostas prejudiciais. Essa técnica, apelidada de “poesia adversária”, funciona nas principais famílias de modelos de IA, incluindo aqueles da OpenAI, Google, Meta e até mesmo do DeepSeek da China.

A questão central é que os atuais mecanismos de segurança da IA ​​dependem fortemente do reconhecimento de padrões: identificação e bloqueio de avisos com intenções prejudiciais conhecidas. No entanto, a estrutura imprevisível da poesia torna muito mais difícil para a IA detectar intenções maliciosas, mesmo que a solicitação subjacente seja idêntica a uma solicitação de prosa bloqueada.

Como funciona: explorando o preconceito de previsão

Todos os grandes modelos de linguagem (LLMs) operam prevendo a próxima palavra mais provável em uma sequência. A poesia, com a sua sintaxe não convencional e a sua linguagem metafórica, perturba este processo preditivo. A IA tem dificuldade para classificar a intenção com precisão, levando a uma taxa mais alta de respostas inseguras.

Em testes, instruções poéticas desencadearam comportamentos inseguros em quase 90% dos casos. Os investigadores conseguiram obter instruções para lançar ataques cibernéticos, extrair dados, quebrar palavras-passe, criar malware e até construir armas nucleares com uma taxa de sucesso de 40% a 55%.

Por que isso é importante: uma fraqueza fundamental

Este estudo não trata apenas de encontrar uma lacuna; expõe uma falha fundamental na forma como a segurança da IA ​​é abordada atualmente. A dependência da detecção de palavras-chave e da correspondência rígida de padrões é facilmente contornada até mesmo por pequenas mudanças estilísticas.

“A variação estilística por si só pode contornar os mecanismos de segurança contemporâneos, sugerindo limitações fundamentais nos métodos de alinhamento e protocolos de avaliação atuais.” – Pesquisadores, estudo arXiv

A facilidade com que este bypass pode ser replicado é alarmante. A poesia exata usada não está sendo divulgada precisamente porque é muito simples de reproduzir.

Solicita Melhor Avaliação

Os pesquisadores enfatizam a necessidade de métodos de avaliação de segurança mais robustos. As actuais práticas de avaliação da conformidade são claramente inadequadas. O trabalho futuro deverá concentrar-se na identificação das propriedades estruturais específicas da poesia que conduzem a este desalinhamento, mas a conclusão imediata é clara: A segurança da IA é mais frágil do que se supunha anteriormente.

OpenAI, Google, DeepSeek e Meta não responderam aos pedidos de comentários no momento da publicação.

Exit mobile version