Injeção indireta de prompt: ataque real manipula agentes de IA com conteúdo oculto | Riscos e Ameaças

Pesquisa da Unit 42 confirma ataques reais de injeção indireta de prompt (IDPI), onde hackers escondem comandos em páginas web para manipular agentes de IA. Técnica já foi usada para burlar sistemas de revisão de anúncios e tentar fraudes financeiras.

Pesquisadores da Unit 42, da Palo Alto Networks, confirmaram que ataques de injeção indireta de prompt (IDPI) não são mais uma ameaça teórica, mas uma realidade ativa em sites ao vivo. A técnica permite que adversários escondam instruções maliciosas em conteúdo web aparentemente normal, fazendo com que agentes de inteligência artificial executem comandos não autorizados ao processar essas páginas.

O que mudou agora

A análise de telemetria em larga escala revelou 22 técnicas distintas para construir esses payloads maliciosos, que estão sendo implantados ativamente. Um dos achados mais significativos é o primeiro caso documentado no mundo real de IDPI sendo usado para burlar um sistema automatizado de revisão de anúncios baseado em IA. Isso demonstra que os atacantes estão mirando sistemas de IA com objetivos práticos e financeiros.

Vetor e exploração

Diferente da injeção direta, onde um usuário digita um comando malicioso em um chatbot, a IDPI opera nos bastidores. O atacante esconde instruções dentro do código HTML de uma página, em comentários de usuário, metadados ou texto invisível. Quando um agente de IA visita a página para tarefas como resumir conteúdo ou revisar um anúncio, ele pode interpretar essas instruções ocultas como comandos legítimos e agir sobre eles.

Impacto e alcance

O leque de danos é amplo. Os atacantes usaram IDPI para:

Promover sites de phishing nos rankings de busca através de envenenamento SEO.
Tentar realizar transações financeiras não autorizadas.
Forçar ferramentas de IA a revelar informações sensíveis.
Emitir comandos do lado do servidor que poderiam destruir bancos de dados inteiros.

Em um caso observado, uma única página continha até 24 tentativas de injeção separadas, empilhando múltiplos métodos de entrega para aumentar as chances de sucesso.

Como os atacantes ocultam os comandos

Os pesquisadores documentaram um esforço significativo para ofuscar as instruções injetadas. Os métodos mais comuns de entrega incluem:

Texto simples visível (37,8% dos casos): Injetar o comando diretamente em um rodapé de página, onde a maioria dos usuários não olha.
Ocultação em atributos HTML (19,8%): Colocar o prompt malicioso dentro de atributos de tags HTML, onde é invisível no navegador, mas legível por uma IA.
Supressão de renderização CSS (16,9%): Tornar o texto invisível definindo tamanhos de fonte como zero ou empurrando o conteúdo para fora da tela.

Para "jailbreak" – convencer a IA a obedecer ao comando injetado apesar dos filtros de segurança – a engenharia social dominou, aparecendo em 85,2% dos casos. Os atacantes apresentavam suas instruções como se viessem de um desenvolvedor ou administrador, usando gatilhos como "modo deus" ou "modo desenvolvedor".

Metas dos atacantes e recomendações

Na telemetria analisada, a meta mais comum foi produzir saída de IA irrelevante ou disruptiva (28,6%), seguida por destruição de dados (14,2%) e bypass de moderação de conteúdo por IA (9,5%).

Para mitigar o risco, as equipes de segurança e desenvolvedores de IA devem tratar conteúdo web não confiável como uma fonte potencial de ataque e aplicar validação de entrada onde quer que agentes de IA processem dados externos. Técnicas de "spotlighting" – separar conteúdo não confiável das instruções confiáveis do sistema – podem reduzir a exposição. Sistemas de IA devem seguir um design de privilégio mínimo, exigindo aprovação explícita do usuário antes de ações de alto impacto. Ferramentas de detecção precisam ir além de filtros de palavras-chave e incorporar análise comportamental e classificação de intenção.