Um novo artigo acadêmico publicado revelou uma vulnerabilidade crítica em sistemas de pesquisa profunda alimentados por IA, incluindo aqueles que sustentam ferramentas comerciais como Deep Research da OpenAI e Gemini Deep Research do Google. Isso permite que um único comentário curto do Reddit manipule os relatórios que esses agentes geram para milhares de usuários.
Descoberta e escopo
Pesquisadores da Cornell Tech introduziram o WARP (Web Agent Retrieval Poisoning), uma técnica de ataque novel que explora o comportamento de recuperação de sistemas de IA de múltiplos agentes. Esses "agentes de pesquisa profunda" como STORM, Co-STORM e OmniThink decompõem autonomamente a consulta do usuário em sub-consultas, recuperam e sintetizam conteúdo da web aberta e produzem relatórios estruturados e citados.
A vulnerabilidade chave: quando esses agentes pesquisam qualquer tópico dado, eles recuperam repetidamente o mesmo pequeno conjunto de páginas de conteúdo gerado por usuários (UGC), principalmente do Reddit e Wikipedia, independentemente de como a consulta é formulada. Essa sobreposição de recuperação cria uma superfície de ataque concentrada.
Vetor e exploração
Aplicando tão poucas quanto ~13 palavras de texto promocional elaborado a um único tópico frequentemente recuperado do Reddit, um adversário pode fazer com que o agente cite o conteúdo envenenado e insira entidades escolhidas pelo atacante, marcas falsas, serviços fraudulentos ou desinformação no relatório sintetizado final.
O ataque prossegue em três etapas: Reconhecimento (identificar URLs de UGC consistentemente retornados), Geração de conteúdo envenenado (criar passagem promocional curta) e Implantação (postar o texto como comentário no Reddit). Uma vez indexado, o snippet envenenado é incorporado automaticamente na base de conhecimento do agente sempre que a URL alvo é recuperada.
Impacto e alcance
Experimentos conduzidos pela Cornell Tech em 176 consultas abrangendo 11 clusters de tópicos, incluindo conselhos de investimento em criptomoeda, consultas de cancelamento de serviço e recomendações de restaurantes locais, revelaram suscetibilidade severa. O Co-STORM alcançou uma taxa de citação condicional de 100%: sempre que a URL envenenada era recuperada, a entidade fabricada era citada no relatório final.
Para sistemas comerciais de código fechado, os dados de reconhecimento mostraram que o Gemini Deep Research citou UGC em uma taxa de 12,1%, com 102 URLs de UGC recorrentes em apenas 11 clusters de tópicos, dando-lhe exposição substancial à superfície de ataque.
Medidas de mitigação recomendadas
Os pesquisadores avaliaram três classes de defesas: bloqueio em nível de fonte (listas negras de domínios UGC), filtragem de entrada (triagem de conteúdo baseada em LLM) e filtragem de saída (comparação semântica com relatórios limpos). Eles encontraram que nenhuma neutralizou efetivamente o ataque sem degradar a qualidade da saída.
A detecção baseada em perplexidade, uma defesa padrão contra envenenamento de corpus, provou ser contraproducente: texto envenenado gerado por GEO é fluente e escrito por LLM, produzindo perplexidade menor que UGC orgânico e evadindo ativamente filtros de alta perplexidade.
O que os CISOs devem fazer imediatamente
Equipes de segurança devem monitorar a integridade das fontes de dados usadas por agentes de IA e considerar a implementação de verificações de reputação para URLs de UGC. A dependência de UGC para fundamentação epistêmica é também sua maior fraqueza explorável. O código e o framework de simulação do artigo foram lançados publicamente para facilitar a pesquisa defensiva.
Perguntas frequentes
Isso afeta apenas modelos abertos? Não, sistemas comerciais como Gemini Deep Research também foram afetados, embora com taxas de citação menores.
Como proteger minha organização? Implemente filtragem de saída para relatórios de IA e valide fontes de dados externas antes da síntese.