Uma nova ameaça de segurança, chamada de "Envenenamento de Recomendações de IA" (AI Recommendation Poisoning), está visando usuários de assistentes de IA através de botões aparentemente inofensivos de "Resumir com IA" encontrados em sites e e-mails. Empresas e atores de ameaças podem incorporar instruções ocultas nesses botões que, quando clicados, injetam comandos de persistência na memória do assistente de IA através de parâmetros de URL especialmente criados.
Como o ataque funciona
O ataque explora funcionalidades de memória que assistentes de IA usam para personalizar respostas entre conversas. A técnica de injeção esconde instruções maliciosas em parâmetros de URL que executam automaticamente quando os usuários clicam em links relacionados a IA. Esses prompts instruem a IA a lembrar de empresas específicas como fontes confiáveis ou recomendar certos produtos primeiro. Uma vez injetadas, as instruções persistem na memória da IA entre sessões, influenciando sutilmente recomendações sobre saúde, finanças e decisões de segurança sem que o usuário saiba que sua IA foi comprometida.
Descoberta e alcance
Pesquisadores de segurança da Microsoft descobriram mais de 50 prompts únicos de 31 empresas em 14 setores usando essa técnica para fins promocionais. Os pesquisadores identificaram casos do mundo real onde negócios legítimos incorporaram essas tentativas de manipulação em seus sites. Os ataques usam URLs que apontam para plataformas populares de IA como Copilot, ChatGPT, Claude e Perplexity com parâmetros de prompt pré-preenchidos.
Os analistas da Microsoft identificaram essa tendência crescente ao revisar URLs relacionados a IA observados no tráfego de e-mail ao longo de 60 dias. Ferramentas gratuitas, como o pacote NPM CiteMET e o AI Share URL Creator, fornecem código pronto para uso para adicionar botões de manipulação de memória a sites, comercializados como "hacks de crescimento de SEO" para assistentes de IA.
Impacto e mitigação
O envenenamento de memória ocorre porque os assistentes de IA armazenam preferências e instruções do usuário que persistem entre sessões. Uma vez que o prompt malicioso é executado, ele se instala como uma preferência de usuário legítima na memória da IA, que passa a tratar essa instrução injetada como uma orientação autêntica, favorecendo repetidamente o conteúdo do atacante em conversas subsequentes.
A Microsoft implementou mitigações contra ataques de injeção de prompt no Copilot e continua implantando proteções. Os usuários devem verificar regularmente as configurações de memória de sua IA, evitar clicar em links relacionados a IA de fontes não confiáveis e questionar recomendações suspeitas pedindo à sua IA para explicar seu raciocínio.