Introdução
Pesquisadores da Checkmarx demonstraram uma técnica chamada "Lies‑in‑the‑Loop" (LITL) que manipula diálogos de aprovação Human‑In‑The‑Loop (HITL) em assistentes de código para induzir execução remota de comandos. Plataformas citadas incluem Claude Code e Microsoft Copilot Chat.
Descoberta e escopo
A técnica explora a confiança depositada em diálogos de confirmação que deveriam impedir execução de operações sensíveis sem consentimento explícito. Em cenários demonstrados, o atacante injeta conteúdo malicioso no contexto do agente (prompt injection) de forma indireta, levando o agente a produzir um HITL que aparenta conter apenas instruções benignas, enquanto o payload perigoso fica fora da vista imediata do usuário.
Vetor e evidências
Os pesquisadores descrevem três vetores principais na cadeia de ataque:
- Injeção de prompt ou conteúdo malicioso em fontes externas (repositórios, páginas web) que alimentam o contexto do agente.
- Geração automática de um diálogo HITL que, superficialmente, parece legítimo.
- Aprovação humana do diálogo sem verificação suficiente do conteúdo oculto, levando à execução do payload.
Como prova de conceito, a técnica foi capaz de executar calculator.exe em demonstração controlada. Checkmarx também mostrou que a combinação com vulnerabilidades de rendering em Markdown permite forjar diálogos inteiros, tornando a detecção por inspeção humana mais difícil.
Evidências e limites
Anthropic e Microsoft reconheceram os achados, mas consideraram o vetor fora de seus modelos de ameaça atuais, argumentando que múltiplas ações não‑padrão são necessárias para exploração. Os limites conhecidos pelo relatório incluem a necessidade de um agente com capacidade de executar comandos no ambiente do usuário e a presença de uma superfície que aceite conteúdo externo no contexto do modelo.
Implicações para segurança de agentes e práticas DevSecOps
O LITL representa um desafio de design: mecanismos HITL tradicionalmente supõem que o que é mostrado ao humano corresponde exatamente ao que será executado. Quando essa correspondência pode ser manipulada pelo contexto do agente, o controle humano perde eficácia.
Implicações práticas:
- Rever o modelo de confiança dos diálogos HITL: exibir a representação canônica do código/comando que será executado, não apenas um resumo gerado pelo agente.
- Isolar ambientes de execução: utilizar sandboxes restritivos que não permitam ações perigosas mesmo com aprovação acidental.
- Validações automatizadas complementares: SAST/DAST aplicados ao payload proposto antes de qualquer execução automática.
Recomendações imediatas
Para equipes que usam assistentes de código em ambiente produtivo:
- Desabilitar execuções automáticas sensíveis por agentes até que haja validação independente do payload.
- Exigir exibição do conteúdo bruto (diferença entre o que é visível e o que será executado) e hashes verificáveis antes de autorizar a execução.
- Aplicar políticas de ingestão de conteúdo para agentes: bloquear fontes não verificadas e usar whitelists para repositórios externos.
Observação final
O relatório fornece provas de conceito claras, mas também identifica limitações práticas para exploração em larga escala. Ainda assim, trata‑se de uma categoria de risco emergente: conforme agentes ganham autonomia, controles humanos tradicionais podem ser insuficientes se o canal humano for manipulável. Falta ao texto um inventário público de instâncias vulneráveis em produção, o que impede avaliar o risco sistêmico imediato.