Semantic Chaining: jailbreak multi‑turn que contorna filtros de Grok e Gemini | Tendências

NeuralTrust divulgou Semantic Chaining, técnica que usa cadeias de prompts para contornar filtros de segurança em modelos multimodais como Grok 4 e Gemini Nano, incluindo a possibilidade de embutir texto proibido em imagens. A abordagem evidencia "blind spots" em arquiteturas reativas e recomenda controles baseados em intenção e histórico.

Pesquisadores da NeuralTrust divulgaram uma técnica chamada Semantic Chaining que subverte mecanismos de segurança em modelos multimodais como Grok 4 e Gemini Nano (Banana Pro), usando cadeias de prompts para produzir conteúdo proibido.

Descrição do ataque

O ataque não depende de um único prompt malicioso. Em vez disso, utiliza uma sequência de etapas inocentes que acumulam intenção, resultando em saída que os filtros de segurança rejeitariam se fossem expostos diretamente. A técnica explora fragilidades em sistemas que avaliam conteúdo de forma isolada por requisição.

Fluxo de exploração

Conforme demonstrado pela NeuralTrust, o método segue um padrão em quatro fases:

Safe Base: iniciar com uma cena neutra para contornar bloqueios iniciais;
First Substitution: alterar um elemento benigno para mover o modelo ao modo de edição;
Critical Pivot: trocar o elemento por conteúdo sensível em contexto de modificação;
Final Execution: solicitar apenas a renderização final, que contém o conteúdo proibido.

Evasão de filtros e vetor multimodal

Um ponto crítico levantado é que filtros que restringem texto podem ser contornados ao incorporar instruções ou material proibido em imagens (por exemplo, "posters educacionais" ou diagramas). Enquanto respostas textuais são bloqueadas, renderizações de pixels contendo texto escapam de verificações direcionadas apenas ao texto de entrada.

Modelos afetados e exemplos

A divulgação inclui exemplos onde Grok 4 e Gemini Nano Banana Pro foram capazes de gerar ou renderizar conteúdo proibido via a técnica. Casos de teste citados incluem substituições históricas, inserção em material pedagógico e narrativas artísticas que mascaram intenção maliciosa.

Limitações e recomendações

O trabalho aponta que arquiteturas reativas, que avaliam prompts isoladamente, têm "blind spots" quando confrontadas com raciocínio em múltiplas etapas. As recomendações dos pesquisadores incluem abordagem de segurança orientada por intenção (intent‑governed) e ferramentas proativas que monitoram histórico de conversas e estados contextuais, reduzindo a superfície explorável por cadeias de comandos.

Impacto para empresas

Para equipes que implantam modelos multimodais, a divulgação reforça a necessidade de avaliar controles em múltiplos níveis: detecção de cadeias de prompts, verificações de conteúdo embutido em imagens e políticas de monitoramento de histórico de sessões. O comunicado da NeuralTrust serve como alerta para revisar defesas de modelos que aceitam operações multi‑turno e edição de imagens.