Falha crítica no SGLang permite execução remota de código via modelos GGUF | Vazamento de dados

Falha crítica CVE-2026-5760 no SGLang permite RCE via modelos GGUF. Veja como a SSTI afeta servidores de inferência de IA e como mitigar o risco.

Uma vulnerabilidade crítica no servidor de inferência SGLang permite que atores de ameaça executem código arbitrário. Rastreada como CVE-2026-5760, essa falha permite que hackers armem modelos de aprendizado de máquina GGUF padrão para comprometer os servidores subjacentes que os hospedam.

Conforme os implantamentos de inteligência artificial empresarial crescem, essa descoberta destaca os riscos severos de infraestrutura impostos pelo carregamento de modelos de IA não confiáveis de repositórios públicos como o Hugging Face. A causa raiz dessa vulnerabilidade reside na maneira como o SGLang processa modelos de conversação fornecidos por modelos de aprendizado de máquina.

Renderização de modelo não isolada

Especificamente, a falha existe dentro do endpoint de reclassificação do framework, acessado via o caminho de API /v1/rerank. Quando o SGLang renderiza esses modelos de chat, os desenvolvedores o configuraram para usar um mecanismo de modelo Jinja2 padrão via a configuração environment() em vez de uma alternativa segura e isolada.

Porque o sistema falha em isolar ou restringir o processo de renderização de modelo, qualquer script Python incorporado nos metadados de um modelo será executado automaticamente. Essa falha cria uma vulnerabilidade de Injeção de Modelo de Lado do Servidor (SSTI) de livro didático, concedendo aos atacantes controle total sobre o servidor de inferência de IA.

Para explorar essa vulnerabilidade, um atacante não precisa de acesso direto à infraestrutura de destino ou à rede empresarial. Em vez disso, eles dependem de enganar um administrador de sistema ou um pipeline de implantação automatizado para carregar um arquivo de modelo envenenado.

Mecânica do payload e contexto

De acordo com um exploit de prova de conceito publicado pelo pesquisador de segurança Stuub no GitHub, o ataque se desenrola em uma sequência altamente previsível. O atacante cria um modelo GGUF malicioso que carrega um payload Jinja2 em um modelo de chat manipulado. O atacante incorpora uma frase de gatilho específica para ativar o sistema de detecção de reclassificador Qwen3 do SGLang.

Uma vítima inocente baixa e carrega esse modelo comprometido em seu ambiente SGLang. Um usuário ou aplicativo envia uma solicitação de prompt padrão para o endpoint de reclassificação vulnerável. O servidor lê o modelo de chat envenenado e executa o payload Python incorporado diretamente na máquina host.

O payload malicioso explora uma técnica de escape Jinja2 bem conhecida para executar comandos de sistema. Ao injetar um comando OS popen via variáveis de modelo, o código com sucesso sai dos limites pretendidos do aplicativo para executar comandos de sistema operacional arbitrários. Uma vez que isso acontece, o ator de ameaça alcança Execução Remota de Código (RCE) completa e pode roubar dados sensíveis, instalar malware ou pivotar para outros recursos de rede interna.

Comparação com casos anteriores

Esse vetor de ataque destaca um problema recorrente na paisagem de segurança de inteligência artificial, compartilhando a mesma classe de vulnerabilidade com a notória falha "Llama Drama" que afetou anteriormente bibliotecas semelhantes. Equipes de segurança devem auditar rigorosamente suas cadeias de suprimentos de IA e implantar modelos GGUF apenas de fontes verificadas para evitar comprometimento catastrófico do sistema.

Medidas de mitigação recomendadas

Administradores devem revisar imediatamente suas configurações de SGLang para garantir que o renderizador de modelo esteja isolado. O uso de mecanismos de modelo seguros e sandboxados deve ser priorizado em ambientes de produção. Além disso, a verificação de integridade de modelos de IA antes do carregamento é essencial para prevenir a execução de payloads maliciosos.

O que os CISOs devem fazer imediatamente

Executivos de segurança devem revisar os pipelines de implantação de IA para garantir que apenas modelos verificados sejam carregados. A monitoração de atividade de rede e execução de processos deve ser intensificada para detectar comportamentos anômalos associados a explorações de SSTI. A educação das equipes de desenvolvimento sobre os riscos de modelos de IA não confiáveis é fundamental.