ShadowMQ: RCE críticos em engines de inference afetam Meta, NVIDIA e Microsoft | Riscos e Ameaças

Pesquisadores descobriram a família ShadowMQ: RCEs críticos em engines de inference que surgem da combinação insegura de ZeroMQ e desserialização via pickle. CVEs afetam Meta Llama Stack, vLLM, NVIDIA TensorRT-LLM e outros; Microsoft e SGLang têm correções incompletas.

Pesquisadores de segurança identificaram um conjunto de falhas de execução remota de código (RCE) na infraestrutura de inference usada por diversos frameworks de IA. O problema, agrupado sob o nome ShadowMQ, tem impacto amplo por causa do reuso de código entre projetos e da combinação insegura de ZeroMQ com desserialização via pickle.

Descoberta e escopo

A investigação começou com a análise do Llama Stack da Meta, onde foi observada a chamada ZMQ recv_pyobj() que faz desserialização usando o pickle — uma combinação insegura quando usada com dados de origem não confiável. Após a correção inicial (CVE-2024-50050), padrões idênticos foram encontrados em outros projetos.

Produtos e CVEs relacionados

O levantamento público relaciona as seguintes entradas e pontuações:

CVE-2024-50050 — Meta Llama Stack — Critical — CVSS 9.8
CVE-2025-30165 — vLLM — Critical — CVSS 9.8
CVE-2025-23254 — NVIDIA TensorRT-LLM — Critical — CVSS 9.3
CVE-2025-60455 — Modular Max Server — Critical — CVSS 9.8
Microsoft Sarathi-Serve — listado como crítico (9.8) mas sem CVE público/patch completo
SGLang — marcado como crítico com correção incompleta (9.8) em investigações

Vetor técnico

O vetor comum é a exposição de sockets ZMQ sem autenticação que recebem objetos Python via recv_pyobj(), os quais são posteriormente desserializados pelo pickle. Essa operação permite execução arbitrária de código se dados controlados por um atacante chegarem ao endpoint. O problema se espalhou por cópia de arquivos entre projetos — análise de código mostrou blocos duplicados que propagaram a vulnerabilidade.

Impacto potencial

Servidores de inference executam código que pode processar dados sensíveis e modelos proprietários em clusters GPU. Exploração bem-sucedida pode levar à execução remota, escalonamento de privilégios, exfiltração de modelos e dados, ou instalação de cargas indesejadas (ex.: miners). A lista de organizações que utilizam implementações relacionadas (incluindo grandes clouds e institutos de pesquisa) amplia o risco na cadeia de fornecimento de IA.

Mitigações urgentes

Atualizar para versões corrigidas sempre que disponíveis (CVE-IDs listados);
Evitar uso de pickle para desserializar dados não confiáveis;
Habilitar autenticação e criptografia em endpoints ZMQ;
Restringir acesso de rede a endpoints de inference e bloquear exposição pública de sockets ZMQ.

Limites das informações

Relatos apontam que Microsoft Sarathi-Serve e SGLang ainda apresentam correções incompletas ou estão sem CVE público. As fontes identificam milhares de sockets ZMQ expostos na internet, mas não quantificam diretamente instalações afetadas por fornecedor. As recomendações são conservadoras e baseadas no padrão técnico identificado.

Contexto e próximos passos

Além da correção pontual, o caso ilustra como reuso de código entre projetos de IA pode propagar falhas graves. Equipes de segurança de plataformas e de desenvolvimento devem revisar dependências, substituir desserialização insegura e aplicar controles de rede e autenticação sobre comunicações de inference.