vLLM (CVE-2025-62164): RCE via deserialização de tensores em embeddings | Riscos e Ameaças

A vulnerabilidade CVE-2025-62164 em vLLM (>= 0.10.2) permite corrupção de memória e potencial execução remota via desserialização de tensores em torch.load(); CVSS 8.8 — correção disponível em PR #27204.

Uma vulnerabilidade de corrupção de memória em vLLM (CVE-2025-62164) permite execução remota de código ao processar embeddings maliciosos enviados ao endpoint de Completions; o bug afeta versões 0.10.2 e superiores e teve CVSS 8.8/10 atribuído.

Descrição técnica

O problema ocorre no processo de desserialização de tensores dentro de entrypoints/renderer.py (linha 148), quando o código chama torch.load() para carregar tensores serializados sem validações suficientes. Uma mudança introduzida no PyTorch 2.8.0 desativou por padrão checagens de integridade de sparse tensors, criando a superfície de ataque que pode ser explorada por payloads especialmente forjados.

Vetor de exploração

Ao enviar embeddings maliciosos através da API de Completions, um ator pode induzir a conversão to_dense() em tensores manipulados, resultando em escrita fora dos limites (out-of-bounds) e consequente corrupção de memória. O efeito pode variar de crash (denial-of-service) até, em cenários mais graves, execução arbitrária de código no processo do servidor vLLM.

Atributos públicos e alcance

CVE: CVE-2025-62164;
CVSS: 8.8/10 (classificada como High);
Produtos afetados: vLLM (disponível via pip);
Versões afetadas: versões >= 0.10.2.

Quem está em risco

Todas as implantações que executam vLLM como servidor e desserializam conteúdo não confiável (por exemplo, embeddings fornecidos por usuários ou modelos) são potencialmente afetadas. O ataque pode ser realizado por qualquer entidade com acesso à API, e a necessidade de autenticação depende da configuração do serviço, o que significa que tanto usuários autenticados quanto não autenticados podem explorar a falha em determinados cenários.

Mitigações e correção

O projeto vLLM publicou correção via pull request (#27204) e recomenda atualização imediata para a versão corrigida. Como medidas complementares emergenciais, administradores devem:

Restringir o acesso à API de Completions apenas a usuários/trust anchors confiáveis;
Inserir camadas de validação que inspecionem e rejeitem embeddings serializados não esperados antes de desserializar com torch.load();
Isolar processos que desserializam contento externo em sandboxes e aplicar controles de integridade de memória e monitoramento;
Revisar uso de dependências (como PyTorch) e considerar configurações que reativem checagens de integridade onde aplicável.

Divulgação e atribuição

A vulnerabilidade foi descoberta e divulgada de forma coordenada pela AXION Security Research Team. O projeto vLLM publicou a correção e recomenda que operadores atualizem imediatamente. As fontes destacam a importância da validação de entradas e do princípio de mínima confiança para componentes que desserializam objetos binários.

Implicações para infraestrutura de IA

Esta falha salienta riscos específicos da cadeia de processamento de modelos: pipelines que aceitam objetos binários ou tensores apresentados por usuários ou por modelos terceiros podem introduzir vetores de execução remota se a desserialização ocorrer sem validação. Operadores de infraestruturas compartilhadas (multi-tenant) e serviços em nuvem que expõem endpoints de inferência devem priorizar correções e revisão de políticas de acesso.

Conclusão

CVE-2025-62164 é uma vulnerabilidade de alta gravidade que afeta versões vLLM >= 0.10.2 via desserialização insegura de tensores; a correção está disponível e a mitigação imediata deve incluir atualização, restrição de acesso e validação de payloads antes da desserialização.