Descrição técnica
O problema ocorre no processo de desserialização de tensores dentro de entrypoints/renderer.py (linha 148), quando o código chama torch.load() para carregar tensores serializados sem validações suficientes. Uma mudança introduzida no PyTorch 2.8.0 desativou por padrão checagens de integridade de sparse tensors, criando a superfície de ataque que pode ser explorada por payloads especialmente forjados.
Vetor de exploração
Ao enviar embeddings maliciosos através da API de Completions, um ator pode induzir a conversão to_dense() em tensores manipulados, resultando em escrita fora dos limites (out-of-bounds) e consequente corrupção de memória. O efeito pode variar de crash (denial-of-service) até, em cenários mais graves, execução arbitrária de código no processo do servidor vLLM.
Atributos públicos e alcance
- CVE: CVE-2025-62164;
- CVSS: 8.8/10 (classificada como High);
- Produtos afetados: vLLM (disponível via pip);
- Versões afetadas: versões >= 0.10.2.
Quem está em risco
Todas as implantações que executam vLLM como servidor e desserializam conteúdo não confiável (por exemplo, embeddings fornecidos por usuários ou modelos) são potencialmente afetadas. O ataque pode ser realizado por qualquer entidade com acesso à API, e a necessidade de autenticação depende da configuração do serviço, o que significa que tanto usuários autenticados quanto não autenticados podem explorar a falha em determinados cenários.
Mitigações e correção
O projeto vLLM publicou correção via pull request (#27204) e recomenda atualização imediata para a versão corrigida. Como medidas complementares emergenciais, administradores devem:
- Restringir o acesso à API de Completions apenas a usuários/trust anchors confiáveis;
- Inserir camadas de validação que inspecionem e rejeitem embeddings serializados não esperados antes de desserializar com torch.load();
- Isolar processos que desserializam contento externo em sandboxes e aplicar controles de integridade de memória e monitoramento;
- Revisar uso de dependências (como PyTorch) e considerar configurações que reativem checagens de integridade onde aplicável.
Divulgação e atribuição
A vulnerabilidade foi descoberta e divulgada de forma coordenada pela AXION Security Research Team. O projeto vLLM publicou a correção e recomenda que operadores atualizem imediatamente. As fontes destacam a importância da validação de entradas e do princípio de mínima confiança para componentes que desserializam objetos binários.
Implicações para infraestrutura de IA
Esta falha salienta riscos específicos da cadeia de processamento de modelos: pipelines que aceitam objetos binários ou tensores apresentados por usuários ou por modelos terceiros podem introduzir vetores de execução remota se a desserialização ocorrer sem validação. Operadores de infraestruturas compartilhadas (multi-tenant) e serviços em nuvem que expõem endpoints de inferência devem priorizar correções e revisão de políticas de acesso.
Conclusão
CVE-2025-62164 é uma vulnerabilidade de alta gravidade que afeta versões vLLM >= 0.10.2 via desserialização insegura de tensores; a correção está disponível e a mitigação imediata deve incluir atualização, restrição de acesso e validação de payloads antes da desserialização.