Vulnerabilidade crítica em OpenAI Sora 2 permite extrair system prompt via áudio | Tendências

Pesquisa da Mindgard demonstra que é possível reconstruir o system prompt do modelo multimodal Sora 2 utilizando transcrições de áudios gerados pelo próprio modelo; a técnica usa clipes curtos de fala e montagem sequencial e expõe riscos de vazamento de instruções internas em sistemas de IA multimodal.

Uma técnica de extração descrita por pesquisadores permite recuperar partes do system prompt do modelo multimodal Sora 2 a partir de transcrições de áudio geradas pelo próprio modelo, levantando riscos sobre confidencialidade de instruções internas em sistemas multimodais.

Descoberta e panorama

O pesquisador Aaron Portnoy e a equipe da Mindgard publicaram em 12 de novembro de 2025 um detalhamento sobre como combinações de prompt em texto, imagem, vídeo e áudio podem levar à divulgação de instruções internas — o chamado system prompt — no modelo de geração de vídeo Sora 2. As fontes indicam que os testes começaram em 3 de novembro de 2025.

Abordagem técnica

Segundo o relatório, métodos visuais (renderizar texto em frames de vídeo ou imagens) falharam por distorções de glyphs e inconsistências entre frames. Formatos codificados (QR, códigos de barras) também produziram artefatos indecifráveis. O avanço ocorreu ao gerar fala em clipes curtos (~15 segundos) e transcrever o áudio resultante: fragmentos de áudio foram transcritos com alta fidelidade e depois concatenados, permitindo reconstruir um prompt quase completo.

A técnica explorada é, portanto, cross-modal: a transformação entre modalidades (texto → áudio via vídeo) contorna ruídos que impedem extração por meios puramente visuais. As fontes descrevem que esse fluxo sequencial tende a preservar informação em ordem, o que facilita a montagem posterior do conteúdo original.

Conteúdo recuperado e implicações

O prompt reconstruído inclui instruções operacionais como prioridade de metadados, restrições a personagens com direitos autorais e regras de segurança (por exemplo, proibição de conteúdo sexual sugestivo sem solicitação explícita), além de parâmetros fixos de geração (duração de 15s, aspect ratio 1.78). Embora as fontes avaliem o risco imediato como baixo para o prompt específico, alertam que a técnica pode ser aplicada a alvos mais sensíveis, como integrações de agentes ou pipelines com regras proprietárias.

Responsabilidade e resposta

Após a divulgação da pesquisa, a OpenAI reconheceu a questão e solicitou receber um rascunho antes da publicação, segundo as fontes. A Mindgard classifica system prompts como segredos de configuração — comparáveis a regras de firewall — e recomenda que organizações tratem esses artefatos como propriedade sensível durante desenvolvimento, testes e implantação.

Mitigações e recomendações práticas

Inserir limites de comprimento e shardings controlados nas saídas multimodais;
Testes específicos de red-teaming voltados a áudio e vídeo, não só texto;
Considerar prompts como segredos de configuração e aplicar controles de acesso e auditoria;
Monitorar e limitar operações que gerem sequências de áudio transmissíveis e passíveis de transcrição automática.

O que falta saber

As fontes não detalham se a técnica já foi usada em ataques dirigidos contra sistemas de produção nem quantas instâncias de Sora 2, se houver, estariam expostas em cenários práticos. Também não há informações públicas sobre correções específicas da OpenAI; a companhia foi notificada no processo de divulgação coordenada.

Contexto

À medida que modelos multimodais se espalham, vetores indiretos de exfiltração — aqui via transformação entre modalidades — passam a merecer atenção formal nas avaliações de risco. A descoberta sublinha a necessidade de ampliar os testes de segurança além do domínio textual para incluir geração de imagens, vídeo e áudio.