A empresa vai encerrar o Sora nas versões para consumidores e para desenvolvedores. Ela também deixará de oferecer a funcionalidade de vídeo no ChatGPT, segundo o Wall Street Journal.
A transação teria duração de três anos, mas não chegou a ser formalizada pelas companhias.
Vídeo criado com a inteligência artificial Sora mostra mamutes caminhando no gelo — Foto: Divulgação/OpenAI
O fim do Sora surpreendeu equipe da Disney, que se reuniu com integrantes da OpenAI na segunda-feira (23) para tratar de um projeto relacionado ao gerador de vídeos, informou a Reuters.
A Disney informou por meio de um porta-voz que respeita “a decisão da OpenAI de sair do negócio de geração de vídeo e redirecionar suas prioridades para outras áreas”. As empresas discutem agora se existe outra possibilidade de parceria ou investimento mútuo, segundo uma fonte da Reuters.
E, apesar de o destino do serviço ser discutido há algum tempo, o anúncio pegou desprevenidos até mesmo alguns funcionários da OpenAI. O blog da empresa tinha publicado na segunda um comunicado sobre padrões de segurança da ferramenta.
“Estamos nos despedindo do Sora. Sabemos que essa notícia é decepcionante”, disse a equipe do aplicativo em uma publicação no X.
Por que a OpenAI vai encerrar o Sora
A OpenAI tem concentrado esforços em agentes de IA, que executam tarefas automaticamente e são mais proativos do que os assistentes, mais dependentes da interação humana.
“À medida que nosso foco e a demanda por capacidade computacional aumentam, a equipe de pesquisa do Sora continua dedicada à pesquisa em simulação de mundo para avançar a robótica que ajudará as pessoas a resolver tarefas físicas do mundo real”, informou a OpenAI ao g1.
Os agentes de IA exigem ainda mais capacidade computacional e, por isso, a empresa precisa decidir como alocar seus recursos.
O Sora foi lançado em 2024 como um modelo de inteligência artificial capaz de criar vídeos realistas a partir de textos curtos.
Ele gera as gravações a partir de uma técnica conhecida como “difusão”, que cria imagens a partir de pontos aleatórios.
No começo do processo, o vídeo tem uma aparência de ruído estático, o efeito de TVs antigas que estão sem sinal. E, aos poucos, o visual é transformado em algo que pode ser reconhecido por um ser humano.

