Início Tecnologia Google DeepMind apresenta um novo modelo de vídeo para rivalizar com Sora

Google DeepMind apresenta um novo modelo de vídeo para rivalizar com Sora

32
0

O Google DeepMind, principal laboratório de pesquisa de IA do Google, quer vencer o OpenAI no jogo de geração de vídeo, e pode conseguir, pelo menos por um tempo.

Na segunda-feira, a DeepMind anunciou o Veo 2, uma IA de geração de vídeo de próxima geração e sucessora do Eu vejoque alimenta um crescente número de produtos em todo o portfólio do Google. O Veo 2 pode criar clipes com mais de dois minutos em resoluções de até 4K (4096 x 2160 pixels).

Notavelmente, isso representa 4 vezes a resolução e mais de 6 vezes a duração, de acordo com a OpenAI. Sora pode alcançar.

É uma vantagem teórica por enquanto, é claro. Na ferramenta experimental de criação de vídeo do Google, VideoFX, onde o Veo 2 agora está disponível exclusivamente, os vídeos são limitados a 720p e têm oito segundos de duração. (Sora pode produzir clipes de até 1080p e 20 segundos de duração.)

Vejo 2 no VideoFX.Créditos da imagem:Google

O VideoFX está em lista de espera, mas o Google afirma que está ampliando o número de usuários que podem acessá-lo esta semana.

Eli Collins, vice-presidente de produto da DeepMind, também disse ao TechCrunch que o Google disponibilizará o Veo 2 por meio de seu Vértice AI plataforma de desenvolvimento “já que o modelo está pronto para uso em escala.”

“Nos próximos meses, continuaremos a iterar com base no feedback dos usuários”, disse Collins, “e (procuraremos) integrar os recursos atualizados do Veo 2 em casos de uso atraentes em todo o ecossistema do Google… (Esperamos) compartilhar mais atualizações no próximo ano.

Mais controlável

Assim como o Veo, o Veo 2 pode gerar vídeos com uma mensagem de texto (por exemplo, “Um carro em alta velocidade em uma rodovia”) ou texto e uma imagem de referência.

O que há de novo no Veo 2? Bem, DeepMind diz que o modelo, que pode gerar clipes em uma variedade de estilos, tem uma “compreensão” aprimorada da física e dos controles da câmera e produz imagens “mais nítidas”.

Por mais claro, DeepMind significa que as texturas e imagens nos clipes são mais nítidas, especialmente em cenas com muito movimento. Quanto aos controles de câmera aprimorados, eles permitem que o Veo 2 posicione a “câmera” virtual nos vídeos que gera com mais precisão e mova essa câmera para capturar objetos e pessoas de diferentes ângulos.

DeepMind também afirma que o Veo 2 pode modelar de forma mais realista o movimento, a dinâmica dos fluidos (como o café sendo servido em uma xícara) e as propriedades da luz (como sombras e reflexos). Isso inclui diferentes lentes e efeitos cinematográficos, diz DeepMind, bem como expressões humanas “matizadas”.

Google eu vejo 2
Exemplo 2 do Google Spy. Observe que artefatos de compactação foram introduzidos na conversão do clipe para GIF. Créditos da imagem:Google

DeepMind compartilhou algumas amostras escolhidas a dedo do Veo 2 com o TechCrunch na semana passada. Para vídeos gerados por IA, eles pareciam muito bons, até excepcionalmente bons. I Spy 2 parece ter um conhecimento profundo de refração e líquidos complicados, como xarope de bordo, e um talento especial para emular animações no estilo Pixar.

Mas apesar da insistência da DeepMind de que o modelo é menos provável alucinar Elementos como dedos extras ou “objetos inesperados”, I Spy 2 não conseguem limpar o vale misterioso.

Observe os olhos sem vida nesta criatura parecida com um cachorro de desenho animado:

Google eu vejo 2
Créditos da imagem:Google

E a estrada estranhamente escorregadia nesta filmagem, além dos pedestres ao fundo se misturando e dos prédios com fachadas fisicamente impossíveis:

Google eu vejo 2
Créditos da imagem:Google

Collins admitiu que há trabalho a ser feito.

“Coerência e consistência são áreas de crescimento”, disse ele. “O Veo pode seguir constantemente um prompt por alguns minutos, mas (não pode) seguir prompts complexos em longos horizontes. Da mesma forma, a consistência do caráter pode ser um desafio. “Também há espaço para melhorias na geração de detalhes intrincados, movimentos rápidos e complexos e na continuação da expansão dos limites do realismo.”

A DeepMind continua trabalhando com artistas e produtores para refinar seus modelos e ferramentas de geração de vídeo, acrescentou Collins.

“Começamos a trabalhar com criativos como Donald Glover, The Weeknd, d4vd e outros no início do desenvolvimento do Veo para realmente entender seu processo criativo e como a tecnologia poderia ajudar a dar vida à sua visão”, disse Collins. “Nosso trabalho com os criadores do Veo 1 informou o desenvolvimento do Veo 2 e estamos ansiosos para trabalhar com criadores e testadores confiáveis ​​para obter feedback sobre este novo modelo.”

Segurança e treinamento

Vejo que 2 foi treinado com muitos vídeos. Geralmente é assim que os modelos de IA funcionam: munidos de exemplo após exemplo de algum tipo de dados, os modelos detectam padrões nos dados que lhes permitem gerar novos dados.

A DeepMind não diz exatamente onde extraiu os vídeos para treinar o Veo 2, mas o YouTube é uma possível fonte; Google é dono do YouTube e DeepMind anteriormente disse ao TechCrunch que modelos do Google como o Veo “podem” ser treinados em algum conteúdo do YouTube.

“Veo foi treinado em combinações de vídeo e descrição de alta qualidade”, disse Collins. “Os pares de descrição de vídeo são um vídeo e uma descrição associada do que está acontecendo nesse vídeo.”

Google eu vejo 2
Créditos da imagem:Google

Embora a DeepMind, por meio do Google, hospede ferramentas que permitem aos webmasters impedir que robôs de laboratório extraiam dados de treinamento de seus sites, a DeepMind não oferece um mecanismo que permita aos criadores remover trabalhos de seus conjuntos de treinamento existentes. O laboratório e sua controladora afirmam que os modelos de treinamento que usam dados públicos são uso justoo que significa que a DeepMind acredita que não é obrigado a pedir permissão aos proprietários dos dados.

Nem todos os criativos concordam, especialmente à luz estudos Estima-se que a IA poderá perturbar dezenas de milhares de empregos no cinema e na televisão nos próximos anos. Várias empresas de IA, incluindo a startup de mesmo nome por trás do popular aplicativo de arte de IA Midjourney, estão a caminho. mira de demandas acusando-os de infringir os direitos dos artistas ao formar conteúdo sem consentimento.

“Estamos comprometidos em trabalhar em colaboração com os criadores e nossos parceiros para atingir objetivos comuns”, disse Collins. “Continuamos a trabalhar com a comunidade criativa e pessoas de toda a indústria, reunindo ideias e ouvindo feedback, incluindo aqueles que usam VideoFX.”

Graças à forma como os modelos generativos atuais se comportam quando treinados, eles apresentam certos riscos, como a regurgitação, que se refere a quando um modelo gera uma cópia espelhada dos dados de treinamento. A solução da DeepMind são filtros em nível de mensagem, mesmo para conteúdo violento, gráfico e explícito.

do Google política de compensaçãoque fornece uma defesa a certos clientes contra alegações de violação de direitos autorais decorrentes do uso de seus produtos, não se aplicará ao Veo 2 até que esteja amplamente disponível, disse Collins.

Google eu vejo 2
Créditos da imagem:Google

Para mitigar o risco de deepfakes, a DeepMind diz que está usando sua tecnologia proprietária de marca d’água, SynthID, para incorporar marcadores invisíveis nos quadros gerados pelo Veo 2. No entanto, como toda tecnologia de marca d’água, SynthID não é infalível.

Atualizações de imagem

Além do Veo 2, o Google DeepMind anunciou esta manhã atualizações para Imagem 3seu modelo de geração de imagem comercial.

A partir de hoje, uma nova versão do Image 3 está sendo lançada para usuários do ImageFX, ferramenta de geração de imagens do Google. Ele pode criar imagens e fotografias “mais brilhantes e melhor compostas” em estilos como fotorrealismo, impressionismo e anime, de acordo com DeepMind.

“Esta atualização (para a Imagem 3) também segue as dicas mais de perto e produz detalhes e texturas mais ricos”, escreveu DeepMind em uma postagem de blog fornecida ao TechCrunch.

Imagem de GoogleFX
Créditos da imagem:Google

Atualizações de interface do usuário para ImageFX estão sendo implementadas junto com o modelo. Agora, quando os usuários escrevem mensagens, os termos-chave nessas mensagens se tornarão “chiplets” com um menu suspenso de palavras sugeridas e relacionadas. Os usuários podem usar os chips para repetir o que digitaram ou selecionar em uma linha de descritores gerados automaticamente abaixo da mensagem.

Fuente

LEAVE A REPLY

Please enter your comment!
Please enter your name here