Voltar

Tencent Apresenta o Voyager: Um Modelo de IA de Alta Potência para Converter Vídeo em Mundos 3D

Tencent Apresenta o Voyager: Um Modelo de IA de Alta Potência para Converter Vídeo em Mundos 3D

Visão Geral do Voyager

O novo modelo de IA da Tencent, o Voyager, estende a suite Hunyuan da empresa, que já inclui o Hunyuan3D-2 para geração de 3D a partir de texto e o HunyuanVideo para síntese de vídeo. O Voyager se concentra em converter cliques de vídeo existentes em mundos tridimensionais que podem ser explorados de forma interativa.

Métodologia de Treinamento

Pesquisadores construíram um software que analisa automaticamente imagens de vídeo para extrair movimentos de câmera e calcular a profundidade por frame. Essa abordagem removeu a necessidade de marcação manual laboriosa de milhares de horas de imagens. O sistema processou mais de 100.000 cliques de vídeo tirados de gravações do mundo real e renderizações geradas com o Unreal Engine.

Requisitos de Hardware

Executar o Voyager em uma resolução de 540p requer um mínimo de 60 GB de memória de GPU, enquanto a Tencent recomenda 80 GB para resultados ótimos. O modelo pode operar em configurações de GPU única ou multi-GPU; usar oito GPUs entrega velocidades de processamento aproximadamente 6,69 vezes mais rápidas do que uma configuração de GPU única.

Restrições de Licenciamento

A licença do modelo proíbe o uso na União Europeia, o Reino Unido e a Coreia do Sul. Além disso, qualquer implantação comercial que atenda a mais de 100 milhões de usuários ativos por mês deve obter um acordo de licenciamento separado da Tencent.

Desempenho em Benchmark

No benchmark WorldScore criado por pesquisadores da Universidade de Stanford, o Voyager alcançou a pontuação geral mais alta de 77,62, superando a WonderWorld com 72,69 e a CogVideoX-I2V com 62,15. O Voyager se destacou no controle de objeto (66,92), consistência de estilo (84,89) e qualidade subjetiva (71,09). Ele ficou em segundo lugar no controle de câmera com uma pontuação de 85,95, atrás da WonderWorld com 92,98.

Considerações de Implantação

Apesar dos fortes resultados de benchmark, as demandas computacionais do modelo apresentam desafios para a adoção generalizada. Desenvolvedores que buscam inferência mais rápida podem aproveitar a estrutura xDiT para processamento paralelo em múltiplas GPUs.

Perspectiva Futura

A capacidade do Voyager de gerar mundos 3D coerentes a partir de vídeo marca um passo em direção a experiências gerativas mais imersivas, embora aplicações interativas em tempo real possam ainda estar um pouco longe devido ao poder de hardware necessário.

Usado: News Factory APP - descoberta e automação de notícias - ChatGPT para Empresas

Também disponível em: