Tencent Presenta Voyager: Un Modelo de IA de Alta Potencia para Convertir Video en Mundos 3D
Visión General de Voyager
El nuevo modelo de IA de Tencent, Voyager, extiende la suite Hunyuan de la empresa, que ya incluye Hunyuan3D-2 para la generación de texto a 3D y HunyuanVideo para la síntesis de video. Voyager se centra en convertir clips de video existentes en mundos tridimensionales que se pueden explorar de manera interactiva.
Metodología de Entrenamiento
Los investigadores construyeron un software que analiza automáticamente el footage de video para extraer los movimientos de la cámara y calcular la profundidad por frame. Este enfoque eliminó la necesidad de etiquetado manual laborioso de miles de horas de footage. El sistema procesó más de 100,000 clips de video extraídos de grabaciones del mundo real y renders generados con el Unreal Engine.
Requisitos de Hardware
Ejecutar Voyager a una resolución de 540p requiere un mínimo de 60 GB de memoria de GPU, mientras que Tencent recomienda 80 GB para resultados óptimos. El modelo puede operar en configuraciones de una sola GPU o múltiples GPU; utilizar ocho GPU entrega velocidades de procesamiento aproximadamente 6,69 veces más rápidas que una configuración de una sola GPU.
Restricciones de Licencia
La licencia del modelo prohíbe su uso en la Unión Europea, el Reino Unido y Corea del Sur. Además, cualquier despliegue comercial que sirva a más de 100 millones de usuarios activos mensuales debe obtener un acuerdo de licencia separado de Tencent.
Rendimiento en la Benchmark
En la benchmark WorldScore creada por investigadores de la Universidad de Stanford, Voyager alcanzó la puntuación general más alta de 77,62, superando a WonderWorld con 72,69 y CogVideoX-I2V con 62,15. Voyager destacó en control de objeto (66,92), consistencia de estilo (84,89) y calidad subjetiva (71,09). Ocupó el segundo lugar en control de cámara con una puntuación de 85,95, detrás de WonderWorld con 92,98.
Consideraciones de Despliegue
A pesar de los sólidos resultados de la benchmark, las demandas computacionales del modelo presentan desafíos para una adopción generalizada. Los desarrolladores que buscan una inferencia más rápida pueden aprovechar el marco xDiT para el procesamiento paralelo en múltiples GPU.
Perspectiva Futura
La capacidad de Voyager para generar mundos 3D coherentes a partir de video marca un paso hacia experiencias generativas más inmersivas, aunque las aplicaciones interactivas en tiempo real pueden estar aún lejos debido a la potencia de hardware requerida.
Usado: News Factory APP - descubrimiento de noticias y automatización - ChatGPT para Empresas