Atrás Dec 2, 2025

Nvidia Presenta Alpamayo-R1, Modelo de Visión-Lenguaje para Investigación de Conducción Autónoma

Nuevo Modelo de Visión-Lenguaje para Conducción Autónoma

Nvidia introdujo Alpamayo-R1, un modelo de visión-lenguaje de código abierto centrado en la investigación de conducción autónoma. Anunciado en la conferencia de inteligencia artificial NeurIPS en San Diego, el modelo procesa tanto datos visuales como textuales, lo que permite a los vehículos percibir su entorno y tomar decisiones matizadas. Nvidia describe Alpamayo-R1 como el primer modelo de visión-lenguaje de acción específicamente dirigido a la conducción autónoma.

Fundamentos Técnicos

El modelo se basa en la arquitectura Cosmos-Reason de Nvidia, un modelo de razonamiento que evalúa las decisiones antes de responder. La familia de modelos Cosmos se lanzó inicialmente en enero de 2025, con modelos adicionales agregados en agosto. Al aprovechar las capacidades de razonamiento de Cosmos-Reason, Alpamayo-R1 busca proporcionar el "sentido común" necesario para la conducción autónoma de nivel 4, donde los vehículos operan completamente de forma autónoma dentro de áreas y condiciones definidas.

Recursos para Desarrolladores y Disponibilidad

Nvidia hizo que Alpamayo-R1 estuviera disponible públicamente en GitHub y Hugging Face, animando a los investigadores y desarrolladores a adoptar el modelo. Junto con el lanzamiento del modelo, Nvidia subió una colección de guías paso a paso, recursos de inferencia y flujos de trabajo de post-entrenamiento a GitHub con el nombre de Cosmos Cookbook. La receta de cocina cubre la curación de datos, la generación de datos sintéticos y la evaluación del modelo, lo que ayuda a los desarrolladores a adaptar los modelos Cosmos a casos de uso específicos.

Contexto de la Industria y Perspectiva de Liderazgo

Los líderes de la empresa enfatizaron la importancia estratégica de la inteligencia artificial física, describiéndola como la próxima ola de inteligencia artificial que se extiende más allá del software a la robótica y los sistemas autónomos. El cofundador y CEO de Nvidia, Jensen Huang, ha destacado repetidamente el papel de la inteligencia artificial física en la configuración de la tecnología del futuro. El científico jefe Bill Dally repitió este sentimiento, señalando que los robots se convertirán en actores importantes y que Nvidia tiene como objetivo proporcionar las "mentes" para esos robots.

Implicaciones para la Conducción Autónoma

Al proporcionar un modelo de visión-lenguaje de código abierto y con capacidad de razonamiento, Nvidia tiene como objetivo acelerar el progreso hacia niveles más altos de autonomía. La capacidad del modelo para integrar la percepción visual con la comprensión del lenguaje podría permitir una toma de decisiones más sofisticada en escenarios de conducción complejos, lo que acercaría a los vehículos autónomos a la razón humana.

Usado: News Factory APP - descubrimiento de noticias y automatización - ChatGPT para Empresas

También disponible en:

English Nvidia Unveils Alpamayo-R1 Vision-Language Model for Autonomous Driving Research Português Nvidia Apresenta o Modelo de Visão-Linguagem Alpamayo-R1 para Pesquisa em Direção Autônoma