Atrás

El modelo de inteligencia artificial V‑JEPA de Meta demuestra intuición física similar a la humana

El modelo de inteligencia artificial V‑JEPA de Meta demuestra intuición física similar a la humana

Filosofía de diseño y arquitectura principal

V‑JEPA (Arquitectura Predictiva de Incrustación de Video Conjunta) fue creada por Meta para ir más allá de los modelos de video tradicionales de espacio de píxeles. En lugar de predecir valores de píxeles individuales, V‑JEPA oculta el mismo conjunto de píxeles en varios frames y codifica los frames ocultos en representaciones latentes compactas utilizando un codificador inicial. Un segundo codificador procesa los frames no ocultos para generar un conjunto paralelo de códigos latentes. Una red predictiva aprende entonces a mapear la representación latente de la entrada oculta a la representación latente de la entrada completa, aprendiendo efectivamente a reconstruir el contenido esencial de una escena sin detalles extraneous.

Este enfoque permite que el modelo descarte información irrelevante, como el movimiento de las hojas, mientras se centra en aspectos críticos como las posiciones, colores y movimientos de los objetos. El entrenamiento en espacio latente reduce la cantidad de datos etiquetados necesarios para tareas posteriores, ya que el modelo ya captura conceptos visuales de alto nivel durante el preentrenamiento.

Demostración de intuición física

Los investigadores evaluaron V‑JEPA en el benchmark IntPhys, que mide la capacidad de un modelo de inteligencia artificial para juzgar si los eventos de video son físicamente plausibles. V‑JEPA logró una precisión cercana al 98 %, una mejora dramática con respecto a un modelo de espacio de píxeles bien conocido que solo superó ligeramente la probabilidad. El modelo también cuantificó la "sorpresa" al calcular el error de predicción cuando los frames futuros se desviaban de las expectativas aprendidas. Los errores aumentaron cuando los videos presentaban eventos imposibles, como un objeto que desaparece detrás de un ocultador y no vuelve a aparecer, reflejando la respuesta intuitiva observada en los infantes.

Estos resultados sugieren que V‑JEPA puede desarrollar un sentido rudimentario de permanencia de objeto, constancia de forma y color, y efectos gravitacionales básicos solo a partir de la exposición a video, sin priores de física prefabricados.

Aplicación a la robótica y limitaciones

Basándose en sus capacidades de comprensión de video, el equipo de V‑JEPA ajustó finamente una red predictiva utilizando aproximadamente 60 horas de datos de robot, lo que permitió al modelo planificar acciones de manipulación simples. Esto demuestra el potencial de V‑JEPA para respaldar robots autónomos que necesitan una comprensión intuitiva de las interacciones físicas.

Sin embargo, la ventana de memoria del modelo abarca solo unos pocos segundos de video, limitando su capacidad para predecir dinámicas de más largo plazo. Cuando se probó en un benchmark más exigente, IntPhys 2, V‑JEPA y los modelos comparables solo superaron ligeramente la probabilidad. Los investigadores comparan la memoria a corto plazo del modelo con la de un pez dorado, indicando una necesidad de un contexto temporal más amplio en versiones futuras.

Perspectiva y opiniones de expertos

Los expertos elogiaron la capacidad de V‑JEPA para aprender física intuitiva a partir de video raw, destacando su alineación con los hallazgos del desarrollo que los infantes adquieren dicho conocimiento con una exposición mínima. Sin embargo, los críticos destacaron la ausencia de cuantificación de incertidumbre, un factor que podría mejorar la toma de decisiones en escenarios ambiguos.

El lanzamiento por Meta de un modelo V‑JEPA 2 de 1,2 mil millones de parámetros, entrenado en 22 millones de videos, marca una escalada significativa, aunque los desafíos principales de la memoria temporal y la incertidumbre siguen siendo. La investigación en curso busca extender el horizonte del modelo y incorporar razonamiento probabilístico, lo que podría acercar la inteligencia artificial a la percepción humana del mundo físico.

Usado: News Factory APP - descubrimiento de noticias y automatización - ChatGPT para Empresas

También disponible en: