O Modelo de IA V‑JEPA da Meta Demonstra Intuição Física Semelhante à Humana
Filosofia de Design e Arquitetura Central
O V‑JEPA (Arquitetura de Embedding Predictivo de Vídeo Joint) foi criado pela Meta para ir além dos modelos de vídeo tradicionais de espaço de pixel. Em vez de prever valores de pixel individuais, o V‑JEPA mascara o mesmo conjunto de pixels em várias frames e codifica as frames mascaradas em representações latentes compactas usando um codificador inicial. Um segundo codificador processa as frames não mascaradas para gerar um conjunto paralelo de códigos latentes. Uma rede de previsão aprende então a mapear a representação latente da entrada mascarada para a representação latente da entrada completa, efetivamente aprendendo a reconstruir o conteúdo essencial de uma cena sem detalhes extraneous.
Essa abordagem permite que o modelo desconsidere informações irrelevantes — como o movimento das folhas — enquanto se concentra em aspectos críticos como posições, cores e movimentos de objetos. O treinamento no espaço latente reduz a quantidade de dados rotulados necessários para tarefas downstream, porque o modelo já captura conceitos visuais de alto nível durante o pré-treinamento.
Demonstrando Intuição Física
Pesquisadores avaliaram o V‑JEPA no benchmark IntPhys, que mede a capacidade de um modelo de IA julgar se eventos de vídeo são fisicamente plausíveis. O V‑JEPA alcançou quase 98 % de precisão, uma melhoria dramática em relação a um modelo de espaço de pixel bem conhecido que performou apenas ligeiramente melhor que o acaso. O modelo também quantificou "surpresa" calculando o erro de previsão quando frames futuros se desviavam das expectativas aprendidas. Erros aumentaram quando os vídeos apresentavam eventos impossíveis, como um objeto desaparecer atrás de um ocultador e não reaparecer, refletindo a resposta intuitiva observada em bebês.
Esses resultados sugerem que o V‑JEPA pode desenvolver um sentido rudimentar de permanência de objeto, constância de forma e cor, e efeitos gravitacionais básicos apenas com exposição a vídeo, sem priors de física criados manualmente.
Aplicação à Robótica e Limitações
Com base em suas capacidades de compreensão de vídeo, a equipe do V‑JEPA ajustou finamente uma rede de previsão usando cerca de 60 horas de dados de robô, permitindo que o modelo planeje ações de manipulação simples. Isso demonstra o potencial do V‑JEPA para apoiar robôs autônomos que precisam de uma compreensão intuitiva de interações físicas.
No entanto, a janela de memória do modelo abrange apenas alguns segundos de vídeo, limitando sua capacidade de prever dinâmicas de longo prazo. Quando testado em um benchmark de desempenho mais desafiador, IntPhys 2, o V‑JEPA e modelos comparáveis performaram apenas ligeiramente melhor que o acaso. Pesquisadores compararam a memória de curto prazo do modelo à de um peixe dourado, indicando a necessidade de um contexto temporal mais amplo em versões futuras.
Perspectiva e Opiniões de Especialistas
Especialistas elogiaram a capacidade do V‑JEPA de aprender física intuitiva de vídeos raw, notando sua alinhamento com descobertas de desenvolvimento que bebês adquirem tal conhecimento com exposição mínima. No entanto, críticos destacaram a ausência de quantificação de incerteza, um fator que poderia melhorar a tomada de decisões em cenários ambíguos.
O lançamento da Meta de um modelo V‑JEPA 2 de 1,2 bilhão de parâmetros, treinado em 22 milhões de vídeos, marca uma escala significativa, mas os desafios centrais de memória temporal e incerteza permanecem. Pesquisas em andamento visam estender o horizonte do modelo e incorporar raciocínio probabilístico, potencialmente trazendo a IA mais perto da percepção humana do mundo físico.
Usado: News Factory APP - descoberta e automação de notícias - ChatGPT para Empresas