Modelos de IA Aprenden Generando y Resolviendo Sus Propios Problemas de Codificación
Nuevo Marco de Aprendizaje de Autojuego
Un equipo colaborativo de la Universidad Tsinghua, el Instituto de Inteligencia Artificial General de Beijing (BIGAI) y la Universidad Estatal de Pensilvania presentó un sistema llamado Absolute Zero Reasoner (AZR). El sistema utiliza un gran modelo de lenguaje para generar tareas de codificación en Python solubles pero desafiantes, luego utiliza el mismo modelo para intentar soluciones y finalmente verifica el código ejecutándolo. Los éxitos y fracasos se retroalimentan en el modelo, refinando su capacidad para crear mejores problemas y resolverlos.
Mejoras en el Rendimiento
Al probar el método en modelos de lenguaje de código abierto Qwen con 7 mil millones y 14 mil millones de parámetros, se revelaron mejoras significativas en el rendimiento de codificación y razonamiento. En algunos casos, los modelos refinados superaron a modelos más grandes que habían sido entrenados con datos curados por humanos.
Aprendizaje Similar al Humano
Los investigadores comparan el proceso con la forma en que los humanos van más allá de la imitación, primero copiando a los maestros y luego formulando sus propias preguntas para superar la instrucción previa. Este concepto de autojuego tiene raíces en trabajos anteriores de pioneros de la IA y se alinea con los esfuerzos recientes en otras instituciones para utilizar tareas auto generadas para mejorar los modelos.
Direcciones Futuras
Si bien actualmente se limita a problemas con verificación automática clara, como la codificación o las matemáticas, el equipo vislumbra ampliar el enfoque a tareas más amplias como la navegación web o la automatización de oficina. Una expansión exitosa podría acercar a los sistemas de IA a capacidades de aprendizaje autónomo que requieren menos datos proporcionados por humanos.
Usado: News Factory APP - descubrimiento de noticias y automatización - ChatGPT para Empresas