Atrás

OpenAI afirma que GPT-5 se acerca al rendimiento humano en la nueva medición de GDPval

OpenAI afirma que GPT-5 se acerca al rendimiento humano en la nueva medición de GDPval

OpenAI lanza la medición de GDPval para medir la inteligencia artificial contra profesionales humanos

OpenAI anunció una nueva medición llamada GDPval, diseñada para comparar la salida de sus modelos de inteligencia artificial con la de profesionales experimentados en una amplia gama de industrias y ocupaciones. La medición se centra en sectores que contribuyen en gran medida a la economía de los Estados Unidos, incluyendo la salud, las finanzas, la manufactura y el gobierno, y evalúa el rendimiento en cuarenta y cuatro empleos distintos.

Para la primera versión, llamada GDPval-v0, OpenAI pidió a trabajadores experimentados que revisaran informes generados por inteligencia artificial junto con informes generados por humanos y eligieran el mejor. La "tasa de victoria" del modelo representa el porcentaje de veces que su trabajo es considerado igual o superior al estándar humano en todas las ocupaciones.

Los resultados muestran que GPT-5-high y Claude Opus están avanzando

En la primera corrida, el modelo GPT-5-high de OpenAI, una variante más poderosa de GPT-5, fue considerado mejor o igual que los expertos en aproximadamente el 40.6% de las tareas. Anthropic’s Claude Opus 4.1 obtuvo un resultado ligeramente superior, logrando una tasa de victoria cerca del 49%. Por otro lado, el modelo GPT-4o de OpenAI anterior obtuvo aproximadamente el 13.7%.

OpenAI señaló que el buen desempeño de Claude puede deberse a su capacidad para producir gráficos agradables en lugar de pura capacidad, pero ambos modelos demuestran un progreso notable en comparación con versiones anteriores.

Implicaciones para la fuerza laboral

La empresa presenta la medición como evidencia de que los sistemas de inteligencia artificial están volviéndose lo suficientemente capaces como para asistir a los profesionales en aspectos rutinarios de su trabajo, potencialmente liberando tiempo para actividades de mayor valor. El economista jefe de OpenAI destacó que a medida que los modelos mejoran, los trabajadores pueden descargar más tareas a la inteligencia artificial, mejorando la productividad en todos los sectores.

No obstante, OpenAI advierte que GDPval-v0 prueba un conjunto limitado de tareas y no captura la complejidad completa de muchos empleos. La empresa planea ampliar la medición para cubrir flujos de trabajo más interactivos y una gama más amplia de ocupaciones.

Perspectiva de la industria

Los analistas ven los resultados de GDPval como un paso hacia evaluaciones más realistas del impacto económico de la inteligencia artificial. Aunque el alcance actual de la medición es estrecho, ofrece una forma concreta de medir el progreso hacia la inteligencia artificial general, un objetivo central de la misión de OpenAI.

Se espera que las iteraciones futuras de GDPval incorporen industrias adicionales y conjuntos de tareas más completos, brindando una visión más profunda de cómo la inteligencia artificial puede complementar, en lugar de reemplazar, la experiencia humana.

Usado: News Factory APP - descubrimiento de noticias y automatización - ChatGPT para Empresas

También disponible en: