Los modelos de IA no cumplen con el nuevo estándar profesional, encuentran los investigadores
Antecedentes
Casi dos años después de que un importante director ejecutivo de tecnología predijo que la inteligencia artificial reemplazaría muchos empleos de trabajo del conocimiento, el progreso ha sido lento en comparación con lo esperado. Aunque los grandes modelos de lenguaje han avanzado en capacidades de investigación y planificación, su impacto en profesiones como la consultoría, la banca de inversión y el derecho sigue siendo limitado.
Presentación del estándar APEX-Agents
Para evaluar la preparación de la IA para tareas profesionales, los investigadores de Mercur crearon un estándar llamado APEX-Agents. La prueba extrae consultas reales de expertos en el mercado de la empresa y mide cómo bien los sistemas de IA pueden manejar un trabajo sostenido y específico del dominio. Los escenarios están modelados según entornos profesionales reales, requiriendo navegación a través de múltiples plataformas y fuentes de datos.
Resultados del rendimiento
Los resultados del estándar muestran que todos los modelos de IA evaluados reciben calificaciones de reprobado. Incluso el sistema de mejor desempeño, Gemini 3 Flash, logra solo un 24% de precisión en un solo intento, mientras que GPT-5.2 obtiene un 23%. Otros modelos oscilan alrededor del 18% de precisión. En la mayoría de los casos, los modelos proporcionan respuestas incorrectas o no proporcionan respuesta alguna, lo que indica una brecha significativa entre las capacidades actuales de la IA y las demandas de tareas profesionales de alto valor.
Desafíos clave identificados
Los investigadores identificaron el razonamiento multi-dominio como el principal obstáculo. Los profesionales suelen trabajar a través de herramientas como Slack, Google Drive y otros sistemas internos, y los modelos de IA luchan por recuperar y sintetizar la información dispersa en estos entornos. Esta limitación obstaculiza la capacidad de los modelos para realizar tareas que requieren un contexto completo y la referencia cruzada de datos.
Implicaciones para el futuro del trabajo
Los hallazgos sugieren que, por ahora, los sistemas de IA son comparables a internos que obtienen la respuesta correcta aproximadamente una cuarta parte del tiempo. Sin embargo, los investigadores señalan que el progreso ha sido rápido, y el rendimiento actual representa una mejora notable en comparación con años anteriores. La publicación del estándar APEX-Agents invita a los laboratorios de IA a desarrollar mejores soluciones, lo que podría acelerar los avances hacia asistentes profesionales más capaces.
Usado: News Factory APP - descubrimiento de noticias y automatización - ChatGPT para Empresas