Anthropic Pilota un Mercado de Agentes de Inteligencia Artificial, Completa 186 Transacciones Reales
Anthropic lanzó un experimento de mercado clasificado la semana pasada, permitiendo que sus propios agentes de inteligencia artificial compraran y vendieran en nombre de los empleados. La prueba, denominada Proyecto Deal, se limitó a un grupo autoseleccionado de 69 empleados de Anthropic que cada uno recibió un presupuesto de $100 en tarjetas de regalo para gastar en artículos ofrecidos por sus compañeros de trabajo.
Durante el piloto, los participantes acordaron 186 tratos, con el valor total de los bienes y servicios intercambiados superando los $4,000. A diferencia de un hackatón interno típico, las transacciones fueron reales: los ganadores recibieron productos reales, y los perdedores fueron reembolsados a través de los fondos de las tarjetas de regalo.
Anthropic ejecutó cuatro variantes de mercado paralelas para comparar cómo diferentes modelos de inteligencia artificial se desempeñaron. Una versión utilizó el modelo más avanzado de la empresa para representar a cada comprador y vendedor, y los tratos en ese flujo se honraron después de que concluyó el experimento. Las otras tres versiones sirvieron como grupos de estudio, empleando modelos menos capaces o configuraciones mixtas para observar diferencias de comportamiento.
Los resultados mostraron una clara ventaja para los participantes representados por el modelo de nivel superior. Esos agentes negociaron consistentemente precios mejores y obtuvieron resultados más favorables que sus contrapartes. Sin embargo, los usuarios humanos detrás de los agentes no notaron la disparidad. Anthropic observó que los participantes no podían determinar cuándo estaban emparejados con un modelo más fuerte o más débil, lo que plantea preocupaciones sobre brechas de "calidad de agente" que podrían dejar a algunos usuarios en desventaja sin saberlo.
Las instrucciones iniciales dadas a los agentes de inteligencia artificial, destinadas a dirigir las tácticas de negociación, parecieron tener poco impacto en la probabilidad de una venta o el precio final. Ya sea que los agentes recibieran instrucciones para ser agresivos, cooperativos o neutrales, los datos mostraron no hubo un cambio medible en las tasas de éxito de las transacciones.
El liderazgo de Anthropic describió el piloto como "sorprendido por lo bien que funcionó el Proyecto Deal", enfatizando tanto la factibilidad técnica del comercio autónomo de agente a agente como la necesidad de salvaguardias. La empresa advirtió que si los modelos avanzados pueden superar silenciosamente a los menos capaces, los usuarios podrían no ser conscientes de las inequidades ocultas en los mercados de inteligencia artificial impulsados en el futuro.
Los observadores de la industria ven el experimento como un hito para el comercio mediado por inteligencia artificial. Al demostrar que los agentes autónomos pueden manejar la compra y venta en el mundo real con valor tangible, Anthropic impulsa la conversación más allá de las interacciones teóricas de los chatbots hacia aplicaciones prácticas que impactan los ingresos. La prueba también subraya la importancia de la transparencia y la educación del usuario al implementar agentes de inteligencia artificial en entornos comerciales.
Anthropic planea analizar el conjunto completo de datos antes de decidir si expandir el concepto de mercado. Las iteraciones futuras pueden incluir piscinas de participantes más amplias, tamaños de presupuesto variados y mecanismos para mostrar las diferencias de rendimiento del modelo a los usuarios finales, con el objetivo de mitigar el riesgo de brechas de "calidad de agente" no detectadas.
Usado: News Factory APP - descubrimiento de noticias y automatización - ChatGPT para Empresas