Atrás

Modelos de lenguaje de IA luchan con la etiqueta de taarof persa, encuentra un estudio

Modelos de lenguaje de IA luchan con la etiqueta de taarof persa, encuentra un estudio

Antecedentes y motivación

Los hablantes persas navegan por las interacciones diarias a través de una práctica cultural conocida como taarof, un intercambio ritualizado de ofertas, negaciones y insistencia educada. Malentender esta etiqueta puede generar fricciones sociales, especialmente a medida que los modelos de lenguaje de IA se integran cada vez más en las herramientas de comunicación utilizadas en todo el mundo.

Diseño del estudio y benchmark

Los investigadores liderados por Nikta Gohari Sadr de la Universidad de Brock, junto con colaboradores de la Universidad de Emory y otras instituciones, crearon TAAROFBENCH, el primer benchmark que mide específicamente cómo reproducen los sistemas de IA el taarof. El benchmark define escenarios detallados que incluyen entorno, ubicación, roles, contexto y enunciados del usuario, lo que permite una evaluación sistemática de las respuestas del modelo.

Modelos evaluados

El estudio examinó una serie de modelos de lenguaje grande contemporáneos: GPT-4o de OpenAI, Claude 3.5 Haiku de Anthropic, Llama 3 de Meta, V3 de DeepSeek y Dorna, una variante persa de Llama 3.

Hallazgos clave

En todos los modelos evaluados, el manejo correcto de los escenarios de taarof varió entre el 34 y el 42 por ciento. En contraste, los hablantes persas nativos lograron una tasa de éxito del 82 por ciento en las mismas tareas. Los resultados muestran que estos modelos recurren a la comunicación directa al estilo occidental, a menudo perdiendo las señales de delicadeza que definen los intercambios educados persas.

Implicaciones

Los investigadores advierten que los errores culturales en entornos de alto riesgo, como las negociaciones o la construcción de relaciones, podrían arruinar los resultados, reforzar estereotipos y limitar la eficacia de las herramientas de IA en contextos multilingües. El estudio subraya la necesidad de que los sistemas de IA incorporen datos de entrenamiento y métricas de evaluación específicas de la cultura para evitar puntos ciegos.

Direcciones futuras

La introducción de TAAROFBENCH proporciona un camino concreto para que los desarrolladores prueben y mejoren el rendimiento del modelo en la etiqueta persa. El trabajo en curso puede expandir el benchmark a otras prácticas culturales, fomentando una conciencia más amplia de la diversidad lingüística en el desarrollo de IA.

Usado: News Factory APP - descubrimiento de noticias y automatización - ChatGPT para Empresas

También disponible en: