Voltar

Modelos de Linguagem de IA Têm Dificuldade com a Etiqueta Taarof Persa, Conclui Estudo

Modelos de Linguagem de IA Têm Dificuldade com a Etiqueta Taarof Persa, Conclui Estudo

Fundo e Motivação

Os falantes de persa navegam pelas interações diárias por meio de uma prática cultural conhecida como taarof, uma troca ritualizada de ofertas, recusas e insistência polida. Mal-entender essa etiqueta pode levar a atritos sociais, especialmente à medida que os modelos de linguagem de IA se tornam cada vez mais integrados a ferramentas de comunicação usadas em todo o mundo.

Desenho do Estudo e Benchmark

Pesquisadores liderados por Nikta Gohari Sadr, da Universidade Brock, juntamente com colaboradores da Universidade Emory e outras instituições, criaram o TAAROFBENCH, o primeiro benchmark que mede especificamente como os sistemas de IA reproduzem o taarof. O benchmark define cenários detalhados que incluem ambiente, localização, papéis, contexto e enunciados do usuário, permitindo uma avaliação sistemática das respostas do modelo.

Modelos Avaliados

O estudo examinou uma variedade de modelos de linguagem de grande escala contemporâneos: GPT-4o da OpenAI, Claude 3.5 Haiku da Anthropic, Llama 3 da Meta, V3 da DeepSeek e Dorna, uma variante ajustada para o persa da Llama 3.

Principais Conclusões

Em todos os modelos testados, o manejo correto de cenários de taarof variou de 34 por cento a 42 por cento. Em contraste, os falantes nativos de persa alcançaram uma taxa de sucesso de 82 por cento nas mesmas tarefas. Os resultados mostram que esses modelos recorrem à comunicação direta, no estilo ocidental, frequentemente perdendo as sutis pistas que definem as trocas polidas persas.

Implicações

Os pesquisadores alertam que erros culturais em contextos de alta consequência — como negociações ou construção de relacionamentos — podem descarrilar os resultados, reforçar estereótipos e limitar a eficácia das ferramentas de IA em contextos multilíngues. O estudo destaca a necessidade de os sistemas de IA incorporarem dados de treinamento e métricas de avaliação específicos da cultura para evitar pontos cegos.

Direções Futuras

A introdução do TAAROFBENCH fornece um caminho concreto para os desenvolvedores testarem e melhorarem o desempenho do modelo no etiquette persa. Trabalhos em andamento podem expandir o benchmark para outras práticas culturais, incentivando uma maior conscientização sobre a diversidade linguística no desenvolvimento de IA.

Usado: News Factory APP - descoberta e automação de notícias - ChatGPT para Empresas

Também disponível em: