Pesquisadores da Stanford e da Princeton compararam as respostas de vários modelos de linguagem chineses e americanos a perguntas politicamente sensíveis. O estudo encontrou que os modelos chineses se recusam a responder a uma parcela significativamente maior dessas consultas, fornecem respostas mais curtas e, às vezes, entregam informações imprecisas. Os autores sugerem que o ajuste fino manual, e não os dados de treinamento censurados, impulsiona grande parte desse comportamento. Trabalhos adicionais mostram que extrair instruções ocultas dos modelos chineses é difícil, destacando os desafios de estudar a censura impulsionada por IA em tempo real.
Leia mais →