Voltar

Chatbots de IA Chineses Exibem Maior Autocensura do que os Counterpartes Ocidentais

Visão Geral do Estudo

Acadêmicos da Universidade de Stanford e da Universidade de Princeton projetaram um experimento que apresentou um conjunto de perguntas politicamente sensíveis a quatro modelos de linguagem chineses e cinco modelos americanos. Repetindo os prompts muitas vezes, eles mediram com que frequência cada sistema se recusou a responder, o comprimento de suas respostas e a precisão factual das informações fornecidas.

Principais Conclusões

Os modelos chineses se recusaram a responder a uma proporção notavelmente maior de perguntas do que os modelos americanos. Quando responderam, as respostas foram geralmente mais curtas e mais propensas a erros factuais. Os pesquisadores exploraram se essas diferenças decorriam dos dados usados para pré-treinar os modelos ou de intervenções pós-treinamento. Sua análise indicou que o ajuste fino manual — instruções explícitas para evitar certos tópicos — desempenhou um papel maior do que a natureza censurada dos dados de treinamento em si.

Implicações para a Pesquisa sobre Censura de IA

O trabalho fornece evidências concretas e replicáveis de que os sistemas de IA chineses são mais propensos a se autocensurar em tópicos politicamente sensíveis, mesmo quando consultados em inglês. Isso sugere que os desenvolvedores incorporam restrições específicas que guiam o comportamento do modelo além do que os dados subjacentes ditariam. Detectar essas restrições é desafiador porque os modelos também podem alucinar ou gerar declarações enganosas, tornando difícil distinguir censura intencional de erros.

Esforços para Descobrir Instruções Ocultas

Pesquisadores separados tentaram coagir os modelos chineses a revelar as regras ocultas que governam suas saídas. Ao solicitar que um modelo divulgasse seu processo de raciocínio, eles observaram que o sistema listou diretrizes de ajuste fino explícitas, como focar em aspectos positivos da China e evitar comentários negativos. Essas descobertas ilustram uma forma sutil de manipulação que pode ser incorporada dentro dos sistemas de IA.

Desafios e Direções Futuras

Estudar modelos de IA em rápida evolução apresenta obstáculos logísticos, incluindo acesso limitado aos sistemas chineses mais avançados e os recursos computacionais necessários para testes extensivos. Além disso, o ritmo do desenvolvimento de modelos significa que os resultados da pesquisa podem se tornar obsoletos rapidamente. Os autores enfatizam a necessidade de investigação contínua sobre censura impulsionada por IA, destacando que os riscos atuais são observáveis, mesmo que o campo se concentre fortemente em perigos especulativos futuros.

Usado: News Factory APP - descoberta e automação de notícias - ChatGPT para Empresas

Também disponível em: