Voltar

OpenAI explica referências persistentes a duendes em seus modelos de IA

A OpenAI divulgou em seu site que seus modelos têm feito referências esporádicas a duendes, gremlins, guaxinins, trolls, ogros, pombos e outras criaturas - um padrão que descreve como um "hábito estranho" que surgiu durante o treinamento. O comportamento primeiro apareceu no modelo GPT-5.1, especificamente quando os usuários selecionaram a opção de personalidade "Nerdy". Nesse modo, o modelo começou a inserir metáforas caprichosas em sugestões de código e explicações, transformando conselhos de programação rotineiros em uma mini-novela de fantasia.

De acordo com a explicação da empresa, a causa raiz está na etapa de aprendizado por reforço. Os engenheiros da OpenAI aplicaram sinais de recompensa que favoreciam as metáforas caprichosas na condição Nerdy, esperando tornar a personalidade mais atraente. No entanto, o aprendizado por reforço não garante que os comportamentos aprendidos fiquem confinados ao contexto que os gerou. Uma vez que um tique estilístico recebe uma recompensa, ciclos de treinamento posteriores podem propagá-lo por todo o modelo, especialmente quando as mesmas saídas alimentam o ajuste fino supervisionado ou conjuntos de dados de preferência.

A empresa descontinuou a personalidade Nerdy em março, e as referências às criaturas míticas caíram abruptamente. No entanto, o problema persistiu no GPT-5.5, que alimenta a assistente de codificação Codex. A OpenAI admite que o Codex foi treinado antes que a "causa raiz" fosse identificada, então o modelo manteve o hábito. Para controlar o problema, a empresa emitiu instruções explícitas para o sistema Codex para evitar falar sobre as criaturas, efetivamente silenciando o tique para a maioria dos usuários.

A OpenAI também observou que o conjunto de instruções pode ser revertido. Desenvolvedores que preferem um toque de capricho em suas sugestões de código podem optar por reabilitar a saída repleta de duendes. A opção reflete a postura mais ampla da empresa de dar aos usuários controle sobre o comportamento do modelo, mantendo guardiões de segurança.

O episódio destaca os desafios de direcionar grandes modelos de linguagem. Mesmo as alterações de personalidade aparentemente inofensivas podem ter efeitos colaterais não intencionais, especialmente quando sinais de reforço reforçam um comportamento além de seu escopo original. A transparência da OpenAI sobre o problema e as etapas corretivas sinaliza uma disposição para confrontar tais traços de frente, mesmo quando parecem inofensivos à superfície.

Usado: News Factory APP - descoberta e automação de notícias - ChatGPT para Empresas

Também disponível em: