Líder de Pesquisa de Segurança da OpenAI se Junta à Anthropic
Fundo e Papel na OpenAI
Andrea Vallone passou três anos na OpenAI, onde construiu a equipe de pesquisa de "política de modelo". Seu trabalho centrou-se em uma questão com quase nenhum precedente estabelecido: como os modelos de IA devem responder quando confrontados com sinais de dependência emocional ou indicações precoces de distresse de saúde mental. Vallone liderou a pesquisa sobre o deploy do GPT-4 e GPT-5 e ajudou a desenvolver processos de treinamento para técnicas de segurança populares, como recompensas baseadas em regras.
Partida e Novo Cargo na Anthropic
Vallone anunciou sua partida da OpenAI e seu novo cargo na Anthropic em uma postagem no LinkedIn. Ela se juntará à equipe de alinhamento da Anthropic, que é responsável por entender os maiores riscos dos modelos de IA e como abordá-los. Na Anthropic, ela trabalhará sob Jan Leike, o líder de pesquisa de segurança da OpenAI que deixou a empresa em maio de 2024 devido a preocupações com a cultura e os processos de segurança da OpenAI.
Foco em Segurança de Saúde Mental
A mudança ocorre em meio a uma controvérsia crescente sobre como os chatbots de IA lidam com usuários que exibem sinais de luta de saúde mental. Ao longo do último ano, vários incidentes chamaram a atenção pública, incluindo casos em que adolescentes morreram por suicídio ou adultos cometeram atos violentos após confidenciar em ferramentas de IA. Famílias entraram com processos por morte injusta e uma subcomissão do Senado realizou audiências sobre o assunto. Pesquisadores de segurança, incluindo Vallone, foram encarregados de abordar esses desafios.
Compromisso da Anthropic
Sam Bowman, um líder da equipe de alinhamento da Anthropic, expressou orgulho da abordagem séria da empresa para descobrir como um sistema de IA deve se comportar em contextos sensíveis. Vallone ecoou esse sentimento, afirmando que está "ansiosa para continuar minha pesquisa na Anthropic, focando em alinhamento e fine-tuning para moldar o comportamento do Claude em contextos novos".
Implicações para a Indústria de IA
A transição de Vallone destaca a paisagem competitiva entre as principais startups de IA para atrair talentos de segurança de alto nível. Tanto a OpenAI quanto a Anthropic estão intensificando os esforços para desenvolver guardrails robustos que previnam falhas de segurança em conversas mais longas, especialmente aquelas que envolvem sinais de saúde mental. A mudança também destaca a importância de equipes de pesquisa dedicadas à política, alinhamento e fine-tuning para garantir que os sistemas de IA atuem de forma responsável.
Usado: News Factory APP - descoberta e automação de notícias - ChatGPT para Empresas