Voltar

Estudo de Harvard descobre que o modelo o1 da OpenAI supera médicos no diagnóstico de triagem de emergência

Em um teste direto realizado em um hospital de Boston, um sistema de inteligência artificial desenvolvido pela OpenAI superou médicos em exercício no diagnóstico de pacientes de emergência. O estudo, supervisionado por pesquisadores de Harvard, opôs o modelo de raciocínio o1 a dois médicos que utilizaram registros eletrônicos de saúde idênticos para cada caso.

Desenho do estudo e resultados

Setenta e seis pacientes que chegaram ao departamento de emergência foram avaliados. Para cada caso, a IA e os médicos receberam os mesmos dados básicos: sinais vitais, detalhes demográficos e uma nota breve escrita pela enfermeira descrevendo o motivo da visita. Na primeira rodada, a IA identificou o diagnóstico exato ou próximo-exato em 67% dos casos. Os médicos humanos obtiveram entre 50% e 55%.

Uma segunda rodada forneceu informações mais abrangentes. Nessas condições, a precisão do modelo o1 aumentou para 82%, enquanto a performance dos médicos variou de 70% a 79%. Os pesquisadores notaram que a diferença entre a IA e os médicos não alcançou significância estatística, temperando as alegações de superioridade clara.

Implicações e advertências

O autor principal, Dr. Adam Rodman, um médico do Beth Israel Deaconess Medical Center, enfatizou que o experimento testou o raciocínio médico baseado em texto, não o espectro completo da avaliação de emergência. "O modelo não vê o desconforto do paciente, o tom, a linguagem corporal ou outros sinais do mundo real que os clínicos confiam", disse ele.

Apesar dessas limitações, Rodman imagina um "modelo de cuidado triádico" onde médicos, pacientes e IA colaboram. Nesse cenário, o sistema pode fornecer uma segunda opinião rápida, especialmente quando os clínicos precisam tomar decisões rápidas com dados limitados.

Os especialistas, no entanto, levantaram várias preocupações. A responsabilidade por erros impulsionados por IA permanece nebulosa, e a segurança do paciente pode ser comprometida se os clínicos confiarem excessivamente em sugestões algorítmicas. Os autores do estudo enfatizaram que a tecnologia não está pronta para implantação sem supervisão em departamentos de emergência.

Por enquanto, o modelo o1 parece ser mais adequado como uma ferramenta auxiliar, oferecendo sugestões diagnósticas rápidas que os médicos podem verificar contra seu próprio julgamento clínico. À medida que a IA continua a evoluir, mais testes com tamanhos de amostra maiores e interação de paciente em tempo real serão necessários para determinar se tais sistemas podem aumentar com segurança a atenção de emergência.

Usado: News Factory APP - descoberta e automação de notícias - ChatGPT para Empresas

Também disponível em: