Estudo recente: IA da OpenAI o1 supera médicos em testes de raciocínio médico no pronto-socorro

Mariana Figueiredo Nascimento • June 23, 2026 13:15

Um estudo recente mostrou que um sistema de IA superou médicos numa ampla bateria de testes de raciocínio médico, incluindo casos complexos de pronto-socorro retirados de registos reais.

O achado leva a IA médica para além do sucesso em provas e aproxima o debate da questão mais difícil: como avaliar, com segurança, se ela pode ser testada em hospitais.

IA lida bem com prontuários desorganizados

Em 76 registos de pronto-socorro, o modelo teve de trabalhar com anotações dispersas, lacunas de informação e decisões tomadas no início do atendimento, antes de qualquer diagnóstico estar confirmado.

Arjun K. Manrai é professor assistente e pesquisa dados médicos na Harvard Medical School (HMS).

Ao confrontar os registos do pronto-socorro com as respostas dos médicos, o professor Manrai identificou em que pontos o sistema de IA se destacava.

Essa vantagem aparecia mesmo antes de os pacientes chegarem à etapa mais “arrumada” da internação hospitalar.

A incerteza do começo - e não casos de livro, bem polidos - virou o ponto de maior pressão, tornando o resultado difícil de ignorar.

IA supera médicos logo no início

Na triagem - a primeira etapa de classificação no atendimento de urgência - o modelo apontou um diagnóstico exato ou muito próximo em 67,1% dos casos.

Depois que um médico de emergência reuniu mais informações, a taxa subiu para 72,4% e, em seguida, alcançou 81,6% no momento da admissão.

Ambos os médicos assistentes, responsáveis por supervisionar o cuidado ao paciente, melhoraram à medida que mais dados surgiam, mas as pontuações iniciais deles permaneceram abaixo das da IA.

Essa diferença fez dos primeiros minutos de atendimento a parte mais reveladora da comparação.

Provas antigas já não servem

Desde 1959, casos diagnósticos por escrito ajudam médicos e cientistas da computação a estabelecer referências para IA médica - testes padrão usados para comparar sistemas.

Com o tempo, as pontuações em provas de múltipla escolha começaram a perder valor, à medida que modelos mais novos se aproximaram do topo desses exames.

“Antes, avaliávamos modelos com testes de múltipla escolha; agora eles estão consistentemente a marcar perto de 100% e já não conseguimos acompanhar o progresso porque já batemos no teto”, disse o Dr. Peter G. Brodeur, um dos principais autores do estudo.

Diante de resultados quase perfeitos, os pesquisadores precisaram verificar se o desempenho se mantinha quando os prontuários reais continuavam desorganizados.

IA sugere diagnóstico e próximos passos

As pontuações vieram de um grande modelo de linguagem - um software treinado para gerar texto com base em padrões aprendidos em conjuntos de dados enormes.

O sistema era da série o1 da OpenAI, uma família de modelos testada em raciocínio médico passo a passo.

Em vez de escolher apenas uma alternativa, ele listava diagnósticos prováveis e indicava qual poderia ser o próximo passo no cuidado.

Essa tarefa mais ampla aproximou o teste do trabalho diário de um médico, embora ainda ficasse limitada ao que estava escrito.

Registos reais de saúde são confusos

Os registos do Beth Israel Deaconess Medical Center (BIDMC), um hospital universitário de Boston, não foram “limpos” antes de serem apresentados ao modelo.

Prontuários eletrónicos reais - ficheiros digitais que guardam detalhes do cuidado ao paciente - costumam misturar notas antigas, entradas repetidas e pistas em falta.

“Não fizemos nenhum pré-processamento dos dados”, disse o Dr. Adam Rodman, pesquisador clínico no BIDMC.

Entradas desorganizadas importam porque pequenas omissões podem mudar qual diagnóstico parece urgente o suficiente para ser investigado primeiro.

Como o diagnóstico por IA pode acrescentar riscos

Mesmo quando o diagnóstico principal está correto, o atendimento pode sair do rumo se o sistema pedir exames adicionais desnecessários.

Mais tomografias, exames de sangue ou procedimentos podem gerar falsos alarmes, atrasos, custos e risco físico.

“Um modelo pode acertar o diagnóstico principal, mas também sugerir testes desnecessários que podem expor um paciente a danos”, disse Brodeur.

Por isso, a segurança depende do conjunto completo de recomendações - e não apenas do primeiro nome na lista de diagnósticos.

Médicos ainda percebem mais

A prática clínica envolve mais do que texto, e este teste não captou tudo o que os médicos observam.

Voz, esforço respiratório, postura, imagens, preocupações da família e alterações à beira do leito podem orientar decisões antes que as anotações sejam atualizadas.

Modelos de base atuais - sistemas de IA generalistas treinados para muitas tarefas - ainda têm mais dificuldade quando as pistas decisivas estão em sons e imagens.

Esse limite impede que o resultado seja usado como argumento para substituir profissionais à beira do leito.

IA comparada diretamente com médicos

A comparação com humanos fortaleceu o trabalho da equipa, porque o modelo não foi medido apenas contra softwares antigos.

Centenas de médicos forneceram pontos de comparação em desafios de casos, planos de manejo, estimativas de probabilidade e segundas opiniões no pronto-socorro.

No teste com registos reais do BIDMC, os avaliadores estavam cegos, ou seja, não sabiam se o diagnóstico vinha de uma pessoa ou do modelo.

Esse desenho reduziu favoritismo, mas não conseguiu responder se a ferramenta melhora o cuidado ao paciente em atendimentos reais.

O futuro da IA na medicina

Pontuações fortes em testes de referência agora criam um problema prático para hospitais, reguladores, desenvolvedores e pacientes, que precisam de evidências.

Ensaios clínicos prospetivos poderiam verificar se a assistência por IA altera os desfechos durante visitas reais.

“Testamos o modelo de IA contra praticamente todas as referências, e ele superou tanto modelos anteriores quanto as nossas linhas de base com médicos”, disse Manrai.

Com esse nível de desempenho, torna-se necessário testar como o sistema se comporta na assistência real, onde atrasos, excesso de exames, sinais perdidos e confiança indevida podem moldar os resultados dos pacientes.

O recado para a medicina não é que máquinas substituam médicos, e sim que segundas opiniões baseadas em texto talvez se tornem, em breve, ferramentas passíveis de teste.

Para que o uso seja seguro, médicos, engenheiros e pacientes terão de ponderar, ao mesmo tempo, precisão, dano, rapidez, custo e confiança.