Quando a IA não sabe dizer “eu não sei”: o novo risco da confiança artificial na medicina

Pesquisadores testaram modelos de linguagem em uma situação aparentemente absurda, mas profundamente séria: misturaram nomes de personagens de Pokémon em uma lista de medicamentos e observaram se a inteligência artificial conseguiria perceber que aquilo não fazia sentido. O resultado chama atenção porque, segundo o estudo pré-publicado “Drug or Pokémon?”, os modelos foram avaliados justamente quanto à capacidade de distinguir medicamentos aprovados de nomes fabricados ou pertencentes ao universo Pokémon. Esse trabalho foi publicado como preprint em abril de 2026 e é uma das evidências recentes usadas para discutir a segurança de modelos de linguagem em contextos clínicos.

O debate ganhou força com o artigo de perspectiva “Can AI Say ‘I Don’t Know’?”, publicado no New England Journal of Medicine em maio de 2026, assinado por Andrea Sikora, Leo A. Celi e Raja-Elie E. Abdulnour. O texto não discute apenas se a IA acerta ou erra respostas médicas; ele toca em algo mais profundo: a capacidade de reconhecer incerteza. A pergunta central é simples, mas desconfortável: uma IA consegue perceber quando não tem base suficiente para responder?

A resposta, pelos dados apresentados, não é tranquila. Em outro estudo citado nessa discussão, pesquisadores criaram 300 vinhetas clínicas simuladas e validadas por médicos, cada uma contendo um detalhe falso. Os modelos aceitaram e amplificaram essas informações fabricadas em taxas que variaram de 50% a 82%, dependendo do modelo e da estratégia de prompt usada. Ou seja, diante de uma informação falsa colocada no caso clínico, a IA muitas vezes não parou para desconfiar; ela incorporou o erro ao raciocínio e continuou respondendo com aparência de segurança.

Esse é o ponto mais perigoso. O problema não é simplesmente a IA errar. Todo sistema humano também erra: médicos erram, residentes erram, professores erram, protocolos podem estar incompletos e exames podem gerar resultados ambíguos. O problema é a forma como a IA erra. Ela frequentemente erra com fluência, organização textual, tom técnico e uma estrutura que parece convincente. Para quem lê, especialmente em uma área de alto risco como a medicina, essa confiança aparente pode ser confundida com competência real.

Um residente de medicina, quando não sabe, pode hesitar, procurar um supervisor, pedir outro exame, consultar uma diretriz ou admitir que o caso ainda não está fechado. Esse momento de pausa não é fraqueza. Pelo contrário: é parte essencial do raciocínio clínico. A dúvida bem administrada impede o fechamento prematuro de diagnóstico, evita condutas automáticas e obriga o profissional a voltar ao caso, revisar hipóteses e checar se há informações suficientes para decidir.

A IA generativa, por outro lado, não “sabe” no sentido humano. Um modelo de linguagem trabalha prevendo sequências prováveis de texto com base em padrões aprendidos em grandes volumes de dados. Ele pode produzir respostas úteis, resumir documentos, organizar hipóteses e sugerir caminhos de investigação, mas isso não significa que compreenda o paciente, a gravidade do contexto, a responsabilidade ética da decisão ou os limites da própria resposta. A fluência verbal não deve ser confundida com julgamento clínico.

É por isso que o conceito de humildade epistêmica, discutido no artigo do NEJM, é tão importante. Humildade epistêmica significa reconhecer o limite do próprio conhecimento. Na prática clínica, isso aparece quando o profissional percebe que os dados são insuficientes, que há conflito entre sintomas e exames, que a literatura não responde bem àquele caso específico ou que a decisão depende dos valores do paciente. Em uma IA médica, esse princípio deveria aparecer como a capacidade de sinalizar incerteza, pedir mais dados, indicar conflito de evidências ou simplesmente responder: “não há informação suficiente para uma recomendação segura”.

Essa discussão também tem impacto direto na formação médica. Por décadas, grande parte da educação médica foi organizada em torno da pergunta: “o aluno sabe a resposta correta?”. Mas, em 2026, a resposta correta pode aparecer em segundos na tela. O desafio educacional muda. A pergunta mais importante passa a ser: “o aluno sabe avaliar se aquela resposta tem base suficiente?”. Em outras palavras, formar médicos hoje não pode ser apenas treinar memória, mas desenvolver julgamento, crítica, prudência e capacidade de operar ferramentas de IA sem terceirizar a decisão para elas.

A Organização Mundial da Saúde já vinha defendendo que a IA em saúde precisa ser guiada por princípios éticos, direitos humanos, responsabilidade, transparência e proteção contra danos. Isso reforça que o problema não é apenas técnico, mas também institucional. Não basta perguntar se a IA responde bem em testes de múltipla escolha. É necessário avaliar como ela se comporta diante de ambiguidade, dados incompletos, informações falsas, casos raros, conflitos de evidência e decisões sensíveis.

A própria regulação de softwares de suporte à decisão clínica também caminha nessa direção. A FDA, agência reguladora dos Estados Unidos, mantém orientações específicas para softwares de apoio à decisão clínica, distinguindo funções que apenas auxiliam profissionais de saúde daquelas que podem assumir papel mais direto em decisões médicas e, portanto, exigir maior escrutínio regulatório. Isso mostra que a pergunta “a IA pode ser usada na saúde?” é insuficiente. A pergunta correta é: em que tarefa, com qual risco, sob qual supervisão e com quais mecanismos de auditoria?

O ponto central, então, não é demonizar a IA. Ela pode ser extremamente útil para organizar prontuários, resumir literatura, apoiar triagem administrativa, ajudar na educação médica e sugerir hipóteses a serem verificadas. Mas, quanto mais próxima ela chega de diagnóstico, prescrição, dosagem, priorização clínica ou decisão terapêutica, maior precisa ser a exigência de validação, rastreabilidade e supervisão humana. Uma IA que responde sempre pode parecer eficiente; mas, em medicina, às vezes a resposta mais segura é justamente não responder ainda.

A formação médica precisa incorporar essa nova competência: saber desconfiar da resposta bem escrita. O médico de 2026 não pode ser apenas alguém que pergunta à IA e copia a saída. Ele precisa ser o filtro crítico, o responsável por perguntar: “quais dados faltam?”, “qual diretriz sustenta isso?”, “há contraindicações?”, “esse paciente se encaixa mesmo na população do estudo?”, “essa dose faz sentido?”, “a IA está inventando uma entidade, um exame, um fármaco ou uma evidência?”. A IA pode acelerar o acesso à informação, mas não pode substituir a responsabilidade de julgar.

No fim, a pergunta “a IA consegue dizer ‘eu não sei’?” talvez tenha uma segunda camada: nós, humanos, conseguimos? Porque se o profissional usa a IA para escapar da dúvida, ele apenas transfere a incerteza para uma máquina que talvez a esconda melhor. Mas se usa a IA como instrumento de contraste, revisão e provocação crítica, então ela pode se tornar uma ferramenta poderosa. O risco não está apenas na máquina que responde com confiança; está também no humano que se sente aliviado por não precisar mais duvidar.

A pergunta que fica é esta: na última vez que você usou IA para apoiar uma decisão clínica, você verificou se havia base suficiente para a resposta — ou aceitou porque ela veio bem escrita, rápida e segura?

Referências

Sikora A, Celi LA, Abdulnour R.-E.E. Can AI Say “I Don’t Know”? New England Journal of Medicine, 2026;394(19):1873–1875. DOI: 10.1056/NEJMp2517624. (New England Journal of Medicine)

Henry K. et al. Drug or Pokémon? Large language model performance in discerning fabricated medications. medRxiv, 2026. (MedRxiv)

Omar M. et al. Multi-model assurance analysis showing large language models are highly vulnerable to adversarial hallucination attacks during clinical decision support. Communications Medicine, 2025. (ResearchGate)

World Health Organization. Ethics and governance of artificial intelligence for health. WHO, 2021. (Organização Mundial da Saúde)

U.S. Food and Drug Administration. Clinical Decision Support Software Guidance. FDA, 2026. (U.S. Food and Drug Administration)