image

Accede a bootcamps ilimitados y a más de 650 cursos para siempre

70
%OFF
Article image
Lucindo Júnior
Lucindo Júnior24/03/2026 10:18
Compartir
Luizalabs - Back-end com Python - 2º EdiçãoRecomendado para tiLuizalabs - Back-end com Python - 2º Edição

A fraude silenciosa por trás dos 100% de acurácia em ML (e o Kaggle)

    Série: Construindo uma Machine Learning Trust Platform (4/8)

    No artigo anterior, expus o problema silencioso do AutoML: dashboards bonitos escondendo modelos mal compreendidos.

    Mas existe algo ainda mais perigoso. Quando o modelo não está errado…

    ele está “perfeito demais”.

    Recentemente, analisando o clássico dataset do Titanic no Kaggle, vi algo curioso: vários “modelos” com 100% de acurácia 🚨.

    … eu não fiquei impressionado. Fiquei desconfiado.

    Para um iniciante isso parece impressionante.

    Para um cientista de dados… é um alerta vermelho.

    Fui investigar. E descobri algo curioso. Muitos desses "modelos perfeitos" não estavam fazendo Machine Learning. O Titanic é um evento histórico real. A lista de sobreviventes existe publicamente. Então alguns participantes fazem algo simples:

    1. baixam a lista real de passageiros
    2. fazem um join com o test.csv
    3. submetem a resposta pronta

    Resultado?

    100% de acerto. Mas isso não é Machine Learning.

    Isso é consulta em banco de dados.

    Tecnicamente isso se chama Target Leakage.

    O modelo (ou o processo) tem acesso a informações que não existiriam no momento da predição real.

    image

    Se você já viu 100% de acurácia... você deveria ficar preocupado.

    Se um modelo atinge 100% em um problema como o Titanic, provavelmente aconteceu uma de duas coisas:

    • vazamento de dados (data leakage)
    • fraude metodológica

    No meu caso, rodando o dataset no AWS SageMaker Canvas, o melhor modelo ficou em torno de 86% de acurácia.

    Esse número parece menor. Mas na verdade ele vale muito mais.

    Porque 86% significa que o modelo realmente aprendeu padrões:

    • mulheres e crianças primeiras
    • influência da classe social
    • acesso aos botes

    Isso é generalização.

    100% não é inteligência.

    É apenas o gabarito da prova.

    No mundo real — seja em grandes empresas ou em plataformas como o OpenCanvas Pro que estou construindo — um modelo com 100% seria imediatamente investigado.

    Porque em Machine Learning:

    um número bonito não significa um modelo confiável.

    Às vezes significa exatamente o contrário.

    Esse tipo de experiência me fez perceber que o problema não está apenas nos modelos.

    Muitas vezes está nas ferramentas que usamos para treiná-los.

    E você já encontrou algum caso de target leakage em projetos reais?

    Compartir
    Recomendado para ti
    Accenture - Python para Análise e Automação de Dados
    Lupo - Primeiros Passos com Inteligência Artificial
    Almaviva - Back-end com Java & QA
    Comentarios (0)
    Recomendado para tiLuizalabs - Back-end com Python - 2º Edição