Como usamos Python, Machine Learning e um Agente de IA para prever resultados da Copa
Fala, comunidade tech!
No último sábado, a gente construímos ao vivo um projeto que une dois mundos que muita gente ainda trata como separados: Machine Learning tradicional e Agentes de IA. O resultado foi um sistema completo de previsão de jogos da Copa, desenvolvido em tempo real com o Henrique, um profissional que trabalha numa empresa brasileira do setor financeiro entre as 10% que mais usam IA no mundo.
Se você perdeu a live, ela está disponível aqui: https://c.dio.me/ttmUQR
O que a gente construiu tem muito mais aplicação do que prever placar de futebol. Mas vamos começar pelo começo.
O dataset que tornou tudo possível
A fundação do projeto é um dataset público disponível no Kaggle com resultados de partidas internacionais desde 1872. São mais de 50.000 amostras de jogos, atualizadas semanalmente por uma comunidade de colaboradores que adiciona os resultados mais recentes da Copa. O dataset tem estatísticas por jogador, gols por partida, confrontos históricos e formações, o que permite modelos progressivamente mais detalhados.
O Henrique trabalhou com os últimos 8 anos de dados para treinar o modelo. A escolha do período importa: o Brasil de 2000 a 2010 era favorito em qualquer confronto. O Brasil dos últimos 8 anos tem um histórico bem diferente, e o modelo captura isso.
A distribuição de Poisson: o coração do sistema
Para prever os resultados, o Henrique usou a distribuição de Poisson. Esse modelo estatístico calcula a probabilidade de um número específico de eventos acontecer com base no histórico, e funciona bem para futebol porque gols são eventos raros e independentes dentro de uma partida.
O modelo recebe o histórico de confrontos, estima o número esperado de gols de cada time e gera as probabilidades de vitória, empate e derrota. O output é exportado via FastAPI, o que torna a API consumível por qualquer aplicação, incluindo o agente de IA.
Uma coisa que o Henrique deixou clara: o modelo não considera Copa como mando de campo de nenhum time, já que todos jogam em campo neutro. Essa escolha de configuração muda os resultados para Brasil, Canadá e Estados Unidos, que não têm torcida que faça diferença real no volume.
O agente de IA que conversa com o modelo
Acima da API do modelo, o Henrique criou um agente usando o Google ADK, o Agent Development Kit do Google. O framework entrega interface de chat com streaming integrado, visualização das decisões do agente e rastreamento de cada passo da árvore de raciocínio, sem precisar construir nada disso do zero.
O agente foi configurado com duas ferramentas: listar as seleções disponíveis no dataset e consultar a API de previsão passando os dois times. O modelo de linguagem por trás é o Gemini 2.5 Flash, disponível com créditos gratuitos renovados diariamente no Google AI Studio.
O que ficou evidente ao vivo: Machine Learning e Agentes de IA não competem. O modelo estatístico faz o cálculo pesado. O agente interpreta, ajusta os nomes das seleções para o formato correto do dataset e entrega o resultado em linguagem natural.
O que os números disseram sobre a Copa
A gente rodou alguns confrontos ao vivo durante a live.
Brasil e Marrocos: vitória do Brasil com 31% de probabilidade. Placar mais provável: 0 a 0. O Marrocos não perdeu nenhum dos últimos 20 jogos e terminou as eliminatórias africanas em primeiro lugar com apenas dois empates. O modelo encontrou isso no histórico de forma direta.
Argentina e Algéria: Argentina com 64% de chance de vitória. Placar mais provável: 1 a 0.
França e Espanha: empate técnico, placar mais provável 1 a 1.
Nenhum desses resultados é certeza. O projeto trabalha com probabilidade baseada em evidência histórica. Como o Henrique disse durante a live: "a gente é mais emoção do que razão. O computador vai medir com razão, baseado em estatística."
Por que esse projeto importa fora do futebol
O modelo de Poisson que o Henrique usou para prever gols é exatamente o que cientistas de dados aplicam em negócios todo dia: calcular propensão de churn, prever volume de vendas, identificar qual cliente está prestes a cancelar antes de ele mesmo perceber.
O Henrique deu um exemplo direto durante a live: se você tem uma empresa de streaming e percebe que um usuário está consumindo cada vez menos, você pode calcular a probabilidade de ele cancelar e agir antes da perda. É melhor oferecer uma promoção proativa do que esperar o cliente pedir desconto ou simplesmente sair. As operadoras de telecom brasileiras perdem clientes todo dia porque ainda não operam assim.
Esse raciocínio é o que transforma um profissional de dados em alguém que o negócio não quer perder.
Se você quer parar de assistir e começar a construir projetos assim, a condição especial do DIO PRO Vitalício está disponível por tempo limitado.
Garantir o DIO PRO Vitalício agora
Com o DIO PRO Vitalício você tem acesso para sempre a:
✅ Matrículas ilimitadas em todos os bootcamps da DIO
✅ +2.150 cursos, projetos e formações em agentes de IA, back-end, front-end, cloud, data, games, mobile e DevOps
✅ Lançamentos incluídos: AI Builder com Lovable, CrewAI Fundamentals, AI Automation com N8N e Formação Github Copilot
🎁 Bônus: Atalho Secreto para ganhar R$ 5.000/mês com extensões do Chrome
✅ Garantia total de 7 dias
Um único pagamento. Acesso para sempre. Sem renovação.



