Hackathon de Big Data na prática: O que eu aprendi fazendo previsão de vendas com LightGBM + Optuna

Olá, comunidade DIO!

Meu nome é Pedro, estudante do 2º semestre de Ciência da Computação no UniCeub. Em setembro de 2025, tive meu primeiro contato real com Machine Learning me inscrevendo no meu primeiro hackathon de Big Data. O desafio? Prever vendas semanais de milhares de produtos em diferentes pontos de venda usando um dataset gigante. Resultado: ficamos em 11º lugar entre ~80 equipes.

Vou contar na prática como foi essa experiência, os erros que cometi, o que aprendi e como você pode se preparar para um hackathon parecido.

1. O desafio e o medo inicial

Eu literalmente tinha começado a estudar ML assim que o hackathon iniciou. Nunca tinha usado LightGBM, nunca tinha feito feature engineering temporal e nem sabia o que era leakage. Mas decidi entrar mesmo assim.

O dataset era enorme (vendas semanais de 2022 inteiro). O objetivo era minimizar o MAE (Mean Absolute Error) na previsão da próxima semana.

2. O que fizemos (nossa abordagem)

Dividimos o trabalho:

Eu fiquei responsável pela feature engineering e documentação
Meu parceiro (Erick) cuidou da modelagem e otimização

Principais passos que usamos:

Feature Engineering pesado: lags de 1 a 52 semanas, rolling statistics (média, desvio padrão, máximo), features cíclicas (sen/cos para semana e mês), variáveis de sazonalidade e feriados.
Validação correta: usamos hold-out temporal (treino até certa semana, validação nas semanas seguintes) para evitar leakage.
Modelo: LightGBM (rápido e eficiente para dados tabulares grandes).
Otimização: Optuna com 100 trials (busca bayesiana). Aqui veio o maior problema: cada run demorava mais de 4 horas no meu notebook!

3. Os principais aprendizados (e erros)

Tempo de treinamento importa: Optuna com 100 trials é ótimo para precisão, mas péssimo para hackathon. Aprendi na marra que early stopping + pruning + menos trials iniciais (20-30) são essenciais.
Validação temporal é sagrada: Se você misturar dados do futuro no treino, seu modelo parece genial no treino e desastroso na vida real.
Feature engineering > modelo sofisticado: O maior ganho veio das features temporais bem feitas, não de trocar LightGBM por outro algoritmo.
Documentação e reprodutibilidade salvam: Criamos um Makefile e salvamos o modelo em .joblib. Isso facilitou muito na hora da submissão.
Trabalhar em equipe: Aprendi a dividir tarefas, comunicar progresso e tomar decisões rápidas.

4. Resultado final

Conseguimos um MAE de 2.576895 no hold-out e ficamos em 11º lugar entre aproximadamente 80 equipes. Para o meu primeiro contato com ML, foi uma vitória enorme.

E agora? O que você pode fazer?

Se você também quer viver essa experiência:

Participe do próximo hackathon de dados que aparecer (mesmo sem saber tudo).
Comece praticando feature engineering temporal em datasets públicos do Kaggle.
Treine LightGBM + Optuna em problemas simples antes de ir para datasets grandes.
Crie um repositório bem documentado desde o início.

Quer ver o código completo?

→ Link do repositório: https://github.com/PedroM2626/Big-Data-Hackathon-Forecast-2025

Se você está no começo da jornada em dados/ML, saiba que é normal se sentir perdido. Eu comecei programando em julho de 2024 e, em menos de um ano, já participei de um hackathon de Big Data e subi no ranking.

O importante é começar e não ter medo de errar feio (eu errei bastante!).

Qual foi o seu maior aprendizado em hackathons ou primeiros projetos de ML? Me conta nos comentários!

#MachineLearning #DataScience #Hackathon #LightGBM #Optuna #BigData #Python