Machine Learning Workflow Com Código
Estou trabalhando em um código para uma competição e estava notando o padrão que costumo seguir para ter controle e evitar perder tempo a cada nova tentativa.
O processo precisa ser interativo (circular) e flexível (as etapas não têm uma ordem restrita)
O código que vou usar não possui valores nulos ou faltantes por ser uma competição são artificiais, o objetivo é produzir a melhor previsão possível (tenha ciência que no mundo real não é bem assim).
Começo adicionando uma célula de texto para guardar qualquer documentação que precise ao longo do processo, para consultar mais tarde
Em seguida faço as importações necessárias e defino variáveis úteis como a coluna a ser prevista e a semente de reprodutibilidade
Agora chegou a hora de carregar os dados (1), separar entre treino e teste
(2) Escolher o modelo (no meu caso eu escolhi o XGBOOST) e criar um dicionários com os parâmetros a serem selecionados no GridSearch
Agora vamos criar um pipeline para ajustar os dados, seja normalizar (para os dados numéricos) ou aplicar transformações as variáveis categóricas (homem/mulher, sim/não...)
Feito isso, as próximas etapas consistem em aplicar o "fit", ou seja aprender o padrão com os dados e verificar qual a avaliação mediante a métrica, para essa competição foi escolhida "mean_squared_log_error", faço a avaliação nos dados de treino e teste para checar se existe overfitting (aprendeu bem demais e não consegue generalizar) ou underfitting (aprendeu mal) e retorno novamente para a etapa de transformação (pipeline) e ajusto ou mudo os parâmetros do modelo no dicionário de parâmetros.
Conclusão
Note que as etapas não precisam seguir essa ordem, o estudo preliminar (EDA) foi feito em outro momento (Eu separo para evitar bagunça), e não é necessário deploy nesse caso, basta eviar as previsões e verificar sua posição no ranking.
Referências
imagem workflow - https://www.activeloop.ai/resources/accelerate-your-machine-learning-workflow/
código - o autor
outros artigos que escrevi na Dio, se tiver interesse