Article image
Carlos Lima
Carlos Lima24/04/2024 21:17
Share

Machine Learning Workflow Com Código

    Estou trabalhando em um código para uma competição e estava notando o padrão que costumo seguir para ter controle e evitar perder tempo a cada nova tentativa.

    O processo precisa ser interativo (circular) e flexível (as etapas não têm uma ordem restrita)

    O código que vou usar não possui valores nulos ou faltantes por ser uma competição são artificiais, o objetivo é produzir a melhor previsão possível (tenha ciência que no mundo real não é bem assim).

    Começo adicionando uma célula de texto para guardar qualquer documentação que precise ao longo do processo, para consultar mais tarde

    image

    Em seguida faço as importações necessárias e defino variáveis úteis como a coluna a ser prevista e a semente de reprodutibilidade

    image

    Agora chegou a hora de carregar os dados (1), separar entre treino e teste

    (2) Escolher o modelo (no meu caso eu escolhi o XGBOOST) e criar um dicionários com os parâmetros a serem selecionados no GridSearch

    image

    Agora vamos criar um pipeline para ajustar os dados, seja normalizar (para os dados numéricos) ou aplicar transformações as variáveis categóricas (homem/mulher, sim/não...)

    image

    Feito isso, as próximas etapas consistem em aplicar o "fit", ou seja aprender o padrão com os dados e verificar qual a avaliação mediante a métrica, para essa competição foi escolhida "mean_squared_log_error", faço a avaliação nos dados de treino e teste para checar se existe overfitting (aprendeu bem demais e não consegue generalizar) ou underfitting (aprendeu mal) e retorno novamente para a etapa de transformação (pipeline) e ajusto ou mudo os parâmetros do modelo no dicionário de parâmetros.

    Conclusão

    Note que as etapas não precisam seguir essa ordem, o estudo preliminar (EDA) foi feito em outro momento (Eu separo para evitar bagunça), e não é necessário deploy nesse caso, basta eviar as previsões e verificar sua posição no ranking.

    Referências

    imagem workflow - https://www.activeloop.ai/resources/accelerate-your-machine-learning-workflow/

    código - o autor

    outros artigos que escrevi na Dio, se tiver interesse

    Share
    Comments (0)