Engenharia de IA: A Diferença Entre Pre-Traning, Fine-Tuning e Post-Training

Há uma diferença crucial entre Training, Pre-Training, Fine-Tuning e Post-Training

Por exemplo, Quantization consiste em selecionar os pesos mais relevantes do modelo, tornando-o mais leve, mas, em contrapartida, menos preciso. Isso altera os pesos, mas não é considerado treinamento. Na figura abaixo é possível observar como a Quantização funciona.

O termo "treinamento" costuma ser usado de forma abrangente para se referir ao Pre-Training, Fine-Tuning e Post-Training. Ocorre que cada uma dessas etapas representa um estágio distinto no desenvolvimento de um LLM (Large Language Model).

Pre-Training refere-se ao desenvolvimento do modelo, seja do zero ou from scratch, se preferir. Costuma ser a etapa que mais exige recursos — erros podem custar centenas de milhares de dólares — e, por isso, geralmente é realizada por poucos profissionais especializados.

Fine-Tuning é a especialização do modelo, ocorrendo após o Pre-Training. Requer menos recursos, uma vez que o modelo já possui um conhecimento prévio.

Post-Training e Fine-Tuning também costumam ser usados com significados semelhantes. Ambos ocorrem após o Pre-Training. Segundo Chip Huyen, em seu livro AI ENGINEERING, quando as alterações no modelo são feitas pelos desenvolvedores do próprio modelo, chamamos de Post-Training; quando são feitas por desenvolvedores de aplicações que utilizam o modelo, chamamos de Fine-Tuning. Nesse sentido, por exemplo, no caso do GPT, o Post-Training seria uma tarefa reservada exclusivamente à OpenAI.

Vou começar a publicar anotações do livro AI Engineering, de Chip Huyen. Se você se interessa por IA aplicada, siga meu perfil para acompanhar!