🧠 Entendendo as Camadas de Atenção no Machine Learning
Se você já se perguntou como um modelo consegue “prestar atenção” nas palavras certas de uma frase, bem-vindo ao mundo das Attention Layers! 🤖✨
As camadas de atenção surgiram como uma forma de melhorar o desempenho de redes neurais, especialmente nas tarefas de tradução automática, resumo de textos, classificação de sentimentos e muito mais.
🔍 O que é Atenção?
A ideia principal é simples (e genial): dar pesos diferentes para cada parte da entrada, dependendo da sua importância para a tarefa. É como se o modelo perguntasse:
-“Em que parte da frase eu deveria focar para prever a próxima palavra?”
🧩 Tipos de Atenção:
- Self-Attention: cada palavra olha para todas as outras da frase (inclusive ela mesma). Usado no Transformer.
- Multi-Head Attention: várias “atenções” paralelas, capturando diferentes aspectos do contexto.
- Cross-Attention: uma sequência presta atenção em outra (ex: entrada vs. saída no Transformer Encoder-Decoder).
💥 Por que é importante?
Antes das camadas de atenção, modelos tinham dificuldade em entender dependências longas. Com atenção, conseguimos:
- ✔Compreender contexto
- ✔Capturar relações complexas
- ✔Aumentar performance com menos custo computacional
🧠 Resumo Visual da Self-Attention (modo texto 😄):
Palavra 1 ➡️ olha para ➡️ todas as palavras da frase
Palavra 2 ➡️ idem
...
Cada palavra ➡️ recebe uma pontuação de “atenção” baseada em similaridade
🚀 Curiosidade
Modelos como BERT, GPT, T5 e até o ChatGPT usam atenção como base! 💡
Abaixo, linha do tempo Transformers: