LLM + RAG vs IA gigante: menos tokens, mais resultado
Tecnologia
- Embeddings:
bge-small
·text-embedding-3-small
- Vector DB: Chroma · Qdrant
- LLM: Qwen2-7B · Phi-3 (Ollama) ou API leve
- API: FastAPI · Express
O que cada um entrega
- LLM + RAG: respostas ancoradas em fontes dos seus dados, citáveis, atualizáveis sem retreino, baixo custo/latência e maior precisão factual em bases privadas.
- IA gigante (sem contexto): mais criatividade aberta e raciocínio longo generalista, porém maior risco de alucinação, custo de tokens elevado e pouca explicabilidade.
O que é cada coisa
- LLM: modelo que gera respostas.
- RAG: busca trechos dos seus dados (PDF/URLs/DB) e injeta no prompt.
Por que LLM + RAG ganha
- Contexto > Tamanho: respostas apoiadas em fontes.
- Custo/latência ↓: modelo médio + RAG consome menos tokens.
- Atualização simples: reindexe dados; sem retreino.
Quando usar
- LLM + RAG: FAQ, base de conhecimento, políticas, catálogos/mentoria.
- IA gigante pura: criatividade livre ou tarefas sem fontes próprias.
- Híbrido: comece com RAG; só escale o modelo se as métricas pedirem.
Arquitetura mínima (3 passos)
- Ingestão: PDF/HTML/TXT → chunking (≈300–600 tokens) → embeddings
- Busca vetorial: top-k (+ reranker se vier ruidoso)
- Geração: prompt com contexto + guardrails (citar fontes / “não sei”)
Prompt base (system)
Responda SOMENTE com base nos trechos fornecidos.
Se faltar evidência, diga que NÃO SABE e sugira onde buscar.
CITE AS FONTES (título/página).
Métricas que importam
- ASR (respostas com evidência), F1 factual, latência p95, % “não sei”.
Call to action: suba uma base na DIO, rode com um 7B local e compartilhe os números (ASR, p95). Spoiler: vai surpreender. 😉