image

Acesse bootcamps ilimitados e +650 cursos

50
%OFF

MS

Mario Scorzo01/10/2025 10:51
Compartilhe

LLM + RAG vs IA gigante: menos tokens, mais resultado

    Tecnologia

    • Embeddings: bge-small · text-embedding-3-small
    • Vector DB: Chroma · Qdrant
    • LLM: Qwen2-7B · Phi-3 (Ollama) ou API leve
    • API: FastAPI · Express

    O que cada um entrega

    • LLM + RAG: respostas ancoradas em fontes dos seus dados, citáveis, atualizáveis sem retreino, baixo custo/latência e maior precisão factual em bases privadas.
    • IA gigante (sem contexto): mais criatividade aberta e raciocínio longo generalista, porém maior risco de alucinação, custo de tokens elevado e pouca explicabilidade.

    O que é cada coisa

    • LLM: modelo que gera respostas.
    • RAG: busca trechos dos seus dados (PDF/URLs/DB) e injeta no prompt.

    Por que LLM + RAG ganha

    • Contexto > Tamanho: respostas apoiadas em fontes.
    • Custo/latência ↓: modelo médio + RAG consome menos tokens.
    • Atualização simples: reindexe dados; sem retreino.

    Quando usar

    • LLM + RAG: FAQ, base de conhecimento, políticas, catálogos/mentoria.
    • IA gigante pura: criatividade livre ou tarefas sem fontes próprias.
    • Híbrido: comece com RAG; só escale o modelo se as métricas pedirem.

    Arquitetura mínima (3 passos)

    1. Ingestão: PDF/HTML/TXT → chunking (≈300–600 tokens) → embeddings
    2. Busca vetorial: top-k (+ reranker se vier ruidoso)
    3. Geração: prompt com contexto + guardrails (citar fontes / “não sei”)

    Prompt base (system)

    Responda SOMENTE com base nos trechos fornecidos.
    Se faltar evidência, diga que NÃO SABE e sugira onde buscar.
    CITE AS FONTES (título/página).
    

    Métricas que importam

    • ASR (respostas com evidência), F1 factual, latência p95, % “não sei”.

    Call to action: suba uma base na DIO, rode com um 7B local e compartilhe os números (ASR, p95). Spoiler: vai surpreender. 😉

    Compartilhe
    Recomendados para você
    PcD Tech Bradesco - Java & QA Developer
    Nexa - Fundamentos de IA Generativa com Bedrock
    TQI - Modernização com GenAI
    Comentários (0)