RAG (Retrieval-Augmented Generation)

Como funciona

  1. Retrieval (recuperação). O sistema recebe a pergunta, transforma em vetor (embedding) e busca, numa base de documentos, os trechos mais semanticamente parecidos. Devolve os top-k chunks mais relevantes.
  2. Augmentation (aumento). Os trechos recuperados são juntados ao prompt original, formando um pacote com pergunta mais contexto. É essa montagem que dá nome ao "Augmented".
  3. Generation (geração). O LLM recebe o pacote e gera a resposta condicionada pelos trechos. A saída pode vir com referência ao que foi recuperado, o que torna a resposta auditável.

Por que importa

  • Reduz alucinação. Como a resposta é condicionada por trechos reais da base, o modelo deixa de inventar quando não sabe. A fronteira da resposta passa a ser o que está no documento, não o que o modelo "lembra".
  • Atualiza sem retreinar. Pra incluir uma política nova, basta ingerir o documento na base. O modelo continua o mesmo. Em fine-tuning, qualquer atualização exige retreino.
  • Permite citação de fonte. O sistema sabe de qual trecho a resposta veio, então pode mostrar a referência. É o que torna RAG aplicável em contextos auditáveis como jurídico, regulatório ou suporte.
  • Custa menos que fine-tuning. Manter base de documentos atualizada custa ordens de grandeza menos que treinar ou ajustar o modelo. Pra a maioria dos problemas de "IA com nossos dados", RAG resolve sem o investimento de fine-tuning.

O que muda para cada perfil

Para o Translator

Leitura transversal: como o conceito muda o papel de quem alinha tech, dados e negócio.

O que muda pra você. RAG é a técnica que torna explícita a separação entre o que a empresa sabe (recuperável) e o que o modelo pensa (parametrizado). Como Translator, você é quem decide o que vai pra base recuperável e quem aprova o que entra. Decisão arquitetural com efeito direto em custo, risco e qualidade da resposta.

Analogia. RAG transforma "documentação atualizada" de meta-tarefa de área qualquer pra ativo da operação. O Translator que ignora isso vai herdar projeto de RAG mal calibrado e descobrir tarde que o gargalo é editorial, não técnico.

Pergunta-âncora. Nossos documentos estão organizados pro modelo achar a resposta certa? Quem não responde sim ainda vai gastar. A despesa só fica camuflada atrás da escolha de ferramenta.

Para DPM

Linguagem e exemplos para Data Product Managers e Analytics Leads.

O que muda pra você. RAG abre o domínio dos dados não estruturados (PDFs, contratos, tickets, e-mails) como fonte primária de análise. Você deixa de só descrever o que aconteceu e passa a responder perguntas em texto, com fonte. O eval da resposta vira métrica de produto que você define.

Analogia. É como ter um BI que devolve não um número, mas a frase exata do contrato que rege aquela cláusula. Em vez de "vendemos R$ X em maio", a resposta vira "essa rotina de comissão segue a cláusula 4.2 do contrato vigente, anexada".

Pergunta-âncora. Quem é dono do eval da resposta? Sem responsável pela métrica de qualidade, RAG fica sem termômetro e ninguém sabe se piorou.

Para Produto

Linguagem e exemplos para Product Managers.

O que muda pra você. RAG é a técnica certa pra Q&A interno, busca conversacional, automação de suporte e knowledge base. Não cabe em decisão regulatória, cálculo determinístico ou número crítico que precisa estar 100% certo. A discussão "build vs buy" passa a importar (Glean, Notion AI, Perplexity Enterprise existem).

Analogia. É como adicionar um copiloto que responde com base na sua wiki interna, em vez de um chatbot que repete frases prontas. O usuário pergunta, o produto entrega resposta com fonte.

Pergunta-âncora. Esse problema é de RAG ou de busca tradicional? Se a pessoa só precisa achar o documento, search comum entrega mais barato e mais rápido.

Para Engenharia

Linguagem e exemplos para Data Engineers, ML Engineers e Arquitetos.

O que muda pra você. RAG vira pipeline com componentes que quebram em pontos previsíveis: parser, chunker, embedder, retriever, reranker. A escolha de modelo vira a parte menos crítica. Eval (RAGAS, faithfulness, recall@k) passa a ser parte do build, não etapa separada.

Analogia. Pense em ETL com vetor: ingest, chunk, embed, store. A query vira similaridade vetorial em vez de SQL. O modelo é só o último estágio, condicionado pelo top-k do retriever.

Pergunta-âncora. Onde meu pipeline quebra primeiro? Parser ruim de PDF com tabela é o failure mode mais comum em projeto novo de RAG.

Para Gestão

Linguagem e exemplos para TPMs, Engineering Managers e líderes de time.

O que muda pra você. RAG bem feito demanda papéis distintos: data eng pro parser, ml eng pro retriever, PM pro escopo, e curador de conteúdo pra qualidade da base. Sem ownership do conteúdo, o projeto vira teatro: parece IA, é só busca cara.

Analogia. É um projeto de produto com dependência editorial. Tem o lado técnico (igual qualquer feature) e o lado de governança documental, mais parecido com gestão de wiki interna do que com data pipeline.

Pergunta-âncora. Quem responde quando o RAG alucinar em produção? Sem dono claro do conteúdo e do eval, a culpa vira do "modelo" e ninguém aprende.

Para Negócio

Linguagem e exemplos para Estratégia, Operações e FP&A.

O que muda pra você. RAG é o jeito mais barato de uma empresa usar IA pra responder perguntas com base nos próprios documentos, sem treinar modelo proprietário. Mas comprar projeto de RAG sem documentação organizada é gastar duas vezes: na ferramenta e depois na curadoria.

Analogia. É como contratar um estagiário que faz pesquisa rápida na intranet antes de responder. Se a intranet tá uma bagunça, o estagiário traz lixo. Se tá organizada, ele vira útil.

Pergunta-âncora. Antes de comprar, nossa documentação está organizada o bastante pro RAG funcionar? Se a resposta for "vamos arrumar depois", é melhor não comprar agora.

Citado nestes artigos

9 artigos do blog referenciam RAG.

IA pra atendimento ao cliente: onde cabe e onde não cabe

IA generativa em atendimento gera ganho real em FAQ, triagem e sumarização. Falha em decisão regulada, retenção crítica e escalada de risco.

Limitações da IA generativa em ambiente corporativo

IA generativa tem limitações estruturais que importam pra decisão de uso na empresa: tempo real, cálculo, regulação, privacidade e reprodutibilidade.

O que é IA generativa

IA generativa produz conteúdo novo a partir de um prompt. Útil pra rascunho e síntese, inadequada pra cálculo determinístico, regulado ou datado.

RAG vs fine-tuning: quando cada um cabe

RAG entrega conhecimento atualizável e auditável. Fine-tuning entrega estilo, formato e domínio com vocabulário próprio. Decisão arquitetural com efeito direto em custo.

IA vai substituir analista de dados?

IA muda o trabalho do analista de dados, automatizando tarefas operacionais e elevando o peso de framing, contexto e tradução de problema.

O que é RAG (Retrieval Augmented Generation)

RAG combina busca semântica em base interna com geração de texto. Forma mais barata e auditável de fazer IA usar conhecimento da empresa.

Como avaliar uma proposta de IA na empresa

Seis filtros antes de aprovar piloto de IA: dono, custo de erro, estratégia de dado, orçamento agêntico, eval definida e plano de sunset.

O que é alucinação em IA e por que acontece

Alucinação não é bug, é como o modelo funciona. Saída plausível sem suporte factual, com confiança alta. Mitigação está no desenho do processo.

Diferença entre IA, machine learning e automação

IA, machine learning e automação são categorias diferentes. Confundir as três faz projeto virar teatro corporativo, com investimento que não volta.

Fazer diagnóstico →