RAG (Retrieval-Augmented Generation) resolve um problema fundamental dos LLMs: eles têm uma data de corte do treinamento e não sabem sobre eventos recentes ou documentos internos da sua empresa. Com RAG, antes de gerar uma resposta, o sistema busca trechos relevantes numa base de dados e os inclui no prompt do modelo como contexto adicional.
O fluxo básico é: o usuário faz uma pergunta → o sistema busca documentos relevantes (usando busca vetorial ou texto) → esses trechos são inseridos no prompt junto com a pergunta → o modelo gera uma resposta baseada nesse contexto. É como deixar o modelo 'consultar uma biblioteca' antes de responder.
RAG é hoje a abordagem preferida para chatbots corporativos, assistentes de documentação e qualquer aplicação onde precisão factual importa. Comparado ao fine-tuning, é mais fácil de atualizar (basta atualizar a base de dados) e reduz significativamente as alucinações, pois o modelo tem evidências concretas para basear suas respostas.