Guardrails

Como funciona

  1. Input filters. Antes do modelo ser chamado, o sistema valida o input: detecta prompt injection, redige PII (CPF, e-mail, dado bancário), checa política de domínio (a pergunta cabe no escopo?).
  2. Chamada ao modelo. Se passou pelos filtros de entrada, a chamada acontece normalmente.
  3. Output filters. Antes da resposta ir pro usuário, valida saída: toxicidade, fidelidade à fonte (em RAG, a resposta cita o que foi recuperado?), schema adherence (a saída tá no formato esperado?).
  4. Policy enforcement. Em paralelo, mecanismos transversais aplicam: rate limit, restrição de domínio, log de auditoria.

Por que importa

  • Reduz risco operacional. Sem guardrails, qualquer prompt do usuário ou output do modelo pode virar incidente.
  • Atende requisito regulatório. Em saúde, jurídico, finanças, compliance exige validações explícitas. Guardrails é onde isso vira código.
  • Bloqueia jailbreak. Usuário tentando burlar o system prompt encontra a primeira barreira em input filter, não no modelo direto.
  • Protege dado sensível. PII redaction antes da chamada evita que dado pessoal saia da empresa em pacote pra API de modelo.

O que muda para cada perfil

Para o Translator

Leitura transversal: como o conceito muda o papel de quem alinha tech, dados e negócio.

O que muda pra você. Guardrails é parte do harness, não opcional em produção corporativa. O Translator desenha catálogo de guardrails proporcional ao risco do caso de uso: aplicação interna de baixo risco precisa de guardrails básicos; aplicação cliente-final em domínio regulado precisa de stack pesada de validações com auditoria.

Analogia. É como segurança em prédio: porta, câmera, recepção, lista de visitantes. Cada camada tem custo, mas em ambiente regulado, todas pesam.

Pergunta-âncora. O nível de guardrails é proporcional ao risco do caso? Aplicação cliente-final exige mais que aplicação interna; subestimar é dívida regulatória.

Para DPM

Linguagem e exemplos para Data Product Managers e Analytics Leads.

O que muda pra você. Guardrails é parte da definição do produto: o que aceita, o que recusa, em que tom recusa. Sem guardrails explicitados, comportamento de fronteira fica imprevisível e a marca paga.

Analogia. É como definir limites do atendimento: o que o atendente faz, o que escala pra superior, o que recusa. Cada produto tem o seu, e tem que estar escrito.

Pergunta-âncora. O nosso produto tem catálogo de guardrails documentado e testado, ou cada feature reinventa? Sem padrão, comportamento varia.

Para Produto

Linguagem e exemplos para Product Managers.

O que muda pra você. Guardrails afeta UX: pedido legítimo recusado por falso positivo gera atrito. Sem guardrails, casos extremos viram vazamento. Calibrar entre os dois é decisão de produto.

Analogia. É como ajustar filtro de spam. Apertou demais, mensagem importante vai pra lixeira. Soltou demais, caixa enche de propaganda.

Pergunta-âncora. Onde no fluxo o usuário recebe feedback claro quando guardrail bloqueia? Sem feedback, parece bug.

Para Engenharia

Linguagem e exemplos para Data Engineers, ML Engineers e Arquitetos.

O que muda pra você. Categorias: input filters (jailbreak detection, PII detection), output filters (toxicity, factuality, schema adherence), policy enforcement (rate limiting, domain restriction). Implementação: regex, ML classifiers, LLM-as-judge, structured policy DSL. Frameworks: Guardrails AI, NeMo Guardrails (NVIDIA), Microsoft Presidio, Llama Guard. Trade-off: latência, false positive rate, completeness vs coverage.

Analogia. É middleware de segurança em pipeline web. Toda requisição passa pelos filtros antes de chegar no handler.

Pergunta-âncora. Os guardrails têm eval próprio (precision/recall em jailbreak, taxa de FP em pedido legítimo)? Sem eval, guardrails é teatro de segurança.

Para Gestão

Linguagem e exemplos para TPMs, Engineering Managers e líderes de time.

O que muda pra você. Guardrails é onde se concentra o risco operacional gerenciável de produto baseado em IA. Sem governança clara (categorização por risco, eval, processo de aprovação), incidente custa caro.

Analogia. É como compliance interno. Sem processo, compliance vira "alguém deveria ter visto". Com processo, vira controle real.

Pergunta-âncora. Cada feature de IA passou por avaliação de risco antes da produção? Sem isso, governança é só pós-incidente.

Para Negócio

Linguagem e exemplos para Estratégia, Operações e FP&A.

O que muda pra você. Guardrails é o que permite a empresa colocar IA em produto cliente-final sem assumir risco regulatório, reputacional ou jurídico. É camada não-negociável em qualquer caso sensível.

Analogia. É equivalente a seguro pra produto novo. Custa, mas em incidente, é o que evita falência.

Pergunta-âncora. Antes de aprovar feature de IA pra cliente final, quem auditou o catálogo de guardrails? Sem auditoria, a aprovação é leviana.

Citado nestes artigos

3 artigos do blog referenciam Guardrails.

Fazer diagnóstico →