Constitutional AI

Como funciona

  1. Constituição como input. Os pesquisadores escrevem um conjunto de princípios (não causar dano, ser honesto, respeitar autonomia, recusar pedido prejudicial). Esses princípios são derivados de fontes públicas como UDHR e padrões de conduta.
  2. Supervised learning com self-critique. O modelo gera uma resposta inicial, depois critica a si mesmo à luz dos princípios da constituição e gera versão revisada. Esse par (original, revisado) vira material de treinamento.
  3. RLAIF (Reinforcement Learning from AI Feedback). Substitui parcialmente o RLHF clássico: em vez de humano rotular qual resposta é melhor, o próprio modelo (guiado pela constituição) avalia.
  4. Modelo final alinhado. O resultado é um modelo cujo comportamento de refusal e tom é consistente com os princípios da constituição, sem que humano tenha rotulado cada caso individualmente.

Por que importa

  • Reduz custo de alinhamento. RLHF clássico exige milhares de horas de annotation humana. RLAIF escala melhor.
  • Torna critérios explícitos. A constituição é texto público (no caso da Anthropic). Critérios ficam auditáveis em vez de serem implícitos no dataset de RLHF.
  • Resulta em comportamento de refusal mais consistente. Modelos treinados com Constitutional AI tendem a recusar pedido prejudicial de forma mais previsível.
  • Influencia o perfil do modelo escolhido. Claude (Anthropic) usa Constitutional AI; outros modelos usam RLHF tradicional ou variantes. O comportamento difere.

O que muda para cada perfil

Para o Translator

Leitura transversal: como o conceito muda o papel de quem alinha tech, dados e negócio.

O que muda pra você. Conceito chave pra entender por que modelos como Claude têm comportamento de refusal mais consistente. O Translator não implementa Constitutional AI, mas precisa entender que safety profile do modelo escolhido (Claude vs GPT vs Llama) deriva de escolha arquitetural com implicações de governança e suporte a casos de uso sensíveis.

Analogia. É como escolher fornecedor por valores explícitos, não só por preço. Em produto regulado, valores tomam o lugar do preço como critério.

Pergunta-âncora. A escolha do modelo levou em conta o safety profile dele, ou foi só por capability e custo? Em domínio regulado, o safety profile é o critério principal.

Para DPM

Linguagem e exemplos para Data Product Managers e Analytics Leads.

O que muda pra você. Constitutional AI é por que diferentes modelos têm comportamentos de refusal diferentes. Produto que precisa lidar com tema sensível (saúde, jurídico, segurança) deveria avaliar o "safety profile" do modelo, não só capability bruta.

Analogia. É como contratar consultoria com código de ética declarado em contrato vs sem código declarado. O segundo improvisa em zona cinzenta.

Pergunta-âncora. O modelo que escolhemos tem perfil de refusal compatível com nossos casos? Em domínio sensível, isso pesa mais que ranking de benchmark.

Para Produto

Linguagem e exemplos para Product Managers.

O que muda pra você. Constitutional AI explica por que produtos baseados em Claude se comportam diferente de produtos baseados em GPT em zona cinzenta. UX pode aproveitar a previsibilidade do refusal pra desenhar fluxo apropriado.

Analogia. É como diferença de personalidade entre assistentes. Cada um tem voz e limites próprios. Escolher o que casa com o produto importa.

Pergunta-âncora. O comportamento do modelo escolhido em zona cinzenta é o que queremos pro nosso usuário? Teste em casos reais, não só em benchmark.

Para Engenharia

Linguagem e exemplos para Data Engineers, ML Engineers e Arquitetos.

O que muda pra você. Bai et al. (Anthropic, 2022). Componentes: supervised learning com self-critique, RLAIF substituindo parte do RLHF clássico. Constituição com princípios derivados de UDHR, terms of service, padrões de conduta. Trade-off: refusal mais consistente, menor custo de annotation, perda de diversidade em casos edge.

Analogia. É como ter linter de comportamento aplicado durante o treino do modelo. Critérios explícitos em vez de implícitos.

Pergunta-âncora. O nosso fine-tuning ou system prompt segue princípios escritos e versionados? Sem isso, alinhamento vira improvisação.

Para Gestão

Linguagem e exemplos para TPMs, Engineering Managers e líderes de time.

O que muda pra você. Constitutional AI é parte da governança de modelo: princípios explícitos e auditáveis. Equivalente corporativo é ter system prompt e biblioteca de prompts versionados, com critérios claros.

Analogia. É manual de conduta pra IA. Vale princípios em texto vs imitação cega de exemplos.

Pergunta-âncora. A nossa governança de IA tem princípios escritos, ou vira regra implícita em código? Princípios explícitos são auditáveis; regras implícitas só aparecem em incidente.

Para Negócio

Linguagem e exemplos para Estratégia, Operações e FP&A.

O que muda pra você. Constitutional AI é diferença entre fornecedor de IA com filosofia explícita (Anthropic) e fornecedor com critério implícito. Pra empresa que opera em domínio regulado, o filosofia explícita do fornecedor pesa em decisão de compra.

Analogia. É a diferença entre parceiro com código de conduta e parceiro sem. Em ambiente regulatório, o segundo é risco.

Pergunta-âncora. O fornecedor de IA que escolhemos tem critérios de alinhamento públicos e auditáveis, ou é caixa-preta? A diferença aparece em auditoria regulatória.

Citado nestes artigos

Ainda não há artigos do blog citando esse termo.

Ver todos os artigos do blog →

Fazer diagnóstico →