Como funciona
- Constituição como input. Os pesquisadores escrevem um conjunto de princípios (não causar dano, ser honesto, respeitar autonomia, recusar pedido prejudicial). Esses princípios são derivados de fontes públicas como UDHR e padrões de conduta.
- Supervised learning com self-critique. O modelo gera uma resposta inicial, depois critica a si mesmo à luz dos princípios da constituição e gera versão revisada. Esse par (original, revisado) vira material de treinamento.
- RLAIF (Reinforcement Learning from AI Feedback). Substitui parcialmente o RLHF clássico: em vez de humano rotular qual resposta é melhor, o próprio modelo (guiado pela constituição) avalia.
- Modelo final alinhado. O resultado é um modelo cujo comportamento de refusal e tom é consistente com os princípios da constituição, sem que humano tenha rotulado cada caso individualmente.
Por que importa
- Reduz custo de alinhamento. RLHF clássico exige milhares de horas de annotation humana. RLAIF escala melhor.
- Torna critérios explícitos. A constituição é texto público (no caso da Anthropic). Critérios ficam auditáveis em vez de serem implícitos no dataset de RLHF.
- Resulta em comportamento de refusal mais consistente. Modelos treinados com Constitutional AI tendem a recusar pedido prejudicial de forma mais previsível.
- Influencia o perfil do modelo escolhido. Claude (Anthropic) usa Constitutional AI; outros modelos usam RLHF tradicional ou variantes. O comportamento difere.
O que muda para cada perfil
Para o Translator
Leitura transversal: como o conceito muda o papel de quem alinha tech, dados e negócio.
O que muda pra você. Conceito chave pra entender por que modelos como Claude têm comportamento de refusal mais consistente. O Translator não implementa Constitutional AI, mas precisa entender que safety profile do modelo escolhido (Claude vs GPT vs Llama) deriva de escolha arquitetural com implicações de governança e suporte a casos de uso sensíveis.
Analogia. É como escolher fornecedor por valores explícitos, não só por preço. Em produto regulado, valores tomam o lugar do preço como critério.
Pergunta-âncora. A escolha do modelo levou em conta o safety profile dele, ou foi só por capability e custo? Em domínio regulado, o safety profile é o critério principal.
Para DPM
Linguagem e exemplos para Data Product Managers e Analytics Leads.
O que muda pra você. Constitutional AI é por que diferentes modelos têm comportamentos de refusal diferentes. Produto que precisa lidar com tema sensível (saúde, jurídico, segurança) deveria avaliar o "safety profile" do modelo, não só capability bruta.
Analogia. É como contratar consultoria com código de ética declarado em contrato vs sem código declarado. O segundo improvisa em zona cinzenta.
Pergunta-âncora. O modelo que escolhemos tem perfil de refusal compatível com nossos casos? Em domínio sensível, isso pesa mais que ranking de benchmark.
Para Produto
Linguagem e exemplos para Product Managers.
O que muda pra você. Constitutional AI explica por que produtos baseados em Claude se comportam diferente de produtos baseados em GPT em zona cinzenta. UX pode aproveitar a previsibilidade do refusal pra desenhar fluxo apropriado.
Analogia. É como diferença de personalidade entre assistentes. Cada um tem voz e limites próprios. Escolher o que casa com o produto importa.
Pergunta-âncora. O comportamento do modelo escolhido em zona cinzenta é o que queremos pro nosso usuário? Teste em casos reais, não só em benchmark.
Para Engenharia
Linguagem e exemplos para Data Engineers, ML Engineers e Arquitetos.
O que muda pra você. Bai et al. (Anthropic, 2022). Componentes: supervised learning com self-critique, RLAIF substituindo parte do RLHF clássico. Constituição com princípios derivados de UDHR, terms of service, padrões de conduta. Trade-off: refusal mais consistente, menor custo de annotation, perda de diversidade em casos edge.
Analogia. É como ter linter de comportamento aplicado durante o treino do modelo. Critérios explícitos em vez de implícitos.
Pergunta-âncora. O nosso fine-tuning ou system prompt segue princípios escritos e versionados? Sem isso, alinhamento vira improvisação.
Para Gestão
Linguagem e exemplos para TPMs, Engineering Managers e líderes de time.
O que muda pra você. Constitutional AI é parte da governança de modelo: princípios explícitos e auditáveis. Equivalente corporativo é ter system prompt e biblioteca de prompts versionados, com critérios claros.
Analogia. É manual de conduta pra IA. Vale princípios em texto vs imitação cega de exemplos.
Pergunta-âncora. A nossa governança de IA tem princípios escritos, ou vira regra implícita em código? Princípios explícitos são auditáveis; regras implícitas só aparecem em incidente.
Para Negócio
Linguagem e exemplos para Estratégia, Operações e FP&A.
O que muda pra você. Constitutional AI é diferença entre fornecedor de IA com filosofia explícita (Anthropic) e fornecedor com critério implícito. Pra empresa que opera em domínio regulado, o filosofia explícita do fornecedor pesa em decisão de compra.
Analogia. É a diferença entre parceiro com código de conduta e parceiro sem. Em ambiente regulatório, o segundo é risco.
Pergunta-âncora. O fornecedor de IA que escolhemos tem critérios de alinhamento públicos e auditáveis, ou é caixa-preta? A diferença aparece em auditoria regulatória.
Citado nestes artigos
Ainda não há artigos do blog citando esse termo.