Como avaliar uma proposta de IA na empresa

Seis filtros antes de aprovar piloto de IA: dono, custo de erro, estratégia de dado, orçamento agêntico, eval definida e plano de sunset.

Como avaliar uma proposta de IA na empresa
Vinícius Coimbra
Vinícius Coimbra
LinkedIn X

Resposta direta

Avaliar proposta de IA exige seis filtros antes do piloto: dono da decisão identificado, custo de erro mapeado, estratégia de dado clara, orçamento agêntico definido, eval acordada antes do início e plano de sunset escrito.

A maioria dos pilotos de IA não vira produção. Pesquisa do MIT NANDA sobre adoção corporativa de GenAI estimou que apenas 5% dos projetos passam da fase exploratória pra geração consistente de valor, e a barreira não é tecnologia, é desenho. Pilotos que viram post de LinkedIn em vez de produção compartilham um padrão: começam sem critério explícito do que conta como sucesso, sem dono da decisão e sem plano pra desligar quando não funcionar. Esse texto entrega seis filtros pra aplicar antes de aprovar piloto.

Filtro 1: Quem é o dono da decisão

Não o dono do projeto técnico. O dono da decisão. A pergunta que precisa estar respondida antes do piloto: quem define o que conta como output certo, qual o threshold de quando o sistema escala pra humano em vez de seguir sozinho, e quem audita se as decisões automatizadas continuam batendo com a realidade ao longo do tempo.

Pilotos sem dono identificado terminam em duas formas conhecidas. A primeira é morte por consenso: três áreas opinam, ninguém decide, o piloto roda sem critério até o orçamento acabar. A segunda é descoberta tardia: três meses depois alguém pergunta "quem aprovou esse threshold?" e descobre que ninguém aprovou, o threshold foi escolhido pelo cientista de dados que tinha o teclado.

O Translator é tipicamente quem faz essa pergunta na sala de kickoff. Engenheiro responde "configuro o sistema". Produto responde "defino UX". Negócio responde "quero o resultado". Falta o nome de quem assume a decisão sobre o que é certo. Se a pergunta não tem resposta clara, o piloto não está pronto pra começar.

Filtro 2: Qual o custo de erro

Custo de erro determina o nível de instrumentação necessária. Output que vira rascunho interno tem custo baixo; uma alucinação a cada 100 saídas é tolerável e barato de revisar. Output que influencia decisão de cliente, decisão executiva ou ação regulada tem custo alto; alucinação tolerável é zero, e o desenho precisa garantir isso por estrutura.

Pra cada caso de uso, três perguntas:

  1. Qual a consequência se o output estiver errado e ninguém perceber?
  2. Quanto tempo até a equipe descobrir o erro depois que aconteceu?
  3. Quanto custa corrigir, reverter, comunicar e mitigar quando descobrir?

Custo de erro alto exige verificação humana proporcional, eval com fact-checking, guardrails de domínio e processo de auditoria periódica. Esse custo precisa entrar no business case, não aparecer como surpresa três meses depois.

Filtro 3: Qual a estratégia de dado

Caso de uso que precisa de conhecimento da empresa exige fundação de dado: inventário de fonte, parser confiável, governança de acesso, atualização. Empresa que entra em RAG sem essa fundação rebobina o projeto em três meses.

A pergunta-chave é uma só: o dado que vai alimentar a IA está disponível, atualizado, com qualidade conhecida e permissão de uso definida? Se a resposta envolve "vamos extrair de PDF mal escaneado", "está só no email do diretor" ou "preciso pedir pro time de governança", o piloto está sendo aprovado em cima de fundação que não existe.

Particularmente em RAG, a qualidade do parser determina a qualidade da resposta. Parser que perde tabela, lista ou estrutura entrega lixo pro modelo, que gera resposta plausível baseada em lixo. Resposta plausível baseada em lixo é pior que ausência de resposta, porque ninguém percebe.

Filtro 4: Qual o orçamento agêntico

Custo de IA é tokenizado. Cada chamada custa por token de entrada e saída. Em arquitetura agêntica, o custo escala com número de iterações por tarefa. Sistema que faz 10 chamadas por execução custa 10 vezes mais que chamada única.

Pilotos baratos viram operações caras. Volume × custo unitário × iterações precisa estar na conta antes do go-live. Quatro variáveis a estimar:

VariávelExemplo
Tokens por requisição (input + output)5.000
Iterações por tarefa4
Tarefas por usuário ativo / dia8
Usuários ativos200

Conta direta: 5.000 × 4 × 8 × 200 = 32 milhões de tokens / dia. A R$ 6 / 1M tokens (custo médio de modelo de capacidade média), vira R$ 192 / dia ou R$ 5.760 / mês. Em escala de 5.000 usuários, vira R$ 144.000 / mês. Volume × custo escala rápido.

A decisão entre modelo top-of-line e modelo médio, entre cache agressivo e cache mínimo, entre chunking otimizado e despejo, vira diferença de uma ordem de grandeza no custo. Translator participa dessa decisão porque ela tem efeito direto em margem.

Filtro 5: Qual a eval definida antes

Sem eval, a equipe debate se "está funcionando" baseado em sensação. Com eval, a conversa muda de "achei melhor" pra "subiu de 73% pra 81% no benchmark X". Investir em eval antes do piloto é o que separa projeto que vira produção de projeto que vira post de LinkedIn.

Quatro perguntas pra acordar antes de começar:

  1. Qual o conjunto de casos representativos do uso real? Mínimo de 50, idealmente 200.
  2. Qual a métrica objetiva (acurácia, precision/recall, taxa de alucinação) e qual o threshold de aceitação?
  3. Qual a métrica subjetiva (qualidade percebida, satisfação) e como vamos medir?
  4. Qual a frequência de re-eval depois do go-live, e quem é responsável?

Stack típica: Braintrust, LangSmith, Promptfoo, OpenAI Evals, Anthropic Evals ou framework próprio. A escolha de stack importa menos que ter eval definida; equipe que tem eval ruim em ferramenta boa supera equipe que tem ferramenta boa sem eval.

Filtro 6: Qual o plano de sunset

A regra que separa projeto sério de teatro: quando paramos esse piloto, e em que condições? Pilotos que rodam indefinidamente porque "deu trabalho montar" são desperdício institucionalizado.

Três cenários de sunset que precisam estar escritos:

A. Não atingiu o threshold de eval em três ciclos consecutivos. Sunset com retrospectiva: o que aprendemos, o que fica como ativo, o que descontinuamos.

B. Atingiu o threshold de eval, e a economia projetada não se materializou. Sunset com análise de gap: estimativa estava errada, ou a operação não absorveu o ganho?

C. Atingiu eval e economia, e o caso de uso virou comoditizado por capacidade nativa do modelo ou por concorrente. Sunset por obsolescência, com migração pra próximo caso de uso.

Sunset não é fracasso. Sunset é maturidade operacional. Empresa que aprende a desligar o que não funcionou aprende mais rápido que empresa que mantém todo piloto vivo por inércia.

Como aplicar os seis filtros na próxima reunião

A frase que vale carregar pra reunião de kickoff: nenhuma proposta de IA está pronta sem os seis filtros respondidos por escrito. Filtro sem dono é piloto que não tem destino. Filtro sem custo de erro mapeado é alucinação esperando pra virar fato organizacional. Filtro sem estratégia de dado é projeto que vai rebobinar. Filtro sem orçamento é surpresa de fim de mês. Filtro sem eval é debate de sensação. Filtro sem sunset é desperdício institucionalizado.

Aprofundamento de vocabulário no glossário de IA pro Translator, com 18 termos em quatro níveis. O critério estruturado é parte do módulo ML e IA sem Hype da formação Data Translator, e o desenho de governança aparece em IA, Agentes e Futuro. Pra mapear gaps específicos do seu repertório, faça o Radar de Competências em 5 minutos.

Referências

Descubra seus gaps em dados →