Glossário de IA pro Translator

Glossário de IA em quatro níveis de profundidade, do cotidiano ao especialista, mais a leitura pelo papel do Data Translator. 18 termos.

Cada termo é explicado em quatro níveis crescentes de profundidade. Você lê até onde se identifica e para, ou continua lendo pra ver como o conceito ganha fundação técnica. No fim de cada termo há uma quinta leitura pelo papel do Data Translator.

Maior parte das discussões sobre IA na empresa trava porque cada pessoa tem uma definição diferente na cabeça. Esse glossário oferece linguagem comum em quatro graus, pra a sala convergir antes de discutir.

Cotidiano. Qualquer pessoa entende. Decisor. Implicação prática pra quem decide sem mexer no técnico. Profissional de tech ou dados. Definição operacional pra quem opera. Especialista IA. Definição técnica precisa, jargão da área. Pro Translator. O que muda no papel de quem traduz entre tech, dados e negócio.

Sobre quem escreve: este glossário é mantido por Vinícius Coimbra, criador do conceito de Data Translator e do Framework L5, com 22 anos conectando dados, produto e negócio.

Índice

Agente de IA · Agent loop · AGI / ASI · Alucinação · Chain of thought · Constitutional AI · Deep learning · Distillation · Embedding · Eval · Fine-tuning · Function calling · GPU / TPU · Guardrails · Harness · IA generativa · In-context learning · Janela de contexto · LLM · MCP · Memento-skills · Model collapse · Multimodal · Processamento de linguagem natural · Prompt · RAG · Reasoning model · Rede neural · System prompt · Token · Tool use · Transformer · Vector database


Agente de IA

Cotidiano. Estagiário recém-contratado que recebe uma missão e tenta cumprir sozinho usando as ferramentas que tem na mesa. Organiza notas fiscais, pesquisa um relatório, levanta uma hipótese de erro. Diferente do chatbot, que responde uma pergunta de cada vez, o agente persegue um objetivo até concluir, dar errado ou desistir.

Decisor. Sistema que executa fluxo de trabalho com autonomia, em vez de só responder perguntas. Útil pra automatizar tarefa repetitiva de baixo risco como triagem inicial, primeira síntese e classificação. Risco alto quando o objetivo não está claro ou o critério de "missão cumprida" é frouxo. Custo escala com número de chamadas e iterações; orçamento agêntico precisa estar definido antes do piloto.

Profissional de tech ou dados. LLM acoplado a um loop de planejamento, execução e verificação. Recebe um goal, decompõe em passos, chama ferramentas como APIs, scripts e busca, avalia output, decide próxima ação. Frameworks comuns: LangGraph, OpenAI Agents SDK, Claude Agent SDK, Pydantic AI. A diferença chave em relação a chatbot é que o agente decide quando parar.

Especialista IA. Sistema agêntico tipicamente implementado como state machine com loop plan-act-observe-reflect. Componentes: planner (decomposição), executor (tool calls), observer (parse de resultado), reflector (memória episódica e semântica), terminator (condição de parada). Padrões atuais incluem ReAct, Reflexion, Voyager e stacks baseadas em MCP. Trade-offs típicos: convergência versus custo, exploração versus determinismo, autonomia versus auditabilidade.

Pro Translator. Agente sem objetivo claro vira piloto automático que executa sem entender o porquê. O Translator é quem traduz "quero reduzir custo operacional" em objetivo executável e em critério de "missão cumprida". Sem essa tradução, o agente trabalha muito e entrega errado, com confiança alta. Conexão com o curso: o módulo IA, Agentes e Futuro trata exatamente desse desenho.


Agent loop

Cotidiano. Ciclo de cozinhar. A pessoa prova a comida, avalia que falta sal, adiciona, prova de novo, ajusta tempero, prova mais uma vez. O agente faz a mesma coisa: pensa, executa, verifica, ajusta, executa de novo, até atingir a missão ou desistir.

Decisor. Reunião que não termina. A equipe discute, propõe, revisa, repropõe, até alinhar ou desistir. Agent loop é isso versão IA. Sem regra clara de "quando paramos", consome tempo e dinheiro até alguém puxar o freio. Política de parada do agente é decisão de negócio, não detalhe técnico.

Profissional de tech ou dados. Plan, act, observe, reflect, loop. Cada iteração: o agente decide próximo passo (plan), executa via tool (act), lê resultado (observe), avalia se progrediu (reflect), repete. Condições de parada típicas: goal cumprido, budget esgotado (max_iterations, max_tokens, max_cost), erro não recuperável.

Especialista IA. Padrão arquitetural ReAct, que combina reasoning e acting. Implementações modernas adicionam reflection (self-critique), planner separado do executor e memória de iterações anteriores. Failure modes documentados: looping (mesma ação repetida), thrashing (oscila entre estados), early-termination (context anxiety) e hallucinated tool calls. Mitigação por state validation, action diversity penalty e iteration cap explícito.

Pro Translator. Loop sem condição de parada bem desenhada é onde projeto de IA queima caro. Agente que "tenta de novo" infinitamente consome API, gera relatório poluído e parece estar trabalhando. O Translator define quando o loop para: "se não bateu com 95% de confiança em 3 tentativas, escala pra humano".


AGI / ASI

Cotidiano. Os termos que filme de ficção científica mistura. AGI (Artificial General Intelligence) seria IA capaz de fazer qualquer tarefa cognitiva que humano faz. ASI (Artificial Super Intelligence) seria IA muito mais capaz que humano em todo domínio. Hoje, nada disso existe — é discurso de marketing e research aspiracional, não capability concreta.

Decisor. Termos que aparecem mais em deck de venda e manifesto público que em produto real. Tratar como ficção comercial até virar capability concreta com benchmark padrão e métrica. Decisão de investimento não pode ancorar em promessa AGI — ancora em capability mensurável hoje.

Profissional de tech ou dados. AGI é IA hipotética com inteligência humana general, cross-domain. ASI é IA hipotética que supera humano em todo domínio cognitivo. LLMs atuais são narrow AI especializadas em linguagem, não AGI. Sem benchmark padrão pra "AGI achieved"; cada lab (OpenAI, Anthropic, DeepMind) tem definição diferente.

Especialista IA. Definição contestada com múltiplas operacionalizações. Métricas propostas: ARC-AGI (Chollet), HLE (Humanity's Last Exam), MMLU já saturado. Distinção clássica narrow AI (specific task) vs general AI (cross-domain). ASI tipicamente fora do roadmap de 5-10 anos; AGI é sujeita a debate ativo. Linhas de research relevantes: scaling, agentic systems, reasoning, multimodal, embodied AI.

Pro Translator. AGI e ASI funcionam mais como narrativa de marketing/research que como categoria técnica acionável. Translator que entende isso evita decisão de investimento ancorada em "vai virar AGI logo" (não vai). Vale separar discurso de venda do que o modelo entrega hoje, com eval objetivo, em casos de uso concretos.


Alucinação

Cotidiano. Aquele tio que afirma com a maior convicção uma coisa que ele só ouviu falar pela metade no grupo do WhatsApp. A IA faz isso. Inventa resposta com a mesma cara séria de quando sabe de verdade.

Decisor. Risco editorial e legal. Output de IA que parece bem articulado e é factualmente incorreto ou inventado. A qualidade do texto sozinha não permite distinguir alucinação de resposta correta. Toda implementação de IA em decisão precisa de processo de verificação humana ou automatizada antes de o output virar ação.

Profissional de tech ou dados. Output gerado sem suporte na fonte fornecida ou no conhecimento factual. Pode ser invenção de citação, número, fato histórico, código que não existe ou API que não existe. Mitigação por RAG com retrieval auditável, eval com fact-checking automatizado e guardrails de domínio. O fenômeno é mitigável, não eliminável.

Especialista IA. Comportamento intrínseco de modelos generativos baseado em next-token prediction. Causas: treinamento em dados conflitantes, ausência de grounding factual, otimização pra plausibilidade lexical em vez de veracidade. Detecção via SelfCheckGPT, factuality benchmarks (TruthfulQA, FEVER) e retrieval-grounded confidence. Mitigação ativa por constrained decoding, citation requirement, abstention training, RAG e post-hoc verification.

Pro Translator. Alucinação não é bug, é como o modelo funciona. Ele sempre gera a próxima palavra mais provável, mesmo sem dado de suporte. O Translator desenha o processo de verificação, definindo que nenhum output de IA vai pra decisão sem checagem de quem entende do tema. Critério "humano só revisa amostra" é onde o gap de percepção mata, como discuto em Você ainda lê o que assina? no Medium.


Chain of thought

Cotidiano. A IA pensando em voz alta. Ao resolver um problema, em vez de pular pra resposta direta, ela escreve "primeiro vou somar, depois multiplicar, depois aplico a regra". Mostra o passo a passo, igual aluno mostrando cálculo na prova de matemática.

Decisor. Técnica de prompting que aumenta acerto em tarefas complexas com custo extra de tokens (resposta mais longa). Decisão prática: vale o custo extra em casos onde acerto importa mais que velocidade? Em FAQ ou classificação simples, é desperdício; em análise complexa ou cálculo multi-passo, paga rápido.

Profissional de tech ou dados. Técnica onde o modelo é instruído a produzir raciocínio intermediário antes da resposta final. Forma básica: "vamos pensar passo a passo" no prompt. Variantes: zero-shot CoT, few-shot CoT (com exemplos), self-consistency (múltiplas chains com voto majoritário), tree-of-thoughts (busca em árvore).

Especialista IA. Wei et al, NeurIPS 2022, demonstrou que CoT prompting eleva performance em raciocínio matemático, simbólico e common-sense — efeito mais forte em modelos com mais de 100B parâmetros. Variantes evoluídas: CoT-SC (Wang 2022), Tree of Thoughts (Yao 2023), Graph of Thoughts (Besta 2023). Reasoning models nativos (o1, Claude extended thinking) embutem CoT no decoder.

Pro Translator. Chain of thought é alavanca barata de qualidade em tarefa complexa. Não pede infraestrutura nova nem fine-tuning, só ajuste de prompt. Translator que entende isso distingue caso onde vale custo extra (decisão analítica complexa) de caso onde resposta direta basta. Combina bem com reasoning model quando precisão importa mais que latência.


Constitutional AI

Cotidiano. Em vez de ensinar a IA com bilhões de exemplos do que é certo e errado, a empresa dá uma "constituição" curta com princípios e deixa a IA aprender a se auto-criticar baseada nesses princípios. O modelo aprende a recusar pedido perigoso aplicando regras explícitas, em vez de imitar respostas pré-rotuladas.

Decisor. Abordagem de safety da Anthropic (criadores do Claude). Reduz dependência de avaliação humana caríssima na fase de fine-tuning. Resultado: modelo mais consistente em recusar pedido prejudicial sem que humano tenha rotulado cada caso. Influencia o "perfil de comportamento" do modelo escolhido.

Profissional de tech ou dados. Técnica de RLHF onde feedback humano é parcialmente substituído por feedback do próprio modelo guiado por princípios escritos (uma "constituição"). Pipeline: supervised learning com self-critique e revisão guiada pela constituição, depois RL com AI feedback. Reduz custo e escala de RLHF clássico.

Especialista IA. Bai et al, Anthropic 2022. Componentes: (a) supervised learning com self-critique e revisão, (b) RLAIF (Reinforcement Learning from AI Feedback) substitui em parte o RLHF clássico. Constituição engloba princípios derivados de UN UDHR, terms of service, padrões de conduta. Trade-off: modelo mais consistente em refusal, menor custo de annotation, perda de diversidade em casos edge.

Pro Translator. Conceito chave pra entender por que modelos como Claude têm comportamento de refusal mais consistente. Translator não implementa Constitutional AI, e precisa entender que safety profile do modelo escolhido (Claude vs GPT vs Llama) deriva de escolha arquitetural — afeta o que o modelo aceita ou recusa em produção, com implicações de governança e suporte a casos de uso sensíveis.


Deep learning

Cotidiano. Como ensinar um aluno em camadas. A primeira camada aprende a reconhecer linhas e curvas. A segunda combina linhas em formas. A terceira combina formas em objetos. A quarta junta objetos em cenas. Cada camada faz uma parte simples, e o conjunto resolve coisa complexa que nenhuma camada sozinha resolveria.

Decisor. Subcampo de IA que está por trás de praticamente todo avanço dos últimos 10 anos: reconhecimento de imagem, tradução automática, IA generativa. Caro de treinar (precisa de GPU e dado em volume), barato de usar (a inferência roda em hardware comum). Decisão típica do gestor: comprar acesso pronto via API em vez de treinar internamente.

Profissional de tech ou dados. Subcampo de machine learning que usa redes neurais com múltiplas camadas (tipicamente >3) pra aprender representações hierárquicas. Aplicações: visão computacional (CNNs), NLP (transformers), séries temporais (LSTMs/RNNs), geração (GANs, diffusion). Stack típica: PyTorch, TensorFlow, JAX. Treinamento exige GPU e dataset em volume.

Especialista IA. Subcampo de ML que treina redes neurais profundas via gradient descent (SGD, Adam, AdamW) sobre objetivo diferenciável, tipicamente em GPU/TPU. Arquiteturas relevantes: CNN (ResNet, EfficientNet, ViT), transformer (decoder-only, encoder-only, encoder-decoder), state-space (Mamba), MoE (Mixtral, DeepSeek). Avanços recentes: scaling laws (Chinchilla, Kaplan), emergent abilities, mechanistic interpretability.

Pro Translator. Deep learning é a fundação técnica da maioria dos investimentos em IA hoje. O Translator não precisa treinar modelo, e precisa entender o suficiente pra avaliar quando faz sentido o investimento ser nativo (treinar do zero), híbrido (fine-tuning) ou via API. A decisão tem efeito direto em custo de operação, lock-in de fornecedor e capacidade interna a desenvolver.


Distillation

Cotidiano. Transferir o conhecimento de um chef premiado pra um cozinheiro júnior. O chef vê 1.000 pratos e aprende padrões; o júnior copia o chef, mas no jeito próprio. No fim, o júnior cozinha quase tão bem, é mais rápido e custa menos. Em IA, o "professor" é modelo grande, o "aluno" é modelo pequeno.

Decisor. Forma de ter modelo menor, barato e rápido com qualidade próxima do modelo grande. Modelo grande "professor" treina modelo pequeno "aluno". Útil pra escala (fatura menor) e latência (resposta mais rápida). O aluno raramente atinge 100% do professor; trade-off é a delta de qualidade aceitável.

Profissional de tech ou dados. Técnica de model compression onde modelo pequeno (student) é treinado pra imitar comportamento de modelo grande (teacher). Método clássico: usar logits do teacher como soft labels. Variantes: response-based, feature-based, relation-based distillation. Permite implantar modelo de menor parâmetro com qualidade próxima.

Especialista IA. Hinton et al, 2015 (knowledge distillation). Approaches: response-based (soft probabilities), feature-based (intermediate representations), relation-based (relations between samples). Modern: DistilBERT, TinyLlama, Phi-3 (synthetic data distilled from larger model). Trade-off central: capability gap entre teacher e student, sensível a domain shift.

Pro Translator. Distillation é alavanca de custo importante em produção em escala. Translator que entende isso avalia "vamos distillar nosso modelo grande pra um menor?" como decisão de portfolio: custo de inferência cai significativamente, qualidade pode cair em casos edge. Comum em workloads de alta volumetria com qualidade aceitável bem definida em eval.


Embedding

Cotidiano. Mapa onde cada palavra vira coordenada. "Rei" e "rainha" ficam pertinho. "Rei" e "geladeira" ficam longe. "Cachorro" e "cão" ficam quase em cima. O computador usa essas coordenadas pra entender que palavras significam coisa parecida, mesmo escritas diferente.

Decisor. Tecnologia que faz busca por significado em vez de busca por palavra exata. Usuário pergunta "como cancelo?" e o sistema acha o documento sobre "rescisão de contrato". É a fundação que faz IA entender pergunta em linguagem natural sem o usuário aprender a "escrever pra IA".

Profissional de tech ou dados. Vetor denso de N dimensões (tipicamente 384 a 3072) que representa significado de uma palavra, frase ou documento. Gerado por modelo de embedding como text-embedding-3, voyage, BGE ou e5. Comparação por similaridade (cosine, dot product). Caso de uso primário em semantic search, RAG, classification, clustering e deduplication.

Especialista IA. Representação vetorial densa aprendida via objective de similaridade (contrastive learning, cosine loss, InfoNCE). Modelos modernos: dual encoder (Sentence-BERT-style), multi-vector (ColBERT), instruction-tuned (Instructor, e5-mistral). Trade-offs: dimensionalidade versus qualidade versus custo, fine-tuning versus off-the-shelf, normalização L2 versus raw. Benchmark relevante: MTEB.

Pro Translator. Embedding é o que faz busca por significado funcionar e é fundação do RAG. O Translator que entende embedding consegue avaliar projeto pelo critério de "dado proprietário precisa de fine-tune do embedding ou modelo geral resolve?". A decisão tem efeito direto em custo de operação e qualidade da resposta.


Eval

Cotidiano. Prova de matemática pra IA. Não basta a resposta parecer bonita; tem que conferir se bate com a resposta certa. Eval é o gabarito que mostra se a IA está indo bem ou só parecendo.

Decisor. Forma objetiva de medir se IA está funcionando, em vez de discutir baseado em sensação. Sem eval, a equipe debate "achei que estava melhor" sem chegar a lugar. Com eval, a conversa muda pra "subiu de 73% pra 81% no benchmark X". Investir em eval é o que separa piloto que vira produção de piloto que vira post de LinkedIn.

Profissional de tech ou dados. Suite de testes automatizados com casos representativos do uso real. Métricas: acurácia, precision/recall, latência (p50, p95, p99), custo por requisição, taxa de alucinação, satisfação do usuário. Stack típica: Braintrust, LangSmith, Promptfoo, OpenAI Evals, Anthropic Evals ou roll-your-own.

Especialista IA. Pipeline que combina referência (ground truth, golden dataset), métricas (deterministic e LLM-as-judge) e análise (regression detection, slice analysis, A/B). Modos: offline (batch sobre dataset fixo), online (sample de produção), continuous (CI/CD gate). Benchmarks públicos: MMLU, HumanEval, GSM8K, MT-Bench, HELM. Custom evals via DSL ou framework próprio.

Pro Translator. Sem eval, a equipe debate se "está funcionando" baseado em sensação. Eval transforma "achei melhor" em "subiu de 73% pra 81%". O Translator é quem define o que conta como "funcionou" antes de a equipe começar a construir, e eval é a tradução técnica desse critério.


Fine-tuning

Cotidiano. Pegar um chef profissional que já sabe cozinhar de tudo e treinar ele especificamente no cardápio do seu restaurante. Continua sabendo fazer estrogonofe, mas agora também sabe fazer aquele prato esquisito que só vocês têm.

Decisor. Personalizar IA pra entender domínio específico da empresa. Caro, demorado e raro vale o investimento. A maioria dos casos resolve com prompt bem feito, RAG e dado curado. Fine-tuning entra quando essas alternativas não bastam, geralmente depois de 6 a 12 meses de operação medindo gap real.

Profissional de tech ou dados. Treinamento adicional de modelo pré-treinado com dataset específico, ajustando pesos pra melhorar tarefa ou domínio. Variantes: SFT (supervised fine-tuning), DPO (direct preference optimization), LoRA (low-rank adaptation, mais barato). Custo da ordem de 10 a 100 vezes o de RAG pro mesmo problema. Usado pra estilo proprietário, formato específico, domínio com vocabulário único e redução de latência via modelo menor.

Especialista IA. Continuação do treinamento com objetivo customizado. Approaches: full fine-tuning, PEFT (LoRA, QLoRA, adapters, IA³), instruction tuning, RLHF, RLAIF, DPO, KTO. Trade-offs: catastrophic forgetting, overfitting em domínio pequeno, custo de inference de modelo customizado, manutenção em base model upgrades. Modern stack: Unsloth, Axolotl, TRL, MLX-LM.

Pro Translator. Fine-tuning é caro e raramente vale o investimento sem evidência de gap consistente que prompt e RAG não resolvem. O Translator evita projeto que assume "precisamos fazer fine-tuning" antes de explorar as alternativas mais baratas. Em cerca de 80% dos casos, a real é prompt e RAG, não fine-tune.


Function calling

Cotidiano. Nome que a OpenAI deu pro mesmo conceito de tool use. A IA chama uma "função" (tipo um aplicativo: calculadora, banco de dados, email) pra fazer parte do trabalho. Função era chamada de "função" porque vem do mundo de programação.

Decisor. Termo da OpenAI pra tool use. Capability que transforma IA em operadora. Ferramenta = função que o modelo pode invocar. Implicações de segurança e governança iguais às de tool use: cada função nova é poder e risco, exige permissão e auditoria.

Profissional de tech ou dados. Implementação OpenAI de tool use. Modelo recebe schema JSON descrevendo funções disponíveis; emite chamada de função estruturada quando decide usar uma. Outros vendors usam nomenclatura diferente: Anthropic chama "tool use", Google chama "function declarations". Comportamento equivalente; nomenclatura diferente.

Especialista IA. OpenAI introduziu function calling em GPT-3.5/4 em 2023; depois evoluiu pra "tools" (genérico) e "structured output" (forma forte de constrained decoding). Padrão JSON Schema. Concorrente direto: Anthropic tool use (semantic equivalente), Google function declarations. Suporte a parallel function calls e nested calls em modelos modernos.

Pro Translator. Function calling e tool use são o mesmo conceito com nomes diferentes. Translator que opera em ambiente multi-vendor precisa saber que function calling = tool use em terminologia. Avaliação técnica e governança são as mesmas; diferença é só nomenclatura do vendor.


GPU / TPU

Cotidiano. Hardware especial pra rodar IA. CPU normal trabalha com poucos cálculos por vez, em sequência. GPU/TPU faz milhares de cálculos simultaneamente, igual milhares de pessoas calculando ao mesmo tempo. IA precisa disso porque é cálculo em massa.

Decisor. Custo principal de treinamento e inferência de modelos grandes. Empresa que treina modelo próprio precisa investir em cluster de GPUs (caro). Empresa que consome via API paga indiretamente pelo GPU do fornecedor. Decisão típica: comprar (CapEx) vs alugar em cloud (OpEx) vs consumir via API (commodity).

Profissional de tech ou dados. GPU (Graphics Processing Unit) é hardware paralelo originalmente pra gráficos, atualmente padrão pra ML — NVIDIA A100, H100, B200 são referências. TPU (Tensor Processing Unit) é ASIC custom da Google pra workloads ML. Trade-off: GPU mais flexível, TPU mais eficiente em workload ML específico do ecosystem Google.

Especialista IA. Arquiteturas relevantes: NVIDIA Hopper (H100, H200), Blackwell (B100, B200, GB200); AMD MI300X; Google TPU v4/v5e/v5p. Métricas: TFLOPS (FP16/BF16), HBM memory, NVLink bandwidth. Software stack: CUDA + cuDNN + TensorRT (NVIDIA), ROCm (AMD), JAX/XLA (TPU). Mercado dominado por NVIDIA com cerca de 85-90% share em datacenter ML.

Pro Translator. GPU/TPU é onde está o custo real de IA. Translator que entende isso evita decisão de "vamos treinar modelo próprio" sem entender CapEx de cluster vs custo de API. Em 2026, alugar GPU em hyperscaler ou consumir API é quase sempre mais econômico que comprar hardware, exceto pra big tech ou casos muito específicos com volume contínuo previsível.


Guardrails

Cotidiano. Cerca que impede o carro de cair do precipício. Não impede o carro de andar, só impede o carro de sair da estrada. Em IA, são as cercas que impedem o modelo de fazer o que não deveria: gerar conteúdo perigoso, vazar dado pessoal, processar pedido fora do escopo definido.

Decisor. Camada de segurança ao redor da IA que impede output ou ação prejudicial. Imprescindível em qualquer aplicação corporativa. Custo: latência adicional e falsos positivos (modelo recusa pedido legítimo). Decisão: balancear segurança e usabilidade pelo perfil de risco do caso de uso.

Profissional de tech ou dados. Conjunto de validações antes (input) e depois (output) da chamada ao modelo: detecção de prompt injection, PII redaction, content moderation, schema validation, política de domínio. Frameworks: Guardrails AI, NeMo Guardrails (NVIDIA), Microsoft Presidio, Llama Guard.

Especialista IA. Categorias: input filters (jailbreak detection, PII detection), output filters (toxicity, factuality, schema adherence), policy enforcement (rate limiting, domain restriction). Implementação: regex, ML classifiers, LLM-as-judge, structured policy DSL. Trade-off: latência, false positive rate, completeness vs coverage.

Pro Translator. Guardrails é parte do harness, não opcional em produção corporativa. Translator desenha catálogo de guardrails proporcional ao risco do caso de uso: aplicação interna de baixo risco precisa de guardrails básicos; aplicação cliente-final em domínio regulado precisa de stack pesada de validações com auditoria.


Harness

Cotidiano. Cinto e arreios que mantêm o cavalo andando no caminho do trator. Sem isso, o cavalo é forte, mas vai pra qualquer direção. O harness segura a IA pra ela trabalhar exatamente onde precisa, com as ferramentas certas, parando quando não deve continuar.

Decisor. Conjunto de regras, gates e processos ao redor da IA que transformam capacidade de responder perguntas em execução de trabalho confiável. O modelo virou commodity; o harness é o que diferencia uma empresa que opera IA bem da que não opera. É costura entre engenharia, dados, produto, segurança, governança e negócio.

Profissional de tech ou dados. Wrapper de produção ao redor de um LLM com 6 componentes: contracts (input, output, validação), roles (separação de funções), stage structure (etapas explícitas), adapters (hooks determinísticos), state semantics (persistência entre passos), failure taxonomy (modos de falha nomeados). Implementado via framework agêntico ou roll-your-own.

Especialista IA. Termo formalizado em Pan et al, 2026 (Tsinghua, Natural-Language Agent Harnesses). Padrões implementados em Claude Code, Cursor, Devin e Aider. Práticas adjacentes: design loops (Anthropic), context engineering (OpenAI), structured output via constrained decoding. Eval específico de harness: stress test de assumptions, ablation study de cada componente e regression em model upgrade.

Pro Translator. Harness é o moat (vantagem competitiva) durável da empresa, não o modelo, que virou commodity. O Translator é quem costura as 6 dimensões da empresa pra desenhar harness coerente. Aprofundamento em Agent Harness na prática no Medium quando publicado.


IA generativa

Cotidiano. Máquina que faz coisa nova baseada no que já viu. A pessoa pede "bolo de chocolate", e ela cria uma receita misturando o que aprendeu de mil receitas. Pode sair ótimo, pode inventar combinação esquisita. Ela gera, em vez de só buscar.

Decisor. Categoria de IA por trás de ChatGPT, Claude, Midjourney e ElevenLabs. Útil pra rascunho, síntese e exploração. Inadequada pra cálculo determinístico, fonte da verdade regulada e fato datado. Saber distinguir é o que separa investimento que volta de investimento que vira teatro.

Profissional de tech ou dados. Modelos que produzem conteúdo novo (texto, imagem, áudio, vídeo, código), em vez de classificar ou prever. Categorias: LLMs (texto), diffusion models (imagem e vídeo), TTS (áudio), code models (LLM especializado). Acessível via API ou modelos open-weight como Llama, Mistral e Qwen.

Especialista IA. Modelos generativos com paradigmas distintos: autoregressive (LLMs, decoder-only transformers), diffusion (DDPM, latent diffusion, flow matching), VAE-based (legado), GAN-based (legado pra texto). Trade-offs: qualidade versus velocidade, controllability versus creativity, alignment versus capability. Frontier: multimodal native, real-time generation, world models.

Pro Translator. "IA generativa" é o que a maioria das pessoas chama só de "IA" hoje. O Translator distingue: a generativa é boa pra rascunho, síntese e exploração, e inadequada pra determinístico, regulado ou datado. Cada caso de uso pede uma abordagem. Hype mistura tudo; decisão precisa separar. Conecta diretamente ao módulo ML e IA sem Hype do curso.


In-context learning

Cotidiano. Mostrar pra IA três exemplos de "isso é spam, isso não é, isso é spam" no prompt, e pedir pra ela classificar a próxima mensagem. Sem treinar nada, a IA aprende o padrão dos exemplos no momento e aplica. É como ensinar com três exemplos rápidos antes de pedir o trabalho.

Decisor. Forma rápida de adaptar modelo a tarefa específica sem custo de fine-tuning. Funciona pra classificação simples, formato específico, vocabulário próprio. Limitação: número de exemplos cabem na janela de contexto. Útil pra prototipar antes de decidir investimento em fine-tuning.

Profissional de tech ou dados. Capability de LLMs grandes onde o modelo aprende padrão de exemplos few-shot dentro do prompt e generaliza. Variantes: zero-shot (sem exemplo), one-shot (um exemplo), few-shot (vários). Funciona melhor com exemplos representativos e formato consistente. Não modifica pesos do modelo; o aprendizado é efêmero, vive só naquela chamada.

Especialista IA. Brown et al, GPT-3 paper 2020, observação central. Mecanismo ainda em pesquisa: associative memory in attention heads, induction heads (Olsson et al 2022), task vectors (Hendel 2023). Funciona bem em tarefa onde format matters mais que conteúdo. Performance escala com modelo size — emergent ability claim, parcialmente contestado pela hipótese da métrica não-linear (Schaeffer 2023).

Pro Translator. ICL é alavanca de custo importante: substitui fine-tuning em muitos casos. Translator que entende isso evita "vamos fine-tunar" quando 3 a 5 exemplos no prompt resolvem. Decisão prática: prototipar com ICL primeiro, escalar pra fine-tuning só quando ICL não basta e o caso justifica o investimento.


Janela de contexto

Cotidiano. Lousa que vai apagando o início pra escrever no fim. A IA escreve na lousa enquanto conversa, mas a lousa tem tamanho fixo. Quando enche, o início começa a sumir. Por isso conversa muito longa "esquece" coisa que foi falada no começo.

Decisor. Quanto a IA consegue lembrar numa conversa antes de começar a perder informação. Janela maior parece sempre melhor, e na prática custa caro (paga por token) e nem sempre o modelo presta atenção bem em tudo. Decisão de arquitetura: como segmentar dado pra caber no modelo escolhido sem inflar custo.

Profissional de tech ou dados. Limite máximo de tokens (input mais output) que um modelo processa em uma chamada. Modelos atuais: Claude Sonnet 4.6 (1M), GPT-4 (128k), Gemini (1M a 2M), Llama 3 (128k). Comportamentos relevantes: lost-in-the-middle (atenção degrada no meio), context anxiety (modelo termina antes por sentir budget enchendo). Implicação prática: chunking somado a retrieval supera despejar tudo.

Especialista IA. Limite arquitetural definido pelo positional encoding e attention pattern do modelo. Extensions modernas: rotary positional embedding (RoPE) com scaling, sliding window attention (Mistral), ring attention, flash attention 2. Degradação documentada por benchmarks como needle-in-haystack, RULER e BABILong. Estratégias: hierarchical summarization, recursive retrieval, KV cache compression.

Pro Translator. Janela grande não significa que o modelo presta atenção bem em tudo. O Translator desenha estratégia de chunking e handoff em vez de despejar tudo de uma vez. A decisão entre "pago modelo de 1M de contexto" ou "uso modelo de 200k com RAG" é arquitetural com efeito direto em custo e qualidade.


LLM

Cotidiano. Papagaio gigante que leu a internet inteira e aprendeu a continuar frases. Quando a pessoa pergunta algo, ele não "sabe"; adivinha qual a próxima palavra mais provável, baseado em tudo que já leu. Por isso é incrível pra escrever, e erra em conta de matemática que uma criança faz.

Decisor. Motor por trás de ChatGPT, Claude e Gemini. Funciona muito bem pra tarefas de linguagem como resumir, reformular, classificar texto e rascunhar. Funciona mal pra cálculo determinístico, fonte da verdade regulada e fato datado. Investir em LLM sem distinguir essas duas categorias é onde projeto de IA queima caro.

Profissional de tech ou dados. Modelo estatístico que prevê próxima token dado um contexto. Stateless: toda conversa re-envia histórico a cada turno. Acessível via API com cobrança por token (input e output). Modelos relevantes em 2026: Claude Sonnet/Opus 4.6 e 4.7, GPT-4.x, Gemini 2.x, Llama 3.x, Qwen, Mistral. Trade-off típico: capability versus latency versus custo.

Especialista IA. Modelo de linguagem com bilhões de parâmetros treinado via objetivo autoregressivo (next-token prediction) ou masked LM. Arquitetura padrão: transformer decoder-only (Vaswani 2017 mais scaling). Pós-treinamento: SFT mais RLHF, DPO ou RLAIF. Decoding: temperature, top-p, top-k, beam. Limitações estruturais: hallucination, context window, lost-in-the-middle, sycophancy, jailbreak susceptibility, training data cutoff.

Pro Translator. LLM é uma ferramenta, não fonte da verdade. O Translator distingue tarefas que LLM resolve bem (resumir, reformular, classificar) de tarefas que ele só parece resolver (cálculo financeiro, decisão regulada, fato datado). Confundir os dois é onde projeto de IA queima dinheiro com confiança.


MCP

Cotidiano. Tomada padrão dos eletrodomésticos. Aquele padrão único que serve no ferro, na TV, no carregador. Antes do padrão, cada tomada era diferente. MCP é a tomada padrão que faz qualquer IA conversar com qualquer ferramenta.

Decisor. Protocolo aberto que reduz custo de integração de IA com sistemas internos. Empresa que adota MCP integra IA com Jira, Slack, banco de dados e CRM sem pagar consultoria pra cada conexão. Vantagem estratégica: trocar de modelo (Claude pra GPT pra Llama) sem refazer integrações.

Profissional de tech ou dados. Protocolo aberto criado pela Anthropic em 2024 e adotado por OpenAI, Google e Microsoft em 2025. Define interface padronizada entre LLMs e fontes de dados ou ferramentas externas. Servidores MCP expostos via stdio ou SSE; clientes (Claude Desktop, Cursor, IDEs) consomem qualquer servidor MCP. Em 2026, há mais de 1000 servidores MCP públicos.

Especialista IA. JSON-RPC 2.0 sobre stdio ou SSE/HTTP. Capabilities: tools (functions), resources (read-only data), prompts (templates), sampling (LLM via client). Spec evolution: structured output, completion, roots, elicitation. Trade-offs: padronização versus vendor extensions, security (server trust boundary), versioning.

Pro Translator. MCP reduz custo de integração de IA com sistemas internos. O Translator que entende MCP consegue avaliar projeto pelo critério de "isso vai integrar com nosso stack ou vamos pagar consultoria pra cada conexão?". Hoje, MCP é o argumento estratégico mais forte pra padronizar stack agêntico.


Memento-skills

Cotidiano. Pessoa que esquece tudo todo dia, e anota num bloco o que deu certo. No dia seguinte, antes de começar, consulta o bloco. A IA fazendo isso anota o que funcionou e consulta na próxima vez. Em vez de aprender do zero toda vez, usa um caderno de truques.

Decisor. Forma de fazer agente de IA aprender com a experiência sem precisar de fine-tuning, que é caro. Em vez de treinar o modelo de novo, a empresa guarda procedimentos que funcionaram, e o agente consulta na próxima tarefa parecida. Decisão de arquitetura: vale o investimento ou RAG bem feito já resolve?

Profissional de tech ou dados. Padrão arquitetural em que um agente persiste experiências bem-sucedidas (procedimentos, prompts efetivos, resoluções de erro) em skill base e recupera por similaridade quando enfrenta tarefa parecida. Implementação: embedding mais vector DB mais filtering mais injection no prompt. Diferença para fine-tuning: não modifica pesos, modifica contexto.

Especialista IA. Memory-augmented agentic pattern. Variantes: Voyager-style skill library, Reflexion-style episodic memory, MemGPT-style hierarchical memory, AutoGen-style cumulative tools. Trade-offs: skill drift, retrieval precision, skill versioning, cleanup policy. Implementações modernas: Letta, MemGPT, Anthropic Memento (research).

Pro Translator. Memento-skills é uma das respostas pra "como o agente melhora ao longo do tempo sem fine-tuning?". O Translator avalia se a empresa precisa disso ou se RAG bem feito já resolve. Em cerca de 80% dos casos, RAG basta. Os 20% que precisam de Memento-skills são workflows recorrentes com aprendizado incremental do erro.


Model collapse

Cotidiano. Quando alguém tira xerox de xerox de xerox, cada cópia perde um pouquinho de resolução, até virar um borrão. Model collapse é a mesma coisa com IA treinada com texto que outra IA gerou. Cada geração fica mais burra que a anterior.

Decisor. Risco emergente. À medida que IA gera mais conteúdo da internet, o próximo treinamento de modelo pega esse conteúdo. Se isso virar dominante, próximas gerações de modelos podem ficar piores em vez de melhores. Implicação pra empresa: dado humano original é ativo estratégico. Documentar tudo escrito por humano.

Profissional de tech ou dados. Degradação progressiva de modelos generativos quando treinados com dados sintéticos produzidos por outros modelos. Sintomas: collapse de variância (outputs convergem), perda de cauda da distribuição (rare events somem), amplificação de vieses (estereótipos se reforçam). Documentado em Shumailov et al, Nature 2024.

Especialista IA. Phenomenon emergente em loops de auto-treinamento (synthetic data, train, generate, train). Failure modes: variance collapse, mode collapse, distribution shift. Mitigação por data provenance tracking, watermarking, human-curated subset preservation, multi-source diversity. Open problem em frontier models, com debate ativo sobre severidade real fora de loops sintéticos puros.

Pro Translator. À medida que IA gera mais conteúdo da internet, próximo treinamento pega esse conteúdo. Empresa que monta data product com IA precisa garantir que dado humano original continua sendo a fundação. O Translator inclui proveniência do dado no design do produto, não como afterthought.


Multimodal

Cotidiano. IA que entende mais que só texto. Você manda uma foto e pergunta "o que tem aqui?", ela descreve. Você manda áudio e pergunta "do que é essa música?", ela responde. Combina texto, imagem, áudio e vídeo numa só conversa.

Decisor. Capability que multiplica casos de uso da IA. Análise de imagem (controle de qualidade, OCR), análise de áudio (transcrição, classificação), análise de vídeo (vigilância, conformidade). Aceitação acelerada em 2025 com modelos como GPT-4V, Claude com vision e Gemini nativo multimodal.

Profissional de tech ou dados. Modelo que processa múltiplas modalidades — texto + imagem + áudio + vídeo — em arquitetura unificada. Implementações modernas: encoder por modalidade + cross-attention + decoder unificado. Casos típicos: VQA (Visual Question Answering), OCR avançado, transcrição com contexto, geração de imagem a partir de texto.

Especialista IA. Arquiteturas: CLIP (Radford 2021) text-image alignment; Flamingo (Alayrac 2022) multimodal few-shot; LLaVA, GPT-4V, Claude 3+ vision, Gemini Native multimodal. Approaches: late fusion (separate encoders), early fusion (joint tokenization), native multimodal (single transformer, ex: Gemini). Benchmarks: VQAv2, TextVQA, MMBench, MMMU.

Pro Translator. Multimodal expande o escopo de aplicações sem mudar fundamentalmente o framework de avaliação. Translator avalia caso de uso multimodal pelos mesmos critérios (custo de erro, custo de operação, eval, governança) — modalidade nova é variável de input, não nova categoria de decisão.


Processamento de linguagem natural (PLN)

Cotidiano. Quando o computador entende texto livre, igual a gente entende. Reclamação no SAC, busca no Google, comentário em rede social, transcrição de áudio. Antes da IA generativa, PLN já fazia muita coisa: classificar email como spam, detectar idioma, extrair entidades. A IA generativa é evolução da PLN, em vez de substituição.

Decisor. Categoria que cobre todo tratamento computacional de texto. Casos típicos na empresa: classificação de ticket (priorizar, rotear), extração de informação de PDF (NF, contrato), sumarização de transcrição de reunião, análise de sentimento de feedback. Maior parte das aplicações corporativas de IA é PLN, mesmo quando o discurso usa "IA generativa" como sinônimo.

Profissional de tech ou dados. Subcampo de IA que processa, entende e gera linguagem humana. Tarefas clássicas: classificação, named entity recognition (NER), sentiment analysis, translation, summarization, question answering, NLI. Stack moderna: LLMs via API (Claude, GPT, Gemini) ou modelos especializados (spaCy, Hugging Face). Métricas: F1, BLEU, ROUGE, BERTScore.

Especialista IA. Disciplina que historicamente combinou linguística computacional, ML estatístico e deep learning. Geração atual: transformer-based architectures dominam (BERT 2018, GPT-2/3 2019/2020, T5, LLaMA). Tarefas-âncora: GLUE, SuperGLUE, MMLU, HELM. Subcampos ativos: structured generation, code generation, multilingual NLP, low-resource languages.

Pro Translator. PLN é o motor por trás da maioria das aplicações corporativas de IA. O Translator que entende PLN evita decisão errada de "preciso fine-tuning" quando a tarefa cabia em modelo geral, ou "preciso modelo geral" quando especialização cabia. Distinção entre tarefa que precisa de generalização (LLM grande) e tarefa que cabe em modelo pequeno especializado (BERT, distilbert) é onde projeto economiza ou queima dinheiro.


Prompt

Cotidiano. A forma como a pessoa pede uma coisa. "Me faz um bolo" entrega um resultado diferente de "me faz um bolo de chocolate sem glúten pra 6 pessoas, porque minha cunhada é celíaca e vai vir almoçar". Quanto melhor o pedido, melhor o resultado. Prompt é o pedido pra IA.

Decisor. Prompt ruim faz IA gerar resultado ruim com confiança alta, e a equipe culpa o modelo. Empresa que opera IA bem trata prompts como ativo: versionados, testados, documentados. Quem desenha o prompt define o que a IA produz.

Profissional de tech ou dados. Texto de entrada fornecido a um LLM, contendo instruções (system mais user), contexto (background, dados), exemplos (few-shot), formato esperado (JSON schema, structured output) e constraints (não fazer X). Prompt engineering é a engenharia desse texto. Stack típica: prompt templates versionados, A/B test, eval pipeline.

Especialista IA. Sequência de tokens que define a distribuição condicional p(output|prompt) que o modelo amostra. Técnicas: few-shot, chain-of-thought, self-consistency, tree-of-thoughts, role-play, constraint instruction. Optimization automatizada: APE, OPRO, DSPy. Adversarial: prompt injection, jailbreak, prompt leaking. Modelos modernos suportam structured input/output via JSON schema, function calling e constrained decoding.

Pro Translator. Prompt ruim faz IA gerar resultado ruim com confiança alta, e a equipe culpa o modelo. O Translator desenha biblioteca de prompts da empresa como ativo: versionada, testada por eval, documentada com casos de uso. Sem isso, cada engenheiro reinventa o prompt e a qualidade fica inconsistente.


RAG

Cotidiano. Estagiário consultando a apostila antes de responder, em vez de chutar de cabeça. A pessoa pergunta, o sistema procura nos documentos da empresa primeiro, depois entrega esses documentos pra IA junto com a pergunta. Aí a IA responde baseada no que está lá, em vez de no que ela "acha".

Decisor. Forma mais barata e auditável de fazer IA usar conhecimento da empresa sem fine-tuning. Default arquitetural pra "IA com nossos documentos". Bem feito, reduz alucinação e dá rastreabilidade (cita fonte). Mal feito, fica pior que IA sem RAG: parser ruim entrega lixo, modelo gera resposta plausível baseada em lixo.

Profissional de tech ou dados. Arquitetura que combina retrieval (busca semântica em base de conhecimento via embeddings e vector database) com generation (LLM gerando resposta condicionada pelos documentos recuperados). Pipeline: ingest, chunk, embed, store, query, retrieve, rerank, generate. Stack típica: pgvector ou Pinecone, embedding API, LLM API.

Especialista IA. Padrão arquitetural com variantes: naive RAG, advanced RAG (rerank, query rewriting, hybrid search), graph RAG, agentic RAG. Componentes críticos pra qualidade: parser (PDF, HTML, tabelas), chunker (semantic, structural, fixed), embedder (general versus domain-specific), retriever (dense mais sparse hybrid), reranker (cross-encoder), grounding check. Failure modes: retrieval miss, irrelevant context, conflicting docs, parser hallucination.

Pro Translator. RAG é a forma mais barata e auditável de fazer IA usar conhecimento da empresa. RAG ruim, contudo, fica pior que IA sem RAG, porque o parser entrega lixo pro modelo, que gera resposta plausível baseada em lixo. O Translator avalia se o parser está tratando tabela, lista e estrutura. Se não estiver, a decisão é refazer o parser antes de avaliar o modelo.


Reasoning model

Cotidiano. IA com pausa pra pensar antes de responder. Em vez de chutar a primeira resposta plausível, ela "pensa" passo a passo internamente (sem mostrar tudo) e só depois responde. Mais lenta, mais cara e mais certa em problema complexo.

Decisor. Categoria nova de modelos (lançada em 2024-2025) que troca latência por qualidade em problemas complexos. Custo de inferência pode ser 10 a 50 vezes maior que modelo padrão. Útil em análise complexa, código, matemática. Excessivo pra perguntas simples — desperdício de orçamento.

Profissional de tech ou dados. Modelos com cadeia de raciocínio interna explícita antes da resposta final. Exemplos: OpenAI o1 e o3 (reasoning tokens "ocultos"), Claude com extended thinking (visible thinking), Gemini 2 reasoning. Custo cobrado por tokens de "pensamento" mais tokens de output. Latência: segundos a minutos por resposta.

Especialista IA. Trained com RL on reasoning traces (process supervision, outcome supervision). OpenAI o1 introduzido em out 2024, reasoning tokens não-visíveis ao usuário. Claude extended thinking expõe tokens visíveis. Performance: SWE-bench, AIME, GPQA Diamond saturados rapidamente. Trade-off central de research: scaling test-time compute vs scaling pretraining.

Pro Translator. Reasoning models são alavanca de qualidade pra casos específicos onde análise multi-passo importa mais que latência. Translator distingue caso onde reasoning paga (análise complexa, decisão crítica, código) de caso onde é desperdício (resposta direta a FAQ, classificação trivial). Decisão arquitetural: reasoning como default (caro, lento) ou roteado seletivamente conforme complexidade do input?


Rede neural

Cotidiano. Inspirada no cérebro: muitas unidades simples (neurônios) conectadas, cada uma fazendo um cálculo pequeno e passando o resultado adiante. O conjunto inteiro aprende reconhecendo padrão em exemplo: "isso é um gato, isso não é, isso é um gato". Após milhões de exemplos, a rede inteira "decora" o que distingue gato de não-gato.

Decisor. Tecnologia que está por trás de praticamente toda IA moderna. Decisão típica do gestor não é "vou usar rede neural?", e sim "vou comprar acesso à API que usa rede neural ou treinar a minha?". Em quase todos os casos a resposta é comprar acesso. Treinar do zero faz sentido pra empresa com dado proprietário em volume (Google, Meta, OpenAI) ou pesquisa de fronteira; não pra maioria.

Profissional de tech ou dados. Modelo computacional inspirado em neurônios biológicos: camadas de unidades conectadas por pesos aprendidos via backpropagation. Arquiteturas comuns: feedforward (MLP), convolutional (CNN), recurrent (RNN, LSTM, GRU), transformer (atenção). Treinamento: forward pass, loss computation, backward pass, optimizer step. Frameworks: PyTorch, TensorFlow, JAX.

Especialista IA. Função paramétrica f(x; θ) composta por camadas lineares mais não-linearidades, treinada via gradient-based optimization sobre dataset rotulado ou self-supervised. Componentes: weight initialization (Xavier, He, Kaiming), activation functions (ReLU, GELU, SwiGLU), normalization (BatchNorm, LayerNorm, RMSNorm), regularization (dropout, weight decay). Frontier: scaling laws, neural architecture search, NeRFs, world models.

Pro Translator. Rede neural é o substrato técnico de toda decisão atual de IA. O Translator não treina rede, e precisa saber distinguir três opções de implementação: (1) consumir API de modelo treinado (default), (2) fine-tunar modelo open-weight em infraestrutura própria (casos específicos), (3) treinar do zero (raro, exige equipe de pesquisa e GPU em escala). Cada opção tem trade-off de custo, lock-in e capacidade interna.


System prompt

Cotidiano. Instrução que fica "guardada na memória" da IA antes da conversa começar. Tipo o briefing que o atendente recebe antes do plantão: "responda só sobre nosso produto, não dê desconto sem aprovação, mantenha tom formal". A IA segue essas regras durante toda a conversa.

Decisor. Onde a empresa define personalidade, escopo e regras de comportamento da IA. System prompt mal escrito gera IA inconsistente. System prompt versionado, testado e auditado vira parte da governança da aplicação, com efeito direto em qualidade percebida pelo cliente.

Profissional de tech ou dados. Instrução de alto nível enviada como primeira mensagem (role: system) que define contexto, personalidade, restrições e formato esperado. Persiste durante toda a sessão. Diferente de user prompt (mensagem individual). Distinto entre vendors: OpenAI usa role "system", Anthropic usa parâmetro system separado.

Especialista IA. System prompt tem peso maior que user prompt em muitos modelos por design. Vulnerável a prompt injection — usuário pode tentar override do system prompt via instruções adversariais. Defesa moderna: prompt hierarchies (Wallace et al 2024, OpenAI), instruction following with explicit role separation. Comprimento típico em produção: 500 a 5.000 tokens.

Pro Translator. System prompt é peça-chave de governança. Translator desenha catálogo de system prompts da empresa como ativo: versionados, testados em eval, documentados com casos de uso. Sem governança de system prompt, cada engenheiro reinventa a roda e qualidade fica inconsistente entre features da mesma aplicação.


Token

Cotidiano. Pedacinho de palavra. A IA não cobra por palavra inteira; cobra por pedacinho. "Casa" vira 1 pedacinho. "Extraordinário" pode virar 4 pedacinhos. É como o táxi cobra por quilômetro, em vez de por viagem.

Decisor. Unidade de cobrança da IA. Cada chamada custa baseado em quantos tokens entram (input) e quantos saem (output). Documento longo, prompt longo ou histórico extenso resultam em custo alto. Decisão de arquitetura: caching, chunking e retrieval impactam diretamente o custo de operação.

Profissional de tech ou dados. Unidade básica de processamento de um LLM, gerada pelo tokenizer. Pode ser palavra inteira, sub-palavra (BPE), pontuação ou caractere. Em português, um token equivale a aproximadamente 0.7 palavras. Cobrança típica em dólar por 1M tokens, com output 3 a 5 vezes mais caro que input. Token counting via tiktoken (OpenAI) ou tokenizer do modelo.

Especialista IA. Unidade lexical produzida por algoritmo de tokenization (BPE, WordPiece, SentencePiece, Unigram). Tokenizers populares: tiktoken (cl100k_base, o200k_base), Llama tokenizer, Claude tokenizer (proprietary). Trade-offs: vocab size versus sequence length versus multilingual coverage. Modern: byte-level BPE (GPT-4), tiktoken, sentencepiece.

Pro Translator. Custo de IA é tokenizado. Projeto que processa documento longo sem estratégia de chunking pode ficar caro rápido. O Translator inclui custo por token na avaliação de viabilidade; não é detalhe técnico, é variável de business case. "Quantos tokens por usuário/mês × N usuários × custo unitário" precisa estar na conta antes do go-live.


Tool use

Cotidiano. IA chamando uma calculadora pra fazer conta, em vez de fazer de cabeça e errar. Ou chamando um buscador pra ver a notícia de hoje, em vez de "lembrar" baseado no que aprendeu há um ano. A IA usa ferramenta porque sozinha ela é limitada.

Decisor. Capacidade que transforma IA papagaio em IA operadora. Ferramentas típicas: consultar banco de dados, enviar email, criar ticket no Jira, chamar API externa. Cada ferramenta nova traz poder e risco; ferramenta dá acesso a sistema real, então requer permissão, auditoria e revisão.

Profissional de tech ou dados. Capacidade de um LLM invocar funções e APIs externas pra executar tarefas além da geração de texto. Implementação: function calling (OpenAI), tool use (Anthropic), function declarations (Google), MCP. Schema definido em JSON Schema; LLM emite tool call estruturado, runtime executa, resultado volta como observação. Stack pra agente: orchestrator, tool registry, permission layer, audit log.

Especialista IA. Capability suportada por modelos modernos via constrained decoding ou structured output. Variantes: parallel tool use, nested tool use, streaming tool use, computer use (Anthropic). Failure modes: hallucinated tool call, wrong arg type, infinite tool loop, unauthorized tool call, prompt injection via tool output. Mitigação por schema validation, rate limit e human-in-the-loop pra ações destrutivas.

Pro Translator. Tool use bem desenhado transforma IA papagaio em IA operadora. Cada tool nova é superfície de ataque (segurança) e fonte de erro (governança). O Translator desenha catálogo de tools que IA pode chamar, com permissão por contexto. Ferramenta de leitura tem escopo amplo; ferramenta de escrita exige aprovação humana. Sem essa separação, agente vira ataque insider.


Transformer

Cotidiano. A "receita arquitetural" usada na maioria das IAs modernas. Inventada em 2017 pelo Google, é o que está por trás do ChatGPT, Claude, Gemini e quase todos os modelos grandes. É como o motor a combustão pro carro: muitos modelos diferentes usam a mesma fundação técnica.

Decisor. Não é decisão de produto direto — é fundação técnica que possibilitou tudo que veio depois. Saber que o modelo é "transformer" é como saber que o carro tem "motor a combustão": útil pra entender capability e limitação no nível geral, sem precisar virar especialista em mecânica.

Profissional de tech ou dados. Arquitetura de rede neural baseada em mecanismo de atenção, introduzida no paper "Attention is All You Need" (Vaswani et al, 2017). Componentes: self-attention, multi-head attention, positional encoding, feedforward layers, residual connections, layer normalization. Variantes: encoder-only (BERT), decoder-only (GPT), encoder-decoder (T5).

Especialista IA. Vaswani et al, NeurIPS 2017. Atenção: Q·K^T/√d_k → softmax → ·V. Variantes arquiteturais: GPT-style decoder-only com causal masking, BERT-style bidirectional encoder, T5 encoder-decoder. Otimizações modernas: flash attention 2 (Dao 2022), grouped-query attention, mixture of experts (Mixtral, DeepSeek). Alternativas emergentes: state-space models (Mamba), linear attention.

Pro Translator. Transformer é fundação técnica que Translator não precisa implementar, e precisa entender suficientemente pra avaliar capability de modelo. Saber que "modelo X é transformer com 70B parâmetros" dá noção de ordem de grandeza de capability e custo. Detalhes de attention mechanism ficam pra time técnico.


Vector database

Cotidiano. Spotify recomendando música por estilo, em vez de pelo nome do artista. A pessoa pode pedir "música pra correr" e ele acha música que ela nunca ouviu, mas tem o estilo certo. Vector DB faz isso com qualquer coisa: documento, produto, foto, currículo.

Decisor. Banco de dados especializado em buscar por significado. Peça-chave de RAG e de qualquer sistema que precisa achar informação por similaridade em vez de busca exata. Escolher errado custa caro depois (latência, custo de operação, falta de filtro por metadata). Decisão arquitetural relevante.

Profissional de tech ou dados. Banco de dados otimizado pra armazenar e indexar embeddings, com busca por similaridade vetorial (cosine, dot product, euclidean). Opções: Pinecone (managed), Weaviate, Qdrant, Milvus, pgvector (Postgres extension), Vespa, ChromaDB. Trade-offs: latência versus recall, hosted versus self-hosted, hybrid search (dense mais sparse), metadata filtering.

Especialista IA. Indexação via ANN (approximate nearest neighbor): HNSW, IVF, ScaNN, FAISS-style. Trade-offs: index build time versus query latency, memory versus disk versus GPU, recall@k. Modern features: hybrid search (BM25 mais dense), metadata filtering, multi-vector (ColBERT-style), payload index. Open challenges: scaling beyond billions, real-time updates, multi-tenancy.

Pro Translator. Vector DB é peça-chave do RAG. Escolher errado custa caro depois. O Translator participa da decisão arquitetural, em vez de delegar 100% pra engenharia, porque a escolha tem efeito direto em produto e custo. "pgvector basta" versus "precisamos Pinecone" não é decisão de engenharia pura; é decisão de produto com restrição de custo e escala.


Como esse glossário se conecta ao curso

O Data Translator é uma formação executiva de 13 semanas pra quem trabalha com dados e quer aprender a sentar na mesa onde as decisões acontecem. Os termos deste glossário sustentam dois módulos do curso:

Pra mapear seus gaps nas competências relacionadas, faça o Radar de Competências em 5 minutos. O eixo Machine Learning e IA cobre exatamente as decisões discutidas nesse glossário.

Referências

Descubra seus gaps em dados →