Token

Como funciona

  1. Tokenização. O texto bruto entra no tokenizer (BPE, WordPiece, SentencePiece). Cada algoritmo divide o texto de um jeito: palavra inteira, subpalavra ou caractere. "Inteligência" pode virar 1 token ou 4 ("Inte", "li", "gên", "cia"), depende do modelo.
  2. Mapeamento pra ID. Cada token único tem um identificador numérico no vocabulário do modelo. "casa" vira, por exemplo, ID 1842. O modelo trabalha com IDs, não com texto.
  3. Geração do embedding. O ID é convertido num vetor denso (embedding) que carrega o significado do token no espaço do modelo.
  4. Processamento pelo modelo. A sequência de embeddings entra no modelo (Transformer) que processa todos juntos via mecanismo de atenção, gerando a saída token por token.

Por que importa

  • É a unidade de cobrança dos LLMs. Quase toda API de IA precifica por token de entrada e de saída. Saber quantos tokens consome é a única forma de prever custo de produção.
  • Define a janela de contexto. O limite "128k tokens" é literalmente o número máximo de tokens que o modelo aceita por requisição. Estourou, a chamada falha.
  • Resolve palavras desconhecidas. Subwords (BPE) permitem que o modelo lide com palavras novas, gírias e termos técnicos sem ter visto cada um no treinamento.
  • Padroniza dados não-textuais. Modelos multimodais tokenizam imagem (patches), áudio (frames) e até vídeo, unificando o pipeline.

O que muda para cada perfil

Para o Translator

Leitura transversal: como o conceito muda o papel de quem alinha tech, dados e negócio.

O que muda pra você. Custo de IA é tokenizado. Projeto que processa documento longo sem estratégia de chunking pode ficar caro rápido. O Translator inclui custo por token na avaliação de viabilidade. Não é detalhe técnico, é variável de business case.

Analogia. Token é a moeda da operação de IA. Tudo que entra e sai do modelo é convertido em token, e o saldo no fim do mês decide se o projeto continua ou volta pra prancheta.

Pergunta-âncora. Quantos tokens por usuário/mês × N usuários × custo unitário = nossa fatura. Esse cálculo está na conta antes do go-live, ou estamos descobrindo na primeira fatura?

Para DPM

Linguagem e exemplos para Data Product Managers e Analytics Leads.

O que muda pra você. Token é a métrica de custo unitário do LLM. Pra construir produto de dados conversacional, dimensionar custo por consulta exige saber quantos tokens uma consulta média consome. Sem isso, o modelo de cobrança fica chutado.

Analogia. É como kWh em conta de luz. Cada feature consome um tanto. Feature pesada (relatório longo gerado por IA) consome muito. Feature leve (Q&A simples) consome pouco. Quem entende consumo, projeta produto.

Pergunta-âncora. Quantos tokens uma consulta típica desse produto consome? Multiplicado por volume esperado, dá a fatura mensal. Esse cálculo é meu, não da engenharia.

Para Produto

Linguagem e exemplos para Product Managers.

O que muda pra você. Token define o limite de cada interação e o custo unitário de cada feature. UX de "loading…" até a resposta começar a sair depende de quantos tokens precisam ser processados. Feature que gera texto longo é cara e lenta por design.

Analogia. Token é a unidade de tempo + custo da resposta da IA. Resposta curta sai rápido e barata. Resposta longa, devagar e cara. UX precisa contar com isso.

Pergunta-âncora. O usuário precisa de resposta longa ou de resposta certa? Output extenso geralmente gasta mais sem entregar mais valor.

Para Engenharia

Linguagem e exemplos para Data Engineers, ML Engineers e Arquitetos.

O que muda pra você. Tokenizers diferem entre modelos: tiktoken (cl100k_base, o200k_base) pra OpenAI, tokenizers próprios pra Claude e Gemini. Em português, 1 token equivale a aproximadamente 0.7 palavras. Trade-off principal: vocab size vs sequence length vs cobertura multilíngue.

Analogia. É como charset (UTF-8 vs ASCII), mas pra LLM. Cada modelo tem o seu, e a contagem de "caracteres" muda dependendo de qual.

Pergunta-âncora. Estou contando tokens com o tokenizer certo? Estimar com tokenizer errado dá erro de orçamento e de janela. Vale rodar tiktoken (ou equivalente) antes de produção.

Para Gestão

Linguagem e exemplos para TPMs, Engineering Managers e líderes de time.

O que muda pra você. Token é o item de linha do orçamento de IA. Painel de uso por equipe ou produto deve mostrar tokens consumidos, não chamadas. Time sem visibilidade de tokens não consegue otimizar e descobre problema só na fatura.

Analogia. É equivalente a horas de consultoria. Cada chamada gasta um tanto, e o gasto se acumula silenciosamente. Sem dashboard, vira surpresa.

Pergunta-âncora. Temos rastreio de tokens por equipe ou produto? Sem isso, não dá pra atribuir custo, e a otimização vira chute.

Para Negócio

Linguagem e exemplos para Estratégia, Operações e FP&A.

O que muda pra você. Token é a unidade que liga uso de IA ao custo financeiro. Toda análise de viabilidade de projeto de IA precisa converter "número de usuários × frequência × tokens por interação" em moeda.

Analogia. Token é a unidade técnica de "consumo" da IA, igual a m³ de gás ou kWh de luz. Não dá pra fechar contrato sem saber quanto cada usuário vai consumir.

Pergunta-âncora. Antes de aprovar projeto de IA, alguém calculou o custo por usuário em tokens? Se a resposta for "depois a gente vê", esse "depois" vira uma fatura grande.

Citado nestes artigos

7 artigos do blog referenciam Token.

Limitações da IA generativa em ambiente corporativo

IA generativa tem limitações estruturais que importam pra decisão de uso na empresa: tempo real, cálculo, regulação, privacidade e reprodutibilidade.

O que é IA generativa

IA generativa produz conteúdo novo a partir de um prompt. Útil pra rascunho e síntese, inadequada pra cálculo determinístico, regulado ou datado.

RAG vs fine-tuning: quando cada um cabe

RAG entrega conhecimento atualizável e auditável. Fine-tuning entrega estilo, formato e domínio com vocabulário próprio. Decisão arquitetural com efeito direto em custo.

Como medir ROI de projeto de IA

Medir ROI de IA exige mapear custo total (modelo, integração, governança, manutenção) contra ganho concreto (redução de custo, receita, qualidade).

Como avaliar uma proposta de IA na empresa

Seis filtros antes de aprovar piloto de IA: dono, custo de erro, estratégia de dado, orçamento agêntico, eval definida e plano de sunset.

O que é alucinação em IA e por que acontece

Alucinação não é bug, é como o modelo funciona. Saída plausível sem suporte factual, com confiança alta. Mitigação está no desenho do processo.

Diferença entre IA, machine learning e automação

IA, machine learning e automação são categorias diferentes. Confundir as três faz projeto virar teatro corporativo, com investimento que não volta.

Fazer diagnóstico →