Fundação
O que é IA generativa, como funciona, e o vocabulário base de modelos de linguagem.
- IA generativa IA generativa é a subárea da inteligência artificial que produz conteúdo novo (texto, imagem, áudio, vídeo, código) a partir de um prompt, em vez de classificar ou prever resultados sobre dados existentes. Os modelos aprendem a distribuição estatística dos dados de treinamento e geram saídas que seguem essa distribuição, mas não estavam no conjunto original. Os principais arquetipos são LLMs (texto), modelos de difusão (imagem e vídeo) e GANs (mídia em geral). É a categoria que mudou o que se entende por IA aplicada nos últimos 3 anos: deixou de ser ferramenta de análise pra virar ferramenta de criação.
- LLM LLM (Large Language Model, ou Modelo de Linguagem Grande) é um modelo de IA treinado em vasto volume de texto pra gerar e entender linguagem natural. Funciona prevendo a próxima palavra (token) numa sequência, com base em todo o contexto que recebe. É o motor por trás de ChatGPT, Claude, Gemini e Llama. Funciona bem em tarefas de linguagem (resumo, reformulação, classificação, escrita) e mal em cálculo determinístico, fonte da verdade regulada e fato datado. A arquitetura padrão é o Transformer (Vaswani et al., 2017), e a escala é o que diferencia: bilhões de parâmetros treinados em trilhões de tokens.
- Deep learning Deep learning é uma subárea do machine learning baseada em redes neurais com múltiplas camadas (profundas), capaz de aprender representações hierárquicas e abstratas a partir de grandes volumes de dado. Diferente do ML tradicional, o deep learning extrai automaticamente as características relevantes dos dados, sem engenharia manual de features. É o que viabiliza visão computacional moderna, processamento de linguagem natural e a maior parte dos avanços de IA da última década. O termo ganhou tração com o trabalho de Hinton, Osindero e Teh (Deep Belief Nets, 2006) e explodiu em popularidade após AlexNet (2012).
- Rede neural Rede neural (ou neural network) é um modelo computacional inspirado na estrutura do cérebro biológico, composto por camadas de neurônios artificiais conectados por pesos. Cada neurônio recebe entradas, aplica uma função matemática e passa o resultado adiante. Durante o treinamento, os pesos são ajustados via backpropagation pra minimizar o erro entre a saída do modelo e a saída esperada. É a fundação técnica de praticamente todo sistema de IA moderno: classificação, regressão, geração e reconhecimento de padrão. O conceito vem de McCulloch e Pitts (1943) e Rosenblatt (Perceptron, 1958), e a versão moderna profunda é a base do deep learning.
- Transformer Transformer é uma arquitetura de rede neural introduzida em 2017 pelo paper Attention Is All You Need (Vaswani et al.) que se tornou a fundação dos LLMs modernos. Diferente das redes recorrentes (RNN) e convolucionais (CNN), o Transformer processa sequências em paralelo via mecanismo de autoatenção (self-attention), capturando dependências de longo alcance sem percorrer a sequência token por token. Permite treinamento mais rápido em escala e modela relações complexas em texto, imagem e áudio. É a base de GPT, Claude, Gemini, BERT, T5 e modelos de visão como ViT. Componentes principais: self-attention, multi-head, positional encoding, feedforward.
- Token Token é a unidade mínima de texto ou dado que um modelo de IA processa, podendo ser uma palavra inteira, uma subpalavra, um caractere ou um byte, dependendo do algoritmo de tokenização (BPE, WordPiece, SentencePiece). O texto bruto entra, é dividido em tokens, cada token recebe um identificador numérico no vocabulário do modelo e vira embedding antes do modelo trabalhar. Token é também a unidade comercial dos LLMs: quase toda API de IA cobra por token de entrada e saída, e a janela de contexto é medida em tokens. Em modelos multimodais, o conceito se estende pra tokens visuais e de áudio.
- Embedding Embedding é a representação de dados como vetores numéricos densos, em que itens semanticamente parecidos ficam próximos no espaço vetorial. Isso permite operações matemáticas (medir similaridade, agrupar, buscar) em dados que originalmente não eram numéricos como texto, imagem ou áudio. É o que possibilita busca semântica, sistema de recomendação e a recuperação de trechos relevantes em RAG. O termo ganhou tração com o trabalho de Mikolov (Word2Vec, 2013) e hoje é fundação técnica de quase tudo que envolve IA de linguagem.
- Multimodal Multimodal é a característica de sistemas de IA capazes de processar e integrar informações de modalidades diferentes (texto, imagem, áudio, vídeo, dados sensoriais) em arquitetura unificada. Em vez de ter um modelo pra cada tipo de dado, o sistema multimodal compreende e relaciona todos juntos. Habilita casos como descrever uma imagem em texto, gerar vídeo a partir de áudio, OCR contextual e busca cross-modal (procurar imagem por texto). É o oposto de modelos unimodais, que se restringem a um único tipo de entrada. Modelos como GPT-4o, Claude e Gemini são nativamente multimodais.
- Processamento de linguagem natural (PLN) Processamento de Linguagem Natural (PLN ou NLP, de Natural Language Processing) é o subcampo da IA dedicado a fazer computadores processarem, entenderem e gerarem linguagem humana. Cobre classificação de texto, extração de informação, sumarização, tradução automática, análise de sentimento, reconhecimento de entidade nomeada e geração de texto. É o campo onde os LLMs atuais nasceram: hoje, a maioria das tarefas de NLP em produção usa modelo de linguagem pré-treinado em vez de pipeline custom. NLP existe desde os anos 1950 (Turing test, ELIZA), mas a era moderna começou com Transformer (2017) e BERT/GPT (2018-2019).
Modelos e prompts
Como o modelo se comporta quando você fala com ele, e por que ele às vezes inventa.
- Alucinação Alucinação é o output gerado por um modelo de IA (especialmente LLMs) que parece plausível e bem articulado, mas é factualmente incorreto, inconsistente com a fonte fornecida ou completamente inventado. Pode ser invenção de citação que não existe, número fabricado, fato histórico errado, código que parece certo mas não compila, ou API que o modelo "acha" que existe. Não é bug: é como o modelo funciona. Como next-token prediction otimiza plausibilidade lexical, não veracidade, alucinação é comportamento intrínseco. É mitigável via RAG, eval, citação obrigatória e guardrails, mas nunca eliminável.
- Chain of thought Chain of thought (ou raciocínio em cadeia) é uma técnica de prompt que instrui o modelo a produzir uma sequência de passos intermediários de raciocínio antes da resposta final. Em vez de pedir só a resposta, o prompt pede que o modelo mostre o caminho. Isso eleva performance em problemas multi-passo (matemática, lógica, decisão complexa) e aumenta a transparência da resposta. O conceito foi formalizado por Wei et al. (2022) no paper Chain-of-Thought Prompting Elicits Reasoning in Large Language Models e se tornou base do que hoje é nativo nos reasoning models. Frente direta: prompt direto que pede só o resultado, sem explicitar o processo.
- In-context learning In-context learning (ICL, ou aprendizado em contexto) é a capacidade de LLMs aprenderem padrões de uma tarefa nova só com exemplos fornecidos dentro do prompt, sem mudar os pesos do modelo. Diferente do fine-tuning, que modifica permanentemente o modelo, ICL aproveita o conhecimento que o modelo já tem pra inferir a tarefa a partir do contexto. Em modos zero-shot (sem exemplo), one-shot (1 exemplo) ou few-shot (vários exemplos), permite adaptar rapidamente a aplicação sem custo de retreino. O termo ganhou tração com o paper GPT-3 (Brown et al., 2020) e é um dos comportamentos mais úteis dos LLMs modernos.
- Reasoning model Reasoning model (ou modelo de raciocínio) é a categoria de LLMs que executa uma cadeia de raciocínio interna explícita antes de gerar a resposta final. Em vez de devolver a primeira saída plausível, o modelo gera tokens de pensamento (geralmente ocultos do usuário), avalia opções, corrige passos e só então responde. Troca latência e custo por qualidade em problemas complexos: matemática, código, análise multi-passo. Exemplos: OpenAI o1 e o3, Claude com extended thinking, Gemini com reasoning. Custo de inferência pode ser 10 a 50 vezes maior que modelo padrão. Excessivo para perguntas simples — desperdício de orçamento.
- Prompt Prompt é a entrada (texto, imagem, áudio ou combinação) que o usuário ou o sistema fornece a um modelo de IA pra solicitar uma tarefa, fazer pergunta ou guiar a saída. É o principal mecanismo de controle do comportamento do modelo: a forma como o prompt é escrito influencia diretamente qualidade, formato e relevância da resposta. A prática de elaborar bons prompts se chama prompt engineering. Tipos comuns: zero-shot (instrução direta sem exemplo), few-shot (com exemplos), chain-of-thought (com raciocínio explícito), system prompt (instrução de governança que persiste na sessão). Prompt bem feito é diferença entre LLM que entrega valor e LLM que devolve genérico.
- System prompt System prompt é a instrução de alto nível enviada ao LLM antes da conversa começar, que define contexto, persona, regras de comportamento, formato e restrições do modelo. Persiste durante toda a sessão e tem precedência sobre o prompt do usuário. É a peça-chave de governança de produto baseado em LLM: onde o time de produto e segurança estabelece os limites do que o modelo pode fazer. Bem desenhado, vira ativo da empresa: versionado, testado em eval, documentado.
- Janela de contexto Janela de contexto é o limite máximo de tokens que um modelo de IA aceita processar de uma vez, e tudo que entra precisa caber nesse limite. Inclui instrução do sistema, histórico da conversa, documentos anexos, exemplos few-shot e a pergunta atual, mais o espaço reservado pra resposta. Modelos modernos têm janelas de 128k a 2M tokens, mas janela grande não significa que o modelo presta atenção bem em tudo: a qualidade tende a degradar nas pontas (lost in the middle). Janela de contexto é a memória de curto prazo do modelo. Memória de longo prazo é resolvida fora dela, via RAG ou retrieval externo.
- Constitutional AI Constitutional AI é uma abordagem de alinhamento de modelos de IA criada pela Anthropic (Bai et al., 2022) em que o modelo aprende a se auto-criticar e refinar respostas com base em princípios escritos (uma "constituição"). Em vez de depender só de feedback humano (RLHF), o modelo gera múltiplas respostas, critica cada uma à luz dos princípios da constituição (não causar dano, ser honesto, respeitar autonomia, etc.) e refina pra resposta final. Reduz dependência de annotation humana cara e torna os critérios de alinhamento explícitos e auditáveis. É o método por trás do Claude.
Agentes e ferramentas
Quando o modelo deixa de responder pra começar a executar trabalho, e o que controla isso.
- Agente de IA Agente de IA é um sistema que executa fluxo de trabalho com autonomia, decompõe um objetivo em passos e usa ferramentas externas até concluir, dar errado ou desistir. Recebe um objetivo ("agendar reunião com fulano", "resolver esse ticket"), decompõe em passos, usa ferramentas externas (calendário, banco, API) e itera até concluir. Diferente de chatbot, que só conversa, o agente age. Diferente de RPA tradicional, que segue script fixo, o agente decide o caminho conforme o contexto. Combina LLM (motor de decisão) com tool use (mãos pra agir), agent loop (ciclo de execução) e harness (estrutura de governança e segurança).
- Agent loop Agent loop é o ciclo iterativo que um agente de IA executa pra resolver uma tarefa, com passos de planejar, agir, observar e refletir até terminar. Os passos típicos: planejar (decompor o objetivo em ações), executar (chamar uma ferramenta), observar (ler o resultado) e refletir (decidir o próximo passo). O ciclo se repete até o agente concluir o objetivo, esgotar o orçamento (de tokens, tempo ou tentativas) ou bater num erro não recuperável. É o que diferencia agente de simples execução de prompt: a capacidade de agir, observar consequência e ajustar o curso. Padrões clássicos: ReAct (Yao et al., 2022), Plan-and-Execute, Reflexion.
- Tool use Tool use (ou uso de ferramentas) é a capacidade de um LLM identificar a necessidade de uma ferramenta externa pra completar uma tarefa, escolher a ferramenta certa, gerar os argumentos pra invocá-la e interpretar o resultado. Habilita o modelo a superar suas limitações de conhecimento estático e raciocínio puramente textual: acessar dados em tempo real, fazer cálculo determinístico, executar ação no mundo digital. É a base técnica de copilotos e agentes. Implementações principais: function calling (OpenAI, padrão do mercado), tool use (Anthropic), e MCP (protocolo aberto pra padronizar tudo isso). É o que permite IA passar de "responder pergunta" pra "fazer trabalho".
- Function calling Function calling é a forma estruturada de um LLM invocar funções e APIs externas, definindo a interface em JSON Schema e gerando chamadas validáveis pra integrar com sistemas reais. O desenvolvedor envia ao modelo um schema JSON que descreve cada função disponível (nome, parâmetros, tipos), e o modelo, ao receber a pergunta do usuário, decide se chama alguma e gera o JSON com os argumentos certos. A aplicação executa a função e devolve o resultado, que volta pro modelo gerar a resposta final. É a implementação OpenAI do conceito mais geral de tool use e equivalente direto às tool calls de outros vendors. É a base técnica de copilotos, integradores e qualquer agente que precisa agir além de gerar texto.
- MCP MCP (Model Context Protocol) é um protocolo aberto criado pela Anthropic em novembro de 2024 que padroniza a interface entre modelos de IA e ferramentas externas (bancos de dados, APIs, sistemas de arquivos, serviços corporativos). Em vez de cada modelo e cada ferramenta inventarem sua própria conexão, o MCP define um padrão único: um servidor MCP expõe ferramentas e recursos, e qualquer cliente compatível (Claude Desktop, IDEs, agentes) consome. Funciona como o USB-C dos LLMs com o mundo: uma porta padrão pra muitos plugins. Reduz lock-in de fornecedor e acelera integração de IA com sistemas internos da empresa.
- Memento-skills Memento-skills é um padrão em que o agente guarda experiências que deram certo e as recupera por similaridade em tarefas parecidas no futuro. Em vez de retreinar o modelo (fine-tuning), o agente acumula uma memória externa de procedimentos que funcionaram, e consulta essa memória antes de tentar resolver. É uma das respostas pra "como o agente melhora ao longo do tempo sem fine-tuning?". Combina retrieval (buscar a skill certa) com geração (adaptar ao contexto atual). Vale em workflows recorrentes; em casos pontuais, RAG simples basta.
- Harness Harness é o conjunto de componentes ao redor de um modelo de IA (LLM) que transformam a capacidade de responder em execução de trabalho confiável dentro de limites definidos. Inclui: orquestrador do agent loop, registro e schemas de ferramentas, camada de permissão e auditoria, validação de input e output, retry, timeout, rate limit, observabilidade. Sem harness, o LLM responde texto solto. Com harness, vira sistema operacional: governado, auditável, recuperável de erro. Em produção, o harness é onde se concentra a maior parte da engenharia, e é o que separa demo de produto.
- Guardrails Guardrails é a camada de validação que envolve a chamada ao modelo de IA, aplicada antes (input) e depois (output) pra reduzir risco operacional e atender requisito regulatório. Inclui filtros de entrada (detecção de prompt injection, PII redaction, política de domínio, validação de schema) e de saída (toxicidade, fidelidade à fonte, schema adherence, content moderation). Sem guardrails, qualquer prompt do usuário ou output do modelo pode virar incidente: vazamento de dado sensível, resposta tóxica, jailbreak bem-sucedido. Implementações: regex, classificadores de ML, LLM-as-judge, structured policy DSL. Trade-off central: latência adicionada vs cobertura de risco.
Treinamento e dados
Como modelos aprendem, especializam, são avaliados — e o que dá errado quando os dados acabam.
- Fine-tuning Fine-tuning é o processo de ajustar os pesos de um modelo de IA pré-treinado em um dataset específico, pra melhorar performance em domínio ou tarefa particular sem reaprender do zero. Em vez de treinar do zero (caro), parte-se de um modelo já pronto (Llama, Mistral, GPT, etc.) e roda treino adicional com dados próprios. Variantes: SFT (supervised fine-tuning), DPO (direct preference optimization), LoRA (low-rank adaptation, mais barato). Custa 10 a 100 vezes mais que RAG pra resolver problemas equivalentes. Usado pra estilo proprietário, formato específico, vocabulário único e redução de latência via modelo menor especializado.
- Distillation Distillation (ou knowledge distillation) é uma técnica de compressão de modelos de IA onde um modelo pequeno (student) é treinado para imitar o comportamento de um modelo grande (teacher). Em vez de treinar o student do zero, ele aprende observando as saídas do teacher. O resultado é um modelo menor, mais barato e mais rápido em inferência, com qualidade próxima do teacher na maioria dos casos. É a técnica por trás de modelos como Claude Haiku, GPT-4o-mini e Llama 3.2 small: versões compactas de modelos maiores. Conceito formalizado por Hinton et al. (2015) no paper Distilling the Knowledge in a Neural Network.
- Eval Eval (de evaluation) é a suite de testes automatizados que mede performance de um modelo ou sistema baseado em IA em casos representativos do uso real. Inclui métricas objetivas (acurácia, precision, recall, latência, custo) e subjetivas (qualidade, fidelidade, satisfação). Sem eval, equipe debate baseado em sensação ("achei que tava melhor"). Com eval, a conversa muda pra "subiu de 73% para 81% no benchmark X". É o que separa piloto que vira produção de piloto que vira post de LinkedIn. Stack típica: Braintrust, LangSmith, Promptfoo, OpenAI Evals, Anthropic Evals ou pipeline próprio.
- RAG RAG (Retrieval-Augmented Generation, ou Geração Aumentada por Recuperação) é uma técnica de IA em que o modelo consulta uma base externa de documentos antes de gerar a resposta. O fluxo tem três etapas: recuperar trechos relevantes da base (retrieval), aumentar a pergunta com esse contexto (augmentation) e gerar a resposta condicionada por ele (generation). É o caminho padrão pra dar a um LLM conhecimento atualizado ou proprietário sem retreinar o modelo. RAG separa, por construção, conhecimento de raciocínio: o que o modelo sabe vira recuperável e auditável, o que ele pensa continua parametrizado nele.
- Vector database Vector database é um sistema de gerenciamento de dados especializado em armazenar, indexar e consultar vetores numéricos de alta dimensão. Diferente do banco relacional, que casa registros por igualdade exata, o vector database casa por similaridade: dado um vetor de consulta, devolve os N mais próximos no espaço vetorial. Usa algoritmos de busca aproximada (ANN: HNSW, IVF, LSH) pra escalar sem percorrer a base inteira. É fundação de RAG, busca semântica, sistema de recomendação e detecção de anomalia. Stacks comuns: pgvector, Pinecone, Weaviate, Qdrant, Milvus.
- Model collapse Model collapse é a degradação progressiva da qualidade de modelos generativos quando treinados, ao longo de gerações sucessivas, com dados sintéticos produzidos por outros modelos generativos. Cada geração perde variância nas pontas da distribuição (eventos raros), reforça vieses do modelo anterior e converge pra um conjunto cada vez mais estreito de saídas. O fenômeno foi documentado por Shumailov et al. (2023). É um risco crescente conforme a internet se enche de conteúdo gerado por IA: futuros modelos treinados nessa internet podem virar piores que os atuais. Mitigação: curadoria de dado, fontes humanas verificáveis, marcação de conteúdo sintético.
Infra e horizonte
Onde isso roda, quanto custa, e o que tá no horizonte.
- GPU / TPU GPU (Graphics Processing Unit) e TPU (Tensor Processing Unit) são as duas categorias de hardware especializado que sustentam o treinamento e a inferência de modelos modernos de IA. GPU é processador paralelo genérico, originalmente pra gráficos, dominado pela NVIDIA (H100, B200) e usado em quase todo treino de modelo público. TPU é ASIC custom da Google pra workloads de ML, usado em modelos do Google (Gemini) e por clientes Google Cloud. A diferença entre IA de fronteira e IA viável depende de acesso a esses chips: a corrida não é só por algoritmos, é por capacidade de compute.
- AGI / ASI AGI (Artificial General Intelligence) e ASI (Artificial Super Intelligence) são termos pra IA hipotética com inteligência humana geral (AGI) ou super-humana em todo domínio (ASI). Diferente da IA atual (estreita, especializada em tarefa), AGI seria capaz de aprender e executar qualquer tarefa cognitiva que humano executa. ASI vai além: superaria a inteligência humana em todas as dimensões. Hoje são metas aspiracionais de pesquisa e narrativas comerciais usadas pra captar investimento. Nenhum modelo atual é AGI, mesmo os modelos mais capazes de 2026 são IA estreita treinada em escala massiva. Quando alguém diz "a AGI está chegando", em geral está vendendo algo.