Como funciona o Distillation?

1. Modelo grande gera saídas. O teacher (modelo grande, caro de rodar) processa um conjunto de inputs e produz saídas detalhadas (logits, soft labels, raciocínio). 2. Modelo pequeno aprende a imitar. O student (modelo pequeno) é treinado pra produzir saídas próximas das do...

Por que Distillation é importante?

- Reduz custo de inferência em escala. Modelo pequeno custa menos por chamada. Em alto volume, a economia é substancial. - Reduz latência. Modelo menor responde mais rápido. UX em chat e copilot melhora visivelmente. - Permite rodar em hardware mais leve. Versões small podem...

O que é Distillation (knowledge distillation)

Q: O que é Distillation?

Distillation (ou knowledge distillation) é uma técnica de compressão de modelos de IA onde um modelo pequeno (student) é treinado para imitar o comportamento de um modelo grande (teacher). Em vez de treinar o student do zero, ele aprende observando as saídas do teacher. O resultado é um modelo menor, mais barato e mais rápido em inferência, com qualidade próxima do teacher na maioria dos casos. É a técnica por trás de modelos como Claude Haiku, GPT-4o-mini e Llama 3.2 small: versões compactas de modelos maiores. Conceito formalizado por Hinton et al. (2015) no paper Distilling the Knowledge in a Neural Network.

Como funciona

Modelo grande gera saídas. O teacher (modelo grande, caro de rodar) processa um conjunto de inputs e produz saídas detalhadas (logits, soft labels, raciocínio).
Modelo pequeno aprende a imitar. O student (modelo pequeno) é treinado pra produzir saídas próximas das do teacher, usando os outputs do teacher como objetivo de aprendizado.
Compressão de conhecimento. O student acaba com qualidade próxima do teacher na maioria das tarefas, mas com fração dos parâmetros (e custo).
Deploy em produção. Em produção, só o student roda. Inferência fica ordens de grandeza mais barata e rápida.

Por que importa

Reduz custo de inferência em escala. Modelo pequeno custa menos por chamada. Em alto volume, a economia é substancial.
Reduz latência. Modelo menor responde mais rápido. UX em chat e copilot melhora visivelmente.
Permite rodar em hardware mais leve. Versões small podem rodar em laptop ou edge device, abrindo casos que modelo grande não cobre.
É o caminho dos modelos "mini" e "haiku". Claude Haiku, GPT-4o-mini, Llama 3.2 small são todos resultado de distillation.

O que muda para cada perfil

Para o Translator

Leitura transversal: como o conceito muda o papel de quem alinha tech, dados e negócio.

O que muda pra você. Distillation é alavanca de custo importante em produção em escala. O Translator avalia "vamos distillar nosso modelo grande pra um menor?" como decisão de portfólio: custo cai significativamente, qualidade pode cair em casos edge.

Analogia. É como ter sócio sênior pra projeto crítico e analista pleno pra rotina. Otimizar custo por tarefa é cabível em qualquer organização.

Pergunta-âncora. Qual a queda de qualidade aceitável pra qual ganho de custo? A tabela de trade-off precisa estar explícita antes da decisão.

Para DPM

Linguagem e exemplos para Data Product Managers e Analytics Leads.

O que muda pra você. Distillation permite oferecer feature de IA com custo unitário muito menor. Decisão de produto: aceitar pequena queda de qualidade pra escalar pra mais usuários é frequentemente boa troca.

Analogia. É como ter versão "lite" do produto principal. Não tem todas as features do premium, mas roda mais leve e atende caso comum.

Pergunta-âncora. A queda de qualidade do modelo distillado é aceitável pro nosso caso? Eval específico do produto, não benchmark geral, decide.

Para Produto

Linguagem e exemplos para Product Managers.

O que muda pra você. Distillation permite escalar feature pra mais usuários sem dobrar custo de infraestrutura. Roteamento entre modelo distillado (default) e modelo grande (casos críticos) é estratégia comum.

Analogia. É como ter versão grátis e versão premium. Maioria usa o grátis; alguns casos pedem o premium.

Pergunta-âncora. Onde no produto o usuário precisa de modelo grande, e onde basta o distillado? Critério de roteamento define eficiência operacional.

Para Engenharia

Linguagem e exemplos para Data Engineers, ML Engineers e Arquitetos.

O que muda pra você. Hinton et al. (2015): knowledge distillation. Approaches: response-based (soft probabilities), feature-based (intermediate representations), relation-based (relações entre samples). Implementações modernas: DistilBERT, TinyLlama, Phi-3 (synthetic data distilled from larger model). Trade-off central: capability gap entre teacher e student, sensível a domain shift.

Analogia. É como compilar otimizado: mesma lógica, menos overhead. Mas otimização tem limite, e às vezes o compilador erra.

Pergunta-âncora. Em quais casos do nosso eval o student fica abaixo do teacher? Esses casos definem onde rota direta pro grande continua valendo.

Para Gestão

Linguagem e exemplos para TPMs, Engineering Managers e líderes de time.

O que muda pra você. Distillation é decisão arquitetural com impacto direto em fatura mensal. Time que ignora deixa dinheiro na mesa em produto de alto volume. Mas distillation custa esforço de engenharia upfront.

Analogia. É como otimizar processo industrial. Investimento inicial alto, retorno em escala.

Pergunta-âncora. Em qual ponto de volume distillation se paga? Sem cálculo, decisão de fazer ou não vira sentimento.

Para Negócio

Linguagem e exemplos para Estratégia, Operações e FP&A.

O que muda pra você. Distillation é o que permite empresa rodar IA generativa em escala sem fatura proibitiva. Operação eficiente de IA em produção depende de portfólio de modelos: grandes pra casos críticos, distillados pro grosso.

Analogia. É como ter linha premium e linha popular do produto. Linha popular escala; linha premium diferencia.

Pergunta-âncora. O nosso uso de IA está concentrado em modelo grande, ou tem distillado pra casos comuns? Distribuição decide custo unitário.

Citado nestes artigos

Ainda não há artigos do blog citando esse termo.

Ver todos os artigos do blog →