Inferência é a fase de 'uso' de um modelo de IA, em oposição à fase de treinamento. Quando você abre o ChatGPT e faz uma pergunta, o que acontece é inferência: o modelo, cujos pesos foram fixados durante o treinamento, processa seu input e gera uma resposta. Nenhum aprendizado novo acontece nesse momento — o modelo usa o que já sabe.
Inferência é muito mais barata que treinamento, mas ainda tem custos significativos para modelos grandes. Gerar uma resposta longa do GPT-4 requer processar centenas de bilhões de parâmetros por token gerado. É por isso que as empresas de IA investem pesado em otimizar inferência: chips especializados (TPUs, GPUs de inferência), quantização (reduzir precisão dos números para economizar memória) e batching (processar várias requisições juntas).
Para desenvolvedores, o custo de inferência é o principal custo operacional de um produto de IA. Modelos menores e mais rápidos (como GPT-4o mini, Claude Haiku) existem justamente para casos onde velocidade e custo importam mais que capacidade máxima. Escolher o modelo certo para cada tarefa é uma decisão importante de arquitetura.