Um modelo de linguagem é, em essência, um sistema que aprende a prever qual palavra (ou token) vem a seguir dado um contexto. Treinado em texto suficiente, esse objetivo simples produz algo surpreendente: um sistema que aprende gramática, fatos sobre o mundo, lógica de argumentação, estilos de escrita e muito mais — tudo como efeitos colaterais de aprender a prever texto.
Os modelos de linguagem existem desde os anos 1990 (modelos n-gram), mas a revolução veio com a escala. Modelos treinados em bilhões de textos com bilhões de parâmetros emergem com capacidades que não foram explicitamente ensinadas: raciocínio analógico, aritmética, tradução, programação. Essas 'capacidades emergentes' são um dos fenômenos mais intrigantes e ainda não totalmente compreendidos da IA moderna.
O termo 'modelo de linguagem' hoje geralmente implica LLMs como GPT, Claude ou Gemini. Mas o campo é mais amplo: inclui modelos de linguagem especializados para código (Codex, Starcoder), para domínios científicos (Galactica, MedPaLM) e modelos menores otimizados para dispositivos móveis e edge computing.