O Transformer foi apresentado no artigo 'Attention Is All You Need' pelo Google em 2017. Antes dele, os modelos de linguagem processavam texto de forma sequencial — palavra por palavra — o que era lento e dificultava capturar relações entre palavras distantes numa frase. O Transformer resolveu isso com um mecanismo chamado 'atenção' (attention), que permite ao modelo analisar todas as palavras de uma vez e entender como cada uma se relaciona com as demais.
Essa inovação foi o que tornou possível treinar modelos muito maiores e mais capazes. GPT, BERT, Claude, Gemini — todos são baseados em variações da arquitetura Transformer. É difícil exagerar o impacto desse artigo: ele é frequentemente citado como o ponto de virada que iniciou a era moderna da IA.
O nome 'Transformer' não tem nada a ver com os robôs do filme — vem do verbo 'transformar', no sentido de transformar uma representação de entrada em uma de saída através de múltiplas camadas de processamento.