Limiar
Voltar ao Glossário
Técnicas

Transformer

Arquitetura de rede neural introduzida em 2017 que revolucionou o processamento de linguagem e se tornou a base de praticamente todos os LLMs modernos.

O Transformer foi apresentado no artigo 'Attention Is All You Need' pelo Google em 2017. Antes dele, os modelos de linguagem processavam texto de forma sequencial — palavra por palavra — o que era lento e dificultava capturar relações entre palavras distantes numa frase. O Transformer resolveu isso com um mecanismo chamado 'atenção' (attention), que permite ao modelo analisar todas as palavras de uma vez e entender como cada uma se relaciona com as demais.

Essa inovação foi o que tornou possível treinar modelos muito maiores e mais capazes. GPT, BERT, Claude, Gemini — todos são baseados em variações da arquitetura Transformer. É difícil exagerar o impacto desse artigo: ele é frequentemente citado como o ponto de virada que iniciou a era moderna da IA.

O nome 'Transformer' não tem nada a ver com os robôs do filme — vem do verbo 'transformar', no sentido de transformar uma representação de entrada em uma de saída através de múltiplas camadas de processamento.