LoRA (Low-Rank Adaptation) é uma técnica que tornou o fine-tuning de modelos grandes acessível a qualquer pessoa com uma GPU razoável. Em vez de atualizar todos os bilhões de parâmetros do modelo base (o que exigiria muita memória e tempo), o LoRA insere camadas adicionais pequenas e treina apenas elas. O modelo original fica congelado.
A matemática por trás é inteligente: as atualizações de peso são representadas como o produto de duas matrizes pequenas (daí 'low-rank'). Isso reduz o número de parâmetros treináveis de bilhões para milhões, ou até centenas de milhares. Com QLoRA (quantized LoRA), é possível fazer fine-tuning de modelos com 70 bilhões de parâmetros em uma única GPU de 24GB.
LoRA mudou o ecossistema de IA open source. Plataformas como Hugging Face e Civitai hospedam milhares de 'adapters' LoRA para uso com Llama, Mistral e outros modelos base — para estilos artísticos, personagens, domínios específicos. O adapter pode ser trocado ou combinado com outros sem precisar manter cópias separadas do modelo completo.