Modelos de difusão são a tecnologia por trás da revolução em geração de imagens. A ideia central é elegante: durante o treinamento, o modelo aprende a reverter o processo de transformar uma imagem em ruído aleatório puro, um pequeno passo de cada vez. Na geração, parte-se de ruído puro e aplica-se esse processo ao contrário, guiado pelo prompt de texto.
O DALL-E da OpenAI, o Stable Diffusion (open source) e o Midjourney são todos baseados em difusão. Em 2022, quando esses modelos se tornaram públicos, a qualidade das imagens geradas deu um salto tão grande que pegou o mundo de surpresa — de repente qualquer pessoa podia gerar ilustrações de qualidade profissional com uma frase.
Difusão também está sendo aplicada além de imagens: geração de vídeo (Sora da OpenAI, Runway), geração de áudio e música (MusicGen, AudioLDM), e até geração de moléculas para pesquisa farmacêutica. O princípio matemático é geral o suficiente para funcionar com qualquer tipo de dado que possa ser corrompido gradualmente.