Google lança TurboQuant e sacode mercado de memória — compressão de 6x sem perda de qualidade | Limiar

O Google Research apresentou o TurboQuant, algoritmo que comprime o cache KV de modelos de IA para apenas 3 bits por valor (contra os 16 bits padrão), reduzindo o uso de memória em pelo menos 6x sem perda mensurável de qualidade em tarefas de perguntas e respostas, geração de código e sumarização. Em GPUs NVIDIA H100, o TurboQuant 4-bit entregou até 8x de aceleração no cálculo de atenção.

O impacto foi imediato no mercado financeiro: ações de fabricantes de memória como Micron e Western Digital caíram, refletindo a possibilidade de que a demanda insaciável por HBM (High Bandwidth Memory) seja moderada por eficiência algorítmica. Para empresas que operam infraestrutura de IA, o TurboQuant pode cortar custos operacionais pela metade. A técnica combina dois métodos — PolarQuant (coordenadas polares) e QJL (Johnson-Lindenstrauss quantizado) — e será apresentada na ICLR 2026.

Google lança TurboQuant e sacode mercado de memória — compressão de 6x sem perda de qualidade

Receba conteúdo direto no seu email

Notícias de Hoje

Deep Dive Semanal