Limiar
Destaques
Destaque do Dia

Google lança TurboQuant e sacode mercado de memória — compressão de 6x sem perda de qualidade

26 de março de 2026
InfraestruturaGoogleEficiência

Algoritmo comprime cache KV de modelos para 3 bits (de 16), com 8x de aceleração em H100. Ações de Micron e Western Digital caíram. Pode cortar custos de infra de IA pela metade.

O Google Research apresentou o TurboQuant, algoritmo que comprime o cache KV de modelos de IA para apenas 3 bits por valor (contra os 16 bits padrão), reduzindo o uso de memória em pelo menos 6x sem perda mensurável de qualidade em tarefas de perguntas e respostas, geração de código e sumarização. Em GPUs NVIDIA H100, o TurboQuant 4-bit entregou até 8x de aceleração no cálculo de atenção.

O impacto foi imediato no mercado financeiro: ações de fabricantes de memória como Micron e Western Digital caíram, refletindo a possibilidade de que a demanda insaciável por HBM (High Bandwidth Memory) seja moderada por eficiência algorítmica. Para empresas que operam infraestrutura de IA, o TurboQuant pode cortar custos operacionais pela metade. A técnica combina dois métodos — PolarQuant (coordenadas polares) e QJL (Johnson-Lindenstrauss quantizado) — e será apresentada na ICLR 2026.

Fonte

TechCrunch

https://techcrunch.com/2026/03/25/google-turboquant-ai-memory-compression-silicon-valley-pied-piper/

Receba conteúdo direto no seu email

Escolha o que funciona melhor pra você.