TurboQuant: a compressao de IA do Google que agora roda na CPU

TurboQuant: a compressao de IA do Google que agora roda na CPU

TurboQuant: a compressao de IA do Google que agora roda na CPU

O Google introduziu o TurboQuant, uma nova tecnica de quantizacao projetada para grandes modelos de linguagem e busca vetorial. A pesquisa mira em um dos gargalos mais persistentes no deploy de IA: o cache KV, que cresce proporcionalmente ao comprimento do contexto e historicamente forcou equipes a recorrer a clusters de GPU caros. O TurboQuant muda a equacao. Ao comprimir entradas do cache KV para cerca de 3 bits sem ajuste fino e sem perda de precisao, torna a inferencia de IA viavel em hardware CPU comum, o tipo que alimenta servidores em nuvem padrao hoje em dia.

TurboQuant AI compression

Como o TurboQuant funciona

O TurboQuant e um sistema de duas partes. O PolarQuant lida com a maior parte do trabalho de compressao, reduzindo a maioria dos dados. O QJL entao realiza o passo restante de correcao de erro de 1 bit. Juntos eles alcancam quantizacao de cache KV de 3 bits. Nenhum ajuste fino e necessario, e a precisao em benchmarks padrao e preservada. A ideia central e que esses dois metodos sao complementares: cada um compensa o erro residual do outro de uma maneira que soma ate limites de compressao quase teoricos.

QJL: O truque do 1 bit sem sobrecarga

O QJL aplica a transformacao de Johnson-Lindenstrauss a vetores de chave e valor de alta dimensao. Essa transformacao matematica e conhecida por reduzir dados enquanto preserva distancias relativas entre pontos. O QJL vai alem, reduzindo cada vetor a um unico bit de sinal, seja +1 ou -1 por dimensao. O resultado e uma reducao extrema na pegada de memoria sem sobrecarga adicional. O calculo dos scores de atencao permanece preciso porque a projecao de bit de sinal preserva as relacoes geometricas mais importantes durante a inferencia.

PolarQuant: Um novo angulo na compressao

O PolarQuant reformula o problema de compressao geometricamente. Em vez de trabalhar em coordenadas cartesianas padrao, converte vetores em forma polar: um raio representando a magnitude e angulos representando a direcao. Isso elimina o passo de normalizacao caro que a maioria dos metodos de quantizacao requer. A representacao polar se mapeia naturalmente em uma grade circular previsivel que quantiza de forma limpa. Transformacoes polares recursivas podem destilar um vetor de alta dimensao completo em um unico raio combinado com um conjunto compacto de angulos.

Experimentos e resultados

A equipe do Google avaliou o TurboQuant em uma serie de benchmarks de contexto longo: LongBench, Needle-in-Haystack, ZeroSCROLLS, RULER e L-Eval. Os modelos testados incluem Gemma, Mistral e Llama-3.1-8B-Instruct. A memoria do cache KV foi reduzida em 6x ou mais. Com quantizacao de 4 bits, o TurboQuant alcanca uma aceleracao de 8x em relacao ao padrao de 32 bits em GPUs H100. Para tarefas de busca vetorial, o TurboQuant supera tanto Product Quantization quanto as baselines RaBitQ.

A inferencia em CPU ja esta pronta para producao

Esta e a conclusao pratica. O TurboQuant comprime modelos tao agressivamente que a inferencia em CPU se torna viavel para cargas de trabalho de producao reais, nao apenas para demonstracoes de pesquisa. A comunidade llama.cpp reconheceu isso rapidamente e ja publicou branches de implementacao funcionais:

Servidores em nuvem, como os disponiveis na DCXV, agora sao mais do que capazes de executar inferencia de IA sem qualquer hardware GPU. Se voce estava esperando uma razao para mover cargas de trabalho de IA de instancias GPU caras para VMs em nuvem padrao, o TurboQuant e essa razao. Consulte https://dcxv.com/data-center#cloud para opcoes atuais de servidores em nuvem.

Olhando para o futuro

O TurboQuant resolve o gargalo do cache KV que tem limitado modelos na escala Gemini desde seu lancamento. Ele tambem habilita busca vetorial semantica de alta qualidade na propria escala operacional do Google. Os benchmarks sugerem que o metodo esta se aproximando de limites inferiores quase teoricos para essa classe de compressao. A medida que as capacidades de IA se integram mais profundamente nos produtos de software, a quantizacao eficiente se torna infraestrutura fundamental, nao uma curiosidade de pesquisa.

DeepSeek V4: modelo MoE 1,6T com contexto 1M em servidor EU
aideepseekllm

DeepSeek V4: modelo MoE 1,6T com contexto 1M em servidor EU

DeepSeek V4 apresenta modelos MoE Pro (1,6T) e Flash (284B) com contexto de 1M tokens, atencao hibrida e tres modos de raciocinio para auto-hospedagem na UE.

Servidor cloud para Stable Diffusion na Europa: configuracao GPU
cloudaigpu

Servidor cloud para Stable Diffusion na Europa: configuracao GPU

Execute Stable Diffusion em um servidor cloud da UE em conformidade com o RGPD. GPU, configuracao AUTOMATIC1111 e ComfyUI, armazenamento de modelos e benchmarks.

Servidor cloud para Redis na Europa: configuracao EU de baixa latencia
cloudredisdatabase

Servidor cloud para Redis na Europa: configuracao EU de baixa latencia

Execute Redis em um servidor cloud da UE em conformidade com o RGPD. Dimensionamento de memoria, modos de persistencia, cluster e benchmarks de latencia para a Europa.

Servidor cloud para PostgreSQL na Europa
cloudpostgresqldatabase

Servidor cloud para PostgreSQL na Europa

Execute PostgreSQL em um servidor cloud da UE em conformidade com o GDPR. Compare especificacoes, custos e etapas de configuracao para hospedar seu banco de dados na Europa.

Servidor cloud para Ollama na Europa: guia de IA auto-hospedada EU
cloudaigpu

Servidor cloud para Ollama na Europa: guia de IA auto-hospedada EU

Execute Ollama em um servidor cloud da UE em conformidade com o RGPD. Selecao de modelo, GPU, configuracao de API e benchmarks para IA auto-hospedada na Europa.