TurboQuant: a compressao de IA do Google que agora roda na CPU
O Google introduziu o TurboQuant, uma nova tecnica de quantizacao projetada para grandes modelos de linguagem e busca vetorial. A pesquisa mira em um dos gargalos mais persistentes no deploy de IA: o cache KV, que cresce proporcionalmente ao comprimento do contexto e historicamente forcou equipes a recorrer a clusters de GPU caros. O TurboQuant muda a equacao. Ao comprimir entradas do cache KV para cerca de 3 bits sem ajuste fino e sem perda de precisao, torna a inferencia de IA viavel em hardware CPU comum, o tipo que alimenta servidores em nuvem padrao hoje em dia.

Como o TurboQuant funciona
O TurboQuant e um sistema de duas partes. O PolarQuant lida com a maior parte do trabalho de compressao, reduzindo a maioria dos dados. O QJL entao realiza o passo restante de correcao de erro de 1 bit. Juntos eles alcancam quantizacao de cache KV de 3 bits. Nenhum ajuste fino e necessario, e a precisao em benchmarks padrao e preservada. A ideia central e que esses dois metodos sao complementares: cada um compensa o erro residual do outro de uma maneira que soma ate limites de compressao quase teoricos.
QJL: O truque do 1 bit sem sobrecarga
O QJL aplica a transformacao de Johnson-Lindenstrauss a vetores de chave e valor de alta dimensao. Essa transformacao matematica e conhecida por reduzir dados enquanto preserva distancias relativas entre pontos. O QJL vai alem, reduzindo cada vetor a um unico bit de sinal, seja +1 ou -1 por dimensao. O resultado e uma reducao extrema na pegada de memoria sem sobrecarga adicional. O calculo dos scores de atencao permanece preciso porque a projecao de bit de sinal preserva as relacoes geometricas mais importantes durante a inferencia.
PolarQuant: Um novo angulo na compressao
O PolarQuant reformula o problema de compressao geometricamente. Em vez de trabalhar em coordenadas cartesianas padrao, converte vetores em forma polar: um raio representando a magnitude e angulos representando a direcao. Isso elimina o passo de normalizacao caro que a maioria dos metodos de quantizacao requer. A representacao polar se mapeia naturalmente em uma grade circular previsivel que quantiza de forma limpa. Transformacoes polares recursivas podem destilar um vetor de alta dimensao completo em um unico raio combinado com um conjunto compacto de angulos.
Experimentos e resultados
A equipe do Google avaliou o TurboQuant em uma serie de benchmarks de contexto longo: LongBench, Needle-in-Haystack, ZeroSCROLLS, RULER e L-Eval. Os modelos testados incluem Gemma, Mistral e Llama-3.1-8B-Instruct. A memoria do cache KV foi reduzida em 6x ou mais. Com quantizacao de 4 bits, o TurboQuant alcanca uma aceleracao de 8x em relacao ao padrao de 32 bits em GPUs H100. Para tarefas de busca vetorial, o TurboQuant supera tanto Product Quantization quanto as baselines RaBitQ.
A inferencia em CPU ja esta pronta para producao
Esta e a conclusao pratica. O TurboQuant comprime modelos tao agressivamente que a inferencia em CPU se torna viavel para cargas de trabalho de producao reais, nao apenas para demonstracoes de pesquisa. A comunidade llama.cpp reconheceu isso rapidamente e ja publicou branches de implementacao funcionais:
- https://github.com/elusznik/llama.cpp/tree/turboquant-cpu-tbq-pr
- https://github.com/Aaryan-Kapoor/llama.cpp/tree/turboquant-tq3_0
Servidores em nuvem, como os disponiveis na DCXV, agora sao mais do que capazes de executar inferencia de IA sem qualquer hardware GPU. Se voce estava esperando uma razao para mover cargas de trabalho de IA de instancias GPU caras para VMs em nuvem padrao, o TurboQuant e essa razao. Consulte https://dcxv.com/data-center#cloud para opcoes atuais de servidores em nuvem.
Olhando para o futuro
O TurboQuant resolve o gargalo do cache KV que tem limitado modelos na escala Gemini desde seu lancamento. Ele tambem habilita busca vetorial semantica de alta qualidade na propria escala operacional do Google. Os benchmarks sugerem que o metodo esta se aproximando de limites inferiores quase teoricos para essa classe de compressao. A medida que as capacidades de IA se integram mais profundamente nos produtos de software, a quantizacao eficiente se torna infraestrutura fundamental, nao uma curiosidade de pesquisa.




