TurboQuant: a compressao de IA do Google que agora roda na CPU

TurboQuant: a compressao de IA do Google que agora roda na CPU

TurboQuant: a compressao de IA do Google que agora roda na CPU

O Google introduziu o TurboQuant, uma nova tecnica de quantizacao projetada para grandes modelos de linguagem e busca vetorial. A pesquisa mira em um dos gargalos mais persistentes no deploy de IA: o cache KV, que cresce proporcionalmente ao comprimento do contexto e historicamente forcou equipes a recorrer a clusters de GPU caros. O TurboQuant muda a equacao. Ao comprimir entradas do cache KV para cerca de 3 bits sem ajuste fino e sem perda de precisao, torna a inferencia de IA viavel em hardware CPU comum, o tipo que alimenta servidores em nuvem padrao hoje em dia.

TurboQuant AI compression

Como o TurboQuant funciona

O TurboQuant e um sistema de duas partes. O PolarQuant lida com a maior parte do trabalho de compressao, reduzindo a maioria dos dados. O QJL entao realiza o passo restante de correcao de erro de 1 bit. Juntos eles alcancam quantizacao de cache KV de 3 bits. Nenhum ajuste fino e necessario, e a precisao em benchmarks padrao e preservada. A ideia central e que esses dois metodos sao complementares: cada um compensa o erro residual do outro de uma maneira que soma ate limites de compressao quase teoricos.

QJL: O truque do 1 bit sem sobrecarga

O QJL aplica a transformacao de Johnson-Lindenstrauss a vetores de chave e valor de alta dimensao. Essa transformacao matematica e conhecida por reduzir dados enquanto preserva distancias relativas entre pontos. O QJL vai alem, reduzindo cada vetor a um unico bit de sinal, seja +1 ou -1 por dimensao. O resultado e uma reducao extrema na pegada de memoria sem sobrecarga adicional. O calculo dos scores de atencao permanece preciso porque a projecao de bit de sinal preserva as relacoes geometricas mais importantes durante a inferencia.

PolarQuant: Um novo angulo na compressao

O PolarQuant reformula o problema de compressao geometricamente. Em vez de trabalhar em coordenadas cartesianas padrao, converte vetores em forma polar: um raio representando a magnitude e angulos representando a direcao. Isso elimina o passo de normalizacao caro que a maioria dos metodos de quantizacao requer. A representacao polar se mapeia naturalmente em uma grade circular previsivel que quantiza de forma limpa. Transformacoes polares recursivas podem destilar um vetor de alta dimensao completo em um unico raio combinado com um conjunto compacto de angulos.

Experimentos e resultados

A equipe do Google avaliou o TurboQuant em uma serie de benchmarks de contexto longo: LongBench, Needle-in-Haystack, ZeroSCROLLS, RULER e L-Eval. Os modelos testados incluem Gemma, Mistral e Llama-3.1-8B-Instruct. A memoria do cache KV foi reduzida em 6x ou mais. Com quantizacao de 4 bits, o TurboQuant alcanca uma aceleracao de 8x em relacao ao padrao de 32 bits em GPUs H100. Para tarefas de busca vetorial, o TurboQuant supera tanto Product Quantization quanto as baselines RaBitQ.

A inferencia em CPU ja esta pronta para producao

Esta e a conclusao pratica. O TurboQuant comprime modelos tao agressivamente que a inferencia em CPU se torna viavel para cargas de trabalho de producao reais, nao apenas para demonstracoes de pesquisa. A comunidade llama.cpp reconheceu isso rapidamente e ja publicou branches de implementacao funcionais:

Servidores em nuvem, como os disponiveis na DCXV, agora sao mais do que capazes de executar inferencia de IA sem qualquer hardware GPU. Se voce estava esperando uma razao para mover cargas de trabalho de IA de instancias GPU caras para VMs em nuvem padrao, o TurboQuant e essa razao. Consulte https://dcxv.com/data-center#cloud para opcoes atuais de servidores em nuvem.

Olhando para o futuro

O TurboQuant resolve o gargalo do cache KV que tem limitado modelos na escala Gemini desde seu lancamento. Ele tambem habilita busca vetorial semantica de alta qualidade na propria escala operacional do Google. Os benchmarks sugerem que o metodo esta se aproximando de limites inferiores quase teoricos para essa classe de compressao. A medida que as capacidades de IA se integram mais profundamente nos produtos de software, a quantizacao eficiente se torna infraestrutura fundamental, nao uma curiosidade de pesquisa.

Restaure um servidor cloud para um backup recente em dois cliques
backuprecoverycloudCloud

Restaure um servidor cloud para um backup recente em dois cliques

Os servidores cloud da DCXV agora permitem restaurar um backup automatico recente pelo painel - escolha um backup, confirme e a VM volta em minutos.

Gerencie contas de clientes a partir de um login - o painel de revenda da DCXV
resellercontrol-panelcloudCloud

Gerencie contas de clientes a partir de um login - o painel de revenda da DCXV

O novo painel de revenda da DCXV permite criar subcontas de clientes, acompanhar saldos e servidores, e entrar em qualquer uma a partir de um unico painel.

GLM-5.2 - O novo LLM lider de pesos abertos
aillmopen-sourceglmCloud

GLM-5.2 - O novo LLM lider de pesos abertos

GLM-5.2 da Z.ai e o novo modelo lider de pesos abertos no Artificial Analysis Intelligence Index, com 51 pontos, licenca MIT e contexto de 1M tokens.

Tire um snapshot antes de mudancas arriscadas e reverta na hora
snapshotcloudCloud

Tire um snapshot antes de mudancas arriscadas e reverta na hora

Crie um snapshot sob demanda do seu servidor cloud DCXV antes de qualquer mudanca arriscada e reverta em segundos. Adicione um snapshot no painel com um clique.

Instale qualquer SO - inicie sua VM cloud a partir do seu proprio ISO
isoinstallcloudCloud

Instale qualquer SO - inicie sua VM cloud a partir do seu proprio ISO

Envie um ISO inicializavel de qualquer URL HTTPS e inicie sua VM cloud DCXV a partir dele - instale qualquer sistema operacional ou use um disco de resgate, pelo painel.