TurboQuant: la compressione AI di Google che ora gira su CPU

Google ha introdotto TurboQuant, una nuova tecnica di quantizzazione progettata per i grandi modelli linguistici e la ricerca vettoriale. La ricerca mira a uno dei colli di bottiglia piu persistenti nel deploy di IA: la cache KV, che cresce proporzionalmente alla lunghezza del contesto e ha storicamente costretto i team a costosi cluster GPU. TurboQuant cambia l'equazione. Comprimendo le voci della cache KV a circa 3 bit senza messa a punto e senza perdita di precisione, rende l'inferenza IA praticabile su hardware CPU ordinario, il tipo che alimenta i server cloud standard oggi.

TurboQuant AI compression

Come funziona TurboQuant

TurboQuant e un sistema in due parti. PolarQuant gestisce la maggior parte del lavoro di compressione, riducendo la maggioranza dei dati. QJL esegue poi il passo rimanente di correzione degli errori a 1 bit. Insieme raggiungono una quantizzazione della cache KV a 3 bit. Non e richiesta alcuna messa a punto e la precisione sui benchmark standard e preservata. L'idea chiave e che questi due metodi sono complementari: ciascuno compensa l'errore residuo dell'altro in un modo che produce limiti di compressione quasi teorici.

QJL: Il trucco del 1 bit senza overhead

QJL applica la trasformazione di Johnson-Lindenstrauss a vettori di chiave e valore ad alta dimensione. Questa trasformazione matematica e nota per ridurre i dati preservando le distanze relative tra i punti. QJL va oltre riducendo ogni vettore a un singolo bit di segno, +1 o -1 per dimensione. Il risultato e una riduzione estrema dell'impronta di memoria senza overhead aggiuntivo. Il calcolo dei punteggi di attenzione rimane preciso perche la proiezione per bit di segno preserva le relazioni geometriche piu importanti durante l'inferenza.

PolarQuant: Una nuova angolazione sulla compressione

PolarQuant riformula il problema della compressione geometricamente. Invece di lavorare in coordinate cartesiane standard, converte i vettori in forma polare: un raggio che rappresenta la magnitudo e angoli che rappresentano la direzione. Questo elimina il costoso passo di normalizzazione che la maggior parte dei metodi di quantizzazione richiede. La rappresentazione polare si mappa naturalmente su una griglia circolare prevedibile che si quantizza in modo pulito. Le trasformazioni polari ricorsive possono distillare un vettore ad alta dimensione completo in un singolo raggio combinato con un insieme compatto di angoli.

Esperimenti e risultati

Il team di Google ha valutato TurboQuant su una serie di benchmark a contesto lungo: LongBench, Needle-in-Haystack, ZeroSCROLLS, RULER e L-Eval. I modelli testati includono Gemma, Mistral e Llama-3.1-8B-Instruct. La memoria della cache KV e stata ridotta di 6x o piu. Con quantizzazione a 4 bit, TurboQuant raggiunge un'accelerazione di 8x rispetto al 32 bit standard su GPU H100. Per le attivita di ricerca vettoriale, TurboQuant supera sia Product Quantization che le baseline RaBitQ.

L'inferenza su CPU e ora pronta per la produzione

Questa e la conclusione pratica. TurboQuant comprime i modelli cosi aggressivamente che l'inferenza su CPU diventa praticabile per carichi di lavoro di produzione reali, non solo per dimostrazioni di ricerca. La community llama.cpp lo ha riconosciuto rapidamente e ha gia pubblicato branch di implementazione funzionanti:

I server cloud, come quelli disponibili presso DCXV, sono ora piu che capaci di eseguire inferenza IA senza alcun hardware GPU. Se stavi aspettando un motivo per spostare carichi di lavoro IA da costose istanze GPU a VM cloud standard, TurboQuant e quel motivo. Consulta https://dcxv.com/data-center#cloud per le opzioni attuali di server cloud.

Guardando avanti

TurboQuant risolve il collo di bottiglia della cache KV che ha limitato i modelli su scala Gemini dal loro lancio. Permette anche una ricerca vettoriale semantica di alta qualita alla scala operativa propria di Google. I benchmark suggeriscono che il metodo si sta avvicinando ai limiti inferiori quasi teorici per questa classe di compressione. Man mano che le capacita di IA si integrano piu profondamente nei prodotti software, la quantizzazione efficiente diventa infrastruttura fondamentale, non una curiosita di ricerca. TurboQuant indica un futuro in cui una potente IA gira su hardware commodity, disponibile a chiunque abbia un server standard.

ai deepseek llm

DeepSeek V4: modello MoE 1,6T con contesto 1M su server EU

DeepSeek V4 introduce i modelli MoE Pro (1,6T) e Flash (284B) con contesto di 1M token, attenzione ibrida e tre modalita di ragionamento per l'hosting autonomo in UE.

April 24, 2026

cloud ai gpu

Server cloud per Stable Diffusion in Europa: configurazione GPU

Esegui Stable Diffusion su un server cloud EU conforme al GDPR. GPU, configurazione AUTOMATIC1111 e ComfyUI, storage modelli e benchmark di generazione immagini.

April 24, 2026

cloud redis database

Server cloud per Redis in Europa: configurazione EU a bassa latenza

Esegui Redis su un server cloud EU conforme al GDPR. Dimensionamento memoria, modalita di persistenza, cluster e benchmark di latenza per l'Europa.

April 24, 2026

cloud postgresql database

Server cloud per PostgreSQL in Europa

Esegui PostgreSQL su un server cloud EU conforme al GDPR. Confronta specifiche, costi e passaggi di configurazione per ospitare il tuo database in Europa.

April 24, 2026

cloud ai gpu

Server cloud per Ollama in Europa: guida AI self-hosted EU

Esegui Ollama su un server cloud EU conforme al GDPR. Selezione modello, GPU, configurazione API e benchmark per AI self-hosted in Europa.

April 24, 2026