TurboQuant: la compressione AI di Google che ora gira su CPU

TurboQuant: la compressione AI di Google che ora gira su CPU

TurboQuant: la compressione AI di Google che ora gira su CPU

Google ha introdotto TurboQuant, una nuova tecnica di quantizzazione progettata per i grandi modelli linguistici e la ricerca vettoriale. La ricerca mira a uno dei colli di bottiglia piu persistenti nel deploy di IA: la cache KV, che cresce proporzionalmente alla lunghezza del contesto e ha storicamente costretto i team a costosi cluster GPU. TurboQuant cambia l’equazione. Comprimendo le voci della cache KV a circa 3 bit senza messa a punto e senza perdita di precisione, rende l’inferenza IA praticabile su hardware CPU ordinario, il tipo che alimenta i server cloud standard oggi.

TurboQuant AI compression

Come funziona TurboQuant

TurboQuant e un sistema in due parti. PolarQuant gestisce la maggior parte del lavoro di compressione, riducendo la maggioranza dei dati. QJL esegue poi il passo rimanente di correzione degli errori a 1 bit. Insieme raggiungono una quantizzazione della cache KV a 3 bit. Non e richiesta alcuna messa a punto e la precisione sui benchmark standard e preservata. L’idea chiave e che questi due metodi sono complementari: ciascuno compensa l’errore residuo dell’altro in un modo che produce limiti di compressione quasi teorici.

QJL: Il trucco del 1 bit senza overhead

QJL applica la trasformazione di Johnson-Lindenstrauss a vettori di chiave e valore ad alta dimensione. Questa trasformazione matematica e nota per ridurre i dati preservando le distanze relative tra i punti. QJL va oltre riducendo ogni vettore a un singolo bit di segno, +1 o -1 per dimensione. Il risultato e una riduzione estrema dell’impronta di memoria senza overhead aggiuntivo. Il calcolo dei punteggi di attenzione rimane preciso perche la proiezione per bit di segno preserva le relazioni geometriche piu importanti durante l’inferenza.

PolarQuant: Una nuova angolazione sulla compressione

PolarQuant riformula il problema della compressione geometricamente. Invece di lavorare in coordinate cartesiane standard, converte i vettori in forma polare: un raggio che rappresenta la magnitudo e angoli che rappresentano la direzione. Questo elimina il costoso passo di normalizzazione che la maggior parte dei metodi di quantizzazione richiede. La rappresentazione polare si mappa naturalmente su una griglia circolare prevedibile che si quantizza in modo pulito. Le trasformazioni polari ricorsive possono distillare un vettore ad alta dimensione completo in un singolo raggio combinato con un insieme compatto di angoli.

Esperimenti e risultati

Il team di Google ha valutato TurboQuant su una serie di benchmark a contesto lungo: LongBench, Needle-in-Haystack, ZeroSCROLLS, RULER e L-Eval. I modelli testati includono Gemma, Mistral e Llama-3.1-8B-Instruct. La memoria della cache KV e stata ridotta di 6x o piu. Con quantizzazione a 4 bit, TurboQuant raggiunge un’accelerazione di 8x rispetto al 32 bit standard su GPU H100. Per le attivita di ricerca vettoriale, TurboQuant supera sia Product Quantization che le baseline RaBitQ.

L’inferenza su CPU e ora pronta per la produzione

Questa e la conclusione pratica. TurboQuant comprime i modelli cosi aggressivamente che l’inferenza su CPU diventa praticabile per carichi di lavoro di produzione reali, non solo per dimostrazioni di ricerca. La community llama.cpp lo ha riconosciuto rapidamente e ha gia pubblicato branch di implementazione funzionanti:

I server cloud, come quelli disponibili presso DCXV, sono ora piu che capaci di eseguire inferenza IA senza alcun hardware GPU. Se stavi aspettando un motivo per spostare carichi di lavoro IA da costose istanze GPU a VM cloud standard, TurboQuant e quel motivo. Consulta https://dcxv.com/data-center#cloud per le opzioni attuali di server cloud.

Guardando avanti

TurboQuant risolve il collo di bottiglia della cache KV che ha limitato i modelli su scala Gemini dal loro lancio. Permette anche una ricerca vettoriale semantica di alta qualita alla scala operativa propria di Google. I benchmark suggeriscono che il metodo si sta avvicinando ai limiti inferiori quasi teorici per questa classe di compressione. Man mano che le capacita di IA si integrano piu profondamente nei prodotti software, la quantizzazione efficiente diventa infrastruttura fondamentale, non una curiosita di ricerca. TurboQuant indica un futuro in cui una potente IA gira su hardware commodity, disponibile a chiunque abbia un server standard.

AI compression quantization LLM Google Cloud