TurboQuant: la compression IA de Google qui fonctionne desormais sur CPU
Google a introduit TurboQuant, une nouvelle technique de quantification concue pour les grands modeles de langage et la recherche vectorielle. La recherche cible l’un des goulots d’etranglement les plus persistants dans le deploiement de l’IA: le cache KV, qui croit proportionnellement a la longueur du contexte et a historiquement force les equipes vers des clusters GPU couteux. TurboQuant change la donne. En comprimant les entrees du cache KV a environ 3 bits sans reglage fin et sans perte de precision, il rend l’inference IA viable sur du materiel CPU ordinaire, le type qui alimente les serveurs cloud standard aujourd’hui.

Comment fonctionne TurboQuant
TurboQuant est un systeme en deux parties. PolarQuant gere l’essentiel du travail de compression, reduisant la majorite des donnees. QJL effectue ensuite la passe de correction d’erreur a 1 bit restante. Ensemble, ils atteignent une quantification du cache KV a 3 bits. Aucun reglage fin n’est requis, et la precision sur les benchmarks standard est preservee. L’idee cle est que ces deux methodes sont complementaires: chacune compense l’erreur residuelle de l’autre d’une maniere qui aboutit a des limites de compression quasi theoriques.
QJL: L’astuce du 1 bit sans surcharge
QJL applique la transformation de Johnson-Lindenstrauss aux vecteurs de cles et de valeurs de haute dimension. Cette transformation mathematique est connue pour reduire les donnees tout en preservant les distances relatives entre les points. QJL va plus loin en reduisant chaque vecteur a un unique bit de signe, soit +1 soit -1 par dimension. Le resultat est une reduction extreme de l’empreinte memoire sans surcharge supplementaire. Le calcul des scores d’attention reste precis car la projection par bit de signe preserve les relations geometriques les plus importantes lors de l’inference.
PolarQuant: Un nouvel angle sur la compression
PolarQuant recadre le probleme de compression geometriquement. Plutot que de travailler en coordonnees cartesiennes standard, il convertit les vecteurs en forme polaire: un rayon representant la magnitude et des angles representant la direction. Cela elimine l’etape de normalisation couteuse que la plupart des methodes de quantification necessitent. La representation polaire se mappe naturellement sur une grille circulaire previsible qui se quantifie proprement. Les transformations polaires recursives peuvent distiller un vecteur haute dimension complet en un seul rayon combine a un ensemble compact d’angles.
Experiences et resultats
L’equipe Google a evalue TurboQuant sur une serie de benchmarks a contexte long: LongBench, Needle-in-Haystack, ZeroSCROLLS, RULER et L-Eval. Les modeles testes incluent Gemma, Mistral et Llama-3.1-8B-Instruct. La memoire du cache KV a ete reduite de 6x ou plus. Avec une quantification a 4 bits, TurboQuant realise une acceleration de 8x par rapport au 32 bits standard sur les GPU H100. Pour les taches de recherche vectorielle, TurboQuant surpasse a la fois Product Quantization et les bases RaBitQ.
L’inference sur CPU est desormais prete pour la production
C’est la conclusion pratique. TurboQuant comprime les modeles si agressivement que l’inference sur CPU devient viable pour de vraies charges de travail en production, pas seulement pour des demonstrations de recherche. La communaute llama.cpp l’a rapidement reconnu et a deja publie des branches d’implementation fonctionnelles:
- https://github.com/elusznik/llama.cpp/tree/turboquant-cpu-tbq-pr
- https://github.com/Aaryan-Kapoor/llama.cpp/tree/turboquant-tq3_0
Les serveurs cloud, comme ceux disponibles chez DCXV, sont maintenant plus que capables d’executer l’inference IA sans aucun materiel GPU. Si vous attendiez une raison de migrer les charges de travail IA des instances GPU couteuses vers des VM cloud standard, TurboQuant est cette raison. Consultez https://dcxv.com/data-center#cloud pour les options actuelles de serveurs cloud.
Perspectives
TurboQuant resout le goulot d’etranglement du cache KV qui a contraint les modeles a l’echelle Gemini depuis leur lancement. Il permet egalement une recherche vectorielle semantique de haute qualite a l’echelle operationnelle propre de Google. Les benchmarks suggerent que la methode approche des limites inferieures quasi theoriques pour cette classe de compression. Alors que les capacites de l’IA s’integrent plus profondement dans les produits logiciels, la quantification efficiente devient une infrastructure fondamentale, pas une curiosite de recherche.



