TurboQuant: Googles KI-Komprimierung lauft jetzt auf der CPU
Google hat TurboQuant vorgestellt, eine neue Quantisierungstechnik fur grosse Sprachmodelle und die Vektorsuche. Die Forschung richtet sich gegen einen der hartnackigsten Engpasse im KI-Einsatz: den KV-Cache, der proportional zur Kontextlange wachst und Teams historisch zu teuren GPU-Clustern gezwungen hat. TurboQuant andert die Rechnung. Indem KV-Cache-Eintrage auf etwa 3 Bit komprimiert werden - ohne Feinabstimmung und ohne Genauigkeitsverlust - macht es KI-Inferenz auf gewohnlicher CPU-Hardware moglich, der Art, die heute Standard-Cloud-Server antreibt.

Wie TurboQuant funktioniert
TurboQuant ist ein zweiteiliges System. PolarQuant ubernimmt den Grossteil der Komprimierungsarbeit und reduziert die Mehrzahl der Daten. QJL fuhrt dann einen verbleibenden 1-Bit-Fehlerkorrektur-Durchlauf durch. Zusammen erreichen sie eine 3-Bit-KV-Cache-Quantisierung. Es ist keine Feinabstimmung erforderlich, und die Genauigkeit bei Standard-Benchmarks bleibt erhalten. Der Kerngedanke ist, dass diese beiden Methoden sich erganzen - jede kompensiert den Restfehler der anderen auf eine Weise, die nahezu theoretische Komprimierungsgrenzen ergibt.
QJL: Der 1-Bit-Trick ohne Overhead
QJL wendet die Johnson-Lindenstrauss-Transformation auf hochdimensionale Schlussel- und Wertvektoren an. Diese mathematische Transformation ist dafur bekannt, Daten zu verkleinern und dabei relative Abstande zwischen Punkten zu erhalten. QJL geht noch weiter und reduziert jeden Vektor auf ein einzelnes Vorzeichenbit - entweder +1 oder -1 pro Dimension. Das Ergebnis ist eine extreme Reduzierung des Speicherbedarfs ohne zusatzlichen Overhead. Die Berechnung von Aufmerksamkeitswerten bleibt genau, weil die Vorzeichenbit-Projektion die geometrischen Beziehungen erhalt, die bei der Inferenz am wichtigsten sind.
PolarQuant: Ein neuer Blickwinkel auf Komprimierung
PolarQuant betrachtet das Komprimierungsproblem geometrisch neu. Anstatt in Standard-kartesischen Koordinaten zu arbeiten, konvertiert es Vektoren in Polarform - ein Radius reprasentiert die Starke, Winkel reprasentieren die Richtung. Das eliminiert den teuren Normalisierungsschritt, den die meisten Quantisierungsmethoden benotigen. Die Polardarstellung lasst sich naturlich auf ein vorhersehbares Kreisraster abbilden, das sich sauber quantisiert. Rekursive Polartransformationen konnen einen vollstandigen hochdimensionalen Vektor auf einen einzelnen Radius kombiniert mit einem kompakten Satz von Winkeln destillieren.
Experimente und Ergebnisse
Das Google-Team evaluierte TurboQuant auf einer Reihe von Langkontext-Benchmarks: LongBench, Needle-in-Haystack, ZeroSCROLLS, RULER und L-Eval. Getestete Modelle umfassen Gemma, Mistral und Llama-3.1-8B-Instruct. Der KV-Cache-Speicher wurde um das 6-fache oder mehr reduziert. Bei 4-Bit-Quantisierung erreicht TurboQuant eine 8-fache Beschleunigung gegenuber Standard-32-Bit auf H100-GPUs. Bei Vektorsuchaufgaben ubertrifft TurboQuant sowohl Product Quantization (PQ) als auch RaBitQ-Baselines.
CPU-Inferenz ist jetzt produktionsreif
Das ist die praktische Schlussfolgerung. TurboQuant komprimiert Modelle so aggressiv, dass CPU-Inferenz fur echte Produktionsworkloads machbar wird - nicht nur fur Forschungsdemos. Die llama.cpp-Community hat das schnell erkannt und bereits funktionierende Implementierungszweige veroffentlicht:
- https://github.com/elusznik/llama.cpp/tree/turboquant-cpu-tbq-pr
- https://github.com/Aaryan-Kapoor/llama.cpp/tree/turboquant-tq3_0
Cloud-Server - wie die bei DCXV verfugbaren - sind jetzt mehr als in der Lage, KI-Inferenz ganz ohne GPU-Hardware durchzufuhren. Falls Sie auf einen Grund gewartet haben, KI-Workloads von teuren GPU-Instanzen auf Standard-Cloud-VMs zu verlagern, ist TurboQuant dieser Grund. Aktuelle Cloud-Server-Optionen finden Sie unter https://dcxv.com/data-center#cloud.
Ausblick
TurboQuant lost den KV-Cache-Engpass, der Modelle im Gemini-Massstab seit ihrer Einfuhrung eingeschrankt hat. Es ermoglicht auch hochwertige semantische Vektorsuche in Googles eigenem Betriebsmassstab. Die Benchmarks deuten darauf hin, dass die Methode nahezu theoretische untere Grenzen fur diese Komprimierungsklasse erreicht. Da KI-Fahigkeiten tiefer in Softwareprodukte integriert werden, wird effiziente Quantisierung zur grundlegenden Infrastruktur - nicht zu einer Forschungsneugier.



