TurboQuant: Googles KI-Komprimierung lauft jetzt auf der CPU

TurboQuant: Googles KI-Komprimierung lauft jetzt auf der CPU

TurboQuant: Googles KI-Komprimierung lauft jetzt auf der CPU

Google hat TurboQuant vorgestellt, eine neue Quantisierungstechnik fur grosse Sprachmodelle und die Vektorsuche. Die Forschung richtet sich gegen einen der hartnackigsten Engpasse im KI-Einsatz: den KV-Cache, der proportional zur Kontextlange wachst und Teams historisch zu teuren GPU-Clustern gezwungen hat. TurboQuant andert die Rechnung. Indem KV-Cache-Eintrage auf etwa 3 Bit komprimiert werden - ohne Feinabstimmung und ohne Genauigkeitsverlust - macht es KI-Inferenz auf gewohnlicher CPU-Hardware moglich, der Art, die heute Standard-Cloud-Server antreibt.

TurboQuant AI compression

Wie TurboQuant funktioniert

TurboQuant ist ein zweiteiliges System. PolarQuant ubernimmt den Grossteil der Komprimierungsarbeit und reduziert die Mehrzahl der Daten. QJL fuhrt dann einen verbleibenden 1-Bit-Fehlerkorrektur-Durchlauf durch. Zusammen erreichen sie eine 3-Bit-KV-Cache-Quantisierung. Es ist keine Feinabstimmung erforderlich, und die Genauigkeit bei Standard-Benchmarks bleibt erhalten. Der Kerngedanke ist, dass diese beiden Methoden sich erganzen - jede kompensiert den Restfehler der anderen auf eine Weise, die nahezu theoretische Komprimierungsgrenzen ergibt.

QJL: Der 1-Bit-Trick ohne Overhead

QJL wendet die Johnson-Lindenstrauss-Transformation auf hochdimensionale Schlussel- und Wertvektoren an. Diese mathematische Transformation ist dafur bekannt, Daten zu verkleinern und dabei relative Abstande zwischen Punkten zu erhalten. QJL geht noch weiter und reduziert jeden Vektor auf ein einzelnes Vorzeichenbit - entweder +1 oder -1 pro Dimension. Das Ergebnis ist eine extreme Reduzierung des Speicherbedarfs ohne zusatzlichen Overhead. Die Berechnung von Aufmerksamkeitswerten bleibt genau, weil die Vorzeichenbit-Projektion die geometrischen Beziehungen erhalt, die bei der Inferenz am wichtigsten sind.

PolarQuant: Ein neuer Blickwinkel auf Komprimierung

PolarQuant betrachtet das Komprimierungsproblem geometrisch neu. Anstatt in Standard-kartesischen Koordinaten zu arbeiten, konvertiert es Vektoren in Polarform - ein Radius reprasentiert die Starke, Winkel reprasentieren die Richtung. Das eliminiert den teuren Normalisierungsschritt, den die meisten Quantisierungsmethoden benotigen. Die Polardarstellung lasst sich naturlich auf ein vorhersehbares Kreisraster abbilden, das sich sauber quantisiert. Rekursive Polartransformationen konnen einen vollstandigen hochdimensionalen Vektor auf einen einzelnen Radius kombiniert mit einem kompakten Satz von Winkeln destillieren.

Experimente und Ergebnisse

Das Google-Team evaluierte TurboQuant auf einer Reihe von Langkontext-Benchmarks: LongBench, Needle-in-Haystack, ZeroSCROLLS, RULER und L-Eval. Getestete Modelle umfassen Gemma, Mistral und Llama-3.1-8B-Instruct. Der KV-Cache-Speicher wurde um das 6-fache oder mehr reduziert. Bei 4-Bit-Quantisierung erreicht TurboQuant eine 8-fache Beschleunigung gegenuber Standard-32-Bit auf H100-GPUs. Bei Vektorsuchaufgaben ubertrifft TurboQuant sowohl Product Quantization (PQ) als auch RaBitQ-Baselines.

CPU-Inferenz ist jetzt produktionsreif

Das ist die praktische Schlussfolgerung. TurboQuant komprimiert Modelle so aggressiv, dass CPU-Inferenz fur echte Produktionsworkloads machbar wird - nicht nur fur Forschungsdemos. Die llama.cpp-Community hat das schnell erkannt und bereits funktionierende Implementierungszweige veroffentlicht:

Cloud-Server - wie die bei DCXV verfugbaren - sind jetzt mehr als in der Lage, KI-Inferenz ganz ohne GPU-Hardware durchzufuhren. Falls Sie auf einen Grund gewartet haben, KI-Workloads von teuren GPU-Instanzen auf Standard-Cloud-VMs zu verlagern, ist TurboQuant dieser Grund. Aktuelle Cloud-Server-Optionen finden Sie unter https://dcxv.com/data-center#cloud.

Ausblick

TurboQuant lost den KV-Cache-Engpass, der Modelle im Gemini-Massstab seit ihrer Einfuhrung eingeschrankt hat. Es ermoglicht auch hochwertige semantische Vektorsuche in Googles eigenem Betriebsmassstab. Die Benchmarks deuten darauf hin, dass die Methode nahezu theoretische untere Grenzen fur diese Komprimierungsklasse erreicht. Da KI-Fahigkeiten tiefer in Softwareprodukte integriert werden, wird effiziente Quantisierung zur grundlegenden Infrastruktur - nicht zu einer Forschungsneugier.

AI compression quantization LLM Google Cloud