TurboQuant: kompresja AI od Google, ktora teraz dziala na CPU
Google przedstawilo TurboQuant, nowa technikę kwantyzacji zaprojektowana dla duzych modeli językowych i wyszukiwania wektorowego. Badania celuja w jeden z najbardziej trwalych waskich gardel we wdrozeniu AI: pamiec podreczna KV, ktora rosnie proporcjonalnie do dlugosci kontekstu i historycznie zmuszala zespoly do kosztownych klastrow GPU. TurboQuant zmienia rownanie. Kompresujac wpisy pamięci podrecznej KV do okolo 3 bitow bez dostrajania i bez utraty dokladnosci, sprawia ze inferowanie AI jest mozliwe na zwyklym sprzecie CPU, takim ktory napędza standardowe serwery w chmurze dzisiaj.

Jak dziala TurboQuant
TurboQuant to system dwuczęściowy. PolarQuant zajmuje się wieksza częścia pracy kompresyjnej, redukujac wiekszosc danych. QJL wykonuje następnie pozostaly krok korekcji bledow 1-bitowych. Razem osiagają 3-bitowa kwantyzację pamięci podrecznej KV. Nie jest wymagane dostrajanie, a dokladnosc na standardowych testach jest zachowana. Kluczowa idea jest to, ze te dwie metody są komplementarne: kazda kompensuje blad resztkowy drugiej w sposob ktory sumuje się do niemal teoretycznych granic kompresji.
QJL: Sztuczka 1-bitowa bez nakladu
QJL stosuje transformację Johnsona-Lindenstraussa do wysokowymiarowych wektorow kluczy i wartości. Ta matematyczna transformacja jest znana z kurczenia danych przy zachowaniu wzglednych odleglosci między punktami. QJL idzie dalej, redukujac kazdy wektor do pojedynczego bitu znaku, +1 lub -1 na wymiar. Wynikiem jest ekstremalna redukcja sladow pamięci bez dodatkowego nakladu. Obliczanie wynikow uwagi pozostaje dokladne, poniewaz projekcja bitu znaku zachowuje geometryczne relacje najwazniejsze podczas inferowania.
PolarQuant: Nowe spojrzenie na kompresję
PolarQuant przeformulowuje problem kompresji geometrycznie. Zamiast pracowac w standardowych wspolrzednych kartezjanskich, konwertuje wektory do postaci polarnej: promien reprezentuje wielkosc, katy reprezentują kierunek. Eliminuje to kosztowny krok normalizacji, ktorego wymaga wiekszosc metod kwantyzacji. Reprezentacja polarna naturalnie odwzorowuje się na przewidywalna siatke kolowa, ktora kwantyzuje się czysto. Rekurencyjne transformacje polarne mogą destylowac pelny wysokowymiarowy wektor do pojedynczego promienia polaconego z kompaktowym zestawem katow.
Eksperymenty i wyniki
Zespol Google ocenial TurboQuant na szeregu testow dlugiego kontekstu: LongBench, Needle-in-Haystack, ZeroSCROLLS, RULER i L-Eval. Testowane modele to Gemma, Mistral i Llama-3.1-8B-Instruct. Pamięc pamięci podrecznej KV zostala zredukowana 6-krotnie lub więcej. Przy kwantyzacji 4-bitowej TurboQuant osiaga 8-krotne przyspieszenie w stosunku do standardowego 32-bitowego na GPU H100. W przypadku zadan wyszukiwania wektorowego TurboQuant przewyzsza zarowno Product Quantization jak i linie bazowe RaBitQ.
Inferowanie na CPU jest teraz gotowe do produkcji
To jest praktyczny wniosek. TurboQuant kompresuje modele tak agresywnie, ze inferowanie na CPU staje się mozliwe dla prawdziwych obciazen produkcyjnych, a nie tylko demonstracji badawczych. Spolecznosc llama.cpp szybko to dostrzegla i juz opublikowala dzialajace galezle implementacyjne:
- https://github.com/elusznik/llama.cpp/tree/turboquant-cpu-tbq-pr
- https://github.com/Aaryan-Kapoor/llama.cpp/tree/turboquant-tq3_0
Serwery w chmurze, takie jak dostepne w DCXV, są teraz w pelni zdolne do wykonywania inferowania AI bez jakiegokolwiek sprzetu GPU. Jesli czekalas na powod do przeniesienia obciazen AI z kosztownych instancji GPU na standardowe maszyny wirtualne w chmurze, TurboQuant jest tym powodem. Sprawdz https://dcxv.com/data-center#cloud dla aktualnych opcji serwerow w chmurze.
Patrzac w przyszlosc
TurboQuant rozwiazuje waskie gardlo pamięci podrecznej KV, ktore ograniczalo modele w skali Gemini od ich premiery. Umozliwia rowniez wysokiej jakosci semantyczne wyszukiwanie wektorowe we wlasnej skali operacyjnej Google. Testy sugeruja, ze metoda zbliza się do niemal teoretycznych dolnych granic dla tej klasy kompresji. W miare jak mozliwosci AI integruja się glebiej z produktami programowymi, efektywna kwantyzacja staje się podstawowa infrastruktura, a nie ciekawostka badawcza.



