TurboQuant: стиснення ШI вiд Google, яке тепер працює на CPU

TurboQuant: стиснення ШI вiд Google, яке тепер працює на CPU

TurboQuant: стиснення ШI вiд Google, яке тепер працює на CPU

Google представила TurboQuant - нову технiку квантизацiї для великих мовних моделей i векторного пошуку. Дослiдження спрямоване на одне з найстiйкiших вузьких мiсць у розгортаннi ШI: KV-кеш, який зростає пропорцiйно до довжини контексту i традицiйно вимагав дорогих кластерiв GPU. TurboQuant змiнює ситуацiю. Стискаючи записи KV-кешу приблизно до 3 бiтiв без донавчання i без втрати точностi, вiн робить iнференс ШI можливим на звичайному залiзi CPU - такому, що використовується у стандартних хмарних серверах сьогоднi.

TurboQuant AI compression

Як працює TurboQuant

TurboQuant - це двокомпонентна система. PolarQuant бере на себе основну роботу зi стиснення, зменшуючи бiльшу частину даних. QJL потiм виконує залишковий прохiд виправлення помилок в 1 бiт. Разом вони досягають 3-бiтної квантизацiї KV-кешу. Донавчання не потрiбне, точнiсть на стандартних тестах зберiгається. Ключова iдея полягає в тому, що цi два методи доповнюють один одного: кожен компенсує залишкову помилку iншого таким чином, що в результатi досягаються майже теоретичнi межi стиснення.

QJL: хитрiсть одного бiта без накладних витрат

QJL застосовує перетворення Джонсона-Лiнденштрауса до багатовимiрних векторiв ключiв i значень. Це математичне перетворення вiдоме тим, що зменшує данi, зберiгаючи вiдноснi вiдстанi мiж точками. QJL iде далi: зводить кожен вектор до одного знакового бiта - або +1, або -1 для кожного вимiру. Результат - радикальне зменшення пам’ятi без жодних додаткових накладних витрат. Обчислення оцiнок уваги залишається точним, оскiльки знакова проекцiя зберiгає геометричнi спiввiдношення, якi найбiльш важливi пiд час iнференсу.

PolarQuant: новий пiдхiд до стиснення

PolarQuant переосмислює задачу стиснення з геометричної точки зору. Замiсть роботи в стандартних декартових координатах, вiн перетворює вектори в полярну форму: радiус представляє величину, кути - напрямок. Це усуває дорогий крок нормалiзацiї, який потребує бiльшiсть методiв квантизацiї. Полярне представлення природно вiдображається на передбачувану кругову сiтку, яка квантується чисто. Рекурсивнi полярнi перетворення можуть згорнути повний багатовимiрний вектор до одного радiуса у поєднаннi з компактним набором кутiв, досягаючи агресивного стиснення без спотворення даних.

Експерименти та результати

Команда Google оцiнювала TurboQuant на рядi тестiв для довгого контексту: LongBench, Needle-in-Haystack, ZeroSCROLLS, RULER та L-Eval. Тестувалися моделi Gemma, Mistral та Llama-3.1-8B-Instruct. Пам’ять KV-кешу зменшилась у 6 разiв i бiльше. При 4-бiтнiй квантизацiї TurboQuant досягає 8-кратного прискорення порiвняно зi стандартним 32-бiтним режимом на GPU H100. Для задач векторного пошуку TurboQuant перевершує базовi методи Product Quantization та RaBitQ за показниками вiдновлення i якостi пошуку.

Iнференс на CPU вже готовий до продакшену

Це практичний висновок. TurboQuant стискає моделi настiльки агресивно, що iнференс на CPU стає можливим для реальних виробничих навантажень, а не лише для дослiдних демо. Спiльнота llama.cpp швидко це визнала i вже випустила робочi гiлки реалiзацiї:

Хмарнi сервери - такi як доступнi у DCXV - тепер цiлком здатнi виконувати iнференс ШI без будь-якого GPU-залiза. Якщо ви чекали причини перенести навантаження ШI з дорогих GPU-iнстансiв на стандартнi хмарнi сервери, TurboQuant - саме ця причина. Дивiться https://dcxv.com/data-center#cloud для поточних варiантiв хмарних серверiв.

Перспективи

TurboQuant вирiшує вузьке мiсце KV-кешу, яке обмежувало моделi масштабу Gemini з моменту їх виходу. Вiн також дозволяє виконувати якiсний семантичний векторний пошук у власному операцiйному масштабi Google. Результати тестiв свiдчать про те, що метод наближається до теоретичних нижнiх меж для цього класу стиснення. Оскiльки можливостi ШI глибше iнтегруються в програмнi продукти, ефективна квантизацiя стає базовою iнфраструктурою, а не дослiдницькою цiкавинкою. TurboQuant вказує на майбутнє, де потужний ШI працює на стандартному залiзi, доступному кожному, хто має звичайний сервер.

AI compression quantization LLM Google Cloud