TurboQuant: стиснення ШI вiд Google, яке тепер працює на CPU

TurboQuant: стиснення ШI вiд Google, яке тепер працює на CPU

TurboQuant: стиснення ШI вiд Google, яке тепер працює на CPU

Google представила TurboQuant - нову технiку квантизацiї для великих мовних моделей i векторного пошуку. Дослiдження спрямоване на одне з найстiйкiших вузьких мiсць у розгортаннi ШI: KV-кеш, який зростає пропорцiйно до довжини контексту i традицiйно вимагав дорогих кластерiв GPU. TurboQuant змiнює ситуацiю. Стискаючи записи KV-кешу приблизно до 3 бiтiв без донавчання i без втрати точностi, вiн робить iнференс ШI можливим на звичайному залiзi CPU - такому, що використовується у стандартних хмарних серверах сьогоднi.

TurboQuant AI compression

Як працює TurboQuant

TurboQuant - це двокомпонентна система. PolarQuant бере на себе основну роботу зi стиснення, зменшуючи бiльшу частину даних. QJL потiм виконує залишковий прохiд виправлення помилок в 1 бiт. Разом вони досягають 3-бiтної квантизацiї KV-кешу. Донавчання не потрiбне, точнiсть на стандартних тестах зберiгається. Ключова iдея полягає в тому, що цi два методи доповнюють один одного: кожен компенсує залишкову помилку iншого таким чином, що в результатi досягаються майже теоретичнi межi стиснення.

QJL: хитрiсть одного бiта без накладних витрат

QJL застосовує перетворення Джонсона-Лiнденштрауса до багатовимiрних векторiв ключiв i значень. Це математичне перетворення вiдоме тим, що зменшує данi, зберiгаючи вiдноснi вiдстанi мiж точками. QJL iде далi: зводить кожен вектор до одного знакового бiта - або +1, або -1 для кожного вимiру. Результат - радикальне зменшення пам'ятi без жодних додаткових накладних витрат. Обчислення оцiнок уваги залишається точним, оскiльки знакова проекцiя зберiгає геометричнi спiввiдношення, якi найбiльш важливi пiд час iнференсу.

PolarQuant: новий пiдхiд до стиснення

PolarQuant переосмислює задачу стиснення з геометричної точки зору. Замiсть роботи в стандартних декартових координатах, вiн перетворює вектори в полярну форму: радiус представляє величину, кути - напрямок. Це усуває дорогий крок нормалiзацiї, який потребує бiльшiсть методiв квантизацiї. Полярне представлення природно вiдображається на передбачувану кругову сiтку, яка квантується чисто. Рекурсивнi полярнi перетворення можуть згорнути повний багатовимiрний вектор до одного радiуса у поєднаннi з компактним набором кутiв, досягаючи агресивного стиснення без спотворення даних.

Експерименти та результати

Команда Google оцiнювала TurboQuant на рядi тестiв для довгого контексту: LongBench, Needle-in-Haystack, ZeroSCROLLS, RULER та L-Eval. Тестувалися моделi Gemma, Mistral та Llama-3.1-8B-Instruct. Пам'ять KV-кешу зменшилась у 6 разiв i бiльше. При 4-бiтнiй квантизацiї TurboQuant досягає 8-кратного прискорення порiвняно зi стандартним 32-бiтним режимом на GPU H100. Для задач векторного пошуку TurboQuant перевершує базовi методи Product Quantization та RaBitQ за показниками вiдновлення i якостi пошуку.

Iнференс на CPU вже готовий до продакшену

Це практичний висновок. TurboQuant стискає моделi настiльки агресивно, що iнференс на CPU стає можливим для реальних виробничих навантажень, а не лише для дослiдних демо. Спiльнота llama.cpp швидко це визнала i вже випустила робочi гiлки реалiзацiї:

Хмарнi сервери - такi як доступнi у DCXV - тепер цiлком здатнi виконувати iнференс ШI без будь-якого GPU-залiза. Якщо ви чекали причини перенести навантаження ШI з дорогих GPU-iнстансiв на стандартнi хмарнi сервери, TurboQuant - саме ця причина. Дивiться https://dcxv.com/data-center#cloud для поточних варiантiв хмарних серверiв.

Перспективи

TurboQuant вирiшує вузьке мiсце KV-кешу, яке обмежувало моделi масштабу Gemini з моменту їх виходу. Вiн також дозволяє виконувати якiсний семантичний векторний пошук у власному операцiйному масштабi Google. Результати тестiв свiдчать про те, що метод наближається до теоретичних нижнiх меж для цього класу стиснення. Оскiльки можливостi ШI глибше iнтегруються в програмнi продукти, ефективна квантизацiя стає базовою iнфраструктурою, а не дослiдницькою цiкавинкою. TurboQuant вказує на майбутнє, де потужний ШI працює на стандартному залiзi, доступному кожному, хто має звичайний сервер.

Відкотіть хмарний сервер до останньої резервної копії у два кліки
backuprecoverycloudCloud

Відкотіть хмарний сервер до останньої резервної копії у два кліки

Хмарні сервери DCXV тепер дозволяють відновити останню автоматичну копію прямо з панелі керування - оберіть копію, підтвердьте, і VM відкотиться за хвилини.

Керуйте акаунтами клієнтів з одного входу - панель реселера DCXV
resellercontrol-panelcloudCloud

Керуйте акаунтами клієнтів з одного входу - панель реселера DCXV

Нова панель реселера DCXV дозволяє створювати субакаунти клієнтів, відстежувати їхні баланси й сервери та входити в будь-який з єдиної панелі керування.

GLM-5.2 - Нова провідна модель з відкритими вагами
aillmopen-sourceglmCloud

GLM-5.2 - Нова провідна модель з відкритими вагами

GLM-5.2 від Z.ai - нова провідна модель з відкритими вагами в індексі Artificial Analysis, з оцінкою 51, ліцензією MIT та контекстом 1M токенів.

Робіть знімок перед ризикованими змінами та миттєво відкочуйтесь
snapshotcloudCloud

Робіть знімок перед ризикованими змінами та миттєво відкочуйтесь

Створюйте знімок хмарного сервера DCXV перед будь-якою ризикованою зміною та відкочуйтесь за секунди. Додайте знімок у панелі керування одним кліком.

Встановіть будь-яку ОС - завантажте хмарну VM з власного ISO
isoinstallcloudCloud

Встановіть будь-яку ОС - завантажте хмарну VM з власного ISO

Завантажте завантажувальний ISO з будь-якого HTTPS-посилання та запустіть з нього хмарну VM DCXV - встановіть будь-яку ОС чи запустіть диск відновлення прямо з панелі керування.