TurboQuant: стиснення ШI вiд Google, яке тепер працює на CPU

TurboQuant: стиснення ШI вiд Google, яке тепер працює на CPU

TurboQuant: стиснення ШI вiд Google, яке тепер працює на CPU

Google представила TurboQuant - нову технiку квантизацiї для великих мовних моделей i векторного пошуку. Дослiдження спрямоване на одне з найстiйкiших вузьких мiсць у розгортаннi ШI: KV-кеш, який зростає пропорцiйно до довжини контексту i традицiйно вимагав дорогих кластерiв GPU. TurboQuant змiнює ситуацiю. Стискаючи записи KV-кешу приблизно до 3 бiтiв без донавчання i без втрати точностi, вiн робить iнференс ШI можливим на звичайному залiзi CPU - такому, що використовується у стандартних хмарних серверах сьогоднi.

TurboQuant AI compression

Як працює TurboQuant

TurboQuant - це двокомпонентна система. PolarQuant бере на себе основну роботу зi стиснення, зменшуючи бiльшу частину даних. QJL потiм виконує залишковий прохiд виправлення помилок в 1 бiт. Разом вони досягають 3-бiтної квантизацiї KV-кешу. Донавчання не потрiбне, точнiсть на стандартних тестах зберiгається. Ключова iдея полягає в тому, що цi два методи доповнюють один одного: кожен компенсує залишкову помилку iншого таким чином, що в результатi досягаються майже теоретичнi межi стиснення.

QJL: хитрiсть одного бiта без накладних витрат

QJL застосовує перетворення Джонсона-Лiнденштрауса до багатовимiрних векторiв ключiв i значень. Це математичне перетворення вiдоме тим, що зменшує данi, зберiгаючи вiдноснi вiдстанi мiж точками. QJL iде далi: зводить кожен вектор до одного знакового бiта - або +1, або -1 для кожного вимiру. Результат - радикальне зменшення пам’ятi без жодних додаткових накладних витрат. Обчислення оцiнок уваги залишається точним, оскiльки знакова проекцiя зберiгає геометричнi спiввiдношення, якi найбiльш важливi пiд час iнференсу.

PolarQuant: новий пiдхiд до стиснення

PolarQuant переосмислює задачу стиснення з геометричної точки зору. Замiсть роботи в стандартних декартових координатах, вiн перетворює вектори в полярну форму: радiус представляє величину, кути - напрямок. Це усуває дорогий крок нормалiзацiї, який потребує бiльшiсть методiв квантизацiї. Полярне представлення природно вiдображається на передбачувану кругову сiтку, яка квантується чисто. Рекурсивнi полярнi перетворення можуть згорнути повний багатовимiрний вектор до одного радiуса у поєднаннi з компактним набором кутiв, досягаючи агресивного стиснення без спотворення даних.

Експерименти та результати

Команда Google оцiнювала TurboQuant на рядi тестiв для довгого контексту: LongBench, Needle-in-Haystack, ZeroSCROLLS, RULER та L-Eval. Тестувалися моделi Gemma, Mistral та Llama-3.1-8B-Instruct. Пам’ять KV-кешу зменшилась у 6 разiв i бiльше. При 4-бiтнiй квантизацiї TurboQuant досягає 8-кратного прискорення порiвняно зi стандартним 32-бiтним режимом на GPU H100. Для задач векторного пошуку TurboQuant перевершує базовi методи Product Quantization та RaBitQ за показниками вiдновлення i якостi пошуку.

Iнференс на CPU вже готовий до продакшену

Це практичний висновок. TurboQuant стискає моделi настiльки агресивно, що iнференс на CPU стає можливим для реальних виробничих навантажень, а не лише для дослiдних демо. Спiльнота llama.cpp швидко це визнала i вже випустила робочi гiлки реалiзацiї:

Хмарнi сервери - такi як доступнi у DCXV - тепер цiлком здатнi виконувати iнференс ШI без будь-якого GPU-залiза. Якщо ви чекали причини перенести навантаження ШI з дорогих GPU-iнстансiв на стандартнi хмарнi сервери, TurboQuant - саме ця причина. Дивiться https://dcxv.com/data-center#cloud для поточних варiантiв хмарних серверiв.

Перспективи

TurboQuant вирiшує вузьке мiсце KV-кешу, яке обмежувало моделi масштабу Gemini з моменту їх виходу. Вiн також дозволяє виконувати якiсний семантичний векторний пошук у власному операцiйному масштабi Google. Результати тестiв свiдчать про те, що метод наближається до теоретичних нижнiх меж для цього класу стиснення. Оскiльки можливостi ШI глибше iнтегруються в програмнi продукти, ефективна квантизацiя стає базовою iнфраструктурою, а не дослiдницькою цiкавинкою. TurboQuant вказує на майбутнє, де потужний ШI працює на стандартному залiзi, доступному кожному, хто має звичайний сервер.

TurboQuant: стиснення ШI вiд Google, яке тепер працює на CPU
AIcompressionquantizationLLMGoogleCloud

TurboQuant: стиснення ШI вiд Google, яке тепер працює на CPU

TurboQuant вiд Google досягає 6-кратного стиснення KV-кешу без втрати точностi, роблячи iнференс ШI на звичайних CPU реальнiстю для продакшену.

Шпаргалка Claude Code - Все, що потрібно для Vibe Coding
AIClaudedeveloper toolsproductivitycheatsheet

Шпаргалка Claude Code - Все, що потрібно для Vibe Coding

Практична шпаргалка Claude Code з встановлення, Q&A по кодовій базі, використання інструментів, файлів контексту CLAUDE.md, гарячих клавіш, SDK-скриптів та багатосесійних воркфлоу.

AI Промпт Шорткоди - Найкращий довідник для ChatGPT та інших
AIChatGPTpromptsproductivityautomation

AI Промпт Шорткоди - Найкращий довідник для ChatGPT та інших

Опануйте спілкування з AI за допомогою потужних шорткодів, які контролюють формат, стиль та глибину виводу. Заощаджуйте час з перевіреними техніками промптів для ChatGPT та інших AI моделей.

Новий посібник OpenAI - Майстерність AI для бізнес-успіху
AIOpenAIbusinessChatGPTinnovation

Новий посібник OpenAI - Майстерність AI для бізнес-успіху

OpenAI випускає важливий посібник для керівників підприємств щодо інтеграції генеративних AI інструментів та трансформації бізнес-операцій

xAI випускає Grok 2.5 - Сміливий стрибок у відкриті AI інновації
AIxAIGrokopen-sourceinnovation

xAI випускає Grok 2.5 - Сміливий стрибок у відкриті AI інновації

xAI Ілона Маска випускає код моделі Grok 2.5 у відкритий доступ на Hugging Face, готуючи ґрунт для Grok 3 протягом шести місяців