TurboQuant: la compresion de IA de Google que ahora funciona en CPU

TurboQuant: la compresion de IA de Google que ahora funciona en CPU

TurboQuant: la compresion de IA de Google que ahora funciona en CPU

Google ha introducido TurboQuant, una nueva tecnica de cuantizacion disenada para modelos de lenguaje grandes y busqueda vectorial. La investigacion apunta a uno de los cuellos de botella mas persistentes en el despliegue de IA: el cache KV, que crece proporcionalmente con la longitud del contexto y ha obligado historicamente a los equipos a recurrir a costosos clusters de GPU. TurboQuant cambia la ecuacion. Al comprimir las entradas del cache KV a alrededor de 3 bits sin ajuste fino y sin perdida de precision, hace viable la inferencia de IA en hardware CPU ordinario, el tipo que impulsa los servidores en la nube estandar hoy en dia.

TurboQuant AI compression

Como funciona TurboQuant

TurboQuant es un sistema de dos partes. PolarQuant maneja la mayor parte del trabajo de compresion, reduciendo la mayoria de los datos. QJL luego realiza el paso restante de correccion de errores de 1 bit. Juntos logran una cuantizacion del cache KV de 3 bits. No se requiere ajuste fino y la precision en benchmarks estandar se preserva. La idea clave es que estos dos metodos son complementarios: cada uno compensa el error residual del otro de una manera que suma hasta los limites de compresion casi teoricos.

QJL: El truco de 1 bit sin sobrecarga

QJL aplica la transformacion de Johnson-Lindenstrauss a vectores de clave y valor de alta dimension. Esta transformacion matematica es conocida por reducir datos mientras preserva las distancias relativas entre puntos. QJL va mas alla reduciendo cada vector a un unico bit de signo, ya sea +1 o -1 por dimension. El resultado es una reduccion extrema en la huella de memoria sin sobrecarga adicional. El calculo de puntuaciones de atencion permanece preciso porque la proyeccion de bit de signo preserva las relaciones geometricas que mas importan durante la inferencia.

PolarQuant: Un nuevo angulo en la compresion

PolarQuant replantea el problema de compresion geometricamente. En lugar de trabajar en coordenadas cartesianas estandar, convierte vectores a forma polar: un radio que representa la magnitud y angulos que representan la direccion. Esto elimina el costoso paso de normalizacion que requieren la mayoria de los metodos de cuantizacion. La representacion polar se mapea naturalmente en una cuadricula circular predecible que se cuantiza limpiamente. Las transformaciones polares recursivas pueden destilar un vector de alta dimension completo a un unico radio combinado con un conjunto compacto de angulos.

Experimentos y resultados

El equipo de Google evaluo TurboQuant en una serie de benchmarks de contexto largo: LongBench, Needle-in-Haystack, ZeroSCROLLS, RULER y L-Eval. Los modelos probados incluyen Gemma, Mistral y Llama-3.1-8B-Instruct. La memoria del cache KV se redujo 6x o mas. Con cuantizacion de 4 bits, TurboQuant logra una aceleracion de 8x sobre el estandar de 32 bits en GPUs H100. Para tareas de busqueda vectorial, TurboQuant supera tanto a Product Quantization como a las bases de RaBitQ.

La inferencia en CPU ya esta lista para produccion

Esta es la conclusion practica. TurboQuant comprime los modelos tan agresivamente que la inferencia en CPU se vuelve viable para cargas de trabajo de produccion reales, no solo para demostraciones de investigacion. La comunidad de llama.cpp lo reconocio rapidamente y ya ha publicado ramas de implementacion funcionales:

Los servidores en la nube, como los disponibles en DCXV, ahora son mas que capaces de ejecutar inferencia de IA sin ningun hardware GPU. Si ha estado esperando una razon para mover cargas de trabajo de IA de costosas instancias GPU a maquinas virtuales en la nube estandar, TurboQuant es esa razon. Consulte https://dcxv.com/data-center#cloud para opciones de servidores en la nube actuales.

Mirando hacia adelante

TurboQuant resuelve el cuello de botella del cache KV que ha limitado los modelos a escala Gemini desde su lanzamiento. Tambien habilita busqueda vectorial semantica de alta calidad a la propia escala operativa de Google. Los benchmarks sugieren que el metodo se acerca a limites inferiores casi teoricos para esta clase de compresion. A medida que las capacidades de IA se integran mas profundamente en los productos de software, la cuantizacion eficiente se convierte en infraestructura fundamental, no en una curiosidad de investigacion.

AI compression quantization LLM Google Cloud