#google

1 post found

TurboQuant: la compresion de IA de Google que ahora funciona en CPU
aicompressionquantizationllmgooglecloud

TurboQuant: la compresion de IA de Google que ahora funciona en CPU

TurboQuant de Google logra una compresion 6x del cache KV sin perdida de precision, haciendo que la inferencia de IA en CPUs comunes sea una realidad en produccion.