Google Research presentó TurboQuant, un nuevo algoritmo de compresión diseñado para reducir drásticamente la huella de memoria de los modelos de lenguaje grande (LLM) mientras aumenta la velocidad de inferencia. Al dirigirse al caché de clave-valor, TurboQuant puede reducir el uso de memoria hasta seis veces y entregar mejoras de rendimiento de alrededor de ocho veces sin sacrificar la calidad del modelo.
Leer más →