A equipe de pesquisa do Google apresentou o TurboQuant, um novo algoritmo de compressão projetado para reduzir drasticamente a pegada de memória dos grandes modelos de linguagem (LLM) e aumentar a velocidade de inferência. Ao visar o cache de chave-valor, frequentemente descrito como uma espécie de "trapaça digital", o TurboQuant pode cortar o uso de memória em até seis vezes e entregar ganhos de desempenho de cerca de oito vezes sem sacrificar a qualidade do modelo.
Leia mais →