Google Apresenta o TurboQuant para Reduzir o Uso de Memória de LLM e Aumentar a Velocidade
Contexto sobre as Restrições de Memória dos LLM
Os grandes modelos de linguagem exigem uma quantidade substancial de memória para armazenar vetores de alta dimensionalidade que capturam o significado semântico em bilhões de tokens. Esses vetores, que podem conter centenas ou milhares de embeddings, são essenciais para tarefas como geração de texto, tradução e resposta a perguntas. No entanto, o tamanho do cache de chave-valor cria um gargalo que limita tanto a velocidade quanto a praticidade de implantar LLM em hardware modesto.
TurboQuant: Uma Nova Abordagem de Compressão
O algoritmo TurboQuant da Google aborda esse gargalo reduzindo drasticamente a memória necessária para o cache. O método funciona em duas etapas. Primeiro, ele emprega um sistema chamado PolarQuant, que converte as representações de vetores tradicionais em cartesiano para coordenadas polares. Nesse formato, cada vetor é reduzido a um raio, indicando a força dos dados, e uma direção, transmitindo o significado. Essa conversão permite que o algoritmo retenha as informações essenciais enquanto descarta a redundância.
Em segundo lugar, o TurboQuant aplica técnicas de quantização agressivas que reduzem a precisão dos valores armazenados. Embora a quantização convencional frequentemente degrade a qualidade da saída, a representação baseada em polar do TurboQuant preserva a precisão, permitindo que o modelo mantenha seu desempenho mesmo após a compressão.
Ganhos de Desempenho Relatados pela Google
Os testes iniciais da Google mostram que o TurboQuant pode alcançar uma redução de até seis vezes no uso de memória para o cache de chave-valor. Ao mesmo tempo, melhorias na velocidade de inferência de aproximadamente oito vezes foram observadas em certos cenários. O mais importante é que esses ganhos são relatados sem perda de qualidade nas respostas do modelo, sugerindo que o TurboQuant consegue equilibrar eficiência e precisão de forma eficaz.
Implicações para o Desenvolvimento e Implantação de IA
A capacidade de executar grandes modelos de linguagem com requisitos de memória muito menores abre novas possibilidades tanto para aplicações de pesquisa quanto comerciais. Os desenvolvedores agora podem considerar implantar LLM sofisticados em hardware que anteriormente não podia acomodar a memória necessária, potencialmente reduzindo custos e expandindo a acessibilidade. Além disso, velocidades de inferência mais rápidas se traduzem em experiências de usuário mais responsivas, tornando interações de IA em tempo real mais viáveis.
A foco da Google na compressão também reflete uma tendência mais ampla da indústria em direção à otimização de modelos de IA para eficiência, especialmente à medida que o tamanho dos modelos de última geração continua a crescer. Técnicas como o TurboQuant podem se tornar centrais para a infraestrutura de IA futura, permitindo sistemas escaláveis e de alto desempenho sem as demandas de hardware proibitivas que tradicionalmente acompanharam os modelos de grande escala.
Usado: News Factory APP - descoberta e automação de notícias - ChatGPT para Empresas