Voltar

Google Apresenta Algoritmo de Compressão de Memória TurboQuant AI

Google Apresenta o TurboQuant

A equipe de pesquisa da Google revelou um novo algoritmo de compressão de memória de IA chamado TurboQuant. A tecnologia aplica uma forma de quantização de vetores ao cache KV que armazena a memória de trabalho durante a inferência, permitindo que o cache seja reduzido por pelo menos seis vezes enquanto preserva a precisão.

Reação Pública e Referência Cultural

Observadores online compararam rapidamente o TurboQuant à startup fictícia de compressão "Pied Piper" da série da HBO Valley da Silício. O apelido reflete a percepção de que o TurboQuant, como a tecnologia do show, pode reduzir drasticamente os tamanhos de dados sem perda.

Detalhes Técnicos

O TurboQuant combina dois métodos: uma técnica de quantização chamada PolarQuant e uma abordagem de treinamento/otimização chamada QJL. Juntos, eles visam resolver os gargalos de cache que limitam o desempenho da IA.

Impacto Potencial

Se implantado amplamente, o TurboQuant pode tornar a inferência de IA mais barata, reduzindo os requisitos de memória. Alguns líderes da indústria compararam a inovação a um "momento DeepSeek", sugerindo que pode entregar ganhos de eficiência semelhantes aos alcançados pelo modelo de IA chinês que foi treinado a uma fração do custo usual.

Status Atual

Atualmente, o TurboQuant permanece uma inovação laboratorial e ainda não foi amplamente implantado. Ele visa a memória de inferência e não as necessidades de RAM maciças de treinamento de IA, significando que resolve um gargalo específico sem resolver os desafios de memória mais amplos do desenvolvimento de modelos.

Planos Futuros

A Google planeja apresentar suas descobertas na conferência ICLR 2026 no próximo mês, onde a comunidade de pesquisa aprenderá mais sobre o algoritmo e seus métodos subjacentes.

Usado: News Factory APP - descoberta e automação de notícias - ChatGPT para Empresas

Também disponível em: