Voltar

DeepSeek Apresenta Engram para Reduzir a Necessidade de Memória de Alta Largura de Banda em Grandes Modelos de IA

DeepSeek Apresenta Engram para Reduzir a Necessidade de Memória de Alta Largura de Banda em Grandes Modelos de IA

Fundo e Motivação

Os grandes modelos de linguagem tradicionalmente dependem de memória de alta largura de banda (HBM) para armazenar e recuperar conhecimento durante a inferência e o treinamento. Essa dependência cria gargalos de desempenho e pressões de custo, um fator que contribuiu para um rápido aumento de cinco vezes nos preços de DRAM em um curto período, à medida que a demanda por hardware de IA aumentou.

Arquitetura Engram

DeepSeek, colaborando com pesquisadores da Universidade de Pequim, introduziu Engram, um método que desacopla o armazenamento de conhecimento estático do cálculo dinâmico realizado pelo modelo. Engram armazena informações essenciais como N-gramas hash em um módulo de memória estática, que o modelo acessa por meio de pesquisas eficientes em vez de processamento sequencial. Um mecanismo de controle de contexto ajusta os dados recuperados para alinhar com o estado oculto do modelo, permitindo uma integração perfeita com a estrutura de transformador sem adicionar FLOPs ou parâmetros extras.

Benefícios de Desempenho

Nos experimentos com um modelo de 27 bilhões de parâmetros, Engram entregou melhorias mensuráveis em benchmarks padrão. Ao realocar cerca de 20-25% do orçamento de parâmetros esparsos para o módulo de memória Engram, o sistema superou configurações puras de Mixture-of-Experts (MoE) enquanto mantinha ganhos estáveis em diferentes escalas. O mecanismo de recuperação determinístico permite que a capacidade de memória seja escalada linearmente em várias GPUs e suporta pré-busca assíncrona durante a inferência, liberando mecanismos de atenção para se concentrar no contexto global.

Compatibilidade de Hardware

Engram é projetado para funcionar com arquiteturas de memória de sistema e GPU existentes, potencialmente evitando a necessidade de atualizações caras de HBM. Ele complementa outras soluções de hardware eficientes, como os aceleradores de inferência de IA da Phison, que expandem a memória total usando SSDs, e se alinha com os padrões emergentes de Compute Express Link (CXL) destinados a superar gargalos de memória de GPU em cargas de trabalho de IA em larga escala.

Implicações para o Ecossistema de IA

A abordagem oferece um caminho para reduzir a pressão sobre o hardware de memória caro, particularmente em regiões onde o acesso à HBM está atrasado em relação aos principais fabricantes. Ao permitir um uso de memória mais eficiente, Engram pode ajudar a estabilizar oscilações bruscas nos preços de DRAM DDR5 e tornar os grandes modelos de IA mais acessíveis para treinamento e implantação.

Usado: News Factory APP - descoberta e automação de notícias - ChatGPT para Empresas

Também disponível em: