Atrás

DeepSeek Presenta Engram para Reducir las Necesidades de Memoria de Alta Banda en Grandes Modelos de Inteligencia Artificial

DeepSeek Presenta Engram para Reducir las Necesidades de Memoria de Alta Banda en Grandes Modelos de Inteligencia Artificial

Antecedentes y Motivación

Los grandes modelos de lenguaje tradicionalmente dependen de la memoria de alta banda (HBM) para almacenar y recuperar conocimientos durante la inferencia y el entrenamiento. Esta dependencia crea tanto cuellos de botella de rendimiento como presiones de costo, un factor que contribuyó a un rápido aumento de cinco veces en los precios de la DRAM en un corto período a medida que aumentó la demanda de hardware de inteligencia artificial.

Arquitectura de Engram

DeepSeek, en colaboración con investigadores de la Universidad de Pekín, presentó Engram, un método que desacopla el almacenamiento de conocimientos estáticos de la computación dinámica realizada por el modelo. Engram almacena la información esencial como N-gramas hash en un módulo de memoria estática, que el modelo accede a través de búsquedas eficientes en lugar de procesamiento secuencial. Un mecanismo de puerta de contexto ajusta los datos recuperados para que se alineen con el estado oculto del modelo, lo que permite una integración sin problemas con la columna vertebral del transformador sin agregar FLOPs o parámetros adicionales.

Beneficios de Rendimiento

En experimentos con un modelo de 27 mil millones de parámetros, Engram entregó mejoras medibles en las pruebas de referencia estándar. Al reasignar aproximadamente el 20-25% del presupuesto de parámetros dispersos al módulo de memoria de Engram, el sistema superó las configuraciones de Mixture-of-Experts (MoE) puras mientras mantenía ganancias estables en todas las escalas. El mecanismo de recuperación determinista permite que la capacidad de memoria se escalare linealmente en múltiples GPU y admite la precarga asíncrona durante la inferencia, lo que libera los mecanismos de atención para centrarse en el contexto global.

Compatibilidad con Hardware

Engram está diseñado para funcionar con arquitecturas de memoria de sistema y GPU existentes, lo que potencialmente evita la necesidad de costosas actualizaciones de HBM. Complementa otras soluciones de hardware eficientes, como los aceleradores de inferencia de inteligencia artificial de Phison, que amplían la memoria total utilizando SSD, y se alinea con los estándares emergentes de Compute Express Link (CXL) dirigidos a superar los cuellos de botella de memoria de GPU en cargas de trabajo de inteligencia artificial a gran escala.

Implicaciones para el Ecosistema de Inteligencia Artificial

El enfoque ofrece una vía para reducir la presión sobre el costoso hardware de memoria, particularmente en regiones donde el acceso a HBM está rezagado con respecto a los principales fabricantes. Al permitir un uso de memoria más eficiente, Engram puede ayudar a estabilizar los bruscos movimientos de precios de la DRAM DDR5 y hacer que los grandes modelos de inteligencia artificial sean más asequibles para entrenar y desplegar.

Usado: News Factory APP - descubrimiento de noticias y automatización - ChatGPT para Empresas

También disponible en: