Atrás

DeepSeek Presenta Modelo de Atención Dispersa para Reducir a la Mitad los Costos de Inferencia de API

DeepSeek Presenta Modelo de Atención Dispersa para Reducir a la Mitad los Costos de Inferencia de API

DeepSeek Introduce un Modelo de IA que Ahorra Costos

DeepSeek, una empresa de inteligencia artificial con sede en China, reveló un nuevo modelo experimental el lunes que promete reducir sustancialmente el costo de ejecutar inferencia en entradas de contexto largo. El modelo, identificado como V3.2-exp, se anunció a través de una publicación en la plataforma Hugging Face y viene acompañado de un documento académico vinculado en GitHub.

Atención Dispersa: Cómo Funciona el Modelo

El centro del lanzamiento es una técnica llamada "Atención Dispersa de DeepSeek". El enfoque comprende dos componentes clave. Primero, un "indexador de luz" escanea toda la ventana de contexto y prioriza extractos específicos que parecen más relevantes. Segundo, un "sistema de selección de tokens de grano fino" extrae tokens particulares de esos extractos y los carga en una ventana de atención limitada. Al concentrar el esfuerzo computacional en un subconjunto reducido de la entrada, el modelo puede procesar pasajes largos mientras mantiene la carga del servidor relativamente baja.

Potenciales Reducciones de Costos

Las pruebas iniciales de DeepSeek indican que la nueva arquitectura puede reducir el precio de una llamada de API simple en hasta un 50% cuando se trata de tareas de contexto largo. Aunque la empresa reconoce que se requieren más pruebas para confirmar estos hallazgos, la naturaleza de peso abierto del modelo significa que investigadores y desarrolladores independientes pueden evaluar rápidamente su rendimiento y reclamos de ahorro de costos.

Contexto en el Paisaje de la IA

El costo de inferencia —el gasto de ejecutar un modelo preentrenado para generar predicciones— se ha convertido en un punto focal para los desarrolladores de IA que buscan escalar servicios de manera asequible. El esfuerzo de DeepSeek se suma a una serie de avances recientes destinados a hacer que la arquitectura del transformador sea más eficiente. A principios de este año, DeepSeek atrajo la atención con su modelo R1, que aprovechó el aprendizaje de refuerzo para lograr costos de capacitación más bajos que muchos competidores occidentales. Aunque R1 no desencadenó un cambio generalizado en la industria, estableció a DeepSeek como un serio contendiente en la carrera global de IA.

Acceso Abierto y Validación Futura

Al lanzar V3.2-exp como un modelo de peso abierto en Hugging Face, DeepSeek invita a la comunidad más amplia a realizar benchmarks independientes. La empresa espera que las pruebas de terceros proporcionen una evaluación más robusta tanto del rendimiento como de la eficiencia de costos, lo que potencialmente podría animar a otros proveedores a adoptar estrategias de atención dispersa similares.

Implicaciones para la Industria

Si el modelo cumple con sus reclamos iniciales, podría ofrecer una vía práctica para que las empresas reduzcan los gastos operativos asociados con los servicios de IA, especialmente aquellos que requieren procesar entradas textuales extensas. El desarrollo también resalta la creciente importancia de las innovaciones arquitectónicas —más allá del tamaño raw del modelo— en la configuración de la economía de la implementación de IA.

Usado: News Factory APP - descubrimiento de noticias y automatización - ChatGPT para Empresas

También disponible en: