Voltar

DeepSeek Lança Modelo de Atenção Esparsa para Reduzir em Metade os Custos de Inferência de API

DeepSeek Lança Modelo de Atenção Esparsa para Reduzir em Metade os Custos de Inferência de API

DeepSeek Apresenta um Modelo de IA que Economiza Custo

DeepSeek, uma empresa de inteligência artificial com sede na China, revelou um novo modelo experimental na segunda-feira que promete reduzir substancialmente o custo de execução de inferência em entradas de longo contexto. O modelo, identificado como V3.2-exp, foi anunciado por meio de uma publicação na plataforma Hugging Face e é acompanhado de um artigo acadêmico hospedado no GitHub.

Atenção Esparsa: Como o Modelo Funciona

O centro das atenções do lançamento é uma técnica chamada "Atenção Esparsa da DeepSeek". A abordagem compreende dois componentes principais. Primeiro, um "indexador de luz" varre a janela de contexto inteira e prioriza trechos específicos que parecem mais relevantes. Em segundo lugar, um "sistema de seleção de tokens de granulação fina" extrai tokens específicos desses trechos e os carrega em uma janela de atenção limitada. Ao concentrar o esforço computacional em um subconjunto restrito da entrada, o modelo pode processar passagens longas enquanto mantém a carga do servidor comparativamente baixa.

Reduções de Custo Potenciais

Testes iniciais realizados pela DeepSeek indicam que a nova arquitetura pode reduzir o preço de uma chamada de API simples em até metade quando se lida com tarefas de longo contexto. Embora a empresa reconheça que são necessários mais testes para confirmar essas descobertas, a natureza de peso aberto do modelo significa que pesquisadores e desenvolvedores independentes podem avaliar rapidamente seu desempenho e reivindicações de economia de custos.

Contexto no Cenário de IA

O custo de inferência — o custo de executar um modelo pré-treinado para gerar previsões — tornou-se um foco para os desenvolvedores de IA que buscam escalar serviços de forma acessível. A iniciativa da DeepSeek se junta a uma série de avanços recentes destinados a tornar a arquitetura de transformador mais eficiente. No início deste ano, a DeepSeek atraiu atenção com seu modelo R1, que utilizou aprendizado por reforço para alcançar custos de treinamento mais baixos do que muitos concorrentes ocidentais. Embora o R1 não tenha despertado uma mudança abrangente na indústria, estabeleceu a DeepSeek como um concorrente sério na corrida global de IA.

Acesso Aberto e Validação Futura

Ao lançar o V3.2-exp como um modelo de peso aberto na Hugging Face, a DeepSeek convida a comunidade mais ampla a realizar benchmarks independentes. A empresa espera que testes de terceiros forneçam uma avaliação mais robusta do desempenho e da eficiência de custos, potencialmente incentivando outros fornecedores a adotar estratégias de atenção esparsa semelhantes.

Implicações para a Indústria

Se o modelo atender às suas reivindicações iniciais, poderá oferecer um caminho prático para as empresas reduzirem os gastos operacionais associados aos serviços de IA, especialmente aqueles que exigem o processamento de entradas textuais extensas. O desenvolvimento também destaca a importância crescente das inovações arquiteturais — além do tamanho raw do modelo — em moldar a economia da implantação de IA.

Usado: News Factory APP - descoberta e automação de notícias - ChatGPT para Empresas

Também disponível em: