O Google introduziu redatores de Previsão de Múltiplos Tokens (MTP) para seus modelos abertos Gemma 4, prometendo uma redução de até duas vezes no tempo de resposta para AI executada localmente. A funcionalidade experimental usa decodificação especulativa para adivinhar tokens futuros, permitindo que um modelo de rascunho leve preencha ciclos de processamento ociosos.
Leia mais →