Atrás

Gemma 4 de Google gana impulso de velocidad con redactores de Predicción de Múltiples Tokens

Google lanzó redactores de Predicción de Múltiples Tokens (MTP) para su familia de modelos Gemma 4 de código abierto esta primavera, con el objetivo de reducir la latencia de las cargas de trabajo de inteligencia artificial ejecutadas localmente. La nueva capacidad se basa en la decodificación especulativa: un pequeño modelo de borrador predice una handful de tokens futuros mientras el modelo principal termina de procesar el actual. Al llenar el tiempo inactivo inevitable en la tubería de cómputo, MTP puede duplicar la tasa de tokens por segundo sin sacrificar la calidad de salida.

Los modelos Gemma 4 compartan la tecnología subyacente que impulsa el sistema Gemini de Google, pero están ajustados para la implementación de borde. Mientras que Gemini se ejecuta en las unidades de procesamiento de tensores (TPU) personalizadas de Google dentro de clusters de centros de datos masivos, Gemma 4 puede operar en un solo acelerador de alta potencia a precisión completa. La cuantización reduce aún más la huella, lo que permite que el modelo de 26 mil millones de parámetros más grande se ejecute en tarjetas gráficas de consumo como la NVIDIA RTX PRO 6000.

El movimiento hacia la inteligencia artificial local refleja una creciente demanda de cálculo que preserva la privacidad. Al mantener los datos en el dispositivo, los desarrolladores evitan enviar información sensible a los servicios en la nube. La decisión de Google de relicenciar Gemma 4 bajo Apache 2.0 refuerza esa estrategia, reemplazando una licencia personalizada más restrictiva utilizada para versiones anteriores.

El hardware de consumo típico, sin embargo, carece de la memoria de alta banda (HBM) que se encuentra en las máquinas de grado empresarial. Como resultado, los procesadores dedican una cantidad desproporcionada de tiempo a trasladar parámetros del modelo entre la VRAM y las unidades de cómputo para cada token generado. MTP aborda este cuello de botella al implementar un redactor ligero - solo 74 millones de parámetros en la versión Gemma 4 E2B - para generar tokens especulativos durante los ciclos de transferencia de memoria.

El redactor compartan la caché de clave-valor con el modelo principal, lo que elimina la necesidad de volver a calcular el contexto que el modelo más grande ya ha establecido. Además, los redactores E2B y E4B emplean una técnica de decodificación dispersa que reduce el espacio de búsqueda a los clusters de tokens más probables, lo que acelera aún más el proceso.

Las pruebas de referencia en una NVIDIA RTX PRO 6000 muestran que la ruta de inferencia estándar para el modelo Gemma 4 de 26B produce aproximadamente la mitad del rendimiento de la ruta habilitada para MTP, mientras mantiene una calidad de salida comparable. En términos prácticos, los usuarios pueden esperar las mismas respuestas en aproximadamente la mitad del tiempo, una mejora significativa para aplicaciones interactivas como chatbots, asistentes de código y herramientas de traducción en tiempo real.

El anuncio de Google posiciona a Gemma 4 como una opción más viable para los desarrolladores que desean la potencia de un modelo de lenguaje grande sin comprometerse con la inferencia basada en la nube. Al combinar la licencia de código abierto, la flexibilidad de hardware y un decodificador especulativo que mejora la velocidad, la empresa espera impulsar una experimentación más amplia en el borde.

Usado: News Factory APP - descubrimiento de noticias y automatización - ChatGPT para Empresas

También disponible en: