Google lanza Gemini 3.1 Flash Live, un modelo de voz conversacional más humano
Google presenta Gemini 3.1 Flash Live
Google anunció el lanzamiento de Gemini 3.1 Flash Live, un modelo de voz conversacional que busca hacer que el habla de la IA suene más como un ser humano. El modelo es parte de la familia Gemini y se está integrando en varios productos de Google, incluidas las características Gemini Live y Search Live, una característica del Modo IA.
En una evaluación reciente por parte del Audio MultiChallenge de Scale AI, Gemini 3.1 Flash Live obtuvo una puntuación del 36,1 por ciento. Si bien esto coloca al modelo por delante de muchas soluciones de audio en tiempo real, sigue siendo inferior a los modelos de audio no conversacionales que pueden alcanzar puntuaciones superiores al 50 por ciento en la misma prueba.
Para ayudar a distinguir el habla generada por IA de las voces humanas reales, Google incorporó marcas de agua SynthID en la salida de Gemini 3.1 Flash Live. Estas marcas de agua no son audibles para los oyentes pero pueden ser detectadas por herramientas diseñadas para verificar la fuente del audio. Google indicó que las marcas de agua están destinadas a prevenir el mal uso de la tecnología.
Los socios de prueba iniciales, como Home Depot y Verizon, han compartido comentarios positivos sobre el rendimiento del modelo. Sus informes, destacados en una publicación del blog de Google, describen la capacidad del modelo para imitar el habla humana de manera convincente. Los socios señalaron que las nuevas capacidades de voz podrían mejorar las interacciones con los clientes en canales telefónicos y digitales.
Los desarrolladores ahora tienen varias formas de trabajar con Gemini 3.1 Flash Live. El modelo está disponible a través de AI Studio, la API de Gemini y Gemini Enterprise para la Experiencia del Cliente. La oferta empresarial se posiciona como una herramienta para el "comercio agente", que permite a las empresas crear experiencias conversacionales más naturales.
Google enfatizó que el modelo será más visible en Gemini Live y Search Live, donde los usuarios pueden experimentar las interacciones de voz mejoradas directamente. El lanzamiento comienza hoy, lo que marca el último paso en el esfuerzo de Google por hacer que los asistentes de IA suenen más realistas.
Usado: News Factory APP - descubrimiento de noticias y automatización - ChatGPT para Empresas