OpenAI Presenta Tres Modelos de Voz en Tiempo Real, Ampliando la IA a Conversaciones en Vivo, Traducción y Transcripción de Streaming
OpenAI lanzó tres nuevos modelos de audio el martes, dando a los desarrolladores una caja de herramientas que mueve la IA de voz de respuestas preestablecidas a interacciones en tiempo real y fluidas. El modelo principal, GPT-Realtime-2, trae el poder de razonamiento de GPT-5 a diálogos hablados en vivo. Puede manejar múltiples herramientas en una sola solicitud, narrar sus acciones y mantener la coherencia durante intercambios más largos gracias a una ventana de contexto de 128K tokens. Los desarrolladores también pueden ajustar el esfuerzo de razonamiento del modelo hacia arriba o hacia abajo, coincidiendo con el cómputo con la complejidad de la consulta del usuario.
Igualmente llamativo es GPT-Realtime-Traducir, que OpenAI promociona como la aproximación más cercana al Traductor Universal de Star Trek. El modelo admite la traducción de habla en vivo desde más de 70 idiomas de origen a 13 idiomas de destino. En footage de demostración, un nuevo participante que habla un idioma diferente se unió a una conversación en curso y el sistema renderizó instantáneamente a ambos hablantes al inglés sin perder el ritmo.
La tercera oferta, GPT-Realtime-Susurro, aborda una limitación de larga data de los servicios de habla a texto: la latencia. A diferencia de los modelos de transcripción por lotes que esperan a que el hablante pause, Susurro transmite texto mientras se hablan las palabras. La capacidad es ideal para subtítulos en vivo, notas de reuniones y cualquier flujo de trabajo donde esperar una transcripción completa sería un cuello de botella.
OpenAI ha abierto los modelos a los desarrolladores hoy, y varias empresas ya los están probando. La plataforma de bienes raíces Zillow está creando un prototipo de asistente de voz que puede buscar listados y programar visitas con un solo comando hablado. El agregador de viajes Priceline está experimentando con la gestión de vuelos y hoteles impulsada por voz, incluyendo cancelaciones y reprogramaciones. El servicio de alojamiento de videos Vimeo planea incrustar Susurro para subtítulos en tiempo real de transmisiones en vivo.
Los precios varían según el modelo. Susurro cuesta $0,017 por minuto de audio, Traducir es $0,034 por minuto, y GPT-Realtime-2 se factura a $32 por cada millón de tokens de audio de entrada. La estructura por niveles refleja las diferentes demandas de cómputo de la transcripción, la traducción y el razonamiento a gran escala.
Los observadores de la industria ven el lanzamiento como un momento crucial para las aplicaciones de voz en primer lugar. Al combinar el razonamiento profundo, la traducción multilingüe y la transcripción instantánea, OpenAI da a los desarrolladores los bloques de construcción para crear asistentes que pueden reservar citas, solucionar problemas y facilitar la colaboración entre idiomas, todo sin que el usuario tenga que escribir una sola palabra.
Usado: News Factory APP - descubrimiento de noticias y automatización - ChatGPT para Empresas