Atrás

Mistral AI lanza el modelo de voz de código abierto Voxtral TTS

Introducción

Mistral AI, una empresa francesa de inteligencia artificial, anunció el lanzamiento de Voxtral TTS, un modelo de texto a voz de código abierto. El modelo está diseñado para funcionar en una variedad de dispositivos de borde, desde relojes inteligentes hasta laptops, ofreciendo una solución rentable para empresas que buscan aplicaciones habilitadas para voz.

Capacidades multilingües

Voxtral TTS admite nueve idiomas, incluyendo inglés, francés, alemán, español, holandés, portugués, italiano, hindi y árabe. El modelo puede cambiar entre idiomas sin perder las características distintivas de una voz personalizada, lo que lo hace adecuado para escenarios de doblaje y traducción en tiempo real.

Personalización y fidelidad de voz

El sistema puede adaptar una voz personalizada utilizando una muestra de menos de cinco segundos. Captura acentos sutiles, inflexiones, entonaciones e irregularidades, apuntando a un sonido similar al humano en lugar de un tono robótico.

Métricas de rendimiento

Diseñado para su uso en tiempo real, Voxtral TTS logra un tiempo de audio inicial (TTFA) de 90 ms para una entrada de 10 segundos y 500 caracteres. Su factor de tiempo real (RTF) de 6× significa que un clip de 10 segundos se renderiza en aproximadamente 1,6 segundos.

Posicionamiento estratégico

Al ofrecer un modelo de código abierto y personalizable, Mistral busca atraer a empresas que desean ajustar la tecnología de voz a sus necesidades específicas. La empresa destaca el bajo costo del modelo en comparación con las soluciones competidoras y su idoneidad para integrarse en una plataforma multimodal más amplia que procesa audio, texto e imágenes.

Perspectiva futura

Mistral lanzó previamente modelos de transcripción para procesamiento por lotes y procesamiento en tiempo real de baja latencia. Con Voxtral TTS, la empresa busca proporcionar una suite completa de productos de voz, posicionándose contra competidores como ElevenLabs, Deepgram y OpenAI, mientras enfatiza una plataforma de extremo a extremo para aplicaciones de inteligencia artificial multimodal.

Usado: News Factory APP - descubrimiento de noticias y automatización - ChatGPT para Empresas

También disponible en: