Google Gemini supera a ChatGPT en transcripción de audio con etiquetas de hablantes
El problema de transcripción
La aplicación Notas del iPhone puede grabar audio y generar una transcripción básica, pero la salida carece de etiquetas de hablantes, combinando todo el diálogo en un solo bloque de texto. Esto hace que sea difícil distinguir entre las preguntas del entrevistador y las respuestas del sujeto, obligando al usuario a volver a escuchar y anotar manualmente la grabación.
Usando Google Gemini 3 Pro
Para resolver el problema, el usuario exportó la grabación de Notas como un archivo M4A y la transfirió a un MacBook Pro a través de AirDrop. En Google Gemini 3 Pro, el usuario adjuntó el archivo de audio y solicitó al modelo que "escuchara esto, lo transcribiera y asegurara identificar a los diferentes hablantes". Gemini produjo rápidamente una transcripción completa, etiquetando a cada hablante como "Entrevistador" y proporcionando el nombre y título del sujeto. Aparte de un error menor en el nombre que el usuario corrigió posteriormente, la transcripción fue precisa e incluyó distinciones de hablantes claras.
Intento con ChatGPT 5.1
El mismo usuario luego intentó replicar el proceso con ChatGPT 5.1, utilizando una cuenta Plus. Después de adjuntar el mismo archivo M4A y emitir una solicitud idéntica, ChatGPT respondió que no podía acceder o reproducir el archivo directamente. El modelo sugirió varios rodeos, como convertir el archivo a un archivo zip, pero ninguno le permitió procesar el audio. La interacción se convirtió en un intercambio de ida y vuelta sin una transcripción exitosa.
Implicaciones
Usado: News Factory APP - descubrimiento de noticias y automatización - ChatGPT para Empresas