Atrás Dec 6, 2025

Google Gemini supera a ChatGPT en transcripción de audio con etiquetas de hablantes

El problema de transcripción

La aplicación Notas del iPhone puede grabar audio y generar una transcripción básica, pero la salida carece de etiquetas de hablantes, combinando todo el diálogo en un solo bloque de texto. Esto hace que sea difícil distinguir entre las preguntas del entrevistador y las respuestas del sujeto, obligando al usuario a volver a escuchar y anotar manualmente la grabación.

Usando Google Gemini 3 Pro

Para resolver el problema, el usuario exportó la grabación de Notas como un archivo M4A y la transfirió a un MacBook Pro a través de AirDrop. En Google Gemini 3 Pro, el usuario adjuntó el archivo de audio y solicitó al modelo que "escuchara esto, lo transcribiera y asegurara identificar a los diferentes hablantes". Gemini produjo rápidamente una transcripción completa, etiquetando a cada hablante como "Entrevistador" y proporcionando el nombre y título del sujeto. Aparte de un error menor en el nombre que el usuario corrigió posteriormente, la transcripción fue precisa e incluyó distinciones de hablantes claras.

Intento con ChatGPT 5.1

El mismo usuario luego intentó replicar el proceso con ChatGPT 5.1, utilizando una cuenta Plus. Después de adjuntar el mismo archivo M4A y emitir una solicitud idéntica, ChatGPT respondió que no podía acceder o reproducir el archivo directamente. El modelo sugirió varios rodeos, como convertir el archivo a un archivo zip, pero ninguno le permitió procesar el audio. La interacción se convirtió en un intercambio de ida y vuelta sin una transcripción exitosa.

Implicaciones

Usado: News Factory APP - descubrimiento de noticias y automatización - ChatGPT para Empresas

También disponible en:

English Google Gemini Beats ChatGPT in Audio Transcription with Speaker Labels Português Google Gemini Supera ChatGPT na Transcrição de Áudio com Rótulos de Falante