Atrás Nov 7, 2025

Respuestas Corteses Indican Bots de IA, Muestra un Estudio

Colaboración Universitaria Descubre Señal de IA

Investigadores de cuatro instituciones – la Universidad de Zúrich, la Universidad de Ámsterdam, la Universidad de Duke y la Universidad de Nueva York – realizaron un análisis sistemático de modelos de lenguaje grande (LLM) que operan en plataformas de redes sociales populares. Su objetivo era determinar cuán cercanas son las respuestas generadas por IA a los comentarios auténticos de los humanos y identificar marcadores confiables que distingan entre ambos.

Marco de Prueba de Turing Computacional

El equipo introdujo una "prueba de Turing computacional", un sistema de clasificación automatizado que reemplaza el juicio subjetivo humano con un análisis lingüístico objetivo. Al alimentar publicaciones del mundo real de Twitter/X, Bluesky y Reddit a nueve modelos de peso abierto, los investigadores generaron textos de respuesta y luego los evaluaron utilizando sus clasificadores.

Modelos Evaluados y Resultados de Precisión

El estudio examinó un conjunto diverso de modelos, incluyendo Llama 3.1 (8B, 8B Instruct, 70B), Mistral 7B (v0.1, Instruct v0.2), Qwen 2.5 7B Instruct, Gemma 3 4B Instruct, DeepSeek-R1-Distill-Llama-8B y Apertus-8B-2509. En todas las plataformas, los clasificadores identificaron respuestas generadas por IA con una precisión que variaba desde el 70 por ciento hasta el 80 por ciento.

Tono Emocional como Indicador Persistente

El análisis reveló que el diferenciador más consistente fue el tono afectivo. Las salidas de IA tendían a ser excesivamente educadas, amigables y emocionalmente contenidas, en contraste con la negatividad casual y la expresión emocional espontánea típica de los usuarios humanos. Esta "cortesía" persistió incluso después de que los investigadores aplicaron varias estrategias de optimización, como proporcionar ejemplos de escritura, ajuste fino o recuperación contextual.

Puntuaciones de Toxicidad Más Bajas en las Respuestas de IA

Además del tono, el estudio midió la toxicidad – una métrica de lenguaje hostil o perjudicial. Las respuestas generadas por IA obtuvieron consistentemente puntuaciones de toxicidad más bajas que los comentarios auténticos de los humanos, lo que indica una reluctancia de los modelos actuales a producir el lenguaje más abrasivo que a menudo se encuentra en el discurso de las redes sociales cotidianas.

Intentos de Optimización y Límites

El equipo de investigación experimentó con varias técnicas de calibración destinadas a reducir las diferencias estructurales como la longitud de la oración o el recuento de palabras. Si bien estos ajustes redujeron algunas brechas, la disparidad en el tono emocional permaneció robusta. Los autores concluyeron que simplemente hacer que los modelos sean más grandes o más finamente ajustados no produce automáticamente una expresión emocional similar a la humana.

Implicaciones para la Detección y la Confianza

Estos hallazgos sugieren que las plataformas y los usuarios pueden confiar en las señales de afecto – especialmente un tono inusualmente educado o amigable – para marcar el contenido potencialmente generado por IA. El estudio cuestiona la suposición de que la optimización avanzada eliminará todas las firmas detectables de texto autorizado por máquina, subrayando la necesidad de continuar desarrollando herramientas de detección.

Usado: News Factory APP - descubrimiento de noticias y automatización - ChatGPT para Empresas

También disponible en:

English Polite Replies Signal AI Bots, Study Shows Português Respostas Polidas Sinalizam Robôs de IA, Estudo Mostra