Atrás

Estudio relaciona datos de entrenamiento de baja calidad con disminución del rendimiento de los grandes modelos de lenguaje

Estudio relaciona datos de entrenamiento de baja calidad con disminución del rendimiento de los grandes modelos de lenguaje

Antecedentes

Basándose en investigaciones previas que relacionan el consumo excesivo de contenido trivial en línea con problemas de atención y memoria en humanos, un equipo de académicos de Texas A&M, la Universidad de Texas y la Universidad de Purdue propuso un efecto comparable para la inteligencia artificial. Lo denominan la "hipótesis de la pérdida de capacidad cognitiva de los modelos de lenguaje", que plantea que la exposición continua a texto de baja calidad puede degradar las capacidades cognitivas de un modelo con el tiempo.

Metodología

Los investigadores compilaron un corpus de 100 millones de tweets del conjunto de datos de HuggingFace. Para crear un conjunto de datos "de baja calidad", seleccionaron tweets que combinaban métricas de participación altas (me gustas, retweets, respuestas, citas) con longitud corta, razonando que dichos posts atraen la atención mientras ofrecen poco contenido sustantivo. Un segundo enfoque de identificación de basura empleó una llamada a GPT-4o para flagrar tweets que cubrían temas superficiales - como teorías de la conspiración, afirmaciones exageradas, afirmaciones no respaldadas o lenguaje de clics sensacionalista. Una muestra aleatoria de estas clasificaciones de GPT-4o se verificó contra evaluaciones de tres estudiantes de posgrado, logrando una coincidencia del 76 por ciento.

Hallazgos

El análisis demuestra que es factible distinguir entre texto de alta participación y bajo valor y contenido más sustantivo dentro de una gran colección de tweets. La concordancia del 76 por ciento sugiere que los modelos de lenguaje pueden flagrar de manera confiable los datos "de baja calidad" cuando se guían por llamadas dirigidas. Si bien el estudio aún no cuantifica el declive exacto del rendimiento en los modelos de lenguaje entrenados en el corpus de basura identificado, establece un marco para futuras experimentaciones sobre la hipotética degradación cognitiva.

Implicaciones

Si la hipótesis de la pérdida de capacidad cognitiva se mantiene, es posible que los desarrolladores de inteligencia artificial deban curar los conjuntos de datos de entrenamiento con más cuidado, evitando la dependencia excesiva de contenido en línea popular pero superficial. El trabajo también introduce un método reproducible para aislar texto de baja calidad, lo que podría informar las tuberías de limpieza de conjuntos de datos y las estrategias de seguridad de la inteligencia artificial. Al relacionar la investigación sobre el comportamiento humano con las prácticas de aprendizaje automático, el artículo fomenta una discusión más amplia sobre las consecuencias éticas y relacionadas con el rendimiento de la selección de datos en el desarrollo de la inteligencia artificial.

Usado: News Factory APP - descubrimiento de noticias y automatización - ChatGPT para Empresas

También disponible en: