Empresas de IA enfrentan un aumento en la escrutinio de derechos de autor sobre los datos de entrenamiento
Desafíos legales destacan preocupaciones de derechos de autor
Las decisiones recientes de los tribunales han intensificado la escrutinio de cómo las empresas de inteligencia artificial entrenan grandes modelos de lenguaje. En Estados Unidos, un juez concluyó que almacenar obras pirateadas es "inherentemente, irremediablemente infractor", un hallazgo que llevó a un grupo de IA a llegar a un acuerdo de $1.500 millones. El fallo también sugirió que el entrenamiento en cierto contenido con derechos de autor podría considerarse un uso justo si se considera "transformador", pero la línea entre transformación e infracción sigue siendo controvertida.
En el otro lado del Atlántico, un tribunal alemán dictaminó que OpenAI infringió los derechos de autor al memorizar letras de canciones, un caso presentado por GEMA, la organización que representa a compositores, letristas y editores. La decisión se describe como un fallo histórico dentro de la Unión Europea, subrayando el alcance global del problema.
Respuesta de la industria y argumentos técnicos
Las empresas de IA sostienen que sus modelos no almacenan copias exactas de los datos que ingieren. En cambio, afirman que los sistemas aprenden patrones y relaciones entre palabras, lo que les permite generar nuevo texto sin reproducir ninguna fuente específica. Anthropic, por ejemplo, argumentó que la técnica de jailbreaking utilizada en investigaciones recientes sería impráctica para usuarios ordinarios y requeriría más esfuerzo que simplemente comprar el contenido original.
Los expertos legales señalan que la distinción entre copia y aprendizaje de patrones es crucial. Rudy Telscher de Husch Blackwell advirtió que reproducir un libro entero sin jailbreaking claramente violaría los derechos de autor, y que la frecuencia de tales ocurrencias podría exponer a los desarrolladores de IA a la responsabilidad vicaria.
Llamadas a una mayor cautela y supervisión regulatoria
Investigadores y académicos están instando a un enfoque más cauteloso. Ben Zhao, profesor de ciencias de la computación, cuestionó si los modelos de vanguardia realmente necesitan material con derechos de autor para alcanzar un alto rendimiento, sugiriendo que el sistema legal debería determinar finalmente la aceptabilidad de las prácticas actuales.
Los insiders de la industria también reconocen que las salvaguardias contra la extracción de datos indican una conciencia del problema. Sin embargo, la efectividad de estas medidas sigue siendo un punto de debate, ya que los críticos argumentan que incluso la memorización indirecta puede llevar a la infracción.
Implicaciones para el futuro del desarrollo de IA
El entorno legal en evolución puede obligar a los desarrolladores de IA a reevaluar sus estrategias de recolección de datos, potencialmente cambiando hacia fuentes completamente licenciadas o de dominio público. A medida que los tribunales continúan interpretando la ley de derechos de autor en el contexto del aprendizaje automático, el equilibrio entre innovación y protección de la propiedad intelectual dará forma a la próxima generación de tecnologías de IA.
Usado: News Factory APP - descubrimiento de noticias y automatización - ChatGPT para Empresas