Grandes Veículos de Notícias Bloqueiam o Wayback Machine devido a Medos de Extração de Dados por IA
Um grupo crescente de principais sites de notícias está cortando o acesso do Wayback Machine da Internet Archive, citando preocupações de que o serviço alimenta a extração de conteúdo impulsionada por IA. A Originality AI, uma empresa que detecta texto gerado por IA, identificou 23 organizações que bloquearam o crawler da web. Entre elas estão The New York Times, confirmado por um relatório do Nieman Lab, e USA Today, que recentemente dependeu do Wayback Machine para reportagens investigativas sobre a Imigração e Controle de Fronteiras dos EUA.
O diretor do Wayback Machine, Mark Graham, chamou a paradoxo de "irônico": as próprias publicações que dependem do arquivo para verificar suas próprias histórias agora estão impedindo que ele acesse seu conteúdo. Graham disse à Wired: "Eles conseguem reunir sua pesquisa de história porque o Wayback Machine existe. Ao mesmo tempo, eles estão bloqueando o acesso."
O núcleo da disputa não está na contorno de paywall, mas na utilidade do arquivo para treinar grandes modelos de linguagem. O porta-voz do New York Times, Graham James, alertou que os artigos do jornal estão sendo colhidos do Wayback Machine por empresas de IA, "em violação da lei de direitos autorais para competir diretamente conosco." Reclamações semelhantes surgiram de outros editores e de plataformas como o Reddit, que também barrou o crawler pelo mesmo motivo.
Observadores da indústria notam que o Wayback Machine permanece o repositório mais abrangente de conteúdo da web histórico, tornando-o um alvo atraente para desenvolvedores de IA que buscam vastos corpora de texto. Se a tendência de bloqueio acelerar, a capacidade do arquivo de preservar um registro público do discurso online pode se erodir, limitando a capacidade dos pesquisadores de acompanhar mudanças, responsabilizar instituições e estudar a evolução dos meios de comunicação.
Jornalistas reagiram, lançando uma petição intitulada "Jornalistas aplaudem o papel da Internet Archive na preservação do registro público," que reuniu mais de 100 assinaturas. A petição destaca a crença de que o arquivamento irrestrito é essencial para uma sociedade transparente.
O diálogo entre a Internet Archive e os editores preocupados continua, embora nenhuma resolução concreta tenha surgido. As partes interessadas esperam encontrar um meio-termo que salvaguarde o material protegido por direitos autorais enquanto preserva o valor histórico da web.
Usado: News Factory APP - descoberta e automação de notícias - ChatGPT para Empresas