Reddit Processa Perplexity e Scrapers de Dados por Alegada Colheita Ilegal de Conteúdo
Contexto
Reddit, uma das maiores coleções de conversas humanas na internet, tornou-se uma fonte cobiçada de material de treinamento para modelos de inteligência artificial. Em resposta a preocupações sobre a compensação pelo uso de seus dados, Reddit introduziu alterações na API em 2023 e desde então firmou acordos de licenciamento com grandes empresas de IA, incluindo OpenAI e Google.
Alegações Contra Perplexity e Scrapers
A ação judicial afirma que Perplexity e três provedores de serviços de scraping de dados - SerpApi, Oxylabs e AWMProxy - se engajaram em "contornos ilegais em grande escala das proteções de dados". Reddit compara os scrapers a "possíveis ladrões de banco" que, incapazes de entrar no cofre, miram o caminhão blindado que transporta dinheiro. De acordo com a queixa, Perplexity é cliente de pelo menos um desses scrapers e escolheu obter conteúdo do Reddit por meio deles, em vez de negociar um acordo direto.
Reddit enviou uma carta de cessação e desistência para Perplexity em maio de 2024, exigindo que a empresa parasse de coletar dados do Reddit. Perplexity respondeu que não usava conteúdo do Reddit para treinar modelos de IA e respeitaria o arquivo robots.txt do Reddit. Apesar dessa resposta, Reddit afirma que o volume de citações ao seu conteúdo na plataforma da Perplexity aumentou após a carta ser enviada.
Em um incidente ilustrativo, Reddit publicou um conteúdo que só podia ser acessado por meio de uma busca no Google. Em questão de horas, Perplexity reproduziu o conteúdo exato daquela postagem, levando Reddit a concluir que a empresa deve ter coletado os resultados da busca do Google para obter o material do Reddit e então incorporou-o em seu mecanismo de respostas.
Reivindicações Legais e Contexto
A queixa caracteriza a conduta dos réus como parte de uma economia mais ampla de "lavagem de dados", onde os scrapers contornam proteções tecnológicas, roubam dados e os vendem a desenvolvedores de IA ansiosos por conteúdo humano de alta qualidade. O diretor jurídico do Reddit, Ben Lee, chamou os réus de "exemplos textuais" de comportamento ilegal, observando que eles mascaram suas identidades, escondem localizações e disfarçam web scrapers para roubar conteúdo do Reddit de resultados de busca do Google.
A ação judicial do Reddit segue uma litigância anterior, incluindo uma ação contra Anthropic por acesso não autorizado alegado à plataforma do Reddit. A empresa enfatiza que as postagens geradas por usuários são ativos valiosos que devem ser acessados por meio de acordos legais, e não por meio de operações de scraping sigilosas.
Resposta da Perplexity
Perplexity ainda não foi notificada da ação judicial. Um porta-voz da empresa, Jesse Dwyer, afirmou que Perplexity não recebeu a queixa legal e reiterou o compromisso da empresa com o "desenvolvimento de IA principled e responsável". Dwyer enfatizou que Perplexity visa fornecer respostas factuais com IA precisa, respeitando o interesse público e a abertura.
A ação judicial do Reddit busca interromper a coleta ilegal de dados alegada e responsabilizar os réus por o que descreve como um esforço em grande escala para roubar conteúdo com direitos autorais.
Usado: News Factory APP - descoberta e automação de notícias - ChatGPT para Empresas