Atrás

Empresas de extracción de datos web defienden el uso de datos públicos ante la oleada de bots de IA

Empresas de extracción de datos web defienden el uso de datos públicos ante la oleada de bots de IA

Líderes de la industria responden a la escrutinía legal

Los ejecutivos de varias empresas prominentes de extracción de datos web afirman que sus servicios se limitan a páginas web públicamente accesibles. Or Lenchner, CEO de Bright Data, enfatiza que los bots de la empresa no recopilan información no pública. Un portavoz de ScrapingBee, Karolis Stasiulevičiu, reitera que la web abierta está diseñada para ser legible por humanos y máquinas. Oxylabs agrega que sus bots no tienen acceso a contenido detrás de inicios de sesión, paredes de pago o autenticación, y la empresa hace cumplir los estándares de cumplimiento para sus clientes.

Usos legítimos y demandas en curso

Estas empresas destacan una serie de aplicaciones legítimas para la extracción de datos web, incluyendo la monitorización de la ciberseguridad y el periodismo de investigación. A pesar de estas afirmaciones, Bright Data ha enfrentado demandas de Meta y X por la extracción indebida de contenido de la plataforma. Meta luego retiró su demanda, y un juez federal en California desestimó el caso presentado por X.

Auge de la demanda impulsada por la IA

La oleada de bots de inteligencia artificial ha generado un nuevo sector empresarial. Un informe reciente identificó más de 40 empresas que comercializan bots capaces de recopilar contenido web para el entrenamiento de IA y otros fines. Herramientas como OpenClaw y motores de búsqueda impulsados por IA están impulsando la demanda de estos servicios.

Emerge la optimización de motor de generación

Algunas empresas se están posicionando para ayudar a las empresas a superficiar contenido para agentes de IA en lugar de intentar bloquear bots. Este enfoque, conocido como optimización de motor de generación (OMG), es descrito por Uri Gafni, director de negocios de Brandlight, como un nuevo canal de marketing que integra la búsqueda, la publicidad, los medios y el comercio. Gafni predice que este canal se intensificará en 2026.

Implicaciones para editores y reguladores

Mientras que la extracción de datos web ofrece capacidades valiosas, también crea desafíos para los editores que deben contender con medidas anti-bots que a menudo no distinguen entre tráfico malicioso y acceso automatizado legítimo. El paisaje en evolución plantea preguntas sobre la privacidad de los datos, los derechos de propiedad intelectual y la respuesta regulatoria adecuada.

Usado: News Factory APP - descubrimiento de noticias y automatización - ChatGPT para Empresas

También disponible en: