Cloudflare acusa a Perplexity de 'rastreo sigiloso' en sitios bloqueados

Marketingaiinstitute

Cloudflare Acusa a Perplexity, Motor de Búsqueda de IA, de “Rastreo Sigiloso”

El campo de batalla digital sobre cómo las empresas de inteligencia artificial acceden y utilizan el contenido en línea ha escalado drásticamente, con el gigante de la infraestructura de internet Cloudflare acusando públicamente al motor de respuestas impulsado por IA Perplexity de participar en “rastreo sigiloso” para eludir las restricciones de acceso a sitios web. Esta disputa subraya una tensión fundamental entre el deseo de los creadores de contenido de controlar su propiedad intelectual y la avidez de datos de las empresas de IA.

Las acusaciones de Cloudflare, detalladas en una reciente publicación de blog, afirman que Perplexity ha estado utilizando tácticas engañosas para acceder a contenido de sitios web que han bloqueado explícitamente a sus rastreadores. La compañía sostiene que cuando los bots declarados de Perplexity, “PerplexityBot” y “Perplexity-User”, se encuentran con bloqueos de red o directivas de robots.txt —el protocolo estándar para instruir a los rastreadores web sobre qué no acceder—, los sistemas de la empresa de IA supuestamente ocultan su identidad. Esto implica modificar los agentes de usuario para hacerse pasar por navegadores genéricos como Google Chrome en macOS, rotar direcciones IP y cambiar los Números de Sistema Autónomo (ASN) para evadir la detección. Cloudflare informó haber observado millones de solicitudes diarias de estos “agentes sigilosos” que intentaban eludir las protecciones anti-bot estándar.

Las acusaciones provienen de quejas de clientes de Cloudflare que encontraron que Perplexity seguía accediendo a su contenido a pesar de implementar tanto las reglas de robots.txt como los bloqueos de Firewall de Aplicación Web (WAF). Para verificar estas afirmaciones, Cloudflare realizó pruebas controladas en dominios recién creados y no indexados con estrictas prohibiciones de rastreo. A pesar de estos bloqueos explícitos, Perplexity fue capaz, según los informes, de recuperar y resumir contenido de estos sitios restringidos, lo que indica una elusión deliberada de los protocolos web establecidos. Cloudflare enfatizó que internet se basa en la confianza, y se espera que los rastreadores legítimos sean transparentes y se adhieran a las directivas del sitio web. En respuesta al comportamiento observado, Cloudflare ha eliminado a Perplexity de la lista de bots verificados y ha actualizado sus reglas gestionadas para bloquear esta actividad de rastreo sigiloso. Esta medida se alinea con la iniciativa más amplia de Cloudflare “Día de la Independencia del Contenido”, lanzada en julio, que tiene como objetivo empoderar a los editores con un mayor control sobre los rastreadores de IA, incluyendo opciones para bloquear el acceso o incluso cobrar por el raspado de contenido.

Perplexity, sin embargo, ha negado vehementemente las acusaciones de Cloudflare, desestimando el informe como un “argumento de venta” “embarazoso” y “descalificador”. La empresa de IA sostiene que Cloudflare malinterpreta fundamentalmente la naturaleza de los asistentes de IA modernos, argumentando que su sistema no se dedica a un rastreo masivo e indiscriminado como los motores de búsqueda tradicionales. En cambio, Perplexity afirma que su plataforma obtiene páginas web “bajo demanda” en respuesta a preguntas específicas del usuario, actuando como un agente iniciado por el usuario en lugar de un bot autónomo. Perplexity afirma que los sistemas de Cloudflare son inadecuados para distinguir entre asistentes de IA legítimos y raspado malicioso, lo que lleva a la clasificación errónea de tráfico responsable y dirigido por el usuario. La compañía también disputa que el “agente de usuario oculto” específico identificado por Cloudflare les pertenezca o que haya accedido a algún contenido.

Este choque subraya las crecientes tensiones entre los desarrolladores de IA y los creadores de contenido sobre la adquisición de datos y los derechos de propiedad intelectual. Perplexity ha enfrentado acusaciones similares de raspado web y uso de contenido poco éticos en el pasado, incluidas amenazas de acciones legales de entidades como la BBC y acusaciones de plagio de publicaciones como Wired y Forbes. A medida que los modelos de IA continúan evolucionando y se integran más profundamente en la forma en que los usuarios acceden a la información, el debate sobre la compensación justa, las prácticas de datos transparentes y la definición misma de “rastreo web” se intensificará, lo que podría remodelar las reglas fundamentales de la internet abierta.