Cloudflare acusa a Perplexity de tácticas de rastreo sigiloso de IA
El gigante de la infraestructura de internet Cloudflare ha acusado al motor de búsqueda de IA Perplexity de emplear "tácticas sigilosas" para eludir las instrucciones explícitas de los propietarios de sitios web contra el rastreo web, según un informe publicado el 4 de agosto de 2025. Estas alegaciones, detalladas en una publicación de blog de Cloudflare, afirman que Perplexity está utilizando rastreadores no declarados que imitan el tráfico de navegador ordinario para extraer contenido de sitios que han bloqueado sus bots oficiales a través de archivos robots.txt.
Cloudflare, que gestiona una parte significativa del tráfico web, declaró que detectó estas operaciones encubiertas al monitorear patrones inusuales en los agentes de usuario y las direcciones IP. Los rastreadores declarados de Perplexity, como "PerplexityBot", a menudo son bloqueados por los sitios web. En respuesta, Cloudflare alega que Perplexity ha recurrido a métodos más subrepticios, incluyendo la rotación de direcciones IP a través de varios proveedores y la alteración de los agentes de usuario para que parezcan navegadores Chrome estándar en macOS, disfrazando eficazmente el raspado automatizado como visitas humanas. El CEO de Cloudflare, Matthew Prince, comparó el comportamiento de Perplexity con el de "hackers norcoreanos", enfatizando la ruptura de la confianza en la etiqueta de internet.
Esta no es la primera vez que Perplexity enfrenta tales acusaciones. Informes anteriores de Wired y Forbes también alegaron prácticas de raspado similares a pesar de los bloqueos explícitos. La controversia destaca una tensión creciente entre las empresas de IA, que requieren grandes cantidades de datos para sus modelos, y los editores que buscan proteger su propiedad intelectual y controlar cómo se utiliza su contenido. El problema del raspado basado en el consentimiento ha escalado a desafíos legales, con la BBC emitiendo una carta de cese y desistimiento a Perplexity en junio de 2025, exigiendo la eliminación del contenido raspado y una compensación. Dow Jones también ha iniciado demandas por preocupaciones similares.
El archivo "robots.txt" es un estándar web de larga data diseñado para comunicar las preferencias de los propietarios de sitios web sobre cómo los rastreadores web deben interactuar con sus sitios. Aunque no es legalmente vinculante, ha sido ampliamente considerado una guía ética para el rastreo web. Cloudflare argumenta que las supuestas acciones de Perplexity violan estas normas establecidas de rastreo web.
En respuesta a estos hallazgos y a las crecientes preocupaciones, Cloudflare ha eliminado a Perplexity de la lista de "bots verificados" y ha implementado nuevas reglas gestionadas para bloquear automáticamente esta actividad de rastreo sigiloso. Cloudflare también avanza hacia una iniciativa de "Pago por Rastreo" (Pay per Crawl), que bloqueará los rastreadores de IA por defecto para los nuevos sitios en su red a menos que se otorgue un permiso explícito y, potencialmente, permitirá a los propietarios de contenido monetizar el acceso a sus datos para el entrenamiento de IA. Este cambio tiene como objetivo dar a los editores más control y establecer un modelo económico más transparente para la adquisición de datos de IA.
Perplexity, sin embargo, ha negado las afirmaciones de Cloudflare, con un portavoz declarando que "ningún contenido fue realmente accedido" y sugiriendo que el tráfico en cuestión no se originó en sus sistemas. No obstante, esta disputa en curso subraya el complejo panorama ético y legal que emerge a medida que las tecnologías de IA continúan evolucionando y remodelando la forma en que se accede y utiliza la información en línea.