Cloudflare acusa a Perplexity de tácticas encubiertas de raspado de IA

Knowtechie

En una disputa que escala rápidamente, el gigante de la infraestructura de internet Cloudflare ha acusado públicamente al motor de búsqueda de IA Perplexity de emplear tácticas de “rastreo sigiloso” para eludir las restricciones de los sitios web y extraer contenido. Las acusaciones, detalladas en una publicación de investigación publicada por Cloudflare el lunes 5 de agosto de 2025, han encendido un nuevo debate sobre la ética de la recopilación de datos de IA y el control que los creadores de contenido tienen sobre sus activos digitales.

Las afirmaciones de Cloudflare provienen de una investigación iniciada después de que numerosos clientes informaran que los bots de IA de Perplexity seguían accediendo a sus sitios web a pesar de los bloqueos explícitos a través de archivos robots.txt y otras reglas a nivel de red. Según Cloudflare, los rastreadores de Perplexity, que inicialmente se identificaban con agentes de usuario estándar como “PerplexityBot”, supuestamente ocultarían su identidad cuando se enfrentaran a un bloqueo de red, intentando eludir las preferencias del sitio web.

Las tácticas alegadas incluyen la suplantación de navegadores legítimos, como Google Chrome en macOS, y la rotación de direcciones IP y Números de Sistema Autónomo (ASNs) para evadir la detección. Los investigadores de Cloudflare observaron esta actividad en “decenas de miles de dominios y millones de solicitudes por día”, operando fuera de los rangos de IP oficialmente declarados por Perplexity. Para sustanciar sus hallazgos, Cloudflare incluso creó dominios de prueba configurados para denegar el acceso a bots, a los cuales, según se informa, los rastreadores de Perplexity aún lograron acceder y recuperar información. El CEO de Cloudflare, Matthew Prince, llegó a comparar las supuestas acciones de Perplexity con las de “hackers norcoreanos”. En respuesta a sus hallazgos, Cloudflare ha eliminado a Perplexity de su lista de bots verificados y ha implementado nuevas heurísticas de reglas gestionadas para detectar y bloquear dicho rastreo sigiloso en toda su red.

Perplexity, sin embargo, ha negado vehementemente las acusaciones, desestimando el informe de Cloudflare como un “argumento de venta”. Jesse Dwyer, portavoz de Perplexity, afirmó que el bot identificado por Cloudflare no estaba asociado con su empresa y alegó que las capturas de pantalla proporcionadas por Cloudflare no demostraban ningún acceso real a contenido. Perplexity argumenta que Cloudflare malinterpreta fundamentalmente el modelo operativo de los asistentes de IA modernos. La startup de IA declaró que su plataforma se basa en “agentes impulsados por el usuario” que obtienen contenido solo cuando un usuario plantea una pregunta específica que requiere información en tiempo real, enfatizando que estos datos obtenidos no se almacenan ni se utilizan para entrenar modelos de IA. Además, Perplexity acusó a Cloudflare de atribuir erróneamente el tráfico automatizado de un servicio de terceros, BrowserBase, a sus sistemas, calificándolo de “fallo básico en el análisis de tráfico”.

Esta disputa de alto perfil subraya la creciente tensión entre las empresas de IA, que dependen de grandes cantidades de datos web para sus funcionalidades, y los operadores de sitios web que se esfuerzan por mantener el control sobre su propiedad intelectual y la distribución de contenido. La dependencia de las herramientas de IA en la Generación Aumentada por Recuperación (RAG) implica una necesidad continua de información actual, lo que algunos editores ven como una “relación parasitaria que amenaza los ingresos”. Las consideraciones éticas en torno a la obtención de datos de IA, la transparencia en el comportamiento de los bots y la adhesión a los estándares web como robots.txt están a la vanguardia de este debate. Cloudflare lanzó recientemente su iniciativa “Día de la Independencia del Contenido”, destinada a empoderar a más de 2.5 millones de sitios web para bloquear los rastreadores de entrenamiento de IA y afirmar un mayor control sobre su contenido. Esta no es la primera vez que Perplexity se enfrenta a un escrutinio por sus prácticas de adquisición de contenido, con acusaciones previas que incluyen plagio y elusión de muros de pago. La controversia en curso destaca el complejo desafío de equilibrar la innovación de la IA con los derechos y preferencias de los editores web en el panorama digital en evolución.