Cloudflare acusa a Perplexity de rastreo web secreto
El campo de batalla digital entre el gigante de la infraestructura de internet Cloudflare y el motor de búsqueda de IA Perplexity se ha intensificado, con Cloudflare acusando públicamente a Perplexity de rastrear sitios web de forma encubierta a pesar de los bloqueos explícitos. Esta disputa creciente destaca las tensiones crecientes sobre la ética del raspado de datos y la evolución de las reglas de internet en la era de la inteligencia artificial.
El conflicto se encendió el 4 de agosto de 2025, cuando Cloudflare publicó una entrada detallada en su blog alegando que Perplexity estaba violando los estándares web establecidos. La investigación de Cloudflare fue impulsada por quejas de clientes, donde los propietarios de sitios web observaron que Perplexity seguía accediendo a su contenido incluso después de haber bloqueado explícitamente los rastreadores oficiales del servicio de IA, “PerplexityBot” y “Perplexity-User”, a través de archivos robots.txt
o Web Application Firewalls (WAFs).
Cloudflare afirma que Perplexity emplea un “enfoque de doble filo” para eludir estas restricciones. Cuando sus bots declarados son bloqueados, la compañía supuestamente despliega rastreadores no declarados que se hacen pasar por navegadores web estándar, como Chrome en macOS, rotando a través de direcciones IP no listadas y cambiando sus Sistemas Autónomos (ASNs) de origen. Cloudflare realizó experimentos controlados en dominios nuevos y no indexados con reglas estrictas de robots.txt
y firewall, descubriendo que Perplexity aún podía resumir contenido secreto colocado detrás de estas restricciones. El informe de Cloudflare indicó que este comportamiento de “rastreo sigiloso” se observó en decenas de miles de dominios y millones de solicitudes por día.
En respuesta, Perplexity refutó enérgicamente las acusaciones de Cloudflare el 5 de agosto, calificando el análisis técnico de “fundamentalmente inadecuado” y “descalificante”. Perplexity argumenta que Cloudflare malinterpretó su tecnología, afirmando que su sistema opera con “agentes de IA impulsados por el usuario” que obtienen información en tiempo real para consultas de usuario específicas, en lugar de bots web tradicionales a gran escala. La compañía declaró que cuando un usuario solicita información actual, la IA va a los sitios web relevantes, lee el contenido y proporciona un resumen adaptado a la pregunta específica, sin almacenar los datos para entrenamiento. Perplexity también acusó a Cloudflare de atribuir erróneamente el tráfico automatizado de un servicio de terceros, BrowserBase, a sus propios sistemas, afirmando que solo usa este servicio ocasionalmente y no para el raspado web general.
Esta disputa destaca una distinción crítica y un creciente dilema ético en la era de la IA: ¿cómo deben tratarse los agentes de IA que acceden a sitios web en nombre de un usuario? El CEO de Cloudflare, Matthew Prince, se ha pronunciado sobre la “amenaza existencial” potencial que los modelos de IA representan para los editores, argumentando que el raspado de IA podría dañar los modelos de negocio de los creadores de contenido al consumir ancho de banda sin generar tráfico de referencia ni ingresos. Desde entonces, Cloudflare ha eliminado a Perplexity de su programa de “bot verificado” y ha implementado nuevas medidas para bloquear su presunto rastreo sigiloso en toda su red.
La controversia subraya un debate más amplio sobre las prácticas de recopilación de datos de IA, el consentimiento del contenido y la propiedad intelectual. Si bien los motores de búsqueda tradicionales históricamente enviaban a los usuarios de vuelta a las fuentes originales, los motores de búsqueda de IA a menudo resumen el contenido directamente, lo que lleva a una caída significativa en el tráfico de referencia para los editores. Esto obliga a los propietarios de sitios web a un dilema: bloquear los rastreadores de IA y arriesgarse a perder visibilidad, o permitirlos y potencialmente subsidiar a competidores que se benefician de su contenido sin compensación. Esta no es la primera vez que Perplexity se enfrenta a tales acusaciones; la compañía ha enfrentado alegaciones previas de plagio de medios como Wired y actualmente está involucrada en una demanda con Dow Jones y una acción legal amenazada por la BBC por el raspado de contenido.
El choque continuo entre Cloudflare y Perplexity ejemplifica la intensificación de la carrera armamentista técnica y ética entre las empresas de IA que buscan vastos conjuntos de datos y los creadores de contenido que luchan por controlar sus activos digitales, señalando un momento crucial para definir el futuro de la interacción web y las normas de acceso a los datos.