Conflicto Cloudflare-Perplexity: IA, rastreadores y confianza web al descubierto
Una disputa pública entre el gigante de la infraestructura en la nube Cloudflare y la empresa de búsqueda de IA Perplexity ha puesto de manifiesto los desafíos fundamentales para la confianza en internet y el panorama cambiante de la recopilación de datos por IA. El acalorado intercambio, que se desarrolla desde principios de agosto de 2025, revela vulnerabilidades significativas en la forma en que las empresas protegen su contenido en línea de los rastreadores de IA cada vez más sofisticados y exige llamadas urgentes a nuevos estándares web.
La controversia se encendió cuando Cloudflare publicó un informe técnico acusando a Perplexity de “rastreo sigiloso”. Cloudflare alegó que Perplexity estaba utilizando navegadores web disfrazados, como agentes de usuario genéricos de Chrome en macOS, para eludir los bloqueos de sitios web y extraer contenido que los propietarios de los sitios habían intentado explícitamente mantener alejado del entrenamiento de IA. La investigación de Cloudflare, según se informa, comenzó después de que los clientes se quejaran de que Perplexity seguía accediendo a su contenido a pesar de implementar directivas robots.txt
y reglas de firewall. Para validar estas preocupaciones, Cloudflare creó nuevos dominios, bloqueó todos los rastreadores de IA conocidos y luego consultó a Perplexity sobre estos sitios restringidos, descubriendo que Perplexity seguía proporcionando información detallada de ellos. Según Cloudflare, cuando su rastreador declarado fue bloqueado, Perplexity supuestamente cambió a estos agentes de usuario genéricos, generando de 3 a 6 millones de solicitudes diarias en decenas de miles de sitios web, además de los 20-25 millones de solicitudes diarias de su rastreador declarado. Cloudflare enfatizó que este comportamiento violaba los principios fundamentales de transparencia y adhesión a las directivas de los sitios web en internet. [Resumen, 3, 4, 6]
Perplexity respondió rápidamente, desestimando el informe de Cloudflare como un “truco publicitario” destinado a obtener una ventaja de marketing sobre su propio cliente. [Resumen, 5] La empresa de IA sugirió que Cloudflare había atribuido fundamentalmente erróneamente millones de solicitudes web de BrowserBase, un servicio de navegador automatizado de terceros, a Perplexity. Perplexity afirmó que su propio uso de BrowserBase representaba menos de 45.000 solicitudes diarias, una fracción de los 3-6 millones que Cloudflare citó como rastreo sigiloso. [Resumen, 5] Perplexity argumentó además que Cloudflare malinterpretó la naturaleza de los asistentes de IA modernos, explicando que su servicio funciona como un “agente impulsado por el usuario” que busca contenido en tiempo real para consultas de usuario específicas, en lugar de participar en el rastreo web tradicional con fines de almacenamiento o entrenamiento de datos. [Resumen, 3, 4, 5]
Los analistas de la industria coinciden en gran medida en que esta disputa pública expone fallas sistémicas más profundas en las estrategias actuales de protección de contenido. Las herramientas tradicionales de detección de bots, diseñadas para rastreadores web estáticos, están luchando por distinguir entre servicios de IA legítimos y rastreadores problemáticos, a menudo exhibiendo altos falsos positivos y susceptibilidad a tácticas de evasión. Los bots de IA modernos son cada vez más sofisticados, capaces de imitar el comportamiento humano, enmascarar sus orígenes a través de la rotación de IP y servidores proxy, e incluso emplear el aprendizaje automático para eludir defensas como los CAPTCHA. Esta “carrera armamentista” entre los desarrolladores de bots y los sistemas de detección destaca que el tráfico automatizado ahora representa más de la mitad de toda la actividad web, y solo los bots maliciosos representan el 37% del tráfico de internet en 2024, un aumento notable del 32% en 2023.
La disputa también saca a la luz consideraciones éticas y legales críticas en torno al rastreo web por IA. Las cuestiones de consentimiento, transparencia y propiedad intelectual son primordiales, ya que los sistemas de IA a menudo ignoran los deseos de los creadores de contenido y violan los acuerdos de términos de servicio. El raspado web ético requiere respetar la privacidad, adherirse a las reglas del sitio y evitar la explotación de información sensible o personal. Los expertos advierten que la falta de establecimiento de pautas claras podría llevar a una “web balcanizada”, donde el acceso sea dictado por los principales proveedores de infraestructura, lo que podría sofocar la innovación abierta. [Resumen]
En respuesta a estos desafíos crecientes, la industria se está moviendo lentamente hacia nuevos estándares. Un desarrollo notable es “Web Bot Auth”, un estándar web propuesto para la autenticación de agentes automatizados actualmente en desarrollo a través de discusiones con proveedores de navegadores y organismos de estándares. Esta iniciativa tiene como objetivo crear un marco unificado y criptográficamente verificable para que los bots y agentes de IA se identifiquen ante los sitios web, abordando la fragmentación actual y las vulnerabilidades de suplantación de identidad. OpenAI, según se informa, está probando la verificación de identidad a través de Web Bot Auth, lo que indica un impulso hacia interacciones web de IA más transparentes y responsables. [Resumen] Sin embargo, no se esperan estándares maduros antes de 2026, lo que significa que las empresas probablemente seguirán dependiendo de contratos personalizados, archivos robots.txt
y precedentes legales en evolución mientras tanto. [Resumen] Otras estrategias de mitigación incluyen limitar qué sitios web puede buscar un agente de IA utilizando la Política de Seguridad de Contenido (Content Security Policy) o el Anclaje de URL (URL Anchoring), como emplean algunos modelos importantes de IA.
La confrontación Cloudflare-Perplexity subraya un momento crucial para internet. A medida que avanzan las capacidades de la IA, la necesidad de reglas de compromiso claras, mecanismos de autenticación robustos y un renovado enfoque en la confianza entre los creadores de contenido, los proveedores de infraestructura y los desarrolladores de IA se vuelve cada vez más urgente para garantizar un ecosistema digital justo y funcional.